Vous êtes sur la page 1sur 26

Análisis estadístico de datos

epidemiológicos

Curso pre-congreso
Congreso de Microbiología
Universidad de Antioquia
Contenido
CLASIFICACIÓN DE VARIABLES SEGÚN ESCALA Y USO .................................................................. 3
Clasificación de variables según escala ..................................................................................... 3
Variables cualitativas............................................................................................................. 3
Variables numéricas .............................................................................................................. 3
Clasificación de variables según uso ......................................................................................... 4
Variables de respuesta .......................................................................................................... 4
Variables independientes ...................................................................................................... 4
OPERACIONALIZACIÓN DE VARIABLES .......................................................................................... 5
Definición conceptual................................................................................................................ 5
Definición operacional .............................................................................................................. 5
CONSTRUCCIÓN DE BASES DE DATOS ........................................................................................... 6
ESTUDIOS EPIDEMIOLÓGICOS ....................................................................................................... 7
Definición de epidemiología, incidencia y prevalencia ............................................................. 7
Epidemiología ........................................................................................................................ 7
Incidencia y prevalencia ........................................................................................................ 7
Medidas de riesgo ..................................................................................................................... 7
Tablas 2×2 ............................................................................................................................. 8
Riesgo relativo ....................................................................................................................... 8
Razón de odds ....................................................................................................................... 9
Tipos de estudios epidemiológicos ......................................................................................... 10
Estudios observacionales .................................................................................................... 10
Estudios de intervención ..................................................................................................... 20
Grupos paralelos ................................................................................................................ 21
Cross-over .......................................................................................................................... 22
Estudios secuenciales ........................................................................................................ 22
PRESENTACIÓN DE RESULTADOS EPIDEMIOLÓGICOS ................................................................ 23
VARIABLES DE CONFUSIÓN E INTERACCIÓN ............................................................................... 24
ANÁLISIS DE REGRESIÓN LOGÍSTICA ........................................................................................... 26
Modelo de regresión logística con dos variables .................................................................... 26
Sin interacción ..................................................................................................................... 26
Con interacción ................................................................................................................... 26
CLASIFICACIÓN DE VARIABLES SEGÚN ESCALA Y USO

El término variable se define como las características o atributos que que admiten diferentes
1
valores como por ejemplo la estatura, edad, el cociente intelectual, la temperatura, la presión
sistólica, etc. Existen diferentes formas para clasificar variables. A continuación se ofrece una
clasificación según la escala y otra según el uso.

Clasificación de variables según escala

Variables cualitativas
Si sus valores o niveles no se pueden asociar naturalmente a un número y por tanto no es
posible realizar operaciones algebraicas con ellos. Este tipo de variables representan una
cualidad o atributo que clasifica a cada elemento de estudio en una de varias categorías o
niveles. La situación más sencilla corresponde a las variables dicotómicas o binarias donde se
clasifica a cada elemento en una u de las dos posibles categorías. Por ejemplo el sexo
(hombre/mujer), estatus de enfermedad (enfermo/sano),
(enfermo/ uso de cigarrillo (fumador/no
(fumador/
fumador), etc. Enn muchas ocasiones
ocas este tipo de clasificación
n no es suficiente exigiendo mayor
número de categorías (color
color de los ojos,
ojos grupo sanguíneo, neo, calidad de un servicio –
bueno/regular/malo, etc.).
). A su vez, las
l variables cualitativas se pueden ser de dos tipos:

1. Variables nominales: cuando las categorías no mantienen una relación


relació de orden entre
sí. Ejemplo: color de los ojos, sexo, profesión,
profesión, presencia o ausencia de un factor de
riesgo o enfermedad, etc.
2. Variables ordinales: cuando las categorías guardan un orden entre sí. Ejemplo: calidad
de un servicio (bueno/regular/malo), efectividad de un tratamiento (efectivo/no
efectivo), calificación del desempeño (alto/medio/bajo), etc. Entre este tipo de
variables se encuentran escalas empleadas para medir características intangibles. Una
de éstas es por ejemplo la escala tipo Likert.

Variables numéricas
Corresponde a variables que pueden medirse, cuantificarse o expresarse numéricamente y por
tanto tiene sentido realizar operaciones algebraicas con sus valores. Las variables de escala
numérica pueden ser de dos tipos:

1
D’Ary
Ary L, Jacobs Ch y Razavieh A (1982). Introducción a la investigación pedagógica, 2da Ed.
Interamericana, México.
1. Variables discretas: si toman valores enteros y en ningún caso tiene sentido un valor
intermedio entre dos enteros consecutivos. Ejemplo: número de hijos nacidos vivos,
número de embarazos durante toda la vida, número de hermanos, etc.
2. Variables continuas: si admiten cualquier valor real. Ejemplo: estatura, diámetro,
velocidad, presión, peso, etc. Entre dos enteros consecutivos existen infinitos
números.

Clasificación de variables según uso

Variables de respuesta
Se relacionan directamente con el
e objetivo de la investigación.. Este tipo de variables se
conocen también como variables dependientes y suelen ser denotadas con la letra y.

Variables independientes
Corresponden a características asociadas a la variable respuesta. También se conocen como
variables explicativas y en ciertas ocasiones pueden ser consideradas como las causantes de la
respuesta. Suelen ser denotadas con la letra x.

En muchos estudios el objetivo principal es comprobar cuándo ndo una o más variables
independientes influyen o alteran
alteran a la variable respuesta, es decir, si la variable independiente
produce algún cambio significativo en la variable respuesta.

En el siguiente diagrama se esquematiza la relación entre las variables de respuesta e las


explicativas:

Donde k representa el número total de variables explicativas incluidas en el estudio.


OPERACIONALIZACIÓN DE VARIABLES

Una vez planteado el problema y establecido la(s) pregunta(s) de investigación, es


imprescindible definir las variables que serán analizadas en el estudio. Al respecto se debe
clarificar lo que son definiciones conceptuales y definiciones operacionales.

Definición conceptual
Las definiciones conceptuales o constitutivas corresponden a las contenidas en un diccionario
o que se derivan de las teorías o de la literatura científica.

Ejemplo. Inteligencia: (del latín intelligentĭa). 1) Capacidad de entender o comprender. 2)


Capacidad de resolver problemas. 3) Conocimiento, comprensión, acto de entender.

Definición operacional
Corresponde al significado de la variable en el contexto del estudio. La definición operacional
ayuda a especificar los procedimientos que describen las actividades que se deben registrar
para obtener el dato de la variable. Con esto, se deja claro qué se está entendiendo por cada
variable, qué tipo de variable se trata y cuál sería la manera de resumir sus valores
(cuantitativos o cualitativos).

Ejemplo. Inteligencia (en determinado estudio): coeficiente intelectual medido con la prueba
Stanfortd Binet.

La operacionalización se puede completar ofreciendo información adicional como fuente de


información, escala de medida, codificación, tipo de variable según el uso, momento de la
medición, etc. Ejemplo:

Id Variable Definción operacional Escala Codificación Tipo


0: Femenino
1 Sexo Sexo del encuestado. Nominal Explicativa
1: Masculino
Valor entero
2 Edad Edad en años cumplidos del encuestado. Discreta Explicativa
positivo

Clasificación de la persona según su condición en cuanto a


la realización de actividad física. Siendo activo quien 0: Activo
3 Estado Nominal Explicativa
realice actividad física por lo menos tres veces a la semana, 1: Sedentario
y sedentario en otro caso.

Altura en centímetros, medida desde el talón hasta la parte Valor real


4 Estatura Continua Explicativa
más distal de la cabeza. positivo
Valor real
5 Peso Peso corporal en kilogramos. Continua Explicativa
positivo

Número de pulsaciones radiales en un minuto, tomadas en


Valor entero
6 Pulsaciones-Izq estado de reposo con los dedos índice y corazón, por Discreta Respuesta
positivo
debajo del dedo pulgar de la mano izquierda.
CONSTRUCCIÓN DE BASES DE DATOS

Una base de datos (BD) es un arreglo de    datos, donde  corresponde al número de filas
(normalmente igual al número de individuos2) y  al número de columnas (normalmente igual
al número de variables del estudio). A cada columna se le suele llamar vector y a cada fila
registro. De este modo dos o más vectores conforman una matriz llamada base de datos.

En primer lugar, cada columna lleva el nombre corto de la respectiva variable o vector. En la
primera columna se suele ubicar el identificador (Id) del individuo. Éste puede ser un
consecutivo o un registro único para cada individuo. Los únicos valores contenidos en las BD
corresponden a los definidos en la operacionalización de las variables (ver codificación en el
apartado anterior).

Las BD suelen administrarse en archivos tipo MS Excel, MS Access, SPSS, bloc de notas, etc. El
uso de un tipo de archivo determinado depende del tamaño de la BD y de la habilidad de los
usuarios para administrarla.

Es muy común, como es el caso del SPSS, anexar a las BD una hoja aparte con las definiciones
operacionales de las variables. En el ejemplo, la hoja activa corresponde a la matriz de datos y
la siguiente a la definición de las variables:

2
Cuando son estudios que involucran medidas repetidas, varias filas pueden corresponder a un mismo
individuo y en este caso  no coincide con el número de individuos.
ESTUDIOS EPIDEMIOLÓGICOS

Definición de epidemiología, incidencia y prevalencia3


Epidemiología
La epidemiología es el estudio de la distribución y determinantes de enfermedades en
poblaciones humanas. La distribución de enfermedades se refiere a la carga de estas según
características como edad, sexo, clase social, estado civil, grupo racial, ocupación, entre otras.
Los determinantes son los factores que causan la enfermedad o se relacionan con ésta.
Estudiar la distribución de la enfermedad es una descripción de la misma, mientras que
estudiar los determinantes se refiere a su etiología. Por ejemplo, el hallazgo de que el número
elevado de parejas sexuales se asocia al cáncer cervical (descripción) conlleva a investigar el
porqué de esta asociación descubriéndose que la infección por el virus del papiloma humano
(VPH) es el agente causal de este cáncer (etiología). En general los factores estudiados son
particulares de cada enfermedad y éstos pueden ser de diversas características como la
polución atmosférica, estilos de vida (uso del cigarrillo, hábitos alimenticios, comportamiento
sexual, etc.) o aspectos biológicos (como el colesterol o la presión sanguínea).

Incidencia y prevalencia
La incidencia es el número de de casos nuevos de la enfermedad dentro de un periodo
específico de tiempo. La prevalencia es el número de casos existentes de la enfermedad en
punto determinado del tiempo. La prevalencia es una medida de la morbilidad mientras que la
incidencia puede medir tanto la morbilidad como la mortalidad. Normalmente estas medidas
suelen presentarse en forma relativa. Por ejemplo:

 
   ú  
         ñ

   ñ   ó     ñ

      ú              ñ




    ñ   ó     ñ

Medidas de riesgo
En epidemiología a menudo se tiene el interés de evaluar el chance de que un individuo que
presenta cierto atributo tenga una enfermedad específica. La medida epidemiológica más
básica es la probabilidad condicional de que un individuo tenga la enfermedad dado que
presenta dicho atributo. Esa probabilidad es llamada riesgo ( ) de la enfermedad y el atributo
factor de riesgo. Aunque el riesgo es una medida muy utilizada en la relación entre el factor de
riesgo y la enfermedad, no es suficiente para determinar la importancia del factor de riesgo

3
Tomado de Woodward M (2004). Epidemiology: Study Design and Data Analysis, 2th Ed. Chapman &
Hall CRC, USA. (Acceso parcial en http://books.google.com/books?id=SD_-
61g8orgC&pg=PP1&dq=epidemiology+and+woodward&hl=es#v=onepage&q&f=false)
sobre el desarrollo de la enfermedad. Como en muchos procedimientos en epidemiología, se
requiere un grupo de comparación el cual suele ser el grupo sin el factor de riesgo (los no
expuestos). Así, es posible definir el riesgo relativo (o razón de riesgo) como el cociente entre
el riesgo de la enfermedad en el grupo expuesto al factor de riesgo y el grupo no expuesto. Si
el riesgo relativo () es mayor a 1, entonces el factor considerado incrementa el riesgo de
enfermedad, de lo contrario (si es menor a 1) reduce dicho riesgo. Un factor que tiene un
riesgo relativo menor a 1 suele ser llamada factor protector. En muchos casos se hará uso
general del término “factor de riesgo” sin especificar la dirección de su efecto. El cálculo del
riesgo y del riesgo relativo es muy simple si usando una tabla 2×2.

Tablas 2×2
En una tabla 2×2 (dos filas por dos columnas) se cruza el estatus del factor de riesgo
(expuesto/no expuesto) vs. el estatus de la enfermedad (enfermo/no enfermo):

Estatus del factor de Estatus de enfermedad


Total
riesgo Enfermo No enfermo
Espuesto a b a+b
No expuesto c d c+d
Total a+b b+d n

De la tabla se puede observar que    individuos tienen la enfermedad y que    no. En


cuanto al estatus del factor de riesgo,    están expuestos, mientras que   no lo están.
El número de personas enfermas pero no expuestas es c, y el número de personas no
enfermas pero expuestas es , etc. Nótese que        .

Riesgo relativo
#   

#
   

A partir de esta expresión es posible calcular el riesgo de enfermedad ( ) según estatus del
factor de riesgo. Por ejemplo, el riesgo de enfermedad en los expuestos es /!  " y en los
no expuestos /!  ". El riesgo relativo de enfermedad comparado entre los expuestos vs.
no expuestos está dado por

/!  " !  "


  
/!  " !  "

Un intervalo de confianza aproximado al 95% para el RR está dado por

# $% &&'(.*+,-!$% &&" , $% &&/(.*+,-!$% &&" 0

donde se!ln "  51⁄ 8 1⁄!  "  1⁄ 8 1⁄!  "

El RR no es siempre una medida adecuada. Tal es el caso de los estudios caso-control, donde el
RR no debe ser calculado. Sin embargo, es posible obtener una medida indirecta del riesgo (en
cualquier caso), llamada odss.
Razón de odds
El  mide el número de veces que la respuesta ocurre por cada vez que no ocurre. La
respuesta ocurre con una probabilidad , y no ocurre con una probabilidad 1 8 . Luego, el
odds de que ocurra dicha respuesta (en este caso enfermedad) está dada por

  ⁄!1 8 "

A partir de esta expresión, es fácil demostrar que

 ⁄!1  "

Igual que con el riesgo, el odds se calcula tanto para el grupo de los expuestos como los no
expuestos. El cálculo de los odds se hace más fácil a partir de la tabla 2×2. Así, para los
expuestos, el odds de enfermedad está dado por ⁄, y para los no expuestos por ⁄. De
forma similar, la razón de odds (9) que compara el riesgo de enfermedad en expuestos vs.
no expuestos está dada por

⁄ 
9  
⁄ 

La OR también se conoce como la razón de productos cruzados por la forma de calcularse a


partir de una tabla 2×2.

Un intervalo de confianza aproximado al 95% para la OR está dado por

# $% :&'(.*+,-!$% :&" , $% :&/(.*+,-!$% :&" 0

donde se!ln 9"  51⁄  1⁄  1⁄  1⁄.

En resumen, al comparar el riesgo/odds (de ahora en adelante sinónimos) de enfermedad


entre expuestos vs. no expuestos para cierto factor de riesgo, la interpretación será:

RR OR Interpretación
>1 >1 Asociación (factor confiere riesgo)
=1 =1 No asociación (factor no confiere riesgo ni protección)
<1 <1 Asociación (factor confiere protección)

Para probar la hipótesis nula de que el RR o la OR es igual a uno vs. diferente, se puede
proceder de dos maneras:

1. Chequeando si el intervalo de confianza para el RR o la OR contiene el uno (si lo


contiene no se rechaza Ho, de lo contrario se rechaza).
2. Realizando bien sea una prueba Chi-cuadrado o una prueba exacta de Fisher.
Tipos de estudios epidemiológicos
En el siguiente esquema se presenta un resumen de los tipos de estudios epidemiológicos más
comunes. Posteriormente, se comentan.

Estudios observacionales

Estudios descriptivos

Caso
Este tipo de estudio consiste en realizar una descripción, a veces exhaustiva, de las
características de un individuo que padece cierta enfermedad normalmente rara o muy poco
frecuente (enfermedades nuevas por ejemplo). Los datos que se recolectan son de un solo
paciente y cuando éste se monitorea en el tiempo, suelen sacarse estadísticas de mediciones
repetidas. Por ejemplo: presión arterial media, estimada a partir de la observación del
paciente una vez por mes, durante un año.

Series de caso
Se estudian 2, 3 ó más individuos que padecen cierta enfermedadenfermedad normalmente poco
frecuente en la población. Un tipo de muestreo comúnmente empleado en este tipo de
estudio es el de bola de nieve el cual consiste en recolectar individuos contactados por medio
de otros ya incluidos en el estudio.

Métodos básicos de análisis


Los análisis consisten básicamente a la descripción de variables de los casos (edad, sexo, peso,
etc.), empleando medidas de tendencia central, dispersión y posición para las variables de
escala numérica y porcentajes para las de escala cualitativa.
cualitati
Corte transversal
Este tipo de estudio consiste en la observación de las características de un conjunto de
personas (en algunas veces una muestra aleatoria de cierta población4) por medio de
cuestionarios con el fin de buscar información sobre la exposición a factores de riesgo o el
padecimiento de cierta enfermedad. Usualmente están enfocados a la estimación de
prevalencias según características de la población.

Métodos básicos de análisis


Los análisis se realizan mediante el riesgo relativo5 o la razón de odds estimados a partir de
tablas 2×2 (análisis crudo) o empleando regresión logística (ante la necesidad de ajustar por
variables de confusión o chequear interacción).

Ejemplo. A continuación se presentan los datos del consumo de licor en hombres y mujeres
recolectados en una muestra no probabilística por estudiantes de Bioestadística de la Escuela
de Microbiología:

Consumo de alcohol
Total
Sí No
Hombres 62 18 80
Mujeres 50 33 83
Total 112 51 163

Estime la razón de prevalencias y la razón de odds con sus respectivos intervalos de confianza
del 95% para el consumo de alcohol comparado en hombres vs. mujeres. Concluya al respecto

Ejemplo. De la base de datos “Ejemplo Pulso Cardíaco.xls” tome el consumo de tinto como
variable respuesta y relaciónelo con el consumo de cigarrillo. Estime la razón de odds con su
respectivo intervalo de confianza del 95% para el consumo de tinto comparando consumidores
de cigarrillo vs. no consumidores y realice una prueba chi-cuadrado para dicha relación.

Ecológicos
Las unidades de análisis son regiones (barrios, comunas, municipios, departamentos, países,
etc.) de donde se obtienen medidas ya resumidas como tasas o medias.

Métodos básicos de análisis


En este tipo de estudios es muy común relacionar las medidas resumidas de las regiones con
otros indicadores mediante regresión lineal.

Ejemplo. Se cuentan con las tasas de mortalidad (por 100 mil mujeres) ajustadas por edad6
durante el periodo comprendido entre 2000-2006 y el porcentaje de población en miseria,
para cada subregión de Antioquia:

4
Conocidos como estudios de base poblacional.
5
Llamado en este caso razón de prevalencias.
6
Utilizando el método de estandarización directo.
Subregión Tasa % Miseria
Magdalena Medio 21.8 58.6
Bajo Cauca 21.3 75.5
Urabá 18.5 68.3
Nordeste 15.1 49.3
Occidente 14.2 50.5
Suroeste 12.7 25.5
Norte 9.4 36.2
Oriente 7.7 17.9
Valle de Aburrá 7.2 8.2

¿Qué podría concluirse a partir de estos datos?

Falacia ecológica
Ésta consiste en presumir que una relación encontrada a partir de datos agrupados
(ecológicos), es decir, hallada entre las regiones de estudio, se mantenga individualmente. Por
ejemplo, se ha observado que las tasas de mortalidad por cáncer cervical más altas se
presentan en las regiones de mayor pobreza. Así pues, es una falacia ecológica inferir que ser
pobre es causante de este cáncer.

Estudios analíticos

Cohorte
Un estudio de cohorte consiste en observar a un grupo de individuos libres del evento de
interés, clasificados en expuestos y no expuestos al factor de riesgo. Al término del periodo de
seguimiento, se observa cuántos (en cada grupo) desarrollaron el evento (incidencia).

Ventajas
1. Ideales para mostrar causalidad.
2. Pueden estudiarse múltiples desenlaces (enfermedades) a la vez.

Desventajas
1. Suelen ser costos.
2. No son adecuados cuando para estudiar enfermedades cuyo tiempo de desarrollo es
largo.
3. No son adecuados para estudiar enfermedades muy raras (poco frecuentes) ya que
requieren de cohortes muy grandes.
4. Las personas pueden cambiar estilos/hábitos de vida por el hecho de ser observadas lo
que dificulta estudiar el riesgo de exposición.
5. Se pueden presentar pérdidas (no adherencia) lo que podría contribuir a sesgos.

Existen dos tipos de cohortes: fijas y variables. En el primer caso, todos los individuos ingresan
al estudio a la vez y son seguidos durante un tiempo x igual para todos. En el segundo caso, los
individuos ingresan en momentos diferentes y el tiempo de seguimiento es variable entre
ellos.
Métodos básicos de análisis
1. Los análisis para las cohortes fijas se realizan mediante el riesgo relativo o la razón de
odds estimados a partir de tablas 2×2 (análisis crudo) o empleando regresión logística
(ante la necesidad de ajustar por variables de confusión o chequear interacción).

Ejemplo.7 Shaper et al. (1988) describen un estudio de cohorte de una muestra


aleatoria de 7729 hombres británicos adultos. Cada hombre fue interrogado, al ingreso
al estudio, sobre su consumo de alcohol (entre otras cosas). Durante los siguientes 7.5
años fueron recolectados los certificados de defunción de los hombres de la cohorte
que murieron. Los datos se presentan a continuación:

Consumo de alcohol Muertes No muertes Total


No consumo 41 425 466
Ocasionalmente 142 1703 1845
Levemente 143 2401 2544
Moderadamente 116 1926 2042
Empedernidamente 62 770 832
Total 504 7225 7729

Tomando el no consumo como grupo de referencia, estime el RR y la OR con sus


respectivos intervalos de confianza del riesgo de morir.

2. En el caso de las cohortes variables, se emplea el análisis de supervivencia que consiste


básicamente en el uso de curvas de supervivencia Kaplan-Meier8 o el método
persona-año9 (análisis crudo) o de modelos de regresión Cox (ante la necesidad de
ajustar por variables de confusión o chequear interacción). Los análisis para cohortes
variables tienen en cuenta datos censurados.

Ejemplo. Realizar análisis de supervivencia para la base de datos de estudios de


cohorte “Ejemplo supervivencia”.

Caso-control
Lo primero en este tipo de estudios es detectar a las personas con la enfermedad de interés
(casos) y luego seleccionar cierta cantidad de personas libres de la enfermedad (controles). Los
casos y los controles son estudiados para investigar cuáles factores difieren entre ellos. La
principal diferencia entre los estudios de cohorte y caso-control es que en estos últimos los
participantes se seleccionan según el estatus de enfermedad y se mira en retrospectiva qué
pudo haberla causado mientras que en los de cohorte se seleccionan participantes libres de la
enfermedad y se mira si ésta se desarrolla o no. (Woodward 2004).

7
Tomado de Woodward 2004.
8
Prueba log-rank para probar si existen diferencias entre los niveles del factor de exposición.
9
Se recomienda artículo de Fracisco Javier Díaz Ceballos: Introducción a los estudios de cohorte en
epidemiología y al análisis de supervivencia, 2005.
Ejemplo.10 Autier et al. (1996) describen un estudio de melanoma cutáneo en el que 420 casos
adultos (seleccionados de cinco centros hospitalarios en Bélgica, Francia y Alemania) fueron
comparados con 447 controles adultos (seleccionados de las comunidades locales atendidas
por los centros hospitalarios). 75% de los casos reportaron no haber recibido protección solar
alguna (uso de gorras o bloqueador solar) durante la niñez. Este porcentaje excede a lo
reportado por los controles (69%). De este modo, ser un caso parece estar más asociado a la
falta de protección solar en la niñez que ser un control, y la exposición solar podría ser un
factor de riesgo para melanoma.

En la siguiente figura se esquematiza un diseño clásico de casos y controles11:

Ventajas
1. Son más económicos y más rápidos especialmente en el estudio de enfermedades
cuyo tiempo de desarrollo es muy largo (p. ej., enfermedades crónicas).
2. Muchos factores de riesgo pueden estudiarse simultáneamente.
3. Son adecuados para estudiar enfermedades raras (muy poco frecuentes).
4. Generalmente requieren tamaños muestrales más pequeños que en los estudios de
cohorte.
5. Usualmente son más balanceados que los estudios de cohorte lo cual permite manejar
o controlar mejor las variables de confusión.

10
Tomado de Woodward.
11
Tomado de Lazcano-Ponce E, Salazar-Martínez E, Hernández-Ávila M. Estudios Epidemiológicos de
casos y controles. Fundamento teórico, variantes y aplicaciones. Rev Salud Púbicla de México 2001;
43(2):135-150.
Desventajas
1. No es posible mostrar causalidad porque no siempre se conoce la secuencia del evento
en el tiempo.
2. Un caso (enfermo) puede ser el resultado de un proceso de supervivencia y no uno de
morbilidad.
3. Sólo permiten investigar una enfermedad a la vez.
4. No permiten estimar riesgos, odds ni riesgos relativos pero sí razones de odds
(recordar: cuando la enfermedad es rara la razón de odds es un buen estimador del
riesgo relativo).
5. Son propensos a generar errores por sesgo (p. ej., selección de controles).

¿Cuántos controles por cada caso?


De la siguiente gráfica12 se puede observar que hasta 4 controles por caso es lo máximo que se
debe tomar, ya que se alcanza una adecuada potencia estadística y más de allí ésta no se
incrementa significativamente.

Potencia vs. razón controles/casos. En la figura se muestra la potencia para


detectar un riesgo relativo aproximadamente igual a 2 cuando el factor de
riesgo tiene una prevalencia del 30%, en una prueba de dos colas con un
nivel de significancia de 0.05 y 188 casos disponibles.

Selección de casos13
1. Utilización de casos incidentes con periodos de exposición o latencia prolongados. La
razón de odds tiende a parecerse al riesgo relativo cuando los casos del estudio son
incidentes y la exposición que la precede es de larga duración.
2. Utilización de casos prevalentes con periodos de exposición prolongados. La razón de
odds se parece al riesgo relativo si, a pesar de utilizar casos prevalentes, el periodo de
exposición es muy largo y la enfermedad no afecta el estado de exposición. Los casos
prevalentes pueden ser incluidos especialmente cuando no se dispone de casos
nuevos porque la enfermedad es muy rara y tiene baja letalidad, y cuando la
exposición no modifica el curso clínico (sobrevida) de la enfermedad, como es el caso
de enfermedades de predisposición genética.
3. Utilización de casos prevalentes. La razón de odds se aproxima al riesgo relativo
cuando la prevalencia de casos es muy pequeña, sólo si el evento resultado no está
relacionado con la sobrevida antes de la selección, condición o exposición, y si la
enfermedad no afecta el estado de exposición.

12
Tomada de Woodward.
13
Tomado de Lazcano-Ponce et al. 2001.
4. Utilización de casos o controles fallecidos. La inclusión de sujetos muertos sólo se
justifica en algunas exposiciones que se puedan cuantificar mediante el uso de fuentes
secundarias de datos de alta calidad, como pudiera tratarse de historias clínicas o
registros de fuentes de información ocupacional.

Selección de controles14
1. Los controles deben ser seleccionados de la misma base poblacional de donde se
originaron los casos.
2. Los controles deben ser seleccionados independientemente de su condición de
expuestos o no expuestos para garantizar que representen adecuadamente a la
población base. Esto último se logra siempre y cuando la condición de exposición no
determine la posibilidad de que un individuo sea o no incluido en el estudio como
control.
3. La probabilidad de selección para los controles debe ser proporcional al tiempo que el
sujeto permaneció elegible para desarrollar el evento o enfermedad en estudio. Así,
un individuo que migró o que falleció durante el estudio dejará de ser elegible como
control. Una manera de operacionalizar este concepto es seleccionando un control del
grupo de individuos elegibles cada vez que se detecta o selecciona un caso.
4. En la selección de los controles se debe evitar, en lo posible, factores de confusión. Se
espera que el grupo control sea similar al grupo de casos en lo que se refiere a otras
variables que pudieran ser factores de riesgo para el desarrollo del evento y al mismo
tiempo estar asociados con la exposición. Una estrategia frecuentemente utilizada
para lograr este requisito es el apareamiento. La medición de variables debe ser
comparable entre los casos y los controles. Todos los procedimientos para medir la
exposición o los factores de confusión potenciales deben ser aplicados, reportados y
registrados de la misma manera en casos y controles.

Tipos de controles15
1. Controles poblacionales. Si los casos representan una muestra de todos los casos que
ocurren en una población identificada y definida claramente en tiempo y espacio, y los
controles se muestrean directamente de esta misma población.
2. Controles vecindarios. Si después de que se identifica un caso se seleccionan al azar
uno o más controles que vivan en la misma zona de residencia que los casos.
3. Controles hospitalarios. Corresponden a controles que acuden al mismo hospital
donde se realizó la selección de los casos, pero por un padecimiento diferente.

Métodos básicos de análisis


Los análisis se realizan mediante la razón de odds estimados a partir de tablas 2×2 (análisis
crudo) o empleando regresión logística (ante la necesidad de ajustar por variables de
confusión o chequear interacción).

Ejemplo.16 En un estudio caso-control sobre el uso de anticonceptivos orales (ACO) y cáncer de


seno en Nueva Zelanda, Paul et al. (1986) identificó casos para un periodo de 2 años usando el
14
Tomado de Lazcano-Ponce et al. 2001.
15
Tomado de Lazcano-Ponce et al. 2001.
registro poblacional de tumores y seleccionó controles aleatoriamente a partir de los padrones
electorales. A partir de la información que se dispone en la siguiente tabla, estima la razón de
odds de cáncer de seno que compara a mujeres que usan vs. no usan ACO, con sus respectivos
intervalos de confianza del 95%:

Uso de ACO Casos Controles Total


Sí 310 708 1018
No 123 189 312
Total 433 897 1330

Ejemplo.17 De la base de datos Infert estime la razón de odds con su respectivo intervalo de
confianza del 95% y el valor P para el riesgo de infertilidad comparado entre mujeres con 4-6
hijos vs. 1-3 hijos.

Estudios caso-control apareados


En muchos estudios los controles se escogen de forma que sean similares a los casos con
respecto a posibles variables de confusión. Por ejemplo, si la variable edad es una potencial
variable de confusión, para cada caso se escoge uno o más controles que tenga(n) edad similar
a la del caso. Si se escogen c controles por cada caso, el apareamiento se llama 1:c (c=1, 2, …).

Ventajas del apareamiento


1. Control directo de las posibles variables de confusión.
2. Seguridad de que se puede ajustar con respecto a las variables de confusión. Aunque
en un estudio caso-control no apareado las variables de confusión pueden controlarse
en la etapa de análisis (regresión logística), no siempre es posible hacerlo. Por ejemplo,
cuando todos los casos son de edad avanzada y todos los controles son muy jóvenes y
la variable edad es de confusión.
3. Bajo ciertas condiciones de apareamiento se mejora la eficiencia del estudio. En
general, el apareamiento mejora la eficiencia siempre y cuando la(s) variable(s) de
apareamiento sea(n) de confusión. Si la o las variables de apareamiento no son de
confusión, se puede perder eficiencia estadística (aumenta el error).

Desventajas del apareamiento


1. La recolección de los datos es más compleja.
2. El análisis de los datos debe tener en cuenta el apareamiento. El método más utilizado
para este tipo de análisis es la regresión logística condicional. Una desventaja es que
no todos los paquetes estadísticos ofrecen este procedimiento.
3. El ajuste proporcionado por la o las variables de apareamiento no puede ser removido
y a veces el contraste del riesgo crudo vs. ajustado es de importancia epidemiológica.
4. Puede presentarse sobre-apareamiento (overmatching) debido a que éste se realizó
de manera incorrecta o innecesariamente (aparear por una variable que en realidad no
era de confusión o de serlo, que estuviese altamente correlacionada con otra variable
de apareamiento).

16
Tomado de Woodward 2004.
17
Base de datos “infert” tomada de la librería “survival”, del paquete estadístico R.
Métodos básicos de análisis
En los estudios caso-control apareados, la presentación tabular es diferente al igual que la
estimación de la razón de odds. Sin embargo, las hipótesis nula y alternativa son las mismas.
Una estrategia es utilizar la regresión logística condicional.

El aspecto de la tabla en este tipo de estudios es:

¿Está el caso ¿Está el control expuesto?


Total
expuesto? Sí No
Sí c1 d1 c1+d1
No d2 c2 c2+d2
Total c1+d2 d1+c2 n

d(
9 
d<

Para probar la hipótesis nula de que la OR=1, se emplea la prueba de McNemar.

Ejemplo.18 Un estudio de casos y controles de leucemia linfoblástica aguda entre niños


españoles halló 128 casos menores de 15 años a partir de registros hospitalarios (Infante-
Rivard et al. 1991). Cada caso fue apareado a un control según fecha de nacimiento, sexo y
municipio. Los controles fueron poblacionales, seleccionados aleatoriamente usando las listas
censales. En la siguiente tabla se presenta un análisis de la exposición de las madres a polvo de
algodón, lana o fibras sintéticas durante el embarazo:

¿Caso expuesto ¿Control expuesto al polvo?


Total
al polvo? Sí No
Sí 1 11 12
No 2 114 116
Total 3 125 128

Encuentre la razón de odds estimada que compara el riesgo de leucemia entre los expuestos
vs. no expuestos. Pruebe la hipótesis nula de que la exposición al polvo no está asociada a
leucemia.

Apareamiento en otro tipo de estudios


Hasta ahora se ha comentado sobre las bondades de aparear según variables de confusión en
estudios de casos y controles. Esta estrategia también puede ser útil o implementada en
estudios de cohorte o de intervención.

Estudios caso-control anidados


Es un estudio de caso-control realizado en el marco de un estudio de cohorte en ejecución. Los
casos son identificados en la medida que los individuos de la cohorte presentan el evento de
interés (la enfermedad), y los controles un subconjunto de individuos que en el mismo
momento no han presentado el evento.

18
Tomado de Woodward 2004.
Reproducibilidad
Un estudio de reproducibilidad evalúa el grado de concordancia entre dos o más lecturas
independientes realizadas sobre el mismo objeto de estudio. El resultados de la lectura puede
ser de escala cualitativa (positivo/negativo) o numérica.

Métodos básicos de análisis


1. Cuando la lectura es cualitativa, se suele calcular el porcentaje de concordancia y el
índice kappa. Éste último valora el grado de reproducibilidad (o concordancia). Según
Fleiss (1981), un índice kappa menor a 0.4, la reproducibilidad es pobre, entre 0.4 y
0.75 es aceptable, y mayor a 0.75 es excelente. Una prueba de McNemar puede ser
empleada para probar la hipótesis nula de que las 2 lecturas son equivalentes. Los
datos se presentan en una tabla 2×2 como se muestran a continuación:

Resultado lectura 1
Resultado lectura 2 Positivo Negativo Total
Positivo a b a+b
Negativo c d c+d
Total a+c b+d n

Donde  representa los pares concordantes con resultado positivo,  los pares
concordantes con resultado negativo,  y los pares discordantes. El porcentaje de
concordancia será !  "/!  "  100%. Entre tanto tienda a 100, mayor será el
grado de reproducibilidad. Por otro lado, la estimación del índice kappa se realizará
mediante software.

Ejemplo.19 Dos patólogos leen placas de forma independiente y confidencial con el fin
de clasificarlas en positivas o negativas para cierta condición. De 294 placas, 79 fueron
clasificadas como positivas y 167 como negativas por ambos patólogos, y 37 fueron
clasificadas como positivas según el patólogo 2 pero negativas según el patólogo 1.
Estime el porcentaje de concordancia y el coeficiente kappa. A partir de estos
resultados, concluya si la lectura entre los dos patólogos es reproducible.

2. Cuando el resultado de la lectura es de escala numérica, se suele emplear el


coeficiente de correlación intraclase (CCI) y gráficos tipo Bland-Altman20. Entre tanto
el CCI esté próximo a 1.0, mayor es la reproducibilidad entre el par de lectores.

Pruebas diagnósticas
En este tipo de estudios, se evalúa la capacidad de una prueba/estrategia para clasificar a un
individuo en enfermo o sano. Esto se logra contrastando los resultados de la estrategia con la
prueba de oro la cual se presume clasifica correctamente a los individuos.

Métodos básicos de análisis


A partir de una tabla 2×2 como la presentada a continuación, se estiman los parámetros
sensibilidad (S), especificidad (E), valor predictivo positivo (VPP) y valor predictivo negativo
(VPN). Entre tanto S, E, VPP y VPN tiendan a 1.0, mejor será la capacidad de clasificación de la
prueba bajo estudio.

19
Tomado de Woodward 2004.
20
Para más detalle, remitirse a Epidemiología intermedia: conceptos y aplicaciones de Szklo M y Nieto J.
Resultado prueba de oro
Resultado prueba bajo estudio Positivo Negativo Total
Positivo a b a+b
Negativo c d c+d
Total a+c b+d n

Donde  representa los pares concordantes con resultado positivo,  los pares concordantes
con resultado negativo,  y los pares discordantes. De este modo, ?  /!  ", @ 
/!  ", A  /!  ", y A  /!  ".

Ejemplo.21 Ditchburn & Ditchburn (1990) describen un número de pruebas para el diagnóstico
rápido de infecciones del tracto urinario (UTIs). Tomaron muestras de orina de 200 pacientes
con síntomas de UTI las cuales fueron enviadas a un laboratorio microbiológico para cultivo. A
continuación se presentan los resultados de la valoración de una de las pruebas rápidas
(prueba de tirilla para detectar piuria):

Tirilla Positivo Negativo Total


Positivo 84 43 127
Negativo 10 92 102
Total 94 135 229

Estime S, E, VPP y VPN. ¿Qué podría concluirse de la prueba rápida?

Estudios de intervención
Un estudio de intervención o ensayo clínico es un experimento aplicado en pacientes con el fin
de valorar el efecto de una terapia, o en personas sanas para valorar el efecto de una
estrategia de prevención. Estos experimentos implican asignar sujetos (participantes) a
diversos tratamientos o grupos que representan las diferentes condiciones para las cuales se
desea valorar su efecto. Por ejemplo, en la prevención de cáncer de cuello uterino se puede
estudiar la eficacia de la vacunación de mujeres menores de 12 años en cierta población
vacunando contra el VPH a la mitad de una cohorte y a la otra mitad contra hepatitis B
(placebo), y al término de cierto tiempo comparar la incidencia en ambos grupos. La prueba
estadística dependerá del parámetro que se estime el cual a su vez depende de la escala de la
variable de estudio (variable respuesta). En el ejemplo de la vacuna, por tratarse de una escala
nominal (previene/no previene infección por el VPH), el parámetro de interés es una
proporción (incidencia).

Ventajas
Los estudios de intervención son los más apropiados para estudiar causalidad porque:
1. Hay seguridad de que la causa precede el efecto
2. Hay mayor control sobre las variables de confusión debido a la asignación aleatoria de
los sujetos a los diferentes grupos o tratamientos. Al ser aleatoria dicha asignación, se
espera que haya una distribución uniforme de sesgos entre los grupos.

21
Tomado de Woodward 2004.
Desventajas
1. Por tratarse de estudios prospectivos, muchas de las desventajas expuestas en
estudios de cohorte aplican para este tipo de estudios.
2. Algunas intervenciones pueden ir en contra de aspectos éticos.
3. Si el estudio es muy controlado, puede que las conclusiones no sean aplicables en la
vida real. Las conclusiones de un estudio de intervención se mencionan en el marco de
las condiciones que éste fue realizado.

Consideraciones éticas
Consultar Declaración de Helsinki22.

Control de sesgos23
1. Uso de un grupo control. Como en los estudios de cohorte, los de intervención deben
ser comparativos. El grupo control podría tratarse de un grupo placebo o una
estrategia estándar que exista en el momento.
2. Cegamiento. Se trata de evitar que alguien conozca cuál es el tratamiento asignado.
Un estudio de intervención es ciego simple (single-blind) cuando el participante no
sabe cuál tratamiento le fue asignado. Es doble ciego cuando tanto el sujeto como el
médico, enfermero o quien esté a cargo de evaluar la respuesta desconocen el
tratamiento asignado. Triple ciego cuando no sólo los anteriores sino también quien o
quienes realizan los análisis de los resultados desconocen cuáles son los tratamientos
asignados. Por ejemplo, entre dos tratamientos A y B, se desconoce cuál es el
tratamiento control. No siempre es posible realizar estudios ciegos.
3. Aleatorización. Los sujetos deberían ser asignados a los tratamientos por medio de un
mecanismo de aleatorización (generalmente una distribución uniforme). Cuando esto
ocurre, el estudio es llamado ensayo clínico controlado. La aleatorización es necesaria
para evitar sesgos sistemáticos.

Grupos paralelos
Son los más comunes. Consisten en asignar aleatoriamente individuos que no presenten el
evento de interés (respuesta) a los diferentes brazos o tratamientos. Al término de la
intervención se observan las respectivas incidencias.

Métodos básicos de análisis


El análisis se hace tal cual en los estudios de cohorte.

Ejemplo.24 Un ensayo clínico fue realizado para valorar el efecto del suplemento mineral y
vitamínico sobre el mejoramiento del racionamiento verbal y no verbal en escolares. Varias
pruebas de razonamiento (IQ) fueron aplicadas a dos grupos de escolares con edades entre 11
y 13 años. Un grupo (de tamaño 42) recibió tabletas que contenían el suplemento mineral y
vitamínico, y el otro (de tamaño 44) recibió tabletas inactivas indistinguibles de las del primer
grupo. Las tabletas fueron consumidas durante 7 meses. Al término de la intervención se
realizaron nuevamente las pruebas IQ. Los resultados se encuentran en el archivo “Estudios de

22
Se anexa archivo “Declaration of Helsinki - 2008.pdf”
23
Se remite al lector al texto del Woodward, página 344 para ampliar esta información.
24
Modificado de Woodward 2004.
intervención - Ejemplo 1.xls”. ¿Recomienda el uso de suplementos minerales y vitamínicos
para mejorar el racionamiento verbal o no verbal en escolares entre 11 y 13 años?

Cross-over
Considere dos grupos de tratamiento A y B. Al término de las intervenciones, los sujetos del
grupo A pasan al tratamiento B y viceversa, ejecutando el experimento nuevamente. Así, todos
los sujetos pasan tanto por el tratamiento A como por el B. El análisis de este tipo de diseño no
es tan sencillo como en los grupos paralelos ya que se tienen medidas repetidas.

Estudios secuenciales
Probar la hipótesis alternativa en la medida que entran sujetos hasta que se tome la decisión
de rechazar o no la hipótesis nula.
PRESENTACIÓN DE RESULTADOS EPIDEMIOLÓGICOS

Se presentan los formatos de las tablas para presentar resultados de estudios epidemiológicos.
Básicamente, se proponen dos tablas:

1. La primera que describe la distribución de las características (variables explicativas) de


la muestra.
2. La segunda que cruza la variable respuesta con las características de la muestra. Este
cruce depende de la escala de la respuesta.
• Si es de escala cualitativa/categórica, el cruce consiste en tablas de
contingencia y se calculan razones de odds o riesgos relativos (si es posible)
con sus respectivos intervalos de confianza y valores p de pruebas para tablas
de contingencia.
• Si es de escala numérica, el cruce consiste en estimar la media, mediana,
desviación estándar, y se calculan intervalos de confianza para la media con
sus respectivos valores p del análisis de varianza.

Es obvio que posteriores análisis conllevan a presentar otros tipos de tablas según sea el caso.

Para ilustrar este punto, se construirán las tablas 1 y 2 para:

1. La base de datos de estudios de corte transversal, tomando como respuesta:


• El consumo de licor (sí/no), y
• Las pulsaciones por minuto de la mano izquierda
2. La base de datos de estudios de caso-control, tomando como respuesta: la infertilidad
VARIABLES DE CONFUSIÓN E INTERACCIÓN

A continuación se ilustrará la definición de variable de confusión25. Para ello, denotemos

1. D: enfermedad
2. F: factor de riesgo
3. C: variable de confusión

C será variable de confusión si se relaciona tanto con la enfermedad (pero no como


consecuencia de la enfermedad) como con el factor de riesgo (pero no como consecuencia del
factor de riesgo).

En la siguiente gráfica se ilustran casos en que C no es variable de confusión:

25
Según Woodward 2004.
Si en algún momento se identifica una variable de confusión, ésta debe ser medida y tenida en
cuenta en los análisis.

En la siguiente gráfica se ilustra el efecto de la interacción entre dos factores de riesgo:

Determinar si existe interacción significativa entre dos o más factores, es mucho más fácil si se
emplea el análisis de regresión logística.
ANÁLISIS DE REGRESIÓN LOGÍSTICA

Este es un análisis de regresión donde la respuesta es una variable dicótoma. La forma del
modelo es:

D
donde B  ln C('DE.

Si F representa el estatus del factor de riesgo (1: expuesto, 0: no expuesto), entonces


9  GH , y un intervalo de confianza del 95% para la OR está dado por

GH'(.*+,-!GH " , GH/(.*+,-!GH"


Modelo de regresión logística con dos variables
Sin interacción

Con interacción

Si IJ es significativo, entonces la interacción también lo es y los resultados del riesgo de


enfermedad deben separarse/estratificarse.

En SPSS, el análisis de regresión logística se ejecuta mediante el procedimiento


Analizar/Regresión/Logística binaria…

Ejemplo. Realizar análisis de estudio de caso-control (base de datos Infert) mediante un


modelo de regresión logística entre la infertilidad y los diferentes factores de riesgo. Primero,
hacerlo crudo para el factor número de hijos (1-3 vs. 4-6) y comparar con el ejemplo realizado
previamente. Luego, hacer el análisis múltiple.

Vous aimerez peut-être aussi