Vous êtes sur la page 1sur 23

10.

FUNDAMENTOS DEL ANALISIS


DE DA TOS EPIDEMIOLOGICOS

Las observaciones en estado crudo que constituyen los datos contienen.


en un estudio bien planificado. la informacin que satisface los objetivos
] del mismo. En el capitulo 7 se hizo hincapi en que todo estudio es un
e.jercicio de medicin y en que la meta mxima de cualquier estudio es
conseguir exactiLud al medir. De manera similar. la meta del anlisis de
datos consiste en extraer la pertinente informacin. relativa a medicio-
nes. de entre las citadas observaciones crudas.
En su forma tpica. existen varias et:1pas diferenciadas en el anlisis
de los datos. En 13 preliminar. el investigador debe revisar los que han
sido registrados. comprobando su exactitud. su consistencia y en qu
medida estn completos; se llama frecuentemente a este proceso edicin
de los datos. Acto seguido. para que luego puedan ser sometidos 31
subsiguiente anlisis. tiene que sumarizarlos o transformarlos a una
forma concisa. por lo general de tablas de contingencia. que recogen la
distribucin de las observaciones de acuerdo a los factores clave: se
conoce a esta etapa del anlisis como redllCcin de lo.\"dato.\". Finalmente.
editados y reducidos. son utilizados para generar las medidas epidemio-
lgicas de inters. tipicamente una o ms mediciones del efecto (como
por ejemplo. estimados del riesgo relativo). con los intervalos de confian-
za apropiados. Se considera a veces :1 esta ltima etapa del anlisis el
l anlisis propiamente dicho. pero es ms conveniente referirse a ella
como estimacit7 del efecto (o simplemente quizs ('.\"til'7aci/7.si la meta
del anlisis es estimar frecuencia de enfermedad y no medir un efecto).
Para algunos investigadores, esta ltima etapa del anlisis incluye inevi-
tablemente la comprobacin de hiptesis estadsticas. El captulo ante-
( rior explicaba por qu dicha comprobacin de hiptesis constituye un
componente no deseable del anlisis de datos en la mayora de las
situaciones en Epidemiologa. No obstante. puesto que la teora estads-
tica que subyace tras la estimacin de intervalos se encuentra ntima-
mente relacionada con dicha tcnica, resulta til tener en consideracin
lo que se dijo cuando se la trat anteriormente como fundamento para
la comprensin del anlisis de datos epidemiolgico.
150 EPIDEMIOLOGIA MODERNA

EDICION DE LOS DA TOS

No hay excu~a que pueda justificar el que no se escudrien intcnsamcnt('


los datos crudos en Qusca de errores )' no se corrijan stos, siempre que
sea posible, Los errores se introducen de forma rutinaria en los datos en
una gran variedad de modos: al proceder a su edicin, unos son detccta-
bles )' otros no,
En un estudio epidemiolgico, los datos proviencn por lo t!clleral o
bien de un cuestionario, ya sea auto-administrado o pasado por Un
entrevistador, o de registros existentes, q\le ~e tran~criben para proccder
a su investigacin. Dichos datos. sacados del cuestionario o del forma\o
de resumen de un registro. pueden ser transcri\os de aquella forma
primigenia a otra codificada. que posibilite melerlo~ en una milquina.
habitualmente mediante perforacin. Con frecuencia se hace necesario
codificar las respuestas. Por ejemplo. lo!' dato~ sobre ocupacin obteni-
dos mediante entrevista hay que clasificarlos segn un cdigo mane.iable.
e igual sucede con la informacin sobre medicamentos. historias clinicas
y muchos tipos distintos de datos. Otros. como la edad o el ao de
nacimiento (el ao de nacimiento es preferible a la edad, porque se
tiende a recogerlo con ms exactitud y no cambia con el tiempo), aunque
muchas veces estn agrupados en categoria~ amplias cuando se publica
un informe, deben ser registrados de forma precisa )' no agrupado~.
porque los valores reale~ permitirn posteriormente ma)'or nexibilidad
en el anlisis. En concreto, podria ser necesario agruparlos de forma
diferente para poder comparar con diversos otros estudios, Algunas
variables de escala nominal, con slo unos pocos valores posibles. po-
drian ser precodificadas en sus formas originales tachando el cuadradito
prefijado perteneciente a la categoria que correspondiese. Sin embargo.
para las variables de escala nominal en que caben muchas categoras.
como el pas de origen o la ocupacin. la!' preguntas precodficadas no
resultan prcticas. Ahora bien, si se pudieran precodificar todas las
rbricas de los datos, sera factiblc recogerlas en una forma original quc
pudiese ser leida directamente por una mquina, mediante scanning
ptico o algn mtodo similar. De no ser asi. resultar por lo general
necesario traducir la informacin desde su forma primigenia antes de
poder almacenarla en una mquina o en una forma legible por una
mquina.
Una cosa posible )' habitualmente Qeseablc es no reescribir los datos
en un formato secundario durante el proceso de codificacin. En lugar
de generar errores adicionales de transcripcin, resulta preferible irlos
codificando al tiempo que simultneamente se los transcribe a los siste-
mas de almacenamiento de la computadora, Es posible disear un pro-
grama informtico que permita ir metiendo los datos item por item.
desplegando los cdigos de cada catet!oria en la terminal de la pantalla,
para facilitar la codificacin. Si se los codifica )' reescribe a mano.
requerirn por lo general, a menos que estuviesen codificados en ho.ias

'-
FUNDAMENTOS DEL ANALISIS DE DATOS EPIDEMIOLOGICOS 51

de lectura por scanning ptico, que en cuaiquier caso haya que perforar-
los: en consecuencia, el meter los datos directamente durante la codifica-
cjn reduce tanto los costes como las equivocaciones, Cuantas menos
operaciones de reescritura. pues, haya entre el registro primitivo y la
versin que la mquina almacena. menos probable ser que se produz-
can errores. Si es inevitable reescribir, resulta lltil hacerse una idea del
grado de error de codificacin que contendr el material producido
codificando una cierta proporcin de los form,ltos por duplicado. inde-
pendientemente. La informacin as obtenda puede ser utilzada para
juzgar la magnitud del sesgo que la clasificacin incorrecta debida a
errores de codificacin habr introducido.
La edicin b,sica de los datos requiere ir comprobando cada variable
en busca de valores ilegales o inusuales. Por ejemplo. el gnero se puede
codificar con un I para varn y un 2 para mujer. Habitualmente se
utiliza un valor aparte. como puede ser un 3. para designar los resulta-
dos desconocidos, Es preferible no asgnar a nade el cdgo cero. si se lo
puede evitar, porque algunas mquinas o programas interpretan la falta
de informacin o los cdigos no numricos con un cero, No utilizando
este nmero como cdigo especfico, por tanto. ni siquiera para la
informacin desconocida. se hace posible la deteccin de errores de
perforacin o de la informacin que falta. Cuando se procede a edtar es
importante examinar la distribucin de cada variable. Todo valor inad-
misible debe ser contrastado frente a los formatos originales en que se
recogieron los datos. Valores que resultasen inhabituales. como que el
gnero fuese desconocido. o una edad o fecha de nacimiento no norma-
les, deben ser comprobados tambin.
Adems de someter a comprobacin a los valores incorrectos o
inhabituales, debe examinarse la distribucin de cada variable, para ver
si parecen razonables. La proporcin de varones que uno espera, .esla
mitad, un 80 por 100 (cifra que es razonable si los sujetos sorl enfermos
con, digamos, cncer de vas respiratorias altas), o aproximadamente el 2
por 100 (si estamos trabajando con personal de enfermeria,'? Una evalua-
cin de este tipo puede revelar problemas importantes que de otra forma
no saldran a la luz. Por ejemplo, un error de programacin podra
hacer que todos los datos de cada registro electrnico se desplazasen en
uno o ms caracteres. dando como resultado una coleccin de sinsentidos.
que a pesar de todo pudesen no ser detectables mediante, por ejemplo.
un anlisis multivariado (lo que es. de hecho, una pega importante del
abordaje multivariado). Lo factible de un desastre asi resalta la necesi-
dad de comprobar cuidadosamente la distribucin de cada variable
durante la edicin de los datos.
Las comprobaciones relacionadas con la edicin que hemos conside-
rado hasta ahora se refieren a cada variable de los datos tomada por
separado. Aparte de esa edicin bsica, es habitualmente aconsejable
revsar la consstencia de los cdgos a base de relacionar variables. No
es mposble. aunque s improbable, que una persona de diecocho aos
tuviese tres hijos. Los varones no deberan haber sdo hospitulzados
152 EPIDEMIOLOGIA MODERNA

para ser sometidos a hi~terectomia. La gente que pa~a de .?m de altura


es dificil que pese menos de 50 kg. Una edicin terminada implica mu-
chas comprobaciones de consistencia como stas y es me.ior hacerla,\; i
i
mediante programas de computadora diseados especificamente para
sacar a note este tipo de errores (MacLaughlin. 19801. Es verdad que.
ocasionalmente, un resultado aparentemente inconsistentc podria colar
al revisarlo como correcto, pero lo normal es que mediante este procedi-
mi~nto se hagan visibles muchos errores. Resulta tambin import(lntc
revisar la consistencia entre ,'arias distribuciones. Si en un estudio.
exactamente 84 mujeres son codificadas como premenopilusicas para
una variable, tipo de menopausia. es buena seal que exactamente
tambin 84 sean codificadas con el mismo c(1lificativo par(t la ,'ariablc
edad en la menopausia (para esa ,'ariable. el c~digo premenopiIUsicil
debe adoptar un nmero diferente del que ~e asigne ( de~conocid('
-por e.iemplo: 98 para premenopusica y 99 para descol1ocidol.
Una ventaja importante de codificar y meter los datos a travs dc un
programa informtico es la posibilidad que sto~ ofrecen de editarlos
automticamente mientras se los introduce. As, los valores inadmisible,c;
o inusuales van siendo despi~tados conforme se lo~ va metiendo. Lo~
inadmisibles pueden ser rechazados y corregidos sobre la marcha. pro-
gramando la mquina para que imprima en la pantalla un mensa.ie de
error y d a la vez una seal audible que alerte al operador acerca de 1.1
equivocacin. Sobre los valores que. aunque legales. son improhables. se
puede llamar su atencin de forma parecida. Un progr(lm.1 de entrad.1 de
datos sofisticado podria tambin revisar la consistencia existente entre
variables y eliminar algunas incoherencias potenciales. aportando auto-
mticamente los cdigos adecuado~. Por e.iemplo. si una mu.ier es preme-
nopusica, el programa puede suministrar automticamente el cdigo
correcto para edad en la menopausia y saltarse la pregunta. (Por
contra, alguno~ investigadores podran preferir la redundancia de es(
segunda pregunta como salvaguarda contr. un posible error en la pri-
mera.)
Incluso si se dispuso de un mecanismo sofi.c;lic.ldo dc cdicin dUr(lnlC
la entrada de dalos. sigue siendo importanle. anles de proceder al anilli-
sis, editar los que se tenga almacenados. par(1 ver en quc medida e~t(n
completos y cun razonable es la distribucin de c.ld(l variable. Ninguno
de estos aspectos pueden ser evalu(ldos mediante un program(1 dc entr(l-
da de datos.
Todo investigador con experiencia sabe. en re~umen. qlle il1clu~o lo~
esfuerzos ms meticulosos de recogida de datos padecen de errore~ quc
son detectables durante una edicin cuidadosa. Si se plantea a sta como
un componente sistemtico de! manejo de los mismos. la exislencia dc
dichos errores no constituir un problema serio. Si se la ignora. el
resultado pueden ser complicaciones importantes.
FUNDAMENTOS DEL ANAliSIS DE DATOS EPIDEMIOLOGICOS '53
--

REDUCCION DE LOS DATOS

La idea fund~lmenlal cn relacii}n con 1~1reducci<)n de los dalos consiste


en que. en un conjunto dc ellos. ciertas observaciones son equivalentes
enlre si y resulta m:is filciJ entendcrse con las equivalentes una \'ez que se
las ha resumido. La forma de rcsumen es hahilualmente una lahJa de
contingcnci~l en dondc la frecuencia de los sujelos (o unid~tdes de ohser-
-,
v~lcin) que poseen cualquier combinaci<.)n especilica de valores de la
vari~\ble es tabul~td~t por variables de inlers. Se presume que un~l tabla
as contendr:i. en forma resumid~l. esencialmente toda la inform~tcii}n
relev~lnle que hubiese en los datos. f\ parlir de las lablas de contingencia.
el in\'estig~ldor puede ya proceder ~\ la estimacin dcl efecto. Por otra
parte. como se ha dicho. la tabla despliega la distribucin de los sujetos
de acuerdo a \'ari~lbles clave, con lo que transmite directamente ~11
investigador una intimid~\d con los datos que no sera fi1cil de obtener de
ninguna otra manera.
L~l reduccin de los datos en forma de tablas de contingencia se
predica para ~\ni1Iisis en que se considera que no existe preocupacin por
] la confusin o la modificacin del efecto o en los cuales hay, como
m(iximo. ltnicamente un nmero pequeo de variables que pudieran
confundir o actuar modific:.\ndo el efecto. Si el an{llisis en cuestin debc
tener en cuenta un gran nllmero de vari:.1bles. serit preciso recurrir al
an{\lisis multivariado. utilizando el modelaje m:.ltemi\tico. Para poderlo
llevar a cabo, no es necesario reducir los datos a una tabla de contingen-
cia. No obstante. ~l pesar de todo y para asegurar que el investigador
adquier:.1 algun:.\ familiaridad con los d:.\tos es aconsejable. incluso al
planificar un ~tn{\lisis multiv:.\riado. reducir cstos al formato de tabla de
contingencia par:.\ las variables de inters central. Insistimos: manejarse
con un anlisis compendiado. sobre 1:.1base de presentar los datos segn
este tipo de tablas es una buena idea. incluso aunque estuviese .clara la
necesidad de re~tliz:lr un ~tni\lisis multiv:lri~\do.
Colapsar en categori~\s que resulten tiles par~\ un~\ tabla de col1tin-
gencia los d~ltos editados requiere siempre alguna toma de decisiones.
Para vari~\bles de escala nominal, como la religin o la raza. que ya
estiln c~ltegoriz~ld~\s. el proceso estil claro. Para vari~\bles continuas. sin
embargo. el investigador debe decidir cu~intas categoras h~lcer y dnde
coloc~lr las fronteras entre ellas. El nmero dc c~\tegorias depender. por
lo general. de la c~tntidad de datos disponibles. Si son abundantes. es
siempre preferible dividir una variable en muchas categorias. Pero. por
olro lado. cl propsilO de la reduccin de dalos es sumarizar stos
concisa y convenientemente: crear muchas categor~ts. pues. va en contra
de esta idea. P~lra controlar el erecto de confusin, raras veces resulta
necesario disponer de mi1s de aproximadamente cinco categoras {Coch-
ran, 1968). Si lo que se categoriza es una variable de exposicin pnrn
examinar estimados del erecto segn varios niveles de la misma. es
tambin poco usu~\1 que se precisen ms de aproximadamente cinco
154 EPIDEMIOlOGI/I
MODERN/1

categoras. Ahora bien. sucede que lo~ dato~ ~on mucha~ vece~ tan
limitados en nmero que re~ulta indeseablc crear nada menos que
cinco grupos para una variable dada. Cuando las obser,.acione~ est:'\n
desperdigada~ en demasiadas categorias. lo~ nmeros dentro de stas se
vuelven estadisticamente inestables y producen grandes errores alcato-
rios en los estimados del erecto.
Puesto que la mayor parte de la conrusin debida a un faclor dado
puede ser eliminada mediante un anlisis e~tratiricado basado en sl(,
dos categoras de una variable continua (Cochran. 1968), si los dalos de
que ~e di$pone son escasos resulta deseable mantener pequeo el nme-
ro de categorias. en torno a dos o tres. IncJuso un cuerpo dc datos quc
fuese grande puede ser dispersado hasta dar grupos exce~ivamente del-
gados si la tabla de contingencia implica demasiadas dimensiones. es
decir. si se usan demasiadas variables para cla~iicar a los su.ietos. COI1
tres variables, aparte de exposicin y enrermedad. y tres c~\legoras p~\ra
cada variable. habria 27 tablas de 2 x 2 (.\sumicndo que lanlo la exposi-
cin como la enfermedad fuesen dicotmic.I~). Con dos variables ms. de
tres categoras cada una, tendriamo~ un tolal de 243 tablas de 2 x .?.
suficientes como para estirar ha~ta hacer demasiado delgado inclu~o UI1
cuerpo considerable de datos, puesto que un estudio de 10.000 personas
tendria nicamente como media en torno(\ 10 ~u.icto~ por cada ccld~1 de
dicha tabla multidimensional. Si se est planificando un anlisis estratili-
cado y es necesario estratificar de acuerdo a diversa~ variables. probable-
mente slo unas pocas cntegorias, quiz~ t:\11 pocas como dos. pucdan
ser utilizadas pnra cada variable. Con slo dos categoria~ por variablc.
la estratificacin por cinco variables requiere 32 en vez de 243 t.\bla~ de
2 x 2. y un estudio de 10.000 su.ieto~ daria ahora como medio 7R por
casilla. en lugar de 10, ganando con ello en precisin. al precio de alguna
confusin residual potencial dentro de las categorias. -1
El investigador debe decidir tambin dnde trazar la linea divisori.1
entre las categoras. No ha)' un mlodo comnmente aceptado p.\r.1
h.tcerlo. Una preoc\lpacin que sc expres~\ frecuentemente esti\ referida a
que lo~ lmite~ tienen que mangonear~e). e~ decir. h~~. que de~pl~17.ar
-despus de haberlos examinado de forma preliminar- los estimados
del efecto de una forma quc lo~ ~llterc en I~\ direccn descadil. Ta]
preocupacin adjudica al investigador un nivel de deshonestidad que es
de esperar sea inhabitual. Por otra parte, despla7.ar en la categorizacin
\Inos lmites rara~ veces tiene un efecto sustancial sobre la magnitud de
un estimado y ello. en todo ca~o. ser~\ debido a la exi~tencia de un gran
componente de error aleatorio. Por cl contrario. frecuenlemente rcsulta
til tantear la distribucin de una "(1riable antes de decidir en qu punto
dar cl corte entre categora~. Si tiene. por e.iemplo. ms de una moda.
podr;mos hallarnos ante categorias natur;le~. La distribucin pucdc
tambin e~tar lo suficientemente despl:tz:tda hacia una cola como par~1
que fronteras preconcebidas entre categoria~ condu.iescn a una incficien-
te separacin de los su.ietos. con demasiados pocos sll.ietos en alguna~ de
ellas )' demasiados en otras. Debido (1esta~ r~lzones. por tanto, resulta lil
FUNDAMENTOS DEL ANALISIS DE DATOS EPIDEMIOLOGICOS ~55

mayora dc las \'CCCSprcfcrblc definr las calcgoras finales \.iesplls de


haber re\'isado los dalos. por mucho que cl conscjo ordinario diga que
es. de alguna manera. mils objetivo hacerlo ignorando la dstrhllcin de
las observacones que se tienen a mano. ..\ pesar de lodo lo anterior. si
los lmites intcrcalegoras que lienen .~enlido son inhcrentes a la \'ariable.
puedcn y deben ser cspecficados a pri(}ri. Por ejemplo, si sc est catego-
rizando sujelos de acuerdo al consumo de analgscos. cs deseablc crear
categoras que correspondan a las varas ndcaciones teraputicas exs-
lentes para el uso de estos frmacos, cuyas dosis recomendadas pueden
ser especficadas por adelantado. A veces resulta tambin rccomendable.
especialmente para una variable de exposicin. retener las categoras
extremas en el anlisis sin fusionarlas con las vecinas, puesto que las
extremas son. muchas veces, las que dan pie a los contrastes m(s infor-
mativos biolgicamente.
Un problema comn cuando se crean categoras es la cuestin de
cmo tratar los finales de escala. Categoras poco definidas pueden dar
lugar a una notoria confusin resdual. especialmente si no hay plIntos
de dclimitacin tericos para la variable. Por ejemplo. las categorias de
edad del tipo 65 + .sin lmite superior, permiten una gama considerable
de variabilidad. dentro de la cual pudiera no alcanzarse la deseada
homogeneidad dc exposicin o de resultados. Otro ejemplo sera la
separacin de los erectos que consumir alcohol y rumar tabaco ejerccn
sobre el riesgo del cncer de boca: dentro de la categora grandes
rumadores es una razonable posibilidad el que los mayores fumadores
bebiesen ms alcohol que aquellos que fuman menos dentro de esa
misma categora (Rothman y Keller, 1972). Cuando se considera proba-
ble que se produzca una conrusin residual por estar las categoras poco
definidas, hay que colocar fronteras estrictas en cada una de ellas, inclu-
yendo a las que estn en los extremos de la escala.
Un mtodo conveniente para luego ir ensamblando los apartados
definitivos consiste en categorizar inicialmente los datos de forma. mu-
cho ms fina de lo que sera necesario. Esa categorizacn estrecha
facilita la revisin de la distribucin de cada v.lriable y pueden luego
crearse cate!!oras m{ls utilizables fundiendo las adyacentes. La fu5in dc
estratos ady-acentes de una variable de conrusin rdenada segn rango
se puede justificar por la falta de erecto de conrllsin que se introducc si
se mezclan las categor.1S: esta mezcla no introducir tal crecto siempre
que la distribucl1 de exposici()n sea la misma en el seno de los contro-
les, o denominadorcs persona-tiempo. entre los distintos estratos, o si la
proporcin de casos o la tasa de enrermedad son las mismas entre los
sujetos no-expuestos, tambin entre los distintos estratos (Miettinen,
1976b). La ventaja de empezar con ms categoras de las que en ltima
instancia sern necesarias es que la mezcla de categoras se puede conse-
guir, convenientemente. en segundos o minutos con lpiz y papel. en
--.
tanto que disgregar categoras en subcategoras no puede hacerse sin leer
la ficha entera de los datos, aadiendo as otro recorrido de la computa-
dora.
ESTIMACION DEL EFECTO ()! COMrROR/\CIOJ\
DE LA HIPOTESIS)

Cm11f'rnbllCill dc la 11if'le.\"i.\"

En el anlisis de los dalos. a diferencia dc I() quc sucede en la ms amplia


rea de la inferencia cicnlfica. 1,1comprobacin dc hiplcsi~ sc rcficre
generalmente a la e\'aluacin de un~1 hiptcsis nul:l. L.l introduccii)n. a
principios del siglo xx. de los conceptos de evaluacill estadstica condu-
.io a prestar atencin a la importanci.\ quc tiene ,'alorar el p:\pcl del crror
aleatorio en la~ ohservaciones. La comprobacin dc hipi)tesis "a. pues.
dirigida a la cuestin de si el error alc:ltorio es cl nico re~pons3 blc de
una asociacin obser\'ada. La estadistica que se utili7.:1 par:l evaluar e~t;
pregunta es el valor de P.
Dicho valor de p se interpreta habitualmente como la proh,\bilidad
de que una asociacin, como mnimo tan fuerte como la que se estil --1
observando en ese momento en los datos. pudiera habcrse dado si la
hiptesis nula fuese verdad, es decir. nicamente por azar. rue$to q\IC un
valor bajo de p denota, en el marco de la hiptesis nula. una probabili-
dad baja de resultados tan extremos como los observados o ms extre-
mos que ellos, tales valo'res bajos de p se toman como indicacin de quc
los datos son ms compatibles con la hiptesis altcrnat,'a dc un efccto
no-cero. que con la nula. Un \'alor de p no debe scr confundido con la
probabilidad de que la hiptesis nula sea correcta: se le calcula a.\'/1l11il'n-
do que es correcta. Valores extremadamente ba-io~ de p puedcn darse
incluso cuando la hiptesis nula es verdadcra: de hecho. esti\ garanlizado
que se darn en una pequea proporcin de la~ veces en que sc produzc.\
dicha circunstancia. La capacidad informaliva de un valor de -p provicne
nicamenle de la interpretacin de que v~\lorcs SU)'OSpequcos indican
relativamente menos consistencia entre los datos )' la hiptcsis nula y
una consistencia relativamente ma)'or con la alternativa. acerca dc un
efecto no-cero.
Imaginemos que un estimado tuvicse una d~tribucn mucstr.\1 con-
tinua sobre su escala de medicin. con el valor ccro correspondiendo a la
hiptesis nula de no-efecto. La figura 10.1 ilustra la hipottica densidad
de probabilidad del efecto estimado: la forma de campana de la curva
est asegurada, para estudios grandes. por el teorema estadstico dcl
limite central. Valores del estimado iguales o mils extremos que el obscr-
\'ado corresponden en lo probable de su produccin a la zona somhrea-
da del diagrama. La definicin l11.\'l'.\lrl'1110 puede $er unidireccion~ll. en
cuyo caso se dice que el valor de p tiene una sola cola o quc es
uniltlter~\l y se lo representa slo por la zona sombreadtl bajo uno dc
J
los finale~ de la curva, o puede tambin ser bidireccional, en cuyo caso la
p con dos colas corresponde a la suma de las reas sombreadas bajo
ambos filIales de la misma.
Para calcular el valor de p es necesario pos1ular Un modclo estadisti-
co que describa la distribucin de probabilidades dc los dalos cuando se

~.-~,
FUNDAMENTOS DEL ANALISIS DE DATOS EPIDEMIOLOGICOS '57

t t
o Valor observado

Medida del efecto

Fig. 10.1. Distrih,(('i(n d(' ,(}s (',\"tJJJ(1dt1,\' d('1 ('fe(,/(} ('II el m(1r('(J d(' 1(1 hi!,f/('si,\'

/J/(la t'll (',\"tl(dit1,\" ,~rmld(',\" { di,\"trihucill cO1lti1//((1 ) ,

asume la hiptesis nula. Si In distribucin de los estimados del efecto que


son calculables a partir de los datos fuese realmente continua. carecera de
J consecuencias el que se definiese el {lrea de In cola de la cur\'a como el
rea correspondiente a los estimados del efecto iguales o m{\s extremos
que los obser\'ados de hecho. o simplemente como el rea correspon-
diente a estimados ms extremos que los obser\'ados. Lo ti pico. sin
embargo. en Epidemiologa, es que los datos a partir de los cuales se
calculan los estimados del efecto sean frecuencias discretas y la distribu-
1 cin de los estimados del efecto suela ser tambin discreta. en \'ez de
continua. Para una distribucin discreta. el (rea que representa el valor
de p est ilustrada en la figura 10.2. Tradicionalmente~ se ha dclinido a

Valor de p con dos colas

=A..B..C+O


= A + B + 1/2(C + O)
"U
ca
:::2
:o
ca
.D
o
~ I
.
t t
o Valor observado
Medida del efecto

Fig. 10.2. Di.\"trihllci()1I de lo.\" ('.\"timado.\" ticll;!ecto e1l ('11l10rco tic 1(/ hipl)t('.\"i.\"

mJa ( tii.\"trihllci1l (Ji.\"creta) .


158 EPIDEMIOlOGIA
MODERNA
dicho valor de p como la suma dc tanto~- la~ 7.ona~ li!!ernmente ~omhre:l-

das como las pintadas de negro en ella. La~ liger;mente ~ombreadas


corresponden a la probabilidad de las observaciones en ~ (~' a lo~
valores equivalentes en direccin opue~ta). en tanto las de negro I()
hacen a la probabilidad de separacione~ mi1~ extremas respecto dcl valor
nulo que la~ que han sido observada~ en la rcaiidac!. Para distribucionc~
discretas. obviamente, s que importa el que se defina el \'nlor de r com()
incluyendo la probabildad de que se die~c el re~ultado oblenido (I
incluyendo, por el contrario. nicamente I<.I~valores mi1s extremos.
El problema que tienc la dc[jnicin lradicion31 dcl valor dc r es quc
conduce a sostcner inconsistenci3s. Por cjemrlo. i.quc r:l~a si el valor
obser\'ado del estimado del efecto estuvc~e en el centro de 1:1dislrhll-
cin. justo encim3 del \'alor nulo: Dc acllerdo con 1.1definicin lradici(l-
nal. cada cola incluira entonces mil~ de 1:1mitad dc 1:1di~lrih1lcin \. el
valor de p con dos col3s sera mayor de 100 por 100. lo ClI:lI" II()
1
concuerda con el punto de vista de que rerresenla una rrobahlid.I(!.
Una definicin alternativa del valor de p, que supera este problema. es
aquella en que la probabilidad de que se diese el valor observado dcl
efecto se hallarla repartida. generalmente dividcndola en parte~ iguales
(Lancaster, 1949; Lancaster, 1961 ). En ese caso. el valor de p con una
sola cola corresponderia a la probablidad de los valores ms extremo~
ms la mitad de la probabilidad del valor observado. Se ha llamado n
esta definicin la de la media p (Lancasler. 1961). Se ohtiene general-
mente la p con dos colas multiplicando por dos el valor dc la r con una
sola, se la defina a sta como se quicra.
Con datos discretos. las dislribuciones dc probahilidad utili7.:ldas
para obtener el valor de p puedan dar pie a c:'llcl!lo~ il11rincados: cu:lnd()
se los calcula directamente de est.1 manera. sc 10~ conoce como raf(}r('.\-
c.xacl0.~ dc p, Habitualmente es ms ~encillo recurrir n una aproxima-
cn de la distribucin discret.l. apoy.indo~c en el hecho de que un:1
curva normal se aproximar razonnblemenlc bien a la forma de 1;1
distribucn: cuanto ma\'ores sean las frecuenci:l~ includas en los d:lto"
discretos, mayor ser ei nmero de v3lore~ quc pueden ser .1sumidos
para el estimado del eecto y mejor la aprnxim3cin normal a I.1 dislri-
bucin discreta. La ventaja que ofrece uliliz3r la cilada distribuci()n
normal consiste en que los ci1lculo~ neces;lrins p:lra obtcncr los \'alorcs
de p son considerablemente ms sencillos que )()S que h;ly que rc(llizar
para hallar un valor exacto dc P.
En un intento de hacer me.ior 1(1aprnxim:lcj()n norm(ll cu(lnd() las
frecuencias son pequeas. Yates (1934) sugiri un procedimiento con
correccin, que se reduce a de~plazar el v(\lor obser\'ado del e.,\tim:1dn
del efecto hacia el valor nulo en una distancia que correspondc ;1 la
mitad de la probabilidad de que se dier(ln los d;11()Spresente~ en el C:1SO
de que la hiptesis nula fuese verdad. Se prelendc que tal a.iustc comren-
se el hecho de que el valor observ:ido dcl efcclo lo quc constiluye
realmente es el valor central de un r(lngn qlle corre.,\ronde. en la e~c(1l:l
de medicin del erecto. a la regin que C(ld(1 valor discrcto represenla.
FUNOAMENTOS
OELANALISISOEDATOSEPIOEMIOLOGICOS '59

Puesto que la probabilidad del rango entero del \'alor obser\'ado est
incluida en la definicin tradicional del valor de P. la correccin de
Yates mejor~1 habitualmente la aproximacin a como se define. tambin
lr.\dicionalmente. el valor exacto de Po Por el contrario. si se utilizase 1.1
definicin de la media P. la sugerida operacin aritmtica empeoraria
ciertamente la aproximacin. puesto que el valor observado ya represen-
taba el v.\lor central de su rango discreto. En el presente texto. la
correccin de Y.ltes es ignor.lda.
Para una comprobacin estadstica en torno al valor nulo. sobre la
b.\sc de un.l distribucin normal, la frmula general viene dada por la
ecuacin 10.1:

.4 -E
x =
[10.1 ]
--;-
v

II es el valor observado del estimado del efecto. E es el valor espera-


do para A bajo la hiptesis nula y Ves la varianza de A. tambin bajo la
hiptesis nula. Dando por sentado que. en esas condiciones. ;/ esti1

] normalmente distribuida. l estari1 entonces tambin distribuida


mente bajo la hiptesis nula. pero con una media de cero y una des\'ia-
normal-

cin est,indar de la unid;ld. Una variable aleatoria con distribucin


norm;l1. una media dc cero Jv una desviacin estndar igual
~ a uno es
Ilama<Ja (/(',vvia('i(jl/ I/Vrllla! C.fl(ll(/ar: otros sinnimos son ra:(jl/ Crli('(1 y
va/vr Z. En este texto se usa en la frmula l como nomenclatura para
enfatizar que el cuadrado de la desviacin normal estndar tiene una
distribucin de chi-cuadrado con un grado de libertad -y cierta-
mente es asi como se define la estadstica chi-cuadrado con un grado de
libertad. {Chi-cuadrado con I/ grados de libertad es simplemente 1;1suma
de I/ chi-cuadrados independientes con uno slo.) El valor de p se
obtiene a partir del de l sacilndolo de las tablas (o rrmulas computacio-
n.lles) de 1.1distribucin normal esti1nd.1r. En esencia. )o que la ecuacin
10. I hace es trlnSform.1r un.1 estadstic.1 normalmente distribuida. con
un.1 expect.1tiv;1 y una varianza c.1Iculadas. en una desviacin normal
cst,ind;lr (expectativ;l de cero y desviacin estnd;lr de 1:1unidad). p;lr;1 l.I
cu.II h.1y convenientemente disponibles t;lbl.ls det11ladas que permitcn
oblener los valores de p, Seri.1 posible elevar l al cuadrado y obtener
dichos v;11ores de p .1 partir de las lablas de chi-cuadrado. pero dado que
h.1bilu.1Imcnlc CSl.1S tienen consider.lblemenle menos detalles que las de
1.1 citada distribucin normal estndar. no existe razn alguna para
hacerlo.
H.1St;1 ;Iqu. 1.1 presenle discusin presuma que la obser\'~\cin de
inters p.1ra nosolros era el estimado del erecto derivado de los datos.
Aunque como norma general es as, cuando se cllcula l es ms conve-
niente muchas veces postular para la variable aleatoria A una medida
que contenga toda la informacin estadstica esencial acerca del erecto,
pero para la cu~11sea posible calcul~lr la varianza de manera mils rcil y
160 EPIDEMIOLOGIA
MODERNr.

exacta. Resulta conveniente. por tanlo. dcsi~n:lr como ,1 ;1 nmcro tIc


sujetos expuestos que en el estudio padecen la enrermed(td: mediantc
esta sustitucin. e} nmero esperado p;ra A ha.io la hirtcsis nllia no
seril cero. sino que deber 5er calculado a pi.lrtir dc los dalOS. sohrc 1i.1
base de} modelo probahilslico que fue5e pertinenlc. Los modclos quc
pari.l e5tudios epidemiolgicos son rc}e\,antcs a e5lc rc~pcClo scriln dcs-
crilos en los capitulos 1 J ~' 12.

E,,"1111aci(),1 d(' ('{ecln.,"

La mejor estimacin numrica ilnica dc un cfccl(). de cnlrr un con.iunt()


de datos. se conoce como c,\"liI11aci(111
f1111111Ial.
P\Jest() quc \Ina cslimacii)11
puntual constituye slo un punt() en \Ina escala C()111inuac()n un nlJmcr() 1
infinito de valores posiblcs. existen esencialmcntc ccr() proh~\hiiidades dt'
que resulte correcta. incluso si no hay fuentc dc sesgo. Por Il) t~lnt().
aunque los estimados puntuales sirven c()mo indic~\dorcs iJtilcs dc la
magnitud de un efecto, es importante suplement~\r l~l informacin que
proporcionan con una medida del error alcatorio que pudiera haber cn
los datos. La comprobacin de hiptesis ruede scrvir a tal cfccto. pcro el
valor de p es una estadstica no descable par~\ e\'aluar cl error alc.\t()ric.
porque no aporta informacin .llguna accrca dc la m~gnitud dcl CfCC1Oy
permite slo indirectamente delermin~r e] grcldo de error alc~\torio que
ha)' en un estimado. Como se insista en el captul() 9. el mayor inconvc-
niente de los ,'alores de p es que tiendcn ~ scr util7.c1dos par.l poncr il
prueba la significacin como met~ an~ltic~l. dcs,':\n(lo la atcncin
le.ios de su objetivo propio, que es 1~1estimCJci11dc efectos. El uso dc los
intervalos de confianza, que no tienen ni11gunCJde las pega~ dc los
valores de P. constituye un ahordajc mejor.
Un intervalo de confianza expresa un r~n!!() de val()res que rodc:ln a
la estimacin puntua] y que "ienen a ser como un~1especic de r.\ng() de
muestreo) de] estimado. El nive] dc confian7.:l. q\\e c~ seleccionado por el
investigador arbitrariamente. constituye el marc() de rererencia dcntro
del cual puede ser interpretado el rang() mue$tral. La mayora dc I()s
investigadores utilizan repetidamentc cl mi~m() nivcl de confi~1nz~1par:1
facilitar las comparaciones: 1os valores quc se utilizan comnmente son
el 90 )' el 95 por 100.
La conexn entre los intervalos de confianza )' 10$ valore~ de p,
descrita en el captulo 9, deberia ser expresad.l en trmino~ miiS rorm~\lcs.
De la misma manera que un intervalo de confianza. las p miden tambicn J
un ran,go muestral, pero se lral.l especificamentc dcl rang() de m\lc~-
treo de los datos ba.io la hiptesis nula. El punto nulo en la escal~i dcl
erecto es el punto de referencia para la comprobacin de l.I hipte.<;is ). cl J
valor de P, una medida de la discrep.incia entrc lo~ d.\toS )' el punlo dc
referencia en trminos de probcibilidades. Un intervalo de confianza. en
contra$te. fija la probabilidad dc que se produzc.l un valor arbitrari~l-
mente escogido, que es dependicnte del ni"cl desead() dc confianza y que
FUNDI\t.'ENTOsDELANALIsls DEDATOSEP'DEMIOLOGCOs ~61

vara de punto tic rcrl:rcncia. el cual se convicrtc en lmite para el propio


intervalo de conlianza. :\si pucs. para determinar la dclimit.lcn inrcrior
de un intcrv.II() tic conli:lnza dcll)() por 100. sc :1.just~Il:1 punto tic rctcrcn-
c~\ h~lSt.\ quc cl ~\rc~1 tic la col~1 superior SC~ICX~lct~lmente l:1 5 por lO()
(Fig. 10.3). Par~l los lmitc5 tic conlianza al (}O por lO(). la tiirccci<)n <.icl
~Ijustc ticl punto tic rcrcrcnci~\ scr~i p~lrticndo tlcl \'alor nulo h~lci~\ cl
estimado puntu~ll. si cl v~llor tic l' con una COI~l C5 mcnor dcl 5 por 100.
lo que Ilcv.l ~I ohtcncr un punto inrcrior dc scaliz~lcin del marl!en dc
confianz.\ que est~lr~i situ.1do por encima dcl valor nulo (para erectos
positivos). Si I~l ? con una sola cola es mayor del 5 por 100. hay que
ajustar el punto dc rcrcrenci.1 ~Ilejilndose del valor nulo. en dircccin
opuesta .11estimado ptlntual para h.lcer que el ~irea de la COI~l baje tlcl 5
por 100, d.\ndo como rcsultado un intcrvalo tic conlianza quc incluir:i.
como entre parntc5is. ~11\'~\Ior nulo. Si 1.1 ? de un~\ cola es exactamente
el 5 por I()(), un~\ de la5 m.lrca5 dc ese interv~110 tle conli~lnz~l dcl 90 por
100 seri1 igU~ll ~11valor nulo.
L.\ m~\ner~l mi\5 .\ju5t.\da de determin.\r un limite dc conli~lnz~1 consis-
te en utilizar Ci11culo5 ex.\ctos, .\ni\logos ~\ los quc se utilizan par~l c~llcu-
I.lr exactamentc los v.llores de ? Sin emb~trgo. los que se necesitan p.\ra
obtener los lmites de confianz~\ son por dos r~lzones con5iderahlemente
mils dificile5. EIl primer lug~lr. el aju5tc dcl punto de rererencia para
calcular el ilre~t dc la cola signilica poner ~l prueba un.t hip)tcsis no-nul:l.
Los modclos estadsticos quc dcscrihcn I~I situacii>n no-nula son :llt~l-
mente complic.ldos, en comparacin con 105 dc 1~1hiptesis nula y exigen
que se re.11icen muchos mils Cil1culos. Segundo, esos complic.\dsimos
clculos deben ser repetidos en un proceso reitcr~ltivo tante.lndo v.llores
]

iJ
(O A B Area de la cola
:2
15 Curva A: 5 %
(O
-O Curva B: valor de p
o
5. con una cola
:J
":J
":J
(O
iJ

.~
C)
O

lmite de confianza Valor Valor observado


inferior al 90 % nulo (estimado puntual)

Medida del efecto

Fig. 10.3. Rall.~o d(' 1111(e.\,treod(' lo.\, dato.\, ('II rejerl'lIcia l valor 1/1(1(,.I' (1IIn,ite
de co(~jillll;a illjerior al 9(} !'or 100.
162 EPIDEMIOlOGIA
MODERNA

deI punto de referencia. hasta que el ilrc~l dc la cola se~l acorde con cJ
nivel de confianza que se desea. Por i() tanto. el c~llculo de los limitc~
exactos de confianza es prcticamente invi..lble si no se dispone de un
equipamiento a base de computadoras electrnicas prot!r..lrnablcs.
Existen afortunadamente much..ls tccnicas sencillas~ an{llo!!as ; la
frmula ]0.1. para obtener limites de confianza aproximados- Como en
el caso de la comprobacin de hiptesis. la exactitud dc las tccnic:l~
aproximadas depende del ntlmero de ohser\'aciones. porque todos I{)s
mtodos dependen de la distribuci~ normal de los estim~ldos dcJ cfecto.
garantizada por el teorema del limite central cuand() l~lS obscr\.aciones
son suficientemente numerosas.
Una asuncin que simplifica las cosas y que con [recuellcia ~c re..llizJ.
es considerar constante. a lo l~lrgo de ~lI escala de medicil)ll. la \.ari~lbilj-
dad muestra! del estimado del efccto. e~ decir. auc I:! \.~lrianz:1 ocl
estimado dcl e[ecto se toma corn() con~tante. illd;rendicntementc d:;:1
~
valor del estimado. Para comprobar una hiptesis no es necesario ~lSlJ-
mir e~t(). porque el valor de p se c~lcula sobrc la a~uncin de. quc I~I
hiptesi.~ nula se mantiene y por tanto. lo que preocupa al poner a
prueb.i una hiptesis es estimar la varianza slo sobre el valor nulo. Con
un conjunto grande de observaciones. el rango de muestreo para el
estimado del efecto es suficientemente estrecho corno para hacer apr()-
piada esta asuncin: incluso si la varianza cambia sustancial mente a lo
largo de la escala de medicin en que se mide el efecto. en un ran(!()
.~
suficIentemente estrecho ser casi constantc. En consecuenci~l. la sirnpli-
ficadora asuncin de que la varianza se~ constante es corrccta asintti-
carnente: es decir, la asuncin se \'a haciendo m{J.<\apropiada con[ormc
aumenta el ntlrnero de observaciones utiliz;ldas en eJ rroces() de estilll~l-
cin. .
El abordaje habitual y el ms simrlc qlle ~e utili7.;1 r~lra c..llcular
limites de confianz..1 aproximado~ consiste en estim~r 1:1 desviacin es-
tndar dc la curva normal que represent.1 la distrihuci()11 Illuestral arr()-
ximada dcl estimado dcJ efecto. El iJrea que h;I~. h;l.i() un scf!mcnl()
simtrico de una cur\'a normal es runci()n especifica dc la desviacin
estndar: de hecho. esta rclacin proporciona la tlnic:1 posihilid~ld de
interpretar la desviacin est:ind~lr com() medida de v:1riabilid~ld. Si 1:1
distribucin no es normal. no existe interpretacin :11f!Un~1dc este par:!-
metro que tenga sentido, aunque se podrian c~llcu..lr. pcSC a todo. lo.~
int("rvC\los de confianza por medio de clculos exactos. Para cualquicr
CUr\":i normal, el 68 por 100 del rea que ha)' ba.io ell~l sc cncuentra en 1:1
regil'll <iistante hasta una desviacin estnd..lr (SO) del punto centra!. Oe
esta manera, valores de medicin inform;ldos con la [rmuln :t SO com()
medida de variabilidad. l~ que quicl:-en expresar es un estimado puntual
con un intervalo
la distribucin
de c0nfianza acompaante
muestral sea en rc:llidad
del 6R por ]00. siempre que
normal. Cuand() se ha csco-
]
gido un nivel de confianza. el \'~llor h~lbitualrnentc no seril del 68 sino
comnmente dcl 80, 90 95 por 100. F.sto ni\'eles dc confianza se
corresponden con las regiones marcadas por los puntos 1.2R2. 1.645 ~.

~
i i i i i i i
O\n
tO-:t
-1 o +1 IJ)O
.".<D
0). tO. Media <DO)
.--

Unidades de desviacin estndar

Fig. 10.4. /1 rt!o hlljO lllla Cllrt'a IlOrllllll.

j 1.960 veces la unidad de desviacin est{lndar. respectivamente. respecto


del valor centra en cualquier direccin (Fig. 10.4).
Para hallar un intervalo de confianza basado en 1.1asuncin de una
distribucin normal es necesario estimar tanto el valor esperado (media)
del efecto como la desviacin estndar. El valor esperado se entiende
que se obtiene mediante el estimado puntual y 1.1desviacin estndar
tambin se la calcula simplemente a partir de los datos observados. Para
-1 construir intervalos de confianza. teniendo una diferencia de tasas como
medida del efecto, la frmula resultante sera:

RD :t z .SD(RD) [10.2]

en don~ RD indica el estimado puntual dc la diferencia de tasas (el


smbolo
cin estndarsignifica q ue es un al
~correspondiente estimado), Z es el mltiplo
Ilivel de confianza deseadodey laSD(RD)
desvia-

indica la desviacin estndar estimada del estimado puntual: el signo


menos produce el limite inferior del intervalo y el ms. el superior. El
citado estimado puntual y la desviacin estndar se sacan. como se dijo.
de los datos, seleccionimdose arbitrariamente para Z un valor que d el
nivel de confianza deseado: por ejemplo, 1,645 para una confianza del 90
por 100 y asi sucesivamente. Frecuentemente, en una formulacin como
la que se da en la ecuacin 10.2, se llama a la desviacin estndar error
esrndar (la abreviatura inglesa es SE). En algunas circunstancias. hay
que hacer una distincin importante entre desviacin estndar y error
estndar. Este ltimo es la desviacin estndar de la distribucin mues-
tral de los valores medios; si las observaciones originales provienen de
una distribucin normal, es importante distinguir la desviaciIl estndar
'64 EPIDEMIOLOGIA MOnEnN/,

perteneciente a dicha di$tribucin normal respeclo d(' I:t de~viaci!l e~-


tndar de los valore~ medios, dand(l asi pie a 1:1necesidad de un trmin()
$eparado. error estndar. En e] contexto de C$tc libro. sin embarg(1. I()
que nos interesar por lo general es la di~trihucin dc muestreo de I()~
e$timados puntuales. que corresponde al error estilndar. aunque e-" tam-
bien perfectamente aceptablc utilizar cl tcrmin() de-"vi(lcin cstilndar.
puesto que un error e$tndar es un tip(1 cspccific(l de clla.
Si la medida dcl efecto que intere~a e-" llna razn de tasas. cn Ili.L'ar Jc
una diferencia entre ellas. podra ser razonahle utilizar 1(1frmula 10..? y
--
sustituir simplemente RD por RR. Es prefcriblc. sin emharg(). utilizar
/'-.
una ecuncin diferente. porque par~ RR la di$trihucin muestral e-"
a~imtric:l y en consecuencia, tal di$trihucin
dos de la razn de tasas no est,-lri distrihuida
de muestrco
normalmentc.
de los c~tim:l-
a mcnos que 1
se dispong,- de un nilmero de (lbser\'acio!les relaliv:lmente grandc. i,l)ar
qu es asimtrica para RR la distrihuci!l muestral: Su valor minim() es
cero, en tanto el mi1ximo es infinito. Los errores aleatorio$ plledcn
conducir a que haya discrepanci,-ls mayores en e] Jada que estil par
encima de la media de las que seran discrepancias correspondientes en
el lado de abajo. Vale la pena resaltar en este punt(l que la distrihucin -I
de muestreo p'-lra RD si es simctrica. Aunque la quc correspondc a ~R
se aproxima a una curva normal para un nilmero suficientemente grande
de observaciones, cuando l,-lS obser\'aciones ~e encuentran relativamcnlt:
di$persa$ es costumhre utilizar por ~jstem(1 un,- transformacin de esca-
la~ p,-\ra introducir simetria y par1 estahlecer limites dc confianza ~()brc
una escala de medicin quc significue una me.ior aproximacii)n a la
distribucin normal. Esto se logr,-l convenientemente utiliz,-lndo un1
transformacin logartmica. La frmula par(1 oeterminar los limite~ de
confianza tra~ la citada tran~formacin logartmicl dc 1,-1r,-lZn de tasas e~:
J
In (I{R) ::t Z. SD(111 (RR)) [)0.~J

Se trata de una frmula anlog:1 a la [ ) 0.2]. diferenciilll(\ose s()lo en qUl' -J


In (RR) sustituye a RD. Ya que antes se h:lhan planteado los lmites de
confianzu sobre la escala lo!!artmica transformada. ahora es necesario
volver atrs la transformacin para que loS limites puedan ser inter-
prelados en su escala original. Para conseguirlo hace falla hallar el
antilogaritmo de los lmites que result~lrol1 de I~l frmula 10.3. El proces(}
en su conjunlo se resume mediante I~l frmula:
J
exp [111 (RR) :t Z .S[)(ln (RR))] [10.4]

En tanlo la frmula JO.2 da lll10S lmites de ool1fianz~1 equidi~t.lntes


respecto del estimado puntual. la 10.4. dehido a la transformacin de
escalas, da otros que. como se ha dicho. son asimlricos respecto de cl.
En la escala logartmica. los lmiles son simctricos. pero en la original el
eslimado punlual es la media geomctric~1 enlre los lmiles inferior ~'
superior: es decir. la razn enlre el punto de delimilacin superior ~. el
FUNr>AMENTOS DEL ,'NALISIS DE DATOS FPIDE~AI()1 ()r;Ir:os 155

citado estimado puntu~ll c~ la misma que I~l qllC h:ly clltre c~te ~.'el \()pe
inferior .
Las [10..?] y [1().4] <011la~ f()rm\II~\s ~ener:llc~ m:"I.O; ~cnl.:ill~\.o;r:lr:l oh-
tener por derivl1cin lmites de confi~lnZl\ aproxim:ldos r:lr~l mcdid:1S dcl
efecto expresad..ls en trminos de diferencia dc tasa~ y r~lzn de tasas. res-
pectivamente. Sc h~ln propuesto muchas \cnica~ c~pccificas. c:tda una c()n
un balance diferente' entre facilidad de ci1iculo y cx:lctitud. 1\lgunas frmu-
( las dejan de lado la ll~uncin de que la desviaci()n e~ti1ndar sea unif()rme ..1
lo largo de la escala dc medicin y utilizan. por tllnto. tcnicas reiterati-
vas para estimar su \'alor en las zonas fronterizas del intervlllo: el
mtodo de Cornfield ( 1956) para calcular lmites de c()nli:tnza de la
razn de ventajll es un ejemplo de este tipo de razn de riesgos y
diferencia de ricsgos. Los c:"llculo~ reiterativo~. como tamnin se !\ellla-
ba antes. requieren I~\ :tsistencia .de pr()gram~ls de c()mputadorl1. con lo
que las ventajas tc()ricas van :tc()mpa..ldas de desventCl.iCls rri\ctic:ls.
La tcnica especfica mils sencilla para Ilc\'ar a can() \In~ estimacin
de] intervalo es cl mt()do bas..1do en el test {Miettinen. 1l)7:l), que
asume que el estimado dc la desviacin esti1ndar de Il1 distrihucin
muestral del estimado del efecto obtenido pl1ra el valor nulo constituye
un razonable estimado dc la desviacin esti1ndar de la distribuci()n para
] cualquier otra parte a lo largo de la escala. Esta :lsuncin difiere ligera-
mente de la habitual. consistente en que el vl11or c~llculado dc la des\'ia-
cin estndar en el cstimlldo puntual \'a a ser :ldecuado para los puntos
]imtrofes dcl intervalo: aunque ambos abordaje$ asumen que el \'Cllor de
la desviacin estndar estimado en un punto de la escala se :tplicar
i tanto al extremo inferior como al superior. el valor calculado en el
~ estimado puntual est colocado ms o menos centralmente entre los
lmites del intervalo, en tanto el valor nulo no )o est e incluso pudiera
situarse fuera del mismo. Si la desviacin estndar cambia a )o largo de
la escala de medida del efecto, el grado de error que habr en 10$ lmites
aproximados ser probablemente menos severo si se estima la de$viacin
estndar en el punto central del intervalo de confianza en vez de en el
punto nulo. que no tiene conexin con la ubic~lcin de los lmites. .Por el
contrario, si se e$coge el punto nulo como punto <onre el que se estima
la desviacin estimdar. los limitcs de conlil1nz:l resultantes tender:"ln a ser
ms ajustados cuando caigan en las proximid:ldcs dei cit:tdo p\lnto nulo.
con lo que podria llegar a argumentarse que vale la pen:l obtener m:lyor
exactitud cerca del valor nulo. incluso si ello signific~l
-- sacrificar :11\!una
exactitud cuando los lmites c~llculados se encuentren lejos del mismo.
Aplicar la asuncin de ]os lmites has..ldos en el test Ilc\,ll II lina
concisa formulacin para obtener los lmite$ de confianza hllsados en el
test estadistico de 1~1ecuacin 10.1. Consideraremo$ la reformul:lcin de
dicha ecuacin 10.1 para la diferencia de tClsas:

-..
[{D -E
l=.SD(RD)
166 EPIDEMIOLOGIA MODERNA

-""' /, ""'
donde E, la expectativa de RD ha.i() la hipte$i~ nula. e~ cero. ~. SD(RDI
se calcula a~umiendo que la hiptesi~ nula e~ cierta. E$to da:
RD
,

[10.5]
~

donde SD()(RD) indica que l~1 de5\'iacin c5tlnd:lr esti cstim:ldl el1 el
valor nulo. Se puede reescribir e5t:l ecuacin 10.5 as:
---
I~ I )
SD(I(I~O) :: ~---
l

~. realizar SU51ilucione~ en la r()rrnula 10.1, I() que d~l. r:lra los Jimilcs
inferior y 5uperior:

:tz~
-
1
l

2'
+-
-"I
[10.6]
I. I

En la frmuia [ 10.(i] sc asume quc 1:1 i: c~ UIl le~l esladi~lic() que evala
RD per se. Mietlinen recomendaba insertar en dicha frmula [10.6] cual-
quier e~tadistica de X que representase un les! igualmente eficientc dc 1,1
hiptesis nula sobre la base de lo~ rnismo~ dato~. Por ejempl(). ~e la
podria sustituir por la habitual, basada en la distribucin del nrncro dc
casos expuestos (vase Cap. II para la forma en concreto .de hacerlo).
La contrapartida dc la ecuacin 10.5. utilizando como medida dcl J
efecto una razn de tasas. tras transf()rmacin logaritmica es:
X = ,., In (RR),., [10.7]

SDo(ln (RIt))

que puede volver a e~crjbirse como:


--

111 (RR)

I: ~]
y hacer sustituciones con ella en la frmul:l 10.4 para dar

J
que se puede simplificar hasta dclr:
-
RR(' :tZll)
[10.8]

-J
FUNDAMENTOS
DEL,\NALisiS DEDATOSEPIDEMIOLOGICOs 167

Como suceda con la frmula 10.6. el atracti"o tic la IO.R est en sustituir
la estadstica ;(, basada en O. por una X altern.1tiva )' ms conveniente
que pone a prueba la hiptesis nula. La misma estadstica. ciertamente.
puede ser uti]izadi.l en las frmulas 10.6 y 10.8 para generar lmites de
confianza para la diferencia de tasas y para la razn de tasas. Ntese que
cuando el va]or de X es igua] a] multip]icador 2, e] punto de delimitacin
inferior debe corresponder y corresponde exactamente a] valor nulo. que
es cero para la diferencia de tasas )' uno para su razn.
Las frmu]as para caJcu]ar lmites de confianza aproximados basa-
dos en el test que se dan con las notaciones 10.6 y 10.8 son extremada-
mente fci]es de aplicar y proporcionan como resultado tiles inter,'alos
de confianza en una amplia variedad de situaciones. Los nicos nmeros
que se requiere sacar de los datos son un c]culo puntual de! estimado
del efecto que sea apropiado y la estadstica z. sacada de la comproba-
cin de hiptesis. En rigor. el uso de la citada estadstica Z' en estas
frmulas basadas en el test. es la justificacin fundamental de cualquier
discusin detallada sobre la comprobacin de hiptesis estadstica en la
1 epidemiologa" moderna. puesto que para evaluar el error aleatorio es
preferible la estimacin de un intervalo de confianza en vez del uso de
los valores de P: y stos aaden verdaderamente muy poca informacin
] cuando se da el intervalo de confianza.
Desgraciadamente, el principio de los lmite$ basados en el test es
inv]ido como mtodo genera] de estimacin del intervalo Halperin,
1977; Gart, 1979). Las simulaciones han sacado a relucir los pobres
resultados del mtodo, que por otra parte eran de esperar, cuallJo se
dan grandes alejamientos de la razn de ventaja respecto del valor nulo
(Brown, 1981: Gart, 1982) y, adems, Greenland (19R4) ha suministrado
un contra ejemplo con la SMR que refuta la "alidez general del abordaje.
Este autor dice:

El problema que tienen los limites hasados cn el tcst no es (como 5e ha


sugerido) la falta de estabilizacin de la varianza en aplicaciones cspc-
cificas. sino por el contrario que el principio nos exige que igunlcmos
dos diferentcs tests estadisticos de muestros grandes. Puesto quc tales
estadisticas son nicamente equivaJcntes en la \'ecindad de la hip(}tesis
nula. cl principio en si mismo es fala7-.. Por dcsgrocia. el tamao de
la \'ecindad en cuestin paro la que el principio es vlido \'ariar entre
parmetro y parmctro,

A pesar de sus inconvenientes tericos. los lmites basados en cl test


pueden ser tiles como mtodo chapucero para estimar el intervalo.
Se sabe que obtiene buenos resultados para los lmites de la razn de
ventaja cuando dicha razn de ventaja est entre 0.2 y 5.0 y puede ser
igualmente una herramienta aceptable en otras situaciones. En el prxi-
mo captulo se ilustra una comparacin entre los distintos mtodos para
estimar el intervalo de confianza. con algunos datos sencillos.

.J
168 EPIDEMIOLOGI/, MODERNA

A. iU.\'1(' par(/ cnnlparaci011l'S mll1 iplcs

f\1uchos estadsticos han hecho or su preocupacin acerca de ia inter-


pretacin dc los valores dc p o pruebas de significacin cuando se -1
rcalizan comparaciones mltiples. Tal preocupacin tiene unas bases
que descansan en los siguientes arf!llmentos: supon!!amos que un con.,
.junto complejo de nmeros completamcnte aleatorios f\lescn cvaiuldos
en 1.000 asociaciones. Se parte de la premisa dc que no existe lsocinci()n
real en los datos, pero se estn cxaminando 1.000 difcrenles mediciones
huscnd()Ja. Si .,\e reali7.a una comparacin de si~nificacin>} al 5 por
100. habr aproximadamente 50 ~Isociacione!\ significativas>, en esos
datos. tOdlS ellas repre$entando errores de tipo lo crrores alfl. es decir
50 a$ociaciones estadisticamente significlli\'as
azar. La cuestin es, pues. que el a7.ar !!aranli7A1 una cierta proporcin
que ocurrcn sJo por
de 1
asociaciones as y cuando se e$tudiln muchas son posihlcs tambicn mu-
chas falsi1mente positivas.
La forma estadstica tradicional dc afrontlr e~te problemn h~1 sido 1
hacer ms rgidos los tests de significacin, ya fuese cambiando el
critcrio por otro ms estrecho, como lillizar el 1 en Jugar deJ 5 por 100,
() innando realmentc los v~llorc~ calcuJados dc p mcdiantc algn factor
que dependiese deJ n(lmero de compi1racionc~ relli7.adas. Puesto que )o
tipico es que los epidemilogos. en $\1 exh~lusliva ev~lluaci()n de dalos
obtenidos a elevado precio, lleven a caho comp~lraciones mlliplcs. h~1
sido frecuenlc que recibiesen admoniciones p~lr,1 estar alcnto$ al prohlc-
ma.
No est claro, sin ern'"rgo,
una mejora. En primer luf!ar, el argumento
quc la solucin rccomcn(Jada
anterior, como toda compr()-
sif!nifiquc
1
bacin de hiptesis, parte de la premisa de que la explicacin de todos
los llamados resultados $if!nificativos cs el a7.ar. una especie de ~uper
hiptesis nula. Ahora bien, por quc razn deheriam()s asumir quc el
a7.ar es una explicacin prohable de la$ asoci:lri()ne~ q\!C ~e ob~er\'an'!
Ciertamente. por el contrario. h.\)' motivos p:lr.1 argumentar que r.!ras
veces (alf!unos dirian que nunca) es esa 1.1 explic(!cin de los halla7.gos.
Por tanlo, si el azar no es I~I explicacin dc una asociacin posili\'.\
significativa, el halla7.go no representa un error tipo I o alfa. Aparte. si
se hace ms restrictivo el criterio de despista.ie de la signific.icin
estadistica se paga una pena: ~l.'\ociaciones reales no-nulas pueden que-
darse sin ser detectadas (un error dc tipo II) porque n() alcan7.a.,\en a
cumrlir e~()s criterios ms estrechos. Un;1 consideracin elemental de 10$
critcri!,')s del .\"crel'11i11g(o criba.ie) que es de aplicacin aqu. especifica
clar.lmente que a partir de UI1 criterio nico (el nivel de signific~i-
cin), el nlJmero de falsos po.,\itivo.,\ slo se puede rcducir a expensas de
aumentar 1.1 frecuencia de falsos negativos. i.Valc la pen~1 reducir los
]
falsos positi\'oS a expensa.,\ de los fa.,\o.,\ ne!!ativos? La pregunta no puede
ser respondida en trmino.'\ genera le.'\: requiere una comprensin mils
profunda de las consecuencia.'\ de dar resuJtados falso.'\ positivos )' falsos
FUNDAMENTOS
DELANALISISDEDATOSEPIDEMIOLOGICaS 169

negativos en cl I.;onlcxto dcl marco de la invcsli1!aci(}n (Ic que sc !ratc.


ua cosa. no obstante. esli1 absolulamente I.;lara~cuaics<1uiera qlle .-;can
los argumentos para reducir las oportunidades de que se produzcan
falsos positivos en favor tic los fal~os ncgativos. no licnen nada quc vcr
con las comparacioncs mltiplcs: se aplicari~ln igual dc hien a una
comparacin llnica.
El qllid del problem~l de la comparacin mlllliple pnrece c~lar en que.
al realizar muchas comparacioncs e inform~lr slo dc l~lS que son esta-
dsticamentc significativ:ls. es dificil imput:1r al v:110r de > 1:1 inter-
pretacin dcsead:1: en la hiptesis nula. una proporcin hien definida dc
los tests seri1n signific:1tivos, pero si el denominador. el nllmero de
comparaciones. cs grande y desconocido. rcsulta poco menos que impo-
sible una interpret:1cin ra7.onable de los v:1lores dc ? que se obteng~ln.
Si se hubieran reali7.ado muchas comparacione~ y c~\da una dc cll~\s
hubiese sido informad~l individualmente. digamos. por ejemplo. en una
publicacin separad:1. resultaria absurdo hacer a.iustes con los v~llores de
? hallados en cad~l informe, sobre la base dcl nllmero tot~ll de sto~" De
estar indicados semejantes ajustes. lo quc se seguiri:1 tambin. en con~c-
cuencia, es que 10 deberia hacer un investigador es ir manteniendo un
tot:11 de comp:lraciones hech~IS durante su carrcra y ajust:1r todos los
] tests de significacin de acuerdo al tot:l1 momenti1neo de comparncio-
nes realiz:1das h~lsta esa fech:1. Cuando mi1s ,\"('17i(}r fuese el investigador.
ms habria que innar cl valor de ?, Ya t:11 cfccto, i.no hnbria que lom:1r
en cuenta :1 la hor:1 de hacer esos ~ljustes el nllmero previsto de futuras
comparaciones, lo mismo que las que ya hubicran sido hech:1s? Dcberi:1
result~lr obvio que est~ls preocupaciones son irrclevantes para cl prohlc-
ma que se estuviese investigando: convierten el valor dc ? dc ser una
estadstica que transmite informacin sobre una asociacin especfica
existente en los datos, a una que dependicra de experienci:.\s no relacio-
nadas del investigador o de su estado psicolgico. Nadic h,a sugerido
hasta ahora que se hagan ajustes en las comparaciones mllltiples en caso
de que se informasen los resultados individualmente cn publicaciones
separadas. Pero. no resulta. cntonces. inconsistente considerar la posibi-
lidad de realizar tales ajustes. estn los mismos resultados agregados
en una o varias publicaciones'! i,Tendria un documento que re\"isase
asociaciones, individualmente informadas. que ~ljustar los valores de I"!
Si no hay por qu hacer ~ljustes con ellos cuando se informa indi\'idu:\I-
mente en publicaciones separadas. lo lgico cs que cl proccso de nmon-
tonar los resultndos juntos en un lugar tampoco debiera afectar a stos
en s mismos, independientemente de cundo y cmo se produjese cl
amontonamiento. Por lo tanto, no se deberan hacer ajustes en caso de
comparaciones mltiples incluso si se estuviesen publicando al mismo
tiempo un nmero grande de ellas, siempre que estuviese claro cuntas
comparaciones han sido hechas y que todos los resultados negativos
(esto es, no significativos) se han informado all:1do de los positivos
o significativos.
Hay un problema cuando no se inform:l de los rcsultados negativos,
170 EPIDE~~IOL(1(';IA MnOERNA

y es quc result(} dificil entonces interprelar ;Idccuadamentc los valores de


p para los hallazgos positivos que si se inrorman. Pero sigue siendo un
error. no obstante. creer que se puede me.iorar la interpretacin a.iustan-
do los valores de p o cambiando el criterio para que un resultad() se con-
sidere 5ignificativo. Los valores 3.iustados son tamhin imposibles de
intcrpretar. puesto que comunican incluso meno$ acerca de la asociacin
que se da: cambiar el critcrio de (significacinn no solucinna realme!1te
cl problema: c()mo 5e discuti anteriormente. lo nico que produce e.c;U!1
error de tipo I ms pequeo. a expensa.c; de un mayor erro,; de tip() 11.
Como e~ habitual. alg(1 se gana en claridad recurriendo al uso dc los
intervalos de confianza en Illgar de la$ prucba$ de significaciJ1. El
equivalentc a multiplicar el valor de p por algiJn factor de a.iu~te. para
compensar por la$ mltiple$ comp.tracione~. significaria ampliar cl inter-
v.tlo de confianza.
c:1!1tidad de informacin
Pero tal inter\'alo mit$ amplio nn tiene relacin con la
exisle!1te en lo~ dato~ .tcerca del erecto en 1
cuestin: depender por el contrario del niJmero de compar1cione~ que
el investigador pudiera haber hecho. El problcma de este .thord:1.ie es
que parece contravenir la presuncin lgica de que los resultados ohteni- 1
dos sobre un erecto deberian rene.i.tr I.1 cantid.td de inrorm.\cin snhre el
mismo existente en los d:.ttos. nada mits y n:.tda menos. Si se ohticncn
intervalo$ de confianza ms amplio~ para compensar por las mltiples
comparaciones. un lector que tuviese un inters centrado itnicamente en
un item sufriria un ca5tigo innecesari(1 en trmino~ de la informacin
impartida por los referid05 hallazgos. simplemente porque el invesliga-
dor original no se hubiese centr.tdo tamhin en e] problem:.t que recof!e
esa riJ hrica.
Lo mejor que puede hacer un epidemilogo cuando 5C ve obligad() a
rehlizar comparaciones mltiples. d:.tdo que no parece exi5tir problem:.1
alguno que requiera ningn a.iusle. a menos que los resultados positivos
de un gran nmero de comparaciones sean refcrida5 5in informacin
.\Iguna sobre el niJmero total de stas y puesto que incluso entonces
parece que ajustar los re~ullado5 slo 10$ hace ms dificiles dc inter-
pret:.\r: lo me.ior que puede hacer. in5i~timos. e$ ignorar los conse.io$ de
que realice tales ajuste$ en los resultado~ que obtuvo. C.td:.t hallazgo
dehe ser jnrormado como si sl() l ruese el centro del estudio, Si el hecho
de que e! nmer() de comparaciones fuese grande hiciese invi.\hle rererir
todos los hallazgos. seria importante dejar claro cunta$ asociaciones se
han evaluado. Si no puede deternlinarse cuitntas comp:.traciones se rc.tli-
zaron. las C\~ociaciones no inrormadC\s previamentc deben ser considera-
d.\$ como meramente sugestivH~. \iale la pena recalcar. por otro 1.ldo.
que cualquier hallazgo nuevo deberia ser considerado siempre como suge-
rencia. incluso cuando slo se ha realizado una comparacin. H:.tllazgos
que se refieren (1 una a~ociacin
inrormada. no deberian convertirse
o ausencia de C\soci.\ci()n previamente
en un:.\ confirmC\cin o refulacil1 mils J
dbil por el simple hecho de que ,'iniesen acompaados de mucha~ otr.ts
comparaciones no relacionadas. puest() qtle los hallazgos pre,'iamente
informados sobre e) tema se remonlariC\n .1 una hiptesi~ anterior.

]
FUNDAMENTOS DEL ,\NALI~IS DE DATOS EPIDEMI()LOG;COS '7'

REFERENCI\S

Br()\\.n. C. C. TJc v:lliJily ()r :Irrrnxim:llc mctJ()(I~ r()r itlICrv:III:~lin,ali(,n ()f thc
odds rati(). .1",. J. 1:.',i(I""i(li. Il)XI:II-~:474-4X().
Cochr~ln. W. G. TJc clTccti\,cncss ()r:ldjllstmcnt hy ~lihcl:lssilic;li()n in rcm()\'ing
hi~l~ jn ()h~Cr\':lli()l1~tl sllioic~. IJi(}}lt('/ri(..\" I !)()R: :4::9-"-.\ 1.\.
Cornficld. J. ,\ ~tati~lic:l1 rr()hlcm :lri~ing fr()m rctrosrecli\.c sllloic~. (11 J. Ncy-
m~ln 'cd.) f'r(lc('(.(ii"I.'.\" .n,irt! IJ('rkc((..I. .S".I"'I',I(}.\.i"II,. V ()I. 4. Rcrkccy: Uni\'cr-
~ity ()r C,I(irorni~1 Prc~s. 19-"6. rr. I ~5-14R.
Gart. J. J. Sl~lli~lic;1 :ln~ly~cs ()r Ihc rcl~ltivc risk. ::1//,i,.(I". 1{(.(lllh p('r.\",,('("I.
1979:3:?:157-167.
G:lrl. J. J.. and Tll()m;s. D. G. TJc rerr()rm~lncc t)r IllrCC ;lrrr()xjmalc C()I1Ii-
dcncc Ijmil mcth()ds r()r thc ()dds r;li(). ..111/.J. E(,;th.II/i(,I. 1()R1:11-":J-")-470.
Grccnl~lnd. S. \. C()llnICrCX;mplc I() thc Ic~t-h;~cd rrinciple nr sctlin!:! c()nfi-
dcncc Ijmits. .,II/. J. E"i(fI.II/i(ll. 19R4:1:!0:4-7.
JI~llperjn. M. Rc: ..E~lim~lhlily ;nd cslim~lti()11 il1 C:I~c-l:()nlr()1 ~tlloic~... I.cttcr I()
the Edilor. ..III,. .1. ::,,;(I(.lI/i(/l. J!)77: IO5:496-4l)X.
LanC;Slcr. H. O. Thc comhin~llion ()r proh~lbililics ;risil1!,! rr()m d:lt; jn oi~crctc
dislriblltil")ns. fli(II/,('/'.ikf1 1949:-\6:370-3R2.
Lancastcr. H. O. Si!c!nific~lncc ICsIS in discretc lli~lrihllli()n~. .1. ..1,1,. .S"If1I. ..1.\".\"(/c.
1961 :56::?2}-2.14.
MacL;lllghlin. D. S. i\ d~lla \'aiidali()n pr()!c!ramnllclcll~. C(I,I"",I. Pr(ll,'. fli(I',,('(I.
19RO:II:43-47.
Mietlinen. O. S. E~limahiily ;Ind c~ljm~lli('1n in l.~I~c-rCrcrcnl Sllldic~. ,.III/. .1.
Epi(I(,lI/i(/l. 1976l: 103:226-235.
Micttinen. 0. s. Slratiric~\li()n hy a mllllivari~\IC C()nr()llndcr score. ..ll1/. J.
E"i(I('/IIi(1l. 19i6b: 1()4:609-620.
Mjcltinen. 0. S.. and NlIrminen. M. Cl)mparali\,c ~ln~lly~i~ ()r t\\'() r;le~.
1 Slali.\'li(..\' 1\1('(1. 1985:4:213-226.
Rothman. K. J.. ~lnd Keller. A. Z. TJe cITcct or j()int cxp()~lire I() alc()h()1 ,lnd
tobacco on risk or cancer or the mouth ~Ind pharynx. J. C"rm,. Di.\,.

J 1972:25:711- 716.
Yates. F. Contigcncy tablcs involving small nllmhcr~ ;nd thc chi-~qllarc tc~t. J.
R. Slmi.v/. Svc. Sllppl. 1934:1:217-235.

Vous aimerez peut-être aussi