Académique Documents
Professionnel Documents
Culture Documents
'-
FUNDAMENTOS DEL ANALISIS DE DATOS EPIDEMIOLOGICOS 51
de lectura por scanning ptico, que en cuaiquier caso haya que perforar-
los: en consecuencia, el meter los datos directamente durante la codifica-
cjn reduce tanto los costes como las equivocaciones, Cuantas menos
operaciones de reescritura. pues, haya entre el registro primitivo y la
versin que la mquina almacena. menos probable ser que se produz-
can errores. Si es inevitable reescribir, resulta lltil hacerse una idea del
grado de error de codificacin que contendr el material producido
codificando una cierta proporcin de los form,ltos por duplicado. inde-
pendientemente. La informacin as obtenda puede ser utilzada para
juzgar la magnitud del sesgo que la clasificacin incorrecta debida a
errores de codificacin habr introducido.
La edicin b,sica de los datos requiere ir comprobando cada variable
en busca de valores ilegales o inusuales. Por ejemplo. el gnero se puede
codificar con un I para varn y un 2 para mujer. Habitualmente se
utiliza un valor aparte. como puede ser un 3. para designar los resulta-
dos desconocidos, Es preferible no asgnar a nade el cdgo cero. si se lo
puede evitar, porque algunas mquinas o programas interpretan la falta
de informacin o los cdigos no numricos con un cero, No utilizando
este nmero como cdigo especfico, por tanto. ni siquiera para la
informacin desconocida. se hace posible la deteccin de errores de
perforacin o de la informacin que falta. Cuando se procede a edtar es
importante examinar la distribucin de cada variable. Todo valor inad-
misible debe ser contrastado frente a los formatos originales en que se
recogieron los datos. Valores que resultasen inhabituales. como que el
gnero fuese desconocido. o una edad o fecha de nacimiento no norma-
les, deben ser comprobados tambin.
Adems de someter a comprobacin a los valores incorrectos o
inhabituales, debe examinarse la distribucin de cada variable, para ver
si parecen razonables. La proporcin de varones que uno espera, .esla
mitad, un 80 por 100 (cifra que es razonable si los sujetos sorl enfermos
con, digamos, cncer de vas respiratorias altas), o aproximadamente el 2
por 100 (si estamos trabajando con personal de enfermeria,'? Una evalua-
cin de este tipo puede revelar problemas importantes que de otra forma
no saldran a la luz. Por ejemplo, un error de programacin podra
hacer que todos los datos de cada registro electrnico se desplazasen en
uno o ms caracteres. dando como resultado una coleccin de sinsentidos.
que a pesar de todo pudesen no ser detectables mediante, por ejemplo.
un anlisis multivariado (lo que es. de hecho, una pega importante del
abordaje multivariado). Lo factible de un desastre asi resalta la necesi-
dad de comprobar cuidadosamente la distribucin de cada variable
durante la edicin de los datos.
Las comprobaciones relacionadas con la edicin que hemos conside-
rado hasta ahora se refieren a cada variable de los datos tomada por
separado. Aparte de esa edicin bsica, es habitualmente aconsejable
revsar la consstencia de los cdgos a base de relacionar variables. No
es mposble. aunque s improbable, que una persona de diecocho aos
tuviese tres hijos. Los varones no deberan haber sdo hospitulzados
152 EPIDEMIOLOGIA MODERNA
categoras. Ahora bien. sucede que lo~ dato~ ~on mucha~ vece~ tan
limitados en nmero que re~ulta indeseablc crear nada menos que
cinco grupos para una variable dada. Cuando las obser,.acione~ est:'\n
desperdigada~ en demasiadas categorias. lo~ nmeros dentro de stas se
vuelven estadisticamente inestables y producen grandes errores alcato-
rios en los estimados del erecto.
Puesto que la mayor parte de la conrusin debida a un faclor dado
puede ser eliminada mediante un anlisis e~tratiricado basado en sl(,
dos categoras de una variable continua (Cochran. 1968), si los dalos de
que ~e di$pone son escasos resulta deseable mantener pequeo el nme-
ro de categorias. en torno a dos o tres. IncJuso un cuerpo dc datos quc
fuese grande puede ser dispersado hasta dar grupos exce~ivamente del-
gados si la tabla de contingencia implica demasiadas dimensiones. es
decir. si se usan demasiadas variables para cla~iicar a los su.ietos. COI1
tres variables, aparte de exposicin y enrermedad. y tres c~\legoras p~\ra
cada variable. habria 27 tablas de 2 x 2 (.\sumicndo que lanlo la exposi-
cin como la enfermedad fuesen dicotmic.I~). Con dos variables ms. de
tres categoras cada una, tendriamo~ un tolal de 243 tablas de 2 x .?.
suficientes como para estirar ha~ta hacer demasiado delgado inclu~o UI1
cuerpo considerable de datos, puesto que un estudio de 10.000 personas
tendria nicamente como media en torno(\ 10 ~u.icto~ por cada ccld~1 de
dicha tabla multidimensional. Si se est planificando un anlisis estratili-
cado y es necesario estratificar de acuerdo a diversa~ variables. probable-
mente slo unas pocas cntegorias, quiz~ t:\11 pocas como dos. pucdan
ser utilizadas pnra cada variable. Con slo dos categoria~ por variablc.
la estratificacin por cinco variables requiere 32 en vez de 243 t.\bla~ de
2 x 2. y un estudio de 10.000 su.ieto~ daria ahora como medio 7R por
casilla. en lugar de 10, ganando con ello en precisin. al precio de alguna
confusin residual potencial dentro de las categorias. -1
El investigador debe decidir tambin dnde trazar la linea divisori.1
entre las categoras. No ha)' un mlodo comnmente aceptado p.\r.1
h.tcerlo. Una preoc\lpacin que sc expres~\ frecuentemente esti\ referida a
que lo~ lmite~ tienen que mangonear~e). e~ decir. h~~. que de~pl~17.ar
-despus de haberlos examinado de forma preliminar- los estimados
del efecto de una forma quc lo~ ~llterc en I~\ direccn descadil. Ta]
preocupacin adjudica al investigador un nivel de deshonestidad que es
de esperar sea inhabitual. Por otra parte, despla7.ar en la categorizacin
\Inos lmites rara~ veces tiene un efecto sustancial sobre la magnitud de
un estimado y ello. en todo ca~o. ser~\ debido a la exi~tencia de un gran
componente de error aleatorio. Por cl contrario. frecuenlemente rcsulta
til tantear la distribucin de una "(1riable antes de decidir en qu punto
dar cl corte entre categora~. Si tiene. por e.iemplo. ms de una moda.
podr;mos hallarnos ante categorias natur;le~. La distribucin pucdc
tambin e~tar lo suficientemente despl:tz:tda hacia una cola como par~1
que fronteras preconcebidas entre categoria~ condu.iescn a una incficien-
te separacin de los su.ietos. con demasiados pocos sll.ietos en alguna~ de
ellas )' demasiados en otras. Debido (1esta~ r~lzones. por tanto, resulta lil
FUNDAMENTOS DEL ANALISIS DE DATOS EPIDEMIOLOGICOS ~55
Cm11f'rnbllCill dc la 11if'le.\"i.\"
~.-~,
FUNDAMENTOS DEL ANALISIS DE DATOS EPIDEMIOLOGICOS '57
t t
o Valor observado
Fig. 10.1. Distrih,(('i(n d(' ,(}s (',\"tJJJ(1dt1,\' d('1 ('fe(,/(} ('II el m(1r('(J d(' 1(1 hi!,f/('si,\'
=A..B..C+O
= A + B + 1/2(C + O)
"U
ca
:::2
:o
ca
.D
o
~ I
.
t t
o Valor observado
Medida del efecto
Fig. 10.2. Di.\"trihllci()1I de lo.\" ('.\"timado.\" ticll;!ecto e1l ('11l10rco tic 1(/ hipl)t('.\"i.\"
Puesto que la probabilidad del rango entero del \'alor obser\'ado est
incluida en la definicin tradicional del valor de P. la correccin de
Yates mejor~1 habitualmente la aproximacin a como se define. tambin
lr.\dicionalmente. el valor exacto de Po Por el contrario. si se utilizase 1.1
definicin de la media P. la sugerida operacin aritmtica empeoraria
ciertamente la aproximacin. puesto que el valor observado ya represen-
taba el v.\lor central de su rango discreto. En el presente texto. la
correccin de Y.ltes es ignor.lda.
Para una comprobacin estadstica en torno al valor nulo. sobre la
b.\sc de un.l distribucin normal, la frmula general viene dada por la
ecuacin 10.1:
.4 -E
x =
[10.1 ]
--;-
v
iJ
(O A B Area de la cola
:2
15 Curva A: 5 %
(O
-O Curva B: valor de p
o
5. con una cola
:J
":J
":J
(O
iJ
.~
C)
O
Fig. 10.3. Rall.~o d(' 1111(e.\,treod(' lo.\, dato.\, ('II rejerl'lIcia l valor 1/1(1(,.I' (1IIn,ite
de co(~jillll;a illjerior al 9(} !'or 100.
162 EPIDEMIOlOGIA
MODERNA
deI punto de referencia. hasta que el ilrc~l dc la cola se~l acorde con cJ
nivel de confianza que se desea. Por i() tanto. el c~llculo de los limitc~
exactos de confianza es prcticamente invi..lble si no se dispone de un
equipamiento a base de computadoras electrnicas prot!r..lrnablcs.
Existen afortunadamente much..ls tccnicas sencillas~ an{llo!!as ; la
frmula ]0.1. para obtener limites de confianza aproximados- Como en
el caso de la comprobacin de hiptesis. la exactitud dc las tccnic:l~
aproximadas depende del ntlmero de ohser\'aciones. porque todos I{)s
mtodos dependen de la distribuci~ normal de los estim~ldos dcJ cfecto.
garantizada por el teorema del limite central cuand() l~lS obscr\.aciones
son suficientemente numerosas.
Una asuncin que simplifica las cosas y que con [recuellcia ~c re..llizJ.
es considerar constante. a lo l~lrgo de ~lI escala de medicil)ll. la \.ari~lbilj-
dad muestra! del estimado del efccto. e~ decir. auc I:! \.~lrianz:1 ocl
estimado dcl e[ecto se toma corn() con~tante. illd;rendicntementc d:;:1
~
valor del estimado. Para comprobar una hiptesis no es necesario ~lSlJ-
mir e~t(). porque el valor de p se c~lcula sobrc la a~uncin de. quc I~I
hiptesi.~ nula se mantiene y por tanto. lo que preocupa al poner a
prueb.i una hiptesis es estimar la varianza slo sobre el valor nulo. Con
un conjunto grande de observaciones. el rango de muestreo para el
estimado del efecto es suficientemente estrecho corno para hacer apr()-
piada esta asuncin: incluso si la varianza cambia sustancial mente a lo
largo de la escala de medicin en que se mide el efecto. en un ran(!()
.~
suficIentemente estrecho ser casi constantc. En consecuenci~l. la sirnpli-
ficadora asuncin de que la varianza se~ constante es corrccta asintti-
carnente: es decir, la asuncin se \'a haciendo m{J.<\apropiada con[ormc
aumenta el ntlrnero de observaciones utiliz;ldas en eJ rroces() de estilll~l-
cin. .
El abordaje habitual y el ms simrlc qlle ~e utili7.;1 r~lra c..llcular
limites de confianz..1 aproximado~ consiste en estim~r 1:1 desviacin es-
tndar dc la curva normal que represent.1 la distrihuci()11 Illuestral arr()-
ximada dcl estimado dcJ efecto. El iJrea que h;I~. h;l.i() un scf!mcnl()
simtrico de una cur\'a normal es runci()n especifica dc la desviacin
estndar: de hecho. esta rclacin proporciona la tlnic:1 posihilid~ld de
interpretar la desviacin est:ind~lr com() medida de v:1riabilid~ld. Si 1:1
distribucin no es normal. no existe interpretacin :11f!Un~1dc este par:!-
metro que tenga sentido, aunque se podrian c~llcu..lr. pcSC a todo. lo.~
int("rvC\los de confianza por medio de clculos exactos. Para cualquicr
CUr\":i normal, el 68 por 100 del rea que ha)' ba.io ell~l sc cncuentra en 1:1
regil'll <iistante hasta una desviacin estnd..lr (SO) del punto centra!. Oe
esta manera, valores de medicin inform;ldos con la [rmuln :t SO com()
medida de variabilidad. l~ que quicl:-en expresar es un estimado puntual
con un intervalo
la distribucin
de c0nfianza acompaante
muestral sea en rc:llidad
del 6R por ]00. siempre que
normal. Cuand() se ha csco-
]
gido un nivel de confianza. el \'~llor h~lbitualrnentc no seril del 68 sino
comnmente dcl 80, 90 95 por 100. F.sto ni\'eles dc confianza se
corresponden con las regiones marcadas por los puntos 1.2R2. 1.645 ~.
~
i i i i i i i
O\n
tO-:t
-1 o +1 IJ)O
.".<D
0). tO. Media <DO)
.--
RD :t z .SD(RD) [10.2]
citado estimado puntu~ll c~ la misma que I~l qllC h:ly clltre c~te ~.'el \()pe
inferior .
Las [10..?] y [1().4] <011la~ f()rm\II~\s ~ener:llc~ m:"I.O; ~cnl.:ill~\.o;r:lr:l oh-
tener por derivl1cin lmites de confi~lnZl\ aproxim:ldos r:lr~l mcdid:1S dcl
efecto expresad..ls en trminos de diferencia dc tasa~ y r~lzn de tasas. res-
pectivamente. Sc h~ln propuesto muchas \cnica~ c~pccificas. c:tda una c()n
un balance diferente' entre facilidad de ci1iculo y cx:lctitud. 1\lgunas frmu-
( las dejan de lado la ll~uncin de que la desviaci()n e~ti1ndar sea unif()rme ..1
lo largo de la escala dc medicin y utilizan. por tllnto. tcnicas reiterati-
vas para estimar su \'alor en las zonas fronterizas del intervlllo: el
mtodo de Cornfield ( 1956) para calcular lmites de c()nli:tnza de la
razn de ventajll es un ejemplo de este tipo de razn de riesgos y
diferencia de ricsgos. Los c:"llculo~ reiterativo~. como tamnin se !\ellla-
ba antes. requieren I~\ :tsistencia .de pr()gram~ls de c()mputadorl1. con lo
que las ventajas tc()ricas van :tc()mpa..ldas de desventCl.iCls rri\ctic:ls.
La tcnica especfica mils sencilla para Ilc\'ar a can() \In~ estimacin
de] intervalo es cl mt()do bas..1do en el test {Miettinen. 1l)7:l), que
asume que el estimado dc la desviacin esti1ndar de Il1 distrihucin
muestral del estimado del efecto obtenido pl1ra el valor nulo constituye
un razonable estimado dc la desviacin esti1ndar de la distribuci()n para
] cualquier otra parte a lo largo de la escala. Esta :lsuncin difiere ligera-
mente de la habitual. consistente en que el vl11or c~llculado dc la des\'ia-
cin estndar en el cstimlldo puntual \'a a ser :ldecuado para los puntos
]imtrofes dcl intervalo: aunque ambos abordaje$ asumen que el \'Cllor de
la desviacin estndar estimado en un punto de la escala se :tplicar
i tanto al extremo inferior como al superior. el valor calculado en el
~ estimado puntual est colocado ms o menos centralmente entre los
lmites del intervalo, en tanto el valor nulo no )o est e incluso pudiera
situarse fuera del mismo. Si la desviacin estndar cambia a )o largo de
la escala de medida del efecto, el grado de error que habr en 10$ lmites
aproximados ser probablemente menos severo si se estima la de$viacin
estndar en el punto central del intervalo de confianza en vez de en el
punto nulo. que no tiene conexin con la ubic~lcin de los lmites. .Por el
contrario, si se e$coge el punto nulo como punto <onre el que se estima
la desviacin estimdar. los limitcs de conlil1nz:l resultantes tender:"ln a ser
ms ajustados cuando caigan en las proximid:ldcs dei cit:tdo p\lnto nulo.
con lo que podria llegar a argumentarse que vale la pen:l obtener m:lyor
exactitud cerca del valor nulo. incluso si ello signific~l
-- sacrificar :11\!una
exactitud cuando los lmites c~llculados se encuentren lejos del mismo.
Aplicar la asuncin de ]os lmites has..ldos en el test Ilc\,ll II lina
concisa formulacin para obtener los lmite$ de confianza hllsados en el
test estadistico de 1~1ecuacin 10.1. Consideraremo$ la reformul:lcin de
dicha ecuacin 10.1 para la diferencia de tClsas:
-..
[{D -E
l=.SD(RD)
166 EPIDEMIOLOGIA MODERNA
-""' /, ""'
donde E, la expectativa de RD ha.i() la hipte$i~ nula. e~ cero. ~. SD(RDI
se calcula a~umiendo que la hiptesi~ nula e~ cierta. E$to da:
RD
,
[10.5]
~
donde SD()(RD) indica que l~1 de5\'iacin c5tlnd:lr esti cstim:ldl el1 el
valor nulo. Se puede reescribir e5t:l ecuacin 10.5 as:
---
I~ I )
SD(I(I~O) :: ~---
l
~. realizar SU51ilucione~ en la r()rrnula 10.1, I() que d~l. r:lra los Jimilcs
inferior y 5uperior:
:tz~
-
1
l
2'
+-
-"I
[10.6]
I. I
En la frmuia [ 10.(i] sc asume quc 1:1 i: c~ UIl le~l esladi~lic() que evala
RD per se. Mietlinen recomendaba insertar en dicha frmula [10.6] cual-
quier e~tadistica de X que representase un les! igualmente eficientc dc 1,1
hiptesis nula sobre la base de lo~ rnismo~ dato~. Por ejempl(). ~e la
podria sustituir por la habitual, basada en la distribucin del nrncro dc
casos expuestos (vase Cap. II para la forma en concreto .de hacerlo).
La contrapartida dc la ecuacin 10.5. utilizando como medida dcl J
efecto una razn de tasas. tras transf()rmacin logaritmica es:
X = ,., In (RR),., [10.7]
SDo(ln (RIt))
111 (RR)
I: ~]
y hacer sustituciones con ella en la frmul:l 10.4 para dar
J
que se puede simplificar hasta dclr:
-
RR(' :tZll)
[10.8]
-J
FUNDAMENTOS
DEL,\NALisiS DEDATOSEPIDEMIOLOGICOs 167
Como suceda con la frmula 10.6. el atracti"o tic la IO.R est en sustituir
la estadstica ;(, basada en O. por una X altern.1tiva )' ms conveniente
que pone a prueba la hiptesis nula. La misma estadstica. ciertamente.
puede ser uti]izadi.l en las frmulas 10.6 y 10.8 para generar lmites de
confianza para la diferencia de tasas y para la razn de tasas. Ntese que
cuando el va]or de X es igua] a] multip]icador 2, e] punto de delimitacin
inferior debe corresponder y corresponde exactamente a] valor nulo. que
es cero para la diferencia de tasas )' uno para su razn.
Las frmu]as para caJcu]ar lmites de confianza aproximados basa-
dos en el test que se dan con las notaciones 10.6 y 10.8 son extremada-
mente fci]es de aplicar y proporcionan como resultado tiles inter,'alos
de confianza en una amplia variedad de situaciones. Los nicos nmeros
que se requiere sacar de los datos son un c]culo puntual de! estimado
del efecto que sea apropiado y la estadstica z. sacada de la comproba-
cin de hiptesis. En rigor. el uso de la citada estadstica Z' en estas
frmulas basadas en el test. es la justificacin fundamental de cualquier
discusin detallada sobre la comprobacin de hiptesis estadstica en la
1 epidemiologa" moderna. puesto que para evaluar el error aleatorio es
preferible la estimacin de un intervalo de confianza en vez del uso de
los valores de P: y stos aaden verdaderamente muy poca informacin
] cuando se da el intervalo de confianza.
Desgraciadamente, el principio de los lmite$ basados en el test es
inv]ido como mtodo genera] de estimacin del intervalo Halperin,
1977; Gart, 1979). Las simulaciones han sacado a relucir los pobres
resultados del mtodo, que por otra parte eran de esperar, cuallJo se
dan grandes alejamientos de la razn de ventaja respecto del valor nulo
(Brown, 1981: Gart, 1982) y, adems, Greenland (19R4) ha suministrado
un contra ejemplo con la SMR que refuta la "alidez general del abordaje.
Este autor dice:
.J
168 EPIDEMIOLOGI/, MODERNA
]
FUNDAMENTOS DEL ,\NALI~IS DE DATOS EPIDEMI()LOG;COS '7'
REFERENCI\S
Br()\\.n. C. C. TJc v:lliJily ()r :Irrrnxim:llc mctJ()(I~ r()r itlICrv:III:~lin,ali(,n ()f thc
odds rati(). .1",. J. 1:.',i(I""i(li. Il)XI:II-~:474-4X().
Cochr~ln. W. G. TJc clTccti\,cncss ()r:ldjllstmcnt hy ~lihcl:lssilic;li()n in rcm()\'ing
hi~l~ jn ()h~Cr\':lli()l1~tl sllioic~. IJi(}}lt('/ri(..\" I !)()R: :4::9-"-.\ 1.\.
Cornficld. J. ,\ ~tati~lic:l1 rr()hlcm :lri~ing fr()m rctrosrecli\.c sllloic~. (11 J. Ncy-
m~ln 'cd.) f'r(lc('(.(ii"I.'.\" .n,irt! IJ('rkc((..I. .S".I"'I',I(}.\.i"II,. V ()I. 4. Rcrkccy: Uni\'cr-
~ity ()r C,I(irorni~1 Prc~s. 19-"6. rr. I ~5-14R.
Gart. J. J. Sl~lli~lic;1 :ln~ly~cs ()r Ihc rcl~ltivc risk. ::1//,i,.(I". 1{(.(lllh p('r.\",,('("I.
1979:3:?:157-167.
G:lrl. J. J.. and Tll()m;s. D. G. TJc rerr()rm~lncc t)r IllrCC ;lrrr()xjmalc C()I1Ii-
dcncc Ijmil mcth()ds r()r thc ()dds r;li(). ..111/.J. E(,;th.II/i(,I. 1()R1:11-":J-")-470.
Grccnl~lnd. S. \. C()llnICrCX;mplc I() thc Ic~t-h;~cd rrinciple nr sctlin!:! c()nfi-
dcncc Ijmits. .,II/. J. E"i(fI.II/i(ll. 19R4:1:!0:4-7.
JI~llperjn. M. Rc: ..E~lim~lhlily ;nd cslim~lti()11 il1 C:I~c-l:()nlr()1 ~tlloic~... I.cttcr I()
the Edilor. ..III,. .1. ::,,;(I(.lI/i(/l. J!)77: IO5:496-4l)X.
LanC;Slcr. H. O. Thc comhin~llion ()r proh~lbililics ;risil1!,! rr()m d:lt; jn oi~crctc
dislriblltil")ns. fli(II/,('/'.ikf1 1949:-\6:370-3R2.
Lancastcr. H. O. Si!c!nific~lncc ICsIS in discretc lli~lrihllli()n~. .1. ..1,1,. .S"If1I. ..1.\".\"(/c.
1961 :56::?2}-2.14.
MacL;lllghlin. D. S. i\ d~lla \'aiidali()n pr()!c!ramnllclcll~. C(I,I"",I. Pr(ll,'. fli(I',,('(I.
19RO:II:43-47.
Mietlinen. O. S. E~limahiily ;Ind c~ljm~lli('1n in l.~I~c-rCrcrcnl Sllldic~. ,.III/. .1.
Epi(I(,lI/i(/l. 1976l: 103:226-235.
Micttinen. 0. s. Slratiric~\li()n hy a mllllivari~\IC C()nr()llndcr score. ..ll1/. J.
E"i(I('/IIi(1l. 19i6b: 1()4:609-620.
Mjcltinen. 0. S.. and NlIrminen. M. Cl)mparali\,c ~ln~lly~i~ ()r t\\'() r;le~.
1 Slali.\'li(..\' 1\1('(1. 1985:4:213-226.
Rothman. K. J.. ~lnd Keller. A. Z. TJe cITcct or j()int cxp()~lire I() alc()h()1 ,lnd
tobacco on risk or cancer or the mouth ~Ind pharynx. J. C"rm,. Di.\,.
J 1972:25:711- 716.
Yates. F. Contigcncy tablcs involving small nllmhcr~ ;nd thc chi-~qllarc tc~t. J.
R. Slmi.v/. Svc. Sllppl. 1934:1:217-235.