Académique Documents
Professionnel Documents
Culture Documents
MARTÍN ANDRÉS
J. de D. LUNA del CASTILLO
RESÚMENES de
BIOESTADÍSTICA
(6ª edición)
(Asociación−)
Medida Valores
Independencia Caso Estimación Estudios en
posibles
(Asociación+)
que es válida
Estos Resúmenes han sido extraídos del libro publicado en esta misma Editorial
50 ± 10 horas de BIOESTADÍSTICA (1995)
A. Martín Andrés y J. D. Luna del Castillo.
© Antonio Martín Andrés
Juan de Dios Luna del Castillo
Reservados los derechos de edición, adaptación o reproducción para todos los países.
No está permitida la reproducción total o parcial de este libro, ni su tratamiento infor-
mático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico,
mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escri-
to de los titulares del Copyright.
ISBN: 84-8451-025-7
Depósito legal: M-45.612-2006
3
1.1 NECESIDAD
Las Ciencias de la Salud son experimentales y se basan en el método induc-
tivo (extensión, al todo, de las conclusiones obtenidas en una parte). El único
modo de validar tales inducciones es por el Método Estadístico. Las demás ra-
zones que siguen son reflejo de esta mayor razón:
a) La variabilidad biológica de los individuos objeto de estudio en las Cien-
cias de la Salud origina que sus datos sean impredecibles y que el modo de
controlarlos sea a través del Método Estadístico.
b) La naturaleza cada vez más cuantitativa de las Ciencias de la Salud re-
quiere del Método Estadístico para analizar y poner orden en los datos.
c) La investigación en el campo de las Ciencias de la Salud requiere de la Es-
tadística en sus etapas de diseño, recopilación de datos y análisis de los resul-
tados.
d) El volumen de la información que recibe el profesional de la Salud re-
quiere de conocimientos estadísticos que le permitan leer crítica y compren-
sivamente los resultados científicos ajenos.
e) La naturaleza del trabajo clínico es en esencia de tipo probabilístico o es-
tadístico, disciplinas que dan rigor y objetividad a los clásicos procesos sub-
jetivos de diagnóstico, pronóstico y tratamiento.
f) La perspectiva comunitaria de las Ciencias de la Salud requiere del uso de
la Estadística para poder extrapolar las conclusiones desde la parte estudiada
de la población a su globalidad.
1.2 DEFINICIÓN DE ESTADÍSTICA
No existe una definición internacionalmente aceptada, pero para nuestros
propósitos basta con esta: “Es el conjunto de métodos necesarios para recoger,
clasificar, representar y resumir datos, así como para hacer inferencias (extraer
consecuencias) científicas a partir de ellos”. De ahí que conste de dos partes:
a) Estadística Descriptiva, cuyo fin es la recogida, clasificación, representa-
ción y resumen de los datos.
b) Inferencia Estadística, cuyo fin es extender las conclusiones obtenidas en
una parte de la población de interés (la muestra) a toda ella.
Descriptiva
Estadística Herramientas
II
VI VII IX
ESTADÍSTICA DESCRIPTIVA
⎟ 2σ , n = ⎜ ⎟ 2s , n = 2 × ⎜
2
n=⎜ ⎟
⎝ δ ⎠ ⎝ δ ⎠ ⎝ K ⎠
la primera expresión cuando σ (o su máximo) es conocida, la segunda
cuando hay una muestra piloto de tamaños n ′i y varianza común s2 (con
f ′ = n1′ + n′2 − 2 ), y la tercera cuando δ = Kσ.
ii) Muestras independientes (Varianzas distintas): Si r = σ2/σ1 (o s2/s1):
16 TESTS CON DOS MUESTRAS
2 2 2
⎛ z α + z 2β ⎞ ⎛ t α + t 2β ⎞ ⎛ z α + z 2β ⎞
⎟ (r + 1)σ1 , n1 = ⎜ ⎟ (r + 1)s1 , n1 =(r+1) ⎜
2 2
n1 = ⎜ ⎟
⎝ δ ⎠ ⎝ δ ⎠ ⎝ K ⎠
la primera expresión cuando σ1 (o su máximo) es conocida, la segunda
cuando hay una muestra piloto de tamaños n ′i y varianzas si2 (con f ′ =
(1+r2) / {(1/( n1′ −1)+ r2/ ( n ′2 −1)}), la tercera cuando δ = Kσ1. Obtenido
n1, entonces n2 = rn1.
iii) Muestras apareadas:
2 2 2
⎛ z α + z 2β ⎞ 2 ⎛ t α + t 2β ⎞ 2 ⎛ z α + z 2β ⎞
n=⎜ ⎟ σd , n = ⎜ ⎟ sd , n = ⎜ ⎟
⎝ δ ⎠ ⎝ δ ⎠ ⎝ K ⎠
la primera expresión cuando σd (o su máximo) es conocido, la segunda
cuando hay una muestra piloto de tamaño n′ y varianza s d2 (con f ′ =
n′ −1), la tercera cuando ⏐μ1−μ2⏐= Kσd.
7.2 TESTS PARAMÉTRICOS PARA COMPARAR DOS MEDIAS DE
VARIABLES CUALESQUIERA (H0 ≡μ1=μ2)
Si, en las condiciones y notación del Resumen 7.1, las variables implicadas
(x o d) no son Normales, gran parte de lo indicado allí es aproximadamente vá-
lido si las muestras son grandes (mayores que 30 o 60 según lo no Normal que
sea la variable). Las reglas aconsejadas son las siguientes:
a) Test para muestras independientes: Comparar con una zα de la Tabla 2 la
cantidad zexp = x1 − x 2 / s12 / n1 + s 22 / n 2 .
b) Test para muestras apareadas: Comparar con una zα de la Tabla 2 la canti-
dad zexp = d / s d2 / n .
c) Intervalo de confianza para la diferencia de medias: Con la notación de a)
y b):
μ1−μ2∈(numerador de la zexp sin valor absoluto) ± zα×(denominador de la zexp)
d) Tamaño de muestra: Es válido lo indicado en el Resumen 7.1.d) -con las t
miradas también en la Tabla 2- si el n final predicho es superior a 30 o 60.
e) Variables discretas: En los casos a), b) y c), si la variable implicada es dis-
creta y saltando de 1 en 1, conviene efectuar una corrección por continuidad
consistente en sumar al radio del intervalo de confianza la cantidad ±c o res-
tar al numerador de la zexp la cantidad c, con:
i) Muestras independientes: c = 1/ {2 Máx (n1; n2)}.
ii) Muestras apareadas: c = 1/(2n).
7.3 TESTS NO PARAMÉTRICOS (TEST DE WILCOXON) PARA
COMPARAR DOS MUESTRAS DE VARIABLES CUALESQUIERA
(H0 ≡ La primera población no tiende a dar valores más altos o más bajos
que la segunda)
a) Asignación de rangos: En lo que sigue se hablará de “asignar rangos a una
muestra ordenada”. Por tal se entiende al proceso de, dada una muestra or-
denada de menor a mayor (x1≤x2≤ ... ≤xn), asignar el rango 1 al elemento x1,
el rango 2 al elemento x2, ..., el rango n al elemento xn. Cuando haya varios
elementos xi consecutivos iguales (empates) a cada uno de ellos se le asigna
TESTS CON DOS MUESTRAS 17
i) Con información:
2
⎛ z 2pq + z2β p1q1 + p2q 2 ⎞
n= ⎜ α ⎟ ,
⎜ δ ⎟
⎝ ⎠
con p = (p1+p2)/2, q = 1−p, qi = 1−pi y las p1 y p2 lo más cercanas posibles
a 0,5±δ/2, compatibles con la información que se posea sobre ellas y tales
que ⏐p1− p2⏐ = δ.
ii) Sin información: Cuando no hay información previa sobre las pi, la fórmula
anterior se convierte en n = {zα+z2β 1 - δ2 }2 / 2δ2.
Tabla R.7.1 Tabla R.7.2
Presentación de datos cuando se comparan Presentación de datos cuando se comparan
dos proporciones independientes. dos proporciones apareadas.
Característica B
SÍ NO Totales SÍ NO Total
Muestras A
1 x1 y1 n1 SÍ n11 n12
2 x2 y2 n2 NO n21 n22
Totales a1 a2 N Total n
Tabla R.9.1
Tabla de contingencia r×s
Columnas
Oij Totales
1 2 ··· s
1 O11 O12 ··· O1s F1
Filas 2 O21 O22 ··· O2s F2
··· ··· ··· ··· ··· ···
r Or1 Or2 ··· Ors Fr
Totales C1 C2 ··· Cs T
b) Test en Tablas 2×2: Si Mín (F1 ; F2)×Mín (C1; C2) / T > 5, comparar
2
⎛ Mín (F1; F2 ) ⎞
⎜ O11O 22 − O12O 21 − ⎟
= ⎝ ⎠ × T con χ 2 {g.l.=l} de Tabla 7.
2
χexp
2
α
F1F2C1C2
Si la cantidad Mín (F1; F2)/2 se cambia por T/2 se obtiene la clásica
χ 2Y (chi-cuadrado de Yates).
EL TEST χ2 Y SUS APLICACIONES 23
χ ×T
2 11
exp =
F1F2C1C 2
N χ 2
exp = ×T
F1F2C1C 2
c) Comprobación de la partición: La suma de los g.l. de las tablas partidas de-
be ser los g.l. de la tabla original. De igual modo con las χexp2
, pero la igual-
dad es ahora solo aproximada.
d) Significación de las subtablas: Si la partición se hizo “a priori” (no por la
regla de a)), las significaciones se obtienen del modo usual. Si la partición se
hizo “a posteriori” (por la regla de a)), se declarará significativo un resultado
con P<1% si a) lo previó como significativo; se declarará como no significa-
tivo un resultado con P>10% si a) lo previó como tal.
9.4 TIPOS DE MUESTREO EN TABLAS 2×2, TEST APROPIADO Y
MEDIDAS DE ASOCIACIÓN
Con frecuencia, los dos caracteres dicotómicos estudiados (E y FR) suelen
aludir a la presencia o no de una enfermedad o efecto indeseado (E y E ) y a la
presencia o no de un factor de riesgo (FR y FR ). En lo que sigue se supone que
la enfermedad se ubica en filas, obteniendo así unos datos como los de la Tabla
R.9.2.
Tabla R.9.2
Formato estándar para los estudios epidemiológicos.
Factor de riesgo SÍ ≡ FR NO ≡ FR Totales
Enfermedad
SÍ ≡ E O11 O12 F1
NO ≡ E O21 O22 F2
Totales C1 C2 T
O11 O O O
SN = , FN = 12 , E P = 22 , FP = 21
F1 F1 F2 F2
cantidades a las que es posible aplicarle los resultados del Resumen 4.4.a).
Las conclusiones son:
i) Si EP es alta, el test es útil para confirmar la enfermedad (conviene apli-
carlo a individuos sospechosos de poseerla);
ii) Si SN es alta, el test es útil para descartar la enfermedad (conviene apli-
carlo como procedimiento de rutina para el diagnóstico precoz de la en-
fermedad).
b) Considerando la prevalencia: Los porcentajes de aciertos en los diagnósti-
cos positivos (Valor Predictivo Positivo) o negativos (Valor Predictivo Ne-
gativo) serán:
VPP = % de enfermos entre los diagnosticados positivamente
VPN = % de sanos entre los diagnosticados negativamente
Si los datos de la Tabla R.9.2 provienen de un estudio retrospectivo, ta-
les valores se pueden estimar por:
p × SΝ (1 - p) × EP
VPP = , VPN =
p × SN + (1 - p) × (1 - EP) (1 - p) × EP + p × (1 - SN)
con SΝ y EP como en a), cantidad que depende de la prevalencia que se
asuma.
Cuando los datos de la Tabla R.9.2 provienen de un estudio transversal,
entonces:
F O O
p̂ = 1 , VPP = 11 , VPN = 22
T C1 C2
También, y a efectos de evaluar la ganancia obtenida en el diagnóstico
por el hecho de utilizar el test, se definen:
GP = Ganancia del Positivo = VPP − p
GN = Ganancia del Negativo = VPN − (1−p)
Las conclusiones (para la prevalencia asumida) son:
i) Si VPP es alto, el test es útil para confirmar la enfermedad;
ii) Si VPN es alto, el test es útil para descartar la enfermedad.
26 EL TEST χ2 Y SUS APLICACIONES
Cuadro R.9.1
Medidas de asociación epidemiológicas en tablas 2×2
(Asociación−)
Medida Valores
Independencia Caso Estimación Estudios en Intervalo de Confianza (aproximado)
posibles
(Asociación+)
que es válida (zα en la TABLA 2)
R̂ = ( O11C2 ) / ( O12 C1 )
⎧⎪ 1 1 1 1 ⎫⎪
0≤R<1 General Transversales
R ∈ Rˆ ′ × exp ⎨± z α + − − ⎬
(O + 0,5)(C 2 +1)
R̂ ′ = 11 Prospectivos ⎪⎩ O11 + 0,5 O12 + 0,5 C1 +1 C 2 +1 ⎭⎪
R R=1 (O12 + 0,5)(C1 +1)
1<R<∞ Si ⎧⎪
ˆ ′ ×exp ⎨± z 1 1 1 1 ⎫⎪
ˆ o O′
R̂ > O ˆ Retrospectivos R ∈ O α + + + ⎬
P(E)<0,1 ⎪⎩ O11 + 0,5 O12 + 0,5 O 21 + 0,5 O 22 + 0,5 ⎭⎪
Riesgo relativo (de FR para E): La probabilidad de enfermar es R veces mayor en los individuos con el FR que en los sin el FR.
d) Comprobación del modelo: Sean yi− ŷi los residuos o residuales y sea la
nube de puntos de residuales que se obtiene al representar yi− ŷi (en el eje
vertical) contra ŷi (en el eje horizontal):
i) Normalidad: No se verifica si la variable y es discreta o si el test de
D’Agostino es significativo al aplicarlo a cada conjunto de observacio-
nes y en cada x (lo que requiere de observaciones repetidas).
ii) Linealidad: La nube de puntos ha de mostrar una tendencia exclusivamen-
te lineal. La de residuales ha de ser paralela al eje horizontal. Cuando es-
to no es así, a veces un cambio de escala apropiado puede convertir la
curva en recta (linealización): cambiar x por log x, 1/x, x , etc y/o simi-
larmente con y.
iii) Homogeneidad de varianzas: La nube de puntos ha de ser ovalada, sin
mostrar tendencia a ser más ancha o estrecha con el aumento de x. La de
residuales igual con el aumento de ŷ .
e) ¿Quién sobre quién?: Los parámetros anteriores se entiende que son ay·x, by·x
y s2y i x por haber sido obtenidos de la regresión de “y sobre x”. Los resultados
no son los mismos (ax·y, bx·y y s2x i y ) si en el eje horizontal se pone a la varia-
ble y y en el vertical a x (regresión de “x sobre y”). Se hace la regresión de “y
sobre x” cuando el objetivo es predecir y a partir de x. El muestreo de Tipo I
permite hacer ambas; el de Tipo II sólo la de “y sobre x”.
f) Precauciones y consejos:
i) No pueden hacerse inferencias fuera del rango de muestreo de x (el inter-
valo de valores entre el menor y el mayor valor de x obtenidos).
ii) El muestreo de Tipo II permite elegir el rango de interés de las x y, to-
mándolo amplio, hace más fiables las conclusiones.
10.4 INFERENCIAS CON RECTAS DE REGRESIÓN
En lo que sigue, salvo indicación expresa de lo contrario, la cantidad tα alu-
dida implícita (en el test) o explícitamente (en los intervalos) se busca en la Ta-
bla 6 con (n−2) g.1.:
a) Sobre la pendiente:
i) Intervalo de confianza: β∈ b±tαs/ (xx);
REGRESIÓN LINEAL 29
CORRELACIÓN
rS = 1 − 6 ×
(n − 1)n(n+1)
d) Propiedades: Como en el Resumen 11.1.d), pero relativas a los rangos.
e) Test de independencia: (H0 ≡ ρS=0 vs. H1 ≡ ρS≠0): Con cualquier muestreo:
i) Si n≤30: Comparar ⏐rS⏐ con rα de la Tabla 22 en el modo allí indicado.
ii) Si n>30: Comparar zexp = ⏐rS⏐× n − 1 con una zα de la Tabla 2.