Vous êtes sur la page 1sur 36

A.

MARTÍN ANDRÉS
J. de D. LUNA del CASTILLO

RESÚMENES de
BIOESTADÍSTICA
(6ª edición)

(Asociación−)
Medida Valores
Independencia Caso Estimación Estudios en
posibles
(Asociación+)
que es válida

0≤R<1 R̂ = ( O11C2 ) / ( O12 C1 )


Transversales
General (O11 + 0,5)(C 2 +1)
R R=1 R̂ ′ = Prospectivos
(O12 + 0,5)(C1 +1)
1<R<∞
Si P(E)<0,1 ˆ o O′
R̂ > O ˆ Retrospectivos
Riesgo relativo (de FR para E): La probabilidad de enfermar es R veces mayor en los ...

EDICIONES NORMA-CAPITEL (2006)


RESÚMENES de
BIOESTADÍSTICA
(6ª edición)

Estos Resúmenes han sido extraídos del libro publicado en esta misma Editorial
50 ± 10 horas de BIOESTADÍSTICA (1995)
A. Martín Andrés y J. D. Luna del Castillo.
© Antonio Martín Andrés
Juan de Dios Luna del Castillo

© EDICIONES CAPITEL, S.L.


Európolis, Bruselas V-16B. 28230 Las Rozas (Madrid). Teléfono 91-6377414.
e-mail (editor): rpa@norma-capitel.com.
e-mail (autor): amartina@ugr.es.

Reservados los derechos de edición, adaptación o reproducción para todos los países.
No está permitida la reproducción total o parcial de este libro, ni su tratamiento infor-
mático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico,
mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escri-
to de los titulares del Copyright.

ISBN: 84-8451-025-7
Depósito legal: M-45.612-2006
3

RESUMEN DEL CAPÍTULO I


LA ESTADÍSTICA EN LAS CIENCIAS DE LA SALUD

1.1 NECESIDAD
Las Ciencias de la Salud son experimentales y se basan en el método induc-
tivo (extensión, al todo, de las conclusiones obtenidas en una parte). El único
modo de validar tales inducciones es por el Método Estadístico. Las demás ra-
zones que siguen son reflejo de esta mayor razón:
a) La variabilidad biológica de los individuos objeto de estudio en las Cien-
cias de la Salud origina que sus datos sean impredecibles y que el modo de
controlarlos sea a través del Método Estadístico.
b) La naturaleza cada vez más cuantitativa de las Ciencias de la Salud re-
quiere del Método Estadístico para analizar y poner orden en los datos.
c) La investigación en el campo de las Ciencias de la Salud requiere de la Es-
tadística en sus etapas de diseño, recopilación de datos y análisis de los resul-
tados.
d) El volumen de la información que recibe el profesional de la Salud re-
quiere de conocimientos estadísticos que le permitan leer crítica y compren-
sivamente los resultados científicos ajenos.
e) La naturaleza del trabajo clínico es en esencia de tipo probabilístico o es-
tadístico, disciplinas que dan rigor y objetividad a los clásicos procesos sub-
jetivos de diagnóstico, pronóstico y tratamiento.
f) La perspectiva comunitaria de las Ciencias de la Salud requiere del uso de
la Estadística para poder extrapolar las conclusiones desde la parte estudiada
de la población a su globalidad.
1.2 DEFINICIÓN DE ESTADÍSTICA
No existe una definición internacionalmente aceptada, pero para nuestros
propósitos basta con esta: “Es el conjunto de métodos necesarios para recoger,
clasificar, representar y resumir datos, así como para hacer inferencias (extraer
consecuencias) científicas a partir de ellos”. De ahí que conste de dos partes:
a) Estadística Descriptiva, cuyo fin es la recogida, clasificación, representa-
ción y resumen de los datos.
b) Inferencia Estadística, cuyo fin es extender las conclusiones obtenidas en
una parte de la población de interés (la muestra) a toda ella.

1.3 CONSIDERACIONES FINALES


a) Es importante estar familiarizado con el lenguaje estadístico.
b) El Método Estadístico es un método riguroso para el análisis de datos. Su va-
lidez está condicionada por la verificación de ciertas hipótesis que no pueden
ser violadas.
c) Es importante la planificación adecuada de la experiencia. Una planificación
incorrecta puede hacer desaprovechable toda la experiencia o una gran parte
de ella.
d) La Estadística Descriptiva no tiene valor inferencial alguno. Ella sólo descri-
be lo que hay, no permitiendo extraer conclusiones ciertas sobre nada.
4 LA ESTADÍSTICA EN LAS CIENCIAS DE LA SALUD

1.4 CONTENIDOS DE ESTOS RESÚMENES


El Cuadro R.1.1 presenta esquemáticamente los contenidos y el Resumen
del Capítulo que los contiene.

Descriptiva
Estadística Herramientas
II

Intervalos de confianza Tipos y familias


Probabilidad
y de Aceptación de datos
Inferencial
¿Cuánto vale una característica en
III III
una población o individuo?
IV y partes del VI y XI
Test de Hipótesis
¿Es cierta esta hipótesis?
Generalidades: V

Hipótesis que implican dos


Hipótesis que implican una característica en: características
(Problemas de Asociación)

1 población 2 poblaciones 3 o más poblaciones

VI VII IX

Ambas no Ambas Una numérica


Ensayos Clínicos numéricas numéricas y otra no
VIII IX X y XI XI
5

RESUMEN DEL CAPÍTULO II

ESTADÍSTICA DESCRIPTIVA

2.1 TIPOS DE DATOS


a) Cuantitativos: Se expresan numéricamente.
i) Discretos: Toman valores numéricos aislados.
ii) Continuos: Toman cualquier valor (dentro de unos límites dados).
b) Cualitativos: No se expresan numéricamente.
i) Ordinales: Admiten una ordenación lógica y ascendente. (Nominales en
otro caso).
ii) Dicotómicos: Solo aceptan dos posibilidades.

2.2 PRESENTACIÓN TABULAR DE LOS DATOS


a) Se les agrupa en clases (si son discretos o cualitativos) o en intervalos de cla-
se de igual longitud (si son continuos o discretos con muchos valores posi-
bles). La primera y la última clase pueden ser excepción.
b) A cada clase se le anota la frecuencia absoluta (fi), o número de datos en la
clase, y la frecuencia relativa (hi = fi/n, con n el número total de datos). Su-
cederá que Σfi = n y Σhi = 1. Multiplicando hi por 100, 1.000, etc se obtienen
los %, 0/00, etc.
c) Los intervalos de clase vienen definidos por dos números, el límite inferior
(LI) y el límite superior (LS); la diferencia de ellos es la longitud de clase y la
semisuma es la marca de clase.
2.3 PRESENTACIÓN GRÁFICA DE LOS DATOS
a) Histograma: Sobre cada punto (o intervalo) de las abscisas, se levanta una
barra (o rectángulo) de tanta altura como frecuencia haya.
b) Polígono de frecuencias: Se unen por una poligonal los puntos del plano
que tienen por abscisa la clase o marca de clase y por ordenada la frecuencia.
c) Pictograma: Se define una figura-motivo y se la repite o se la amplía de mo-
do proporcional a la frecuencia de la clase, obteniendo así un pictograma “de
repetición” (o de “amplificación”).
d) Diagrama de sectores: En un círculo, se asigna a cada clase un sector de
área proporcional a la frecuencia de la clase. El ángulo que lo delimita es
360×hi (en grados).
2.4 SÍNTESIS DE DATOS
a) Medidas de posición: Describen cómo se encuentra el resto de la muestra
con respecto a ellas.
i) Moda: la clase con mas frecuencia absoluta (si nominal) o relativa (resto
de los casos).
ii) Mediana: divide a la muestra ordenada (de menor a mayor) en dos partes
iguales.
iii) Percentil: El percentil pi deja a su izquierda un "i%” de la muestra orde-
nada de menor a mayor (i=1, 2, ...., 99).
iv) Cuartil: c1=p25, c2=p50, c3=p75.
6 ESTADÍSTICA DESCRIPTIVA

v) Decil: d1=p10, d2=p20, ..., d9=p90.


vi) Media aritmética:
Σx i
• Datos no agrupados: x=
n
Σf i x i
• Datos agrupados: x = , con Σfi = n
n
Σw i x i
vii) Media ponderada: x p = , con wi los pesos de ponderación.
Σw i
b) Medidas de dispersión: Describen cómo de variables o dispersos son los da-
tos.
i) Recorrido, rango o amplitud: Es la diferencia entre los valores más gran-
de y más pequeño de la muestra.
ii) Desviación media: dm = Σ⏐xi− x ⏐/n
iii) Varianza: En lo que sigue, la primera fórmula es la definición y la segun-
da es la apropiada para el cálculo:
Σ(x i - x) 2 1 ⎧ 2 ( Σx i ) 2 ⎫
• Datos no agrupados: s 2 = = ⎨ Σx i - ⎬
n -1 n -1 ⎩ n ⎭
Σf i (x i - x) 2 1 ⎧ ( Σf i x i ) 2 ⎫
• Datos agrupados: s 2 = = Σ
⎨ i i
f x 2
- ⎬,
n -1 n -1⎩ n ⎭
con Σfi = n
iv) Desviación típica: la raíz cuadrada (s) de la varianza.
v) Rango intercuartílico: c3−c1
vi) Coeficiente de variación: CV = (s/ x )×100%.
7

RESUMEN DEL CAPÍTULO III


DISTRIBUCIONES DE PROBABILIDAD
3.1 DEFINICIONES
a) Fenómeno aleatorio: Aquel fenómeno cuyo resultado es impredecible.
b) Probabilidad (de un resultado dado de un fenómeno aleatorio): Es el límite
de la frecuencia relativa del mismo cuando el número de experiencias (repeti-
ciones del fenómeno) tiende hacia infinito. La existencia de dicho límite se
sustenta en la ley de azar (o de estabilización de las frecuencias relativas).
c) Variable aleatoria: es el resultado numérico de un fenómeno aleatorio. Son:
i) Discretas: se identifican por la función de probabilidad (regla que asocia a
cada valor de la variable, su probabilidad).
ii) Continuas: se identifican por la función de densidad (que indica cómo de
probable es que la v.a. caiga en los alrededores del punto), cuya repre-
sentación gráfica es la curva de densidad.
En general a ambas funciones se les llama distribución de probabilidad.
d) Parámetros poblacionales: Por contraposición a los parámetros muestrales
(que, como la media, varianza, etc, describen las muestras) se definen de
igual modo los parámetros poblacionales (que describen las poblaciones o las
v.a.). Los paralelos a los parámetros muestrales x , s2, s y h = p̂ son los po-
blacionales μ, σ2, σ y p.
3.2 DISTRIBUCIONES DE PROBABILIDAD TEÓRICAS
La mayoría de la v.a. de la Naturaleza siguen alguna de las siguientes:
a) Distribución Normal:
i) Definición: x→N(μ; σ) si su curva de densidad tiene forma de campana
con centro de simetría en μ (media) y dispersión σ (desviación típica).
ii) Tipificación: z = (x−μ)/σ → N(0; 1) llamada Normal típica.
iii) Tabla 2: Para cada α da un zα de una N(0; 1) con P(−zα≤z≤+zα) = 1−α.
iv) Teorema Central del Límite: Si x es una v.a. cualquiera de media μ y des-
viación típica σ, y si x es la media de una muestra de tamaño n≥30, x se
distribuye aproximadamente como una Normal: x →N(μ;σ/ n ), con
σ/ n el error estándar. Si x es Normal, lo anterior se verifica exactamen-
te para cualquier valor de n.
b) Distribución Binomial:
i) Definición: Si de una población de tamaño (N) infinito, cuyos individuos ve-
rifican una cierta característica dicotómica con probabilidad p, se extrae una
muestra de tamaño n, el número x de individuos, de entre los n, que verifi-
can la característica sigue una distribución Binomial (lo que se expresa
abreviadamente diciendo que x→B(n; p)). Cuando N≠∞, x sigue aproxima-
damente una Binomial si N > 40 y n/N (fracción de muestreo) ≤ 0,10.
ii) Media y Varianza: Son np y npq respectivamente.
iii) Propiedad: Si n es suficientemente grande se aproxima a la Normal.
c) Distribución de Poisson:
i) Identificación: Son distribuciones de Poisson: i) Una Binomial con n grande
y p pequeño; ii) El número de partículas por unidad de medio (si un gran
número de partículas están repartidas al azar en una gran cantidad de me-
dio); iii) El número de sucesos que ocurren por unidad de tiempo (si estos
suceden al azar e independientemente entre sí).
ii) Media y Varianza: λ en ambos casos.
iii) Propiedad: Si λ es suficientemente grande se aproxima a la Normal.
8

RESUMEN DEL CAPÍTULO IV


INTERVALOS DE CONFIANZA Y DE ACEPTACIÓN

4.1 MUESTREO ALEATORIO


Las muestras deben tomarse al azar, de modo que todo individuo de la po-
blación tenga igual probabilidad de ser seleccionado y que la selección de uno
de ellos no condicione la selección de otro. El azar puede imitarse mediante da-
dos, bolas en urna, etc, pero lo mejor es hacerlo a través de una Tabla de Núme-
ros Aleatorios como la Tabla 5.
4.2 ESTIMACIÓN
Los parámetros poblacionales no suelen ser conocidos. Se les determina a
través de muestras aleatorias. La Teoría de la Estimación es la parte de la Infe-
rencia Estadística que sirve para determinar el valor de los parámetros pobla-
cionales en base al de los parámetros muestrales. La estimación puede ser:
a) Por punto: Si se asigna al parámetro desconocido (ω) un único valor ( ω̂ )
que será su valor aproximado y que depende de la muestra. Se dice que ω̂ es
un estimador de ω. Cuando se haya obtenido la muestra y calculado ω̂ , se
dice que ω̂ es una estimación de ω. Usualmente ω̂ es el parámetro muestral
homónimo del parámetro poblacional ω a estimar (así, μˆ = x, σˆ 2 = s 2 y p=h
ˆ ).
b) Por intervalo: Si se asigna al parámetro desconocido (ω) un intervalo de va-
lores, (a; b), entre los cuales está ω con una cierta confianza 1−α. Así, si
P(a≤ω≤b) = 1−α, (a; b) es el intervalo de confianza, α es el error del interva-
lo y 1−α la confianza del intervalo.
4.3 INTERVALO DE CONFIANZA PARA UNA MEDIA μ
a) Intervalo con v.a. Normales: Si x→N(μ; σ) y x1, x2, ..., xn es una muestra
aleatoria de ella, con media x y desviación s:
i) Si σ2 es conocida: μ ∈ x ±zασ/ n , con zα en la Tabla 2.
ii) Siσ2 es desconocida: μ ∈ x ±tαs/ n , con tα en la Tabla 6 con (n−1) g.l. y
s/ n el llamado error estándar.
b) Intervalo con v.a. no Normales: Si, en las condiciones de antes, x es no
Normal, lo que sigue vale aproximadamente:
i) Si σ2 es conocida y n≥30: μ ∈ x ±zασ/ n , con zα en la Tabla 2.
ii) Si σ2 es desconocida y n≥60: μ ∈ x ±zαs/ n , con zα en la Tabla 2.
En ambos casos, si la v.a. x es discreta (y saltando de 1 en 1), a las expre-
siones anteriores hay que añadirles el término ±1/(2n) como corrección por
continuidad.
c) Tamaño de muestra: Si x→N(μ; σ) y se desea obtener un tamaño de mues-
tra n tal que la media x de esa muestra verifique que ⏐ x −μ⏐≤d, entonces:
i) Si σ2 es conocida: n = (zασ/d)2, con zα en la Tabla 2.
ii) Si σ2 es desconocida pero se conoce un valor máximo para ella: n =
{zα×(Máx σ) / d}2, con zα en la Tabla 2.
iii) Si σ2 es desconocida pero hay una muestra piloto: n = (tαs/d)2, con tα en
la Tabla 6 con ( n ′ −l) g.l., n ′ el tamaño de la muestra piloto y s2 su va-
rianza.
iv) En otro caso: Hacer d=Kσ y n = (zα/K)2, con zα en la Tabla 2.
Los casos ii) e iii) requieren comprobar que la muestra del tamaño n
aconsejado verifica las especificaciones. Si el n resultante es grande (≥60),
INTERVALOS DE CONFIANZA Y DE ACEPTACIÓN 9

las fórmulas anteriores también valen, aproximadamente, si x es no Normal.


4.4 INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN
Si x→B(n; p):
a) Intervalo: Si x es una observación de ella, p̂ =x/n, q̂ =1− p̂ y son x, n−x>5:
z2 z2 ⎛ x ± 0,5 ⎞
(x ± 0,5) + α ± z α α + (x ± 0,5) ⎜1 - ⎟
2 4 ⎝ n ⎠
p∈
n + z α2
expresión que se puede simplificar en esta otra si, además, son x, n−x>20:
⎧ x(n - x) ⎫
x ± ⎨zα + 0,5⎬
⎧ ˆˆ
pq 1 ⎫ ⎩ n ⎭
p ∈ pˆ ± ⎨z α + ⎬=
⎩ n 2n ⎭ n
con zα siempre en la Tabla 2. La expresión primera es siempre más exacta
que la segunda.
b) Tamaño de muestra: Si se desea obtener un tamaño de muestra n tal que la
proporción p̂ en ella verifique que ⏐ p̂ −p⏐≤d, entonces:
i) Con información: Si en base a una información previa -bibliográfica o de
muestra piloto- se conoce que p∈(p1;p2), n = (zα/d)2pq, con p el valor de
dicho intervalo que esté más cercano a 0,5 y q=1−p.
ii) Sin información: n = (zα/2d)2.
con zα siempre en la Tabla 2. En el primer caso hace falta comprobar que la
muestra del tamaño n aconsejado verifica las especificaciones.
4.5 GENERALIDADES SOBRE LOS INTERVALOS DE CONFIANZA
Las siguientes observaciones son válidas para todos los intervalos de con-
fianza:
a) Los intervalos de confianza construidos son de dos colas -es decir del tipo
ω ∈ (ω1; ω2)- y con una confianza de 1−α (o con un error de α). Cuando se
desee un intervalo de confianza de una cola, obtener el extremo que interese
(ω1 o ω2) al error 2α. El intervalo será ω≤ω2 o ω≥ω1.
b) Las fórmulas de tamaño de muestra son válidas para un intervalo de confian-
za de dos colas al error α. Cuando se le desee de una cola, cambiar α por 2α.
c) En ciertos casos del tamaño de muestra se alude a que al final hay que
comprobar que la muestra del tamaño aconsejado verifica las especificacio-
nes. El modo de hacerlo pasa por determinar el intervalo de confianza ω ∈
(ω1; ω2) a partir de dicha muestra; deberá ocurrir que ⏐ ω̂ −ω1⏐≤ d y
⏐ ω̂ −ω2⏐≤ d, con ω̂ igual a x o p̂ según el caso.
4.6 INTERVALOS DE ACEPTACIÓN
Si x1, x2, ..., xn es una muestra aleatoria de una v.a. continua de parámetros
desconocidos:
a) Variables Normales: x ∈ x ± Ks, con x y s la media y desviación típica de
la muestra y K en la Tabla 9.
b) Variables cualesquiera: ordenar la muestra de menor a mayor y proceder
como se indica en la Tabla 10.
En ambos casos el intervalo obtenido contiene al menos al 100π% de la pobla-
ción con una confianza de (1−α).
10

RESUMEN DEL CAPÍTULO V

CONCEPTO GENERAL DE TEST DE HIPÓTESIS


5.1 OBJETIVO
Un test o contraste de hipótesis es un conjunto de reglas tendentes a decidir
cuál de dos hipótesis -H0 (hipótesis nula) o H1 (hipótesis alternativa)- debe
aceptarse en base al resultado obtenido en una muestra.
5.2 TIPOS
a) Test bilateral o de dos colas: Si H1 es la negación de H0.
b) Test unilateral o de una cola: Si H1 es una parte de la negación de H0.
5.3 ELECCIONES PREVIAS
Antes de realizar un test, el investigador debe decidir cuatro cosas:
a) H0: Hipótesis formada por una igualdad o afirmación positiva.
b) H1: Es la hipótesis que se quiere demostrar fuera de toda duda. Podrá ser una
parte de la negación de H0 si la otra parte implica una conclusión equivalente
a la que proporciona H0.
c) α: Es un valor tanto más pequeño cuantas más garantías se precisen de que
una decisión por H1 sea correcta. Usualmente α=5% .
d) Estadístico de contraste: Es la v.a. (dependiente de los valores de la muestra
y que comprime toda la información relevante de ella) que se va a utilizar pa-
ra realizar el test.
5.4 MÉTODO
Para tomar la decisión debe obtenerse un conjunto de valores del estadístico
de contraste (intervalo) cuya probabilidad (bajo H0) sea α. El intervalo -que será
de dos colas en los test bilaterales y de una cola (con la desigualdad en el mismo
sentido que la de H1) en los unilaterales- es llamado región de aceptación, y lo
de fuera de él región crítica o de rechazo. Obtenida la muestra, si el valor que
toma en ella el estadístico de contraste está en la región de aceptación se acepta
H0; si está fuera, se acepta H1. En el primer caso se dice que el test (o el resulta-
do) es estadísticamente no significativo; en el segundo se dice que es test (o el
resultado) es estadísticamente significativo (ambos al error α).
5.5 ERRORES
Toda decisión por H1 viene acompañada de una posibilidad de error llama-
da error α, de Tipo I o nivel de significación:
α = P(decidir H1⏐es cierta H0).
Toda decisión por H0 viene acompañada de una posibilidad de error llama-
da error β o de Tipo II:
β = P(decidir H0⏐es cierta H1).
En particular:
a) El error α está controlado, pues se fija de antemano. Por ello las decisiones
por H1 son siempre fiables.
b) El error β no está controlado de antemano y puede ser grande. Por ello las
decisiones por H0 no son de fiar.
CONCEPTO GENERAL DE TEST DE HIPÓTESIS 11

c) El error α es un único número, pero el error β depende de la alternativa que


se considere.
d) El error β disminuye conforme aumenta α, conforme H1 se aleja de H0 y con-
forme aumenta el tamaño de la muestra (si todo lo demás permanece fijo).
5.6 POTENCIA DE UN TEST
Se llama potencia θ a la capacidad que tiene un test para detectar las hipó-
tesis alternativas, es decir:
θ = 1−β = P(decidir H1⏐es cierta H1)
Como es función de la hipótesis alternativa, en el caso de tests acerca de pará-
metros su representación gráfica da la curva de potencia. Un test es tanto mejor
cuanto más potente sea.
5.7 VALOR P
a) Al mínimo error α al cual un resultado es significativo se le llama valor P o
nivel crítico P o nivel mínimo de significación.
b) P es también la probabilidad de obtener un resultado tan extraño o más que el
obtenido cuando H0 es cierta, midiendo por tanto las evidencias que hay en
contra de H0 (pero no mide cuánto de falsa es H0).
c) En un test de una cola (en el sentido favorable) P suele ser la mitad de su va-
lor en el test de dos colas.
d) Fijado un valor de α: si P ≤ α se decide H1; si P ≥ α se decide H0.
e) Las conclusiones de un test suelen expresarse así: H0 (P>tal) o H1 (P<cual).

5.8 TAMAÑO DE MUESTRA


Determinando el tamaño de muestra n de antemano las conclusiones por H0
también son fiables (las conclusiones por H1 siempre lo son). Para determinar n
hace falta especificar:
a) El error α del test;
b) La primera alternativa de interés, es decir la primera H1 (digamos ω1) que
se desea diferenciar de H0 (digamos ω0), o la mínima diferencia de interés δ
= ⏐ω1−ω0⏐. Si el test es para H0 ≡ ω=ω0, la primera alternativa de interés será
ω1 = ω0+δ para H1 ≡ ω>ω0, ω1 = ω0−δ para H1 ≡ ω<ω0 o ω1 = ω0±δ para H1 ≡
ω≠ω0.
c) El error β (o la potencia θ) para tal alternativa.
El n obtenido garantiza que el test realizado con tal muestra (al error α) da-
rá significativo el (1−β)×100% de las veces en que la verdadera hipótesis H1 se
diferencie de H0 en la cantidad δ especificada (o más veces si la diferencia es
mayor, o menos veces si es menor).
5.9 INTERVALOS DE CONFIANZA TRAS UN TEST DE HIPÓTESIS
a) Tras realizar un test de hipótesis acerca de parámetros es conveniente
dar un intervalo de confianza para el parámetro implicado, tanto si se
concluye H0 (para así matizar la posible magnitud del error de tal conclusión)
como si se concluye H1 (para así indicar cuánto de falsa es H0).
b) Cuando el test es de dos colas, el intervalo será de dos colas (al error α si se
concluyó H1; al error 2β si se concluyó H0).
c) Cuando el test es de una cola, el intervalo será de una cola (al error α y con
la desigualdad en el sentido que indica H1 si se concluyó H1; al error β y con
la desigualdad en el sentido contrario al que indica H1 si se concluyó H0).
12 CONCEPTO GENERAL DE TEST DE HIPÓTESIS

5.10 REGLAS PARA TOMAR LA DECISIÓN


a) Si n fue determinado de antemano:
i) Si P≤α se concluye H1 (la decisión es fiable);
ii) Si P>α se concluye H0 (la decisión es fiable).
b) Si n no se determinó de antemano, pero se conocen los errores α y β y la
mínima diferencia de interés δ (o la primera alternativa de interés ω1 a la
hipótesis nula ω0):
i) Si P≤α se concluye H1 (la decisión es fiable).
ii) Si P>α se concluye H0 ≡ ω=ω0 provisionalmente. El intervalo de confian-
za ω ∈ (ωI; ωS) construido en base a lo indicado en el Resumen 5.9b) y c)
permite tomar la decisión final: si la primera alternativa de interés ω1 =
ω0−δ (para H1 ≡ ω<ω0), ω1 = ω0+δ (para H1 ≡ ω>ω0) o alguna de las ω1 =
ω0±δ (para H1 ≡ ω≠ω0) pertenece al intervalo, la conclusión por H0 no es
fiable (y debe ampliarse la muestra y repetir el test); en otro caso la con-
clusión por H0 es fiable (y el problema finaliza).
c) En otro caso (Regla Automática de Decisión para el caso de α=5%):
i) Si P≤5%: Se concluye H1;
ii) Si P>15% o 20% (depende de n): Se concluye H0;
iii) En otro caso: Se concluye H0, indicando que hay indicios de significa-
ción y que conviene ampliar la muestra y repetir el test.
13

RESUMEN DEL CAPÍTULO VI

TESTS CON UNA MUESTRA


6.1 CRITERIOS GENERALES PARA TODOS LOS TESTS DE HIPÓ-
TESIS
Salvo indicación expresa de lo contrario, todos los tests de hipótesis se ba-
sarán en los siguientes criterios:
a) El criterio de test (dos colas): Calcular una cantidad experimental (Cexp) a
partir de los datos y una cantidad teórica (Cα) a partir de las tablas para un
error α dado. Entonces:
Si Cexp < Cα se decide H0 (al error α);
Si Cexp ≥ Cα se decide H1 (con error α)
b) Obtención del valor P (dos colas): Localizar en la Tabla teórica dos valores
C tales que Cα′′ < Cexp < Cα′ (con α′ < α′′ ); en tal caso α′ < P < α′′ . La deci-
sión se toma en función de P y en el modo indicado en el Resumen 5.10.
c) Test de una cola: Comprobar si lo experimental es conforme con H1 y:
i) Si NO es conforme con H1: Decidir H0 sin más.
ii) Si SÍ es conforme con H1: Actuar como en a) pero en base a 2α u obtener
el valor de P como b) y dividirlo por 2: α′ / 2 < P < α′′ / 2 .
d) Tamaño de la muestra: Las fórmulas de tamaño de muestra que se verán
sirven para determinar el mínimo tamaño de muestra preciso para que un test
de dos colas al error α dé significativo el (1−β)×100% de las veces en que la
verdadera hipótesis H1 se diferencie de H0 en la cantidad δ que se especifique
(o más veces si la diferencia es mayor, o menos veces si es menor).
En todo caso, cuando el test es de una cola hay que cambiar en la fórmula
α por 2α.
6.2 TEST DE HIPÓTESIS PARA UNA PROPORCIÓN (H0 ≡ p=p0)
Si x→B(n; p), con p desconocido:
a) Test: Si x es una observación de ella y ocurre que np0>5 y nq0>5, con q0 =
1−p0, comparar zexp = (⏐x−np0⏐−0,5) / np0 q 0 con una zα de la Tabla 2.
b) Tamaño de la muestra: Para detectar alternativas p1 -con ⏐p1−p0⏐= δ- n =
{(zα p0 q 0 +z2β p1q1 )/δ}2 con q1 = 1−p1, las z en la Tabla 2 y:
i) En tests de una cola: p1=p0−δ para H1≡p<p0; p1=p0+δ para H1≡p>p0;
ii) En tests de dos colas: p1 el valor más cercano a 0,5 de entre los p0±δ.

6.3 TEST PARA LA MEDIA DE UNA NORMAL (H0 ≡ μ=μ0)


Si x→N(μ; σ), con μ desconocida:
a) Test: Si x1, x2, ..., xn es una muestra aleatoria de x de media x y varianza s2:
i) Si σ2 es conocida: zexp = ⏐ x −μ0⏐ / (σ/ n ) vs. zα de la Tabla 2.
ii) Si σ2 es desconocida: texp =⏐ x −μ0⏐/ (s/ n ) vs. tα(n−1 g.l.) de la Tabla 6.
b) Tamaño de la muestra: Para detectar alternativas μ1 con ⏐μ1−μ0⏐=δ:
i) Siσ2 es conocida: n = {(zα+z2β)σ/δ}2 con las z en la Tabla 2.
ii) Si σ2 es desconocida, pero se sabe el máximo valor que puede tomar: n =
{(zα+z2β)×(Máx σ) / δ}2, con las z en la Tabla 2.
14 TESTS CON UNA MUESTRA

iii) Si σ2 es desconocida, pero hay una muestra piloto de tamaño n′ y va-


rianza s2: n = {(tα+t2β)s/δ}2 con las t en la Tabla 6 con ( n ′ −1) g.l.
iv) Si σ2 es desconocida y no hay muestra piloto: Haciendo δ = Kσ, n =
{(zα+z2β)/K}2, con las z de la Tabla 2.
6.4 TEST DE HIPÓTESIS PARA LA MEDIA DE UNA VARIABLE
CUALQUIERA (H0 ≡ μ=μ0)
Si x es una variable cualquiera de media μ desconocida y varianza σ2, el
Resumen 6.3 es válido aproximadamente, con las siguientes matizaciones:
a) Cuando σ2 es conocida: Si n≥30.
b) Cuando σ2 es desconocida: Si n≥60 (pero las cantidades t se miran también
en la Tabla 2).
c) Si la variable es discreta y saltando de 1 en 1: Al numerador de las canti-
dades experimentales hay que restarles 1/(2n), con lo que quedan así:
⏐ x −μ0⏐−1/(2n).
6.5 MÉTODOS DE MEDIDA
a) Un método de medida se dice que es insesgado si en promedio mide lo que
realmente hay. Será sesgado en otro caso.
b) Un método de medida se dice que es preciso si tiene poca variabilidad (va-
rianza). Será impreciso en otro caso.
c) Un método de medida se dice que es exacto si es insesgado y preciso.
6.6 TEST DE NORMALIDAD DE D’AGOSTINO (H0 ≡ “La muestra provie-
ne de una v.a. Normal”)
Si x1, x2, ..., xn es una muestra aleatoria ordenada de menor a mayor, com-
parar con una Dα de la Tabla 11 (por el modo allí indicado) la cantidad:
Dexp = {Σixi−(n+1)(Σxi)/2)} / {n n ⎡⎣ Σx i2 - (Σx i ) 2 / n ⎤⎦ }
Si el test da significativo, la comprobación de la causa de la no-Normalidad
se hace calculando Fn(xi) = {nº de observaciones menores o iguales que xi}/n,
representando en le plano las parejas (xi; Fn(xi)) y comparando la curva obtenida
con las curvas más usuales.

6.7 RECHAZO DE OBSERVACIONES EXTREMAS (H0 ≡ “La observa-


ción xS debe aceptarse”)
Si x1, x2, ..., xn es una muestra aleatoria de una v.a. x Normal y x es su
media, la observación sospechosa xS será aquella que más diste de x , es decir
xS = Máxi ⏐xi− x ⏐. Comparar texp = ⏐xS− x ⏐ / Σx i2 -(Σx i ) 2 / n con una tα de
la Tabla 13 por el modo allí se indicado.
Si el test da significativo (con valor P=P1) rechazar la observación. Con las
n−1 observaciones restantes puede intentarse rechazar otra observación (valor
P2), pero ahora el valor P para la segunda es P = P1+P2.
15

RESUMEN DEL CAPÍTULO VII

TESTS DE HOMOGENEIDAD CON DOS MUESTRAS

7.1 TESTS PARAMÉTRICOS PARA COMPARAR DOS MEDIAS DE


VARIABLES NORMALES (H0 ≡μ1=μ2)
a) Test para muestras independientes: Si las muestras -de tamaños n1 y n2,
medias x1 y x 2 y varianzas s12 y s 22 - provienen de variables de medias μ1 y
μ2 y varianzas σ12 y σ22 desconocidas, obtener Fexp = s12 / s 22 , con s12 ≥ s 22 y
compararla con F0,10 [n1−1; n2−1] de la Tabla 8; entonces:
i) Si Fexp<F0,10 (Varianzas iguales: σ1=σ2=σ) (Test de Student): Comparar
con una tα(n1+n2−2) de la Tabla 6 la cantidad:
x1 − x 2 (n − 1)s12 + (n 2 − 1)s 22
t exp = , con s 2 = 1
n + n2 n1 + n 2 − 2
s2 1
n 1n 2
ii) Si Fexp≥F0,10 (Varianzas distintas: σ1≠σ2) (Test de Welch): Comparar con
una tα(f) de la Tabla 6 la cantidad:
x − x2 s2 s2 (A + B) 2
t exp = 1 , con A= 1 , B= 2 y f =
A+B n1 n2 A2 B2
+
n1 − 1 n 2 − 1
b) Test para muestras apareadas (Test de Student): Dadas dos v.a. (x1; x2) y n
parejas de datos (x1i; x2i) de las mismas, con i=1, 2, …, n, obtener sus dife-
rencias di = x1i−x2i y la media ( d ) y desviación (sd) de las mismas. Si d →
N(μd=μ1−μ2; σd), con μi la media de xi, comparar con una tα(n−1) de la Tabla
6 la cantidad texp = ⏐ d ⏐/ s d2 / n .
c) Intervalo de confianza para la diferencia de medias: La siguiente expre-
sión es válida para los tres casos citados en a) y b), con la misma notación,
condiciones y alusiones de entonces:
μ1−μ2∈(numerador de la texp sin valor absoluto) ± tα×(denominador de la texp)
d) Tamaño de muestra: Con igual notación que en a) y b), para detectar una
diferencia ⏐μ1−μ2⏐= δ (en lo que sigue, zx en la Tabla 2; tx en la Tabla 6 con
f ′ g.l.):
i) Muestras independientes (Varianzas iguales): n1=n2=n, con:
⎛ z α + z 2β ⎞
2
⎛ t α + t 2β ⎞ 2
2
⎛ z α + z 2β ⎞
2

⎟ 2σ , n = ⎜ ⎟ 2s , n = 2 × ⎜
2
n=⎜ ⎟
⎝ δ ⎠ ⎝ δ ⎠ ⎝ K ⎠
la primera expresión cuando σ (o su máximo) es conocida, la segunda
cuando hay una muestra piloto de tamaños n ′i y varianza común s2 (con
f ′ = n1′ + n′2 − 2 ), y la tercera cuando δ = Kσ.
ii) Muestras independientes (Varianzas distintas): Si r = σ2/σ1 (o s2/s1):
16 TESTS CON DOS MUESTRAS

2 2 2
⎛ z α + z 2β ⎞ ⎛ t α + t 2β ⎞ ⎛ z α + z 2β ⎞
⎟ (r + 1)σ1 , n1 = ⎜ ⎟ (r + 1)s1 , n1 =(r+1) ⎜
2 2
n1 = ⎜ ⎟
⎝ δ ⎠ ⎝ δ ⎠ ⎝ K ⎠
la primera expresión cuando σ1 (o su máximo) es conocida, la segunda
cuando hay una muestra piloto de tamaños n ′i y varianzas si2 (con f ′ =
(1+r2) / {(1/( n1′ −1)+ r2/ ( n ′2 −1)}), la tercera cuando δ = Kσ1. Obtenido
n1, entonces n2 = rn1.
iii) Muestras apareadas:
2 2 2
⎛ z α + z 2β ⎞ 2 ⎛ t α + t 2β ⎞ 2 ⎛ z α + z 2β ⎞
n=⎜ ⎟ σd , n = ⎜ ⎟ sd , n = ⎜ ⎟
⎝ δ ⎠ ⎝ δ ⎠ ⎝ K ⎠
la primera expresión cuando σd (o su máximo) es conocido, la segunda
cuando hay una muestra piloto de tamaño n′ y varianza s d2 (con f ′ =
n′ −1), la tercera cuando ⏐μ1−μ2⏐= Kσd.
7.2 TESTS PARAMÉTRICOS PARA COMPARAR DOS MEDIAS DE
VARIABLES CUALESQUIERA (H0 ≡μ1=μ2)
Si, en las condiciones y notación del Resumen 7.1, las variables implicadas
(x o d) no son Normales, gran parte de lo indicado allí es aproximadamente vá-
lido si las muestras son grandes (mayores que 30 o 60 según lo no Normal que
sea la variable). Las reglas aconsejadas son las siguientes:
a) Test para muestras independientes: Comparar con una zα de la Tabla 2 la
cantidad zexp = x1 − x 2 / s12 / n1 + s 22 / n 2 .
b) Test para muestras apareadas: Comparar con una zα de la Tabla 2 la canti-
dad zexp = d / s d2 / n .
c) Intervalo de confianza para la diferencia de medias: Con la notación de a)
y b):
μ1−μ2∈(numerador de la zexp sin valor absoluto) ± zα×(denominador de la zexp)
d) Tamaño de muestra: Es válido lo indicado en el Resumen 7.1.d) -con las t
miradas también en la Tabla 2- si el n final predicho es superior a 30 o 60.
e) Variables discretas: En los casos a), b) y c), si la variable implicada es dis-
creta y saltando de 1 en 1, conviene efectuar una corrección por continuidad
consistente en sumar al radio del intervalo de confianza la cantidad ±c o res-
tar al numerador de la zexp la cantidad c, con:
i) Muestras independientes: c = 1/ {2 Máx (n1; n2)}.
ii) Muestras apareadas: c = 1/(2n).
7.3 TESTS NO PARAMÉTRICOS (TEST DE WILCOXON) PARA
COMPARAR DOS MUESTRAS DE VARIABLES CUALESQUIERA
(H0 ≡ La primera población no tiende a dar valores más altos o más bajos
que la segunda)
a) Asignación de rangos: En lo que sigue se hablará de “asignar rangos a una
muestra ordenada”. Por tal se entiende al proceso de, dada una muestra or-
denada de menor a mayor (x1≤x2≤ ... ≤xn), asignar el rango 1 al elemento x1,
el rango 2 al elemento x2, ..., el rango n al elemento xn. Cuando haya varios
elementos xi consecutivos iguales (empates) a cada uno de ellos se le asigna
TESTS CON DOS MUESTRAS 17

el rango promedio que tendrían si fueran distintos; por ejemplo, si xr = xr+1 =


... = xs, a cada elemento se le asigna el rango promedio (r+s)/2.
b) Muestras independientes (Test de Wilcoxon): Dadas dos muestras inde-
pendientes de tamaños n1 y n2 (n1≤n2 por convenio), unir las dos muestras en
una sola, ordenarla de menor a mayor, asignarle rangos a sus elementos y
calcular las sumas de rangos (R1 y R2) de los elementos de cada una de las
muestras. Deberá suceder que R1+R2 = (n1+n2)×(n1+n2+1)/2. Llamar por Rexp
a la suma de rangos (R1) de la muestra de menor tamaño y entonces:
i) Si n1+n2≤30: Comparar Rexp con una Rα de la Tabla 14 por el modo allí
indicado.
ii) Si n1+n2>30: Comparar zexp = {⏐Rexp−E(R)⏐−0,5} / V(R) con una zα de
la Tabla 2, en donde E(R) = (n1+n2+1)n1/2 y V(R) = (n1+n2+1)n1n2/12 si
no hay empates, en tanto que cuando haya r grupos de t1, t2, ..., tr empates
cada uno:
(n1 + n 2 ) {(n1 + n 2 )2 - 1} - ΣTi
V(R)= × n1n 2 , con Ti=(ti−1)ti(ti+1)= t 3i - ti
12(n1 + n 2 )(n1 + n 2 - 1)
c) Muestras apareadas (Test de Wilcoxon): Dadas n' parejas de datos, obtener
las n' diferencias entre ellas, rechazar las que sean cero, ordenar el resto (n)
de menor a mayor valor de sus valores absolutos, asignarles rangos y calcular
las sumas de rangos -R(+) y R(−)- de las diferencias positivas y negativas.
Deberá suceder que R(+)+R(−) = n(n+1)/2. Entonces:
i) Si n≤25: Comparar R(+) -o R(−), es lo mismo- con una Rα de la Tabla 15
por el modo allí indicado.
ii) Si n>25: Comparar la cantidad zexp = {⏐R(+)−E(R)⏐−0,5} / V(R) con
una zα de la Tabla 2, en donde E(R) = n(n+1)/4 y V(R) = n(n+1)(2n+1) /
24 cuando no hay empates, en tanto que cuando haya r grupos de t1, t2, ...,
tr empates cada uno, V(R) = {2n(n+1)(2n+1)−ΣTi}/48 con Ti = (ti−1)ti(ti+
1) = t 3i - t i .
7.4 TESTS DE COMPARACIÓN DE DOS PROPORCIONES (MUES-
TRAS INDEPENDIENTES) (H0 ≡ p1=p2)
Si xi→B(ni; pi), con i=1, 2, son independientes, y si de cada una de ellas se
obtiene una muestra en el formato de la Tabla R.7.1, entonces, llamando por
p̂i =xi/ni, p̂ =a1/N, q̂i =1− p̂i y qˆ = 1 - pˆ (en lo que sigue las cantidades zx siem-
pre en la Tabla 2, pues se utiliza la aproximación de la Binomial a la Normal):
a) Test: Si E = Mín (a1; a2)×Mín (n1; n2)/N > 5, comparar
1
pˆ 1 - pˆ 2 -
2 × Máx (n1; n 2 )
zexp = vs. zα
n +n
ˆpqˆ 1 2
n1 × n 2
b) Intervalo de confianza para la diferencia de proporciones: Si x1, x2, y1, y2
son todos mayores que 5:
⎧⎪ pˆ qˆ pˆ qˆ 1 ⎫⎪
p1 - p2 ∈ ( pˆ 1 - pˆ 2 ) ± ⎨zα 1 1 + 2 2 + ⎬
⎩⎪ n1 n2 2 × Máx (n1 ; n 2 ) ⎭⎪
c) Tamaño de muestra: Para detectar una diferencia δ = ⏐p1−p2⏐:
18 TESTS CON DOS MUESTRAS

i) Con información:
2
⎛ z 2pq + z2β p1q1 + p2q 2 ⎞
n= ⎜ α ⎟ ,
⎜ δ ⎟
⎝ ⎠
con p = (p1+p2)/2, q = 1−p, qi = 1−pi y las p1 y p2 lo más cercanas posibles
a 0,5±δ/2, compatibles con la información que se posea sobre ellas y tales
que ⏐p1− p2⏐ = δ.
ii) Sin información: Cuando no hay información previa sobre las pi, la fórmula
anterior se convierte en n = {zα+z2β 1 - δ2 }2 / 2δ2.
Tabla R.7.1 Tabla R.7.2
Presentación de datos cuando se comparan Presentación de datos cuando se comparan
dos proporciones independientes. dos proporciones apareadas.

Característica B
SÍ NO Totales SÍ NO Total
Muestras A
1 x1 y1 n1 SÍ n11 n12
2 x2 y2 n2 NO n21 n22
Totales a1 a2 N Total n

7.5 TEST DE COMPARACIÓN DE DOS PROPORCIONES (MUES-


TRAS APAREADAS) (H0 ≡ p1=p2)
Si los n individuos de una muestra son clasificados según que presenten
(SÍ) o no (NO) una determinada característica tras la aplicación de un tratamien-
to A (entendido de modo genérico: no tiene porqué ser un tratamiento médico) y
lo mismo tras la aplicación de otro tratamiento B, los datos pueden presentarse
como en la Tabla R.7.2. Si p1 y p2 son las proporciones de respuestas SÍ a cada
tratamiento (en lo que sigue zx siempre en la Tabla 2):
a) Test de McNemar: Si n12+n21 > 10, comparar
zexp = {⏐n12−n21⏐−1} / n12 + n 21 vs. zα.
b) Intervalo de confianza para la diferencia de proporciones: Si n12, n21 > 5:
⎡ ⎧⎪ (n − n 21 ) 2 ⎫⎪⎤
p1 − p 2 ∈ ⎢(n12 − n 21 ) ± ⎨z α (n12 + n 21 ) − 12 + 0,5⎬⎥ / n
⎢⎣ ⎩⎪ n ⎭⎪⎥⎦
c) Tamaño de muestra: Para detectar una diferencia ⏐p1−p2⏐= δ:
i) Con información: n = {(zα p12 + p21 +z2β p12 + p21 − δ2 ) / δ}2, en donde
p12 (o p21) es la proporción de individuos que responden SÍ y NO (o NO y
SÍ) a los tratamientos A y B respectivamente, y con p12+p21 sustituido por
lo máximo que pueda valer (sus sumandos lo más próximos posibles a
0,5 ± δ/2) compatible con la información y con que ⏐p1−p2⏐= δ.
ii) Sin información: Cuando no hay información previa sobre las pij, la fór-
mula anterior se convierte n = {(zα+z2β 1 - δ2 ) / δ}2.
7.6 GENERALIDADES VÁLIDAS PARA TODO EL RESUMEN AC-
TUAL
a) Muestras: Dos muestras son independientes cuando cada individuo de las
mismas proporciona una única observación. Son apareadas, relacionadas o
TESTS CON DOS MUESTRAS 19

dependientes cuando cada individuo proporciona dos observaciones (los da-


tos se obtienen por parejas). Cuando la asociación entre esas parejas de datos
es positiva, el muestreo apareado es preferible.
b) Test: Las comprobaciones previas a un test de una cola (H1 ≡ μ1<μ2 o H1 ≡
p1<p2 por ejemplo) son las lógicas ( x1 < x 2 o pˆ 1 < pˆ 2 ).
c) Intervalos de confianza: Todos están construidos como de dos colas. Para
una cola cambiar α por 2α y conservar sólo el extremo apropiado.
d) Tamaños de muestra: En las fórmulas para n debe entenderse que:
i) El tamaño pronosticado n alude al tamaño de cada una de las dos mues-
tras (n = n1 = n2), salvo indicación expresa de lo contrario.
ii) Aluden a un test de dos colas: Cuando sea de una cola cambiar α por 2α.
iii) La mínima diferencia importante δ alude al primer valor de ⏐μ1−μ2⏐ o de
⏐p1−p2⏐ a diferenciar del valor 0. Si el test es de una cola, lo anterior es
válido sin el valor absoluto.

7.7 COMPARACIONES MÚLTIPLES


a) Método de Bonferroni: Cuando deban hacerse K tests de hipótesis sobre los
que se desea un error global de α, el nivel de error a utilizar en cada test indi-
vidual debe ser de α/K. La Tabla 19 ayuda a obtener las cantidades teóricas
tα/K (f g.l.).
b) Método de Newman-Keuls: Al realizar K tests de hipótesis a un error global
de α, en el primer paso hacer previsiones para los K tests (error α/K con el
método de a), en el segundo paso hacer previsiones para los K' tests que die-
ron no significativos en el primero (error α/K' con el método de a)), etc.
20

RESUMEN DEL CAPÍTULO VIII


ENSAYOS CLÍNICOS
8.1 CONCEPTO DE ENSAYO CLÍNICO
Un Ensayo Clínico es un diseño experimentalmente planificado para verifi-
car la eficacia de un tratamiento en humanos a través de la comparación de los
resultados obtenidos en dos grupos de pacientes que reciben, uno el tratamiento
problema, y otro un tratamiento alternativo (nuevo o clásico) o ningún trata-
miento, ambos grupos tomados, tratados y seguidos durante igual período de
tiempo y obtenidos por la partición al azar en dos de un grupo inicial único. Se
rigen por un protocolo.
8.2 OBJETIVO
El objetivo de un EC es que los dos grupos de individuos sean comparables
en todo, excepto en el tratamiento. Las diferencias entre ambos pueden deberse:
a) Al azar de la toma de muestras: lo controla el método estadístico.
b) A diferencias existentes entre los dos grupos de individuos (distintas del tra-
tamiento y previas a su aplicación): lo controla el diseño del EC.
c) A diferencia ocurrida en la manipulación y evaluación de los grupos en el
curso de la investigación (simultáneas o posteriores a la aplicación de los tra-
tamientos): lo controla el tipo de EC.
d) A diferencias entre los efectos de los dos tratamientos: su determinación, si
existe, es el objetivo del EC.
Las causas b) y c) producen un sesgo o error sistemático de los datos.
8.3 TIPOS DE ENSAYOS CLÍNICOS
a) Grupo Control: El que no recibe tratamiento alguno.
b) Grupo Placebo: El que recibe un tratamiento ficticio (aplicado con los mis-
mos “ritos” que el tratamiento problema).
c) Técnica de simple ciego: El enfermo no conoce qué tratamiento recibe.
d) Técnica de doble ciego: Ni el enfermo ni el médico conocen qué tratamiento
se está aplicando.
e) Técnica de triple ciego: Ni el enfermo, ni el médico ni el comité que monito-
riza el EC (incluyendo al bioestadístico) conocen qué tratamiento se está
aplicando.
8.4 TIPOS DE ESTUDIOS CLÍNICOS Y CONDICIONES PARA QUE
SEAN UN ENSAYO CLÍNICO
a) Un estudio es experimental cuando el tratamiento está controlado, es decir
cuando es el investigador quien decide qué tratamiento se da a cada enfermo.
En caso contrario (tratamiento no controlado) el estudio es observacional.
Un EC debe ser controlado.
b) Un estudio es concurrente cuando los dos grupos de individuos se toman,
tratan y siguen durante el mismo período de tiempo. En otro caso el estudio
es no concurrente. El grupo Control no concurrente puede ser histórico o li-
terario. Un EC debe ser concurrente.
c) Un estudio es aleatorizado si, siendo controlado, la asignación del trata-
miento se hace al azar por un mecanismo de sorteo. En otro caso es no alea-
torizado. Se haga de un modo u otro, debe indicarse al final la ficha técnica
de las muestras utilizadas (incluyendo en ella toda la información pertinente
sobre la distribución en cada muestra de todos los posibles factores de ries-
go). Un EC debe ser aleatorizado.
ENSAYOS CLÍNICOS 21

8.5 TIPOS DE DISEÑOS


a) Diseño en muestras independientes o apareadas: Ver el Resumen 7.6a).
b) Diseño cruzado (en muestras apareadas): Si la mitad de los individuos reci-
ben los tratamientos en un orden y la otra mitad en el orden contrario.
c) Diseño estratificado: Si se aparea parcialmente en base a una estratificación
en uno o más factores de riesgo. Cada clase en que se divide un factor de
riesgo se llama nivel. Cada conjunción de niveles de los factores considera-
dos se llama estrato.
8.6 MÉTODOS DE ASIGNACIÓN ALEATORIA DEL TRATAMIENTO
La aleatorización debe realizarse mediante una Tabla de Números Aleato-
rios como la Tabla 5. Es preferible tener una lista aleatoria ya construida de
antemano o, en ensayos doble ciego, tener introducido el orden de aplicación de
los tratamientos en unos sobres opacos numerados y cerrados.
8.7 EL ENSAYO CLÍNICO IDEAL
a) Con respecto al tipo y diseño: Aleatorizado (con placebo, si uno de los tra-
tamientos es un control) a doble ciegas y con diseño cruzado. El orden de
importancia es el de escritura. Si el EC es multicéntrico conviene estratificar
por Centros.
b) Hipótesis a contratar: Casi siempre el test es de una cola (excepto si los dos
tratamientos son nuevos o los dos son clásicos).
c) Medida de la respuesta: Puede ser un suceso clínico (curación, muerte, etc)
o una medida indirecta (presión sanguínea, nivel de colesterol, etc) y ha de
ser fácil de diagnosticar u observar, estar libre de errores de medida, poder
ser observada con independencia del tratamiento, tener relevancia clínica, ser
elegida antes de comenzar la recolección de los datos y ser lo más informati-
va posible.
d) Tamaño de muestra: Ahora es imprescindible determinarlo para evitar re-
chazar tratamientos que pudieran ser efectivos. Depende del diseño, del tipo
de respuesta, de la hipótesis a probar, de la razón de asignación, de si el test
es de una o de dos colas, del error α, del error β, de la mínima diferencia δ a
detectar, del conocimiento acerca de ciertos parámetros poblacionales y de
que haya una o más medidas de la respuesta.
8.8 LA ÉTICA EN LOS ENSAYOS CLÍNICOS
Son éticamente admisibles por ser el único mecanismo científico válido pa-
ra comprobar la eficacia de un tratamiento. Requieren del consentimiento in-
formado del paciente.
8.9 LOS ENSAYOS CLÍNICOS EN ESPAÑA
La legislación española (B.O.E. del 7-2-04) entiende por tal a toda investi-
gación efectuada en seres humanos con uno o varios medicamentos a fin de de-
terminar la seguridad y/o eficacia de los mismos.
22

RESUMEN DEL CAPÍTULO IX

EL TEST χ 2 Y SUS APLICACIONES

9.1 TEST DE HOMOGENEIDAD DE VARIAS MUESTRAS CUALITA-


TIVAS (H0 ≡ La proporción de individuos que caen en una determinada
clase es la misma para todas las poblaciones y esto vale para todas las cla-
ses ≡ Todas las muestras provienen de igual población).
Dadas r muestras cuyos individuos se clasifican en s clases como en la Ta-
bla R.9.1 (muestras = filas; clases = columnas), se define:
Oij = Nº de individuos de la muestra i que caen en la clase j;
Fi = Total de la fila i = nº de individuos de la muestra i = ΣjOij;
Cj = Total de la columna j = nº de individuos de la clase j =ΣiOij;
T = Gran total = nº total de individuos considerados = ΣFi = ΣCj =ΣΣOij.
a) Test en Tablas r×s distintas de 2×2: Calcular las cantidades esperadas Eij =
Fi×Cj/T (cuyos totales de fila y de columna han de ser las Fi y Cj de antes) y
entonces, si ninguna Eij es inferior a 1 y no mas del 20% de ellas son inferio-
res o iguales que 5, comparar (la segunda expresión de las dos que siguen es
la más apropiada para el cálculo)
(O − E ij )
2
Oij2
χ ∑ ∑E − T con χα2 {g.l.=(r−1)×(s−l)} de Tabla 7.
2 ij
exp = =
i, j E ij i, j ij

Tabla R.9.1
Tabla de contingencia r×s
Columnas
Oij Totales
1 2 ··· s
1 O11 O12 ··· O1s F1
Filas 2 O21 O22 ··· O2s F2
··· ··· ··· ··· ··· ···
r Or1 Or2 ··· Ors Fr
Totales C1 C2 ··· Cs T

b) Test en Tablas 2×2: Si Mín (F1 ; F2)×Mín (C1; C2) / T > 5, comparar
2
⎛ Mín (F1; F2 ) ⎞
⎜ O11O 22 − O12O 21 − ⎟
= ⎝ ⎠ × T con χ 2 {g.l.=l} de Tabla 7.
2
χexp
2
α
F1F2C1C2
Si la cantidad Mín (F1; F2)/2 se cambia por T/2 se obtiene la clásica
χ 2Y (chi-cuadrado de Yates).
EL TEST χ2 Y SUS APLICACIONES 23

9.2 TEST DE INDEPENDENCIA PARA VARIABLES CUALITATIVAS:


TABLAS DE CONTINGENCIA (H0 ≡ Los caracteres A y B son indepen-
dientes).
Si en los T individuos de una muestra aleatoria se determinan dos caracteres
cualitativos A y B, el primero dividido en r clases y el segundo en s clases, y se
les clasifica en base a ello en una tabla como la Tabla R.9.1 -cambiando “filas”
y “columnas” por “clases del carácter A” y “clases del carácter B” respecti-
vamente- proceder como en el Resumen 9.1, salvo que en las Tablas 2×2:
(O O 22 − O12O 21 − 0,5 )
2

χ ×T
2 11
exp =
F1F2C1C 2

9.3 PARTICIÓN DE TABLAS


Cuando se concluye H1, la búsqueda de las causas de la significación se
efectúa mediante la partición de la tabla inicial en otras subtablas que se obtie-
nen colapsando (juntando) las filas o columnas apropiadas:
a) Sugerencias sobre los colapsos: Se obtienen a través de los porcentajes de
observaciones por filas o por columnas y, sobre todo, a través de la contribu-
ción de cada casilla a la χexp
2
total: residuales (Oij−Eij)2 / Eij.
b) Caso de Tablas 2×2: En las particiones no se realiza c.p.c., de modo que el
valor de χexp
2
en una tabla 2×2 (sea cual sea su origen) es:
( O11O22 − O12O21 )
2

N χ 2
exp = ×T
F1F2C1C 2
c) Comprobación de la partición: La suma de los g.l. de las tablas partidas de-
be ser los g.l. de la tabla original. De igual modo con las χexp2
, pero la igual-
dad es ahora solo aproximada.
d) Significación de las subtablas: Si la partición se hizo “a priori” (no por la
regla de a)), las significaciones se obtienen del modo usual. Si la partición se
hizo “a posteriori” (por la regla de a)), se declarará significativo un resultado
con P<1% si a) lo previó como significativo; se declarará como no significa-
tivo un resultado con P>10% si a) lo previó como tal.
9.4 TIPOS DE MUESTREO EN TABLAS 2×2, TEST APROPIADO Y
MEDIDAS DE ASOCIACIÓN
Con frecuencia, los dos caracteres dicotómicos estudiados (E y FR) suelen
aludir a la presencia o no de una enfermedad o efecto indeseado (E y E ) y a la
presencia o no de un factor de riesgo (FR y FR ). En lo que sigue se supone que
la enfermedad se ubica en filas, obteniendo así unos datos como los de la Tabla
R.9.2.
Tabla R.9.2
Formato estándar para los estudios epidemiológicos.
Factor de riesgo SÍ ≡ FR NO ≡ FR Totales
Enfermedad
SÍ ≡ E O11 O12 F1
NO ≡ E O21 O22 F2
Totales C1 C2 T

a) Tipos de muestreo: Para estudiar la asociación entre E y FR los tipos de


24 EL TEST χ2 Y SUS APLICACIONES

muestreo pueden ser dos, lo que da lugar a tres tipos de estudio:


i) Muestreo de Tipo I (Estudio Transversal): Tomar T individuos al azar y
clasificarlos en base a E y a FR.
ii) Muestreo de Tipo II (Preferible al de Tipo I si las Fi o las Cj se planifican
como iguales):
• Estudio Prospectivo, Longitudinal o de Seguimiento: Tomar C1 y C2 in-
dividuos al azar y clasificarlos en base a E.
• Estudio Retrospectivo o de Caso-Control: Tomar F1 y F2 individuos al
azar y clasificarlos en base a FR.
Desde un punto de vista estadístico el diseño óptimo consiste en tomar
muestras de igual tamaño de los niveles de la característica más infrecuente
(en general la enfermedad: estudio retrospectivo).
b) Test apropiado: Si Mín (F1 ; F2)×Mín (C1; C2) / T > 5, comparar
(O O 22 − O12O 21 − c )
2

χ × T con χα2 {g.l.=l} de Tabla 7


2 11
exp =
F1F2C1C2
con c = 0,5 en los transversales, c = Mín (C1; C2)/2 en los prospectivos y c =
Mín (F1; F2) / 2 en los retrospectivos. En todos los casos c = T/2 da la clásica
c.p.c. de Yates.
c) Medidas de asociación: Una medida de asociación es un número que indica
el grado de dependencia existente entre los dos caracteres E y FR estudiados,
pero la medida a usar depende del fin perseguido y del muestreo utilizado. El
Cuadro R.9.1 las resume (pero él es aplicable solo a datos en el formato de la
Tabla R.9.2).
9.5 ASIGNACIÓN DE VALORES CUANTITATIVOS ARBITRARIOS
a) Los métodos basados en datos cuantitativos son preferibles a los basados en
datos cualitativos (como el método χ2).
b) Si una característica cualitativa es ordinal es posible y preferible asignarle
valores numéricos a sus clases y analizar los nuevos datos por la técnica
apropiada.
c) La asignación puede hacerse si el fenómeno estudiado hubiera podido medir-
se en una escala continua de haber dispuesto de los instrumentos adecuados,
y si las clases obtenidas pueden considerarse como un agrupamiento de tal
escala por medio de otra más burda formada por sus valores redondeados.
9.7 EVALUACIÓN DE UN MÉTODO DE DIAGNÓSTICO
Si en la Tabla R.9.2 se entiende que FR alude a que un test diagnóstico ha
dado positivo (suceso T), el objetivo entonces es evaluar la bondad del test diag-
nóstico, lo que puede hacerse de dos modos (aunque es preferible el segundo).
En lo que sigue se entiende que:
p = Prevalencia = % de enfermos en la población estudiada
a) Sin considerar la prevalencia: Se define
SN = Sensibilidad = % de enfermos diagnosticados positivamente;
FN = Falsos Negativos = % de enfermos diagnosticados negativamente;
EP = Especificidad = % de sanos diagnosticados negativamente;
FP = Falsos Positivos = % de sanos diagnosticados positivamente;
en donde SN+FN = EP+FP = 100.
EL TEST χ2 Y SUS APLICACIONES 25

Para estimar tales valores se toman F1 enfermos y F2 sanos y se anota en


cuántos de ellos el test da positivo (O11 y O21 respectivamente), expresando
los datos en una tabla como la Tabla R.9.2 -cambiando FR por T- y dando
lugar así a un estudio retrospectivo. Entonces:

O11 O O O
SN = , FN = 12 , E P = 22 , FP = 21
F1 F1 F2 F2
cantidades a las que es posible aplicarle los resultados del Resumen 4.4.a).
Las conclusiones son:
i) Si EP es alta, el test es útil para confirmar la enfermedad (conviene apli-
carlo a individuos sospechosos de poseerla);
ii) Si SN es alta, el test es útil para descartar la enfermedad (conviene apli-
carlo como procedimiento de rutina para el diagnóstico precoz de la en-
fermedad).
b) Considerando la prevalencia: Los porcentajes de aciertos en los diagnósti-
cos positivos (Valor Predictivo Positivo) o negativos (Valor Predictivo Ne-
gativo) serán:
VPP = % de enfermos entre los diagnosticados positivamente
VPN = % de sanos entre los diagnosticados negativamente
Si los datos de la Tabla R.9.2 provienen de un estudio retrospectivo, ta-
les valores se pueden estimar por:
p × SΝ (1 - p) × EP
VPP = , VPN =
p × SN + (1 - p) × (1 - EP) (1 - p) × EP + p × (1 - SN)
con SΝ y EP como en a), cantidad que depende de la prevalencia que se
asuma.
Cuando los datos de la Tabla R.9.2 provienen de un estudio transversal,
entonces:
F O O
p̂ = 1 , VPP = 11 , VPN = 22
T C1 C2
También, y a efectos de evaluar la ganancia obtenida en el diagnóstico
por el hecho de utilizar el test, se definen:
GP = Ganancia del Positivo = VPP − p
GN = Ganancia del Negativo = VPN − (1−p)
Las conclusiones (para la prevalencia asumida) son:
i) Si VPP es alto, el test es útil para confirmar la enfermedad;
ii) Si VPN es alto, el test es útil para descartar la enfermedad.
26 EL TEST χ2 Y SUS APLICACIONES
Cuadro R.9.1
Medidas de asociación epidemiológicas en tablas 2×2

(Asociación−)
Medida Valores
Independencia Caso Estimación Estudios en Intervalo de Confianza (aproximado)
posibles
(Asociación+)
que es válida (zα en la TABLA 2)

R̂ = ( O11C2 ) / ( O12 C1 )
⎧⎪ 1 1 1 1 ⎫⎪
0≤R<1 General Transversales
R ∈ Rˆ ′ × exp ⎨± z α + − − ⎬
(O + 0,5)(C 2 +1)
R̂ ′ = 11 Prospectivos ⎪⎩ O11 + 0,5 O12 + 0,5 C1 +1 C 2 +1 ⎭⎪
R R=1 (O12 + 0,5)(C1 +1)

1<R<∞ Si ⎧⎪
ˆ ′ ×exp ⎨± z 1 1 1 1 ⎫⎪
ˆ o O′
R̂ > O ˆ Retrospectivos R ∈ O α + + + ⎬
P(E)<0,1 ⎪⎩ O11 + 0,5 O12 + 0,5 O 21 + 0,5 O 22 + 0,5 ⎭⎪
Riesgo relativo (de FR para E): La probabilidad de enfermar es R veces mayor en los individuos con el FR que en los sin el FR.

0≤O<1 General Ô = ( O11O 22 ) / ( O12O 21 )


Transversales ⎪⎧ 1 1 1 1 ⎪⎫
(O11 + 0,5)(O 22 + 0,5) Prospectivos O ∈ O ′ × exp ⎨± z α O + 0,5 + O + 0,5 + O + 0,5 + O + 0,5 ⎬
O O=1 Si alguna ˆ
1<O≤∞ Oij vale Ô′ = Retrospectivos ⎪⎩ 11 12 21 22 ⎭⎪
cero (O12 + 0,5)(O 21 + 0,5)
Razón del producto cruzado: La fracción de individuos que enferman frente a los que no, es O veces mayor en los que individuos con el FR que en los sin el FR.

O11O 22 − O12 O 21 ⎧⎪ O 21 + Rˆ FR (O11 + O 22) ⎪⎫


-
P(FR)
≤RFR<0 General R̂ FR = Transversales R FR ∈1 − (1 − Rˆ FR ) × exp ⎨± zα ⎬
F1C2
1 - P(FR) ⎩⎪ TO12 ⎭⎪
RFR
RFR = 0
Si O11O22 - O12 O21 ⎧⎪ 1 1 T ⎫⎪
0<RFR≤+1 P(E)<0,1
R̂ FR > Retrospectivos R FR ∈1 − (1 − Rˆ FR ) × exp ⎨± zα + - ⎬
⎩⎪ ⎭⎪
O22 F1 O12 O 22 F1F2
Riesgo atribuible (al FR): Una fracción RFR de los enfermos podrían no haberlo sido si ninguno hubiera estado sometido al factor de riesgo.
27

RESUMEN DEL CAPÍTULO X


REGRESIÓN LINEAL
10.1 CONCEPTO DE REGRESIÓN
a) Objetivo: Dadas dos v.a. cuantitativas x e y medidas en los mismos indivi-
duos, la técnica de regresión persigue tres objetivos:
i) Estudiar si ambas variables están relacionadas o son independientes.
ii) Estudiar el tipo de relación que las liga (si existe).
iii) Predecir los valores de una de ellas a través de los de la otra.
b) Relaciones deterministas y aleatorias: En las Ciencias Exactas la relación
entre dos variables puede ser exacta: conocido el valor de una de ellas se co-
noce exactamente el de la otra. En Estadística la relación es aleatoria: cono-
cido el valor de una variable se conoce el de la otra sólo de un modo
aproximado. Ello sucede en las Ciencias de la Salud por dos motivos:
i) Por la variabilidad biológica de los objetos muestrales.
ii) Por la variabilidad aleatoria de los métodos de medida.
c) Sobre la existencia de regresión: Dadas n parejas de valores (xi; yi) obteni-
dos de una muestra, su representación por puntos en el plano cartesiano da
lugar a una nube de puntos. Si a ella se ajusta alguna curva, se dice que exis-
te regresión, a la curva se le llama línea de regresión y a la función que la
representa se le llama función de regresión. A la variable ubicada en el eje
horizontal (usualmente x) se le llama variable independiente; a la ubicada en
el eje vertical (usualmente y) se le llama variable dependiente.
d) Regresión lineal simple: Aquí solo nos ocupamos del caso en que contamos
con solo dos variables, x e y, relacionadas entre sí mediante una línea recta.
e) Asociación y causalidad: La demostración estadística de que dos variables
están asociadas no constituye una prueba de que una de ellas sea causa de la
otra. Puede ocurrir:
i) Que x sea realmente causa de y.
ii) Que ambas variables se influyan mutuamente.
iii) Que ambas variables dependan de una causa común (una tercera variable
z no contemplada).

10.2 MODELO Y MUESTREO EN REGRESIÓN LINEAL SIMPLE


a) Modelo: Para cada valor de x, la variable y sigue una distribución Normal de
media α+βx y de varianza σ2 (independiente de x). A yPOB = E(y⏐x) = α+βx
se le llama recta de regresión poblacional, a α altura en el origen poblacio-
nal (altura en que corta la recta al eje vertical, es decir cuando x=0) y a β
pendiente poblacional (lo que aumenta y cuando x aumenta en una unidad).
b) Tipos de muestreo: La consecución de las n parejas (xi; yi) pueden hacerse
bajo dos tipos de muestreo:
i) Muestreo de Tipo I: Tomar n individuos al azar y anotar sus valores x e y.
ii) Muestreo de Tipo II: Tomar n valores de x elegidos de antemano y obte-
ner un valor de y al azar en cada uno de tales x.
10.3 ESTIMACIÓN DE LOS PARÁMETROS
Si (xi; yi), con i = 1, 2, ..., n, son n parejas de valores de (x; y) obtenidos por
alguno de los tipos de muestreo anteriores:
a) Cálculos intermedios: En lo que sigue la segunda expresión es la definición,
28 REGRESIÓN LINEAL

la tercera su método de cálculo abreviado y la primera su símbolo corto para


referencias:
(xx) = Σ(xi− x )2 = Σ x i2 − (Σxi)2/n
(yy) = Σ(yi− y )2 = Σ yi2 − (Σyi)2/n
(xy) = Σ(xi− x )(yi− y ) = Σxiyi − (Σxi)(Σyi)/n
b) Estimación de la recta de regresión (yPOB=α+βx): Se determina bajo el
principio de que Σ(yi−a−bxi)2 sea lo más pequeño posible -principio de los
mínimos cuadrados- obteniendo así la recta de regresión muestral (o esti-
mada) ŷ = a+bx, con ŷ la predicción, a la altura en el origen muestral (o
estimada), b la pendiente muestral (o estimada) y:
b = (xy) / (xx), a = y − bx
c) Estimación de la varianza de regresión (σ2): Mide la variabilidad de los
puntos alrededor de la recta de regresión:
1 1 ⎧ ( xy )2 ⎫
s2 =
n−2
∑ (yi − yˆ i ) 2 =
n−2⎩
⎨(yy) −
( xx) ⎭

d) Comprobación del modelo: Sean yi− ŷi los residuos o residuales y sea la
nube de puntos de residuales que se obtiene al representar yi− ŷi (en el eje
vertical) contra ŷi (en el eje horizontal):
i) Normalidad: No se verifica si la variable y es discreta o si el test de
D’Agostino es significativo al aplicarlo a cada conjunto de observacio-
nes y en cada x (lo que requiere de observaciones repetidas).
ii) Linealidad: La nube de puntos ha de mostrar una tendencia exclusivamen-
te lineal. La de residuales ha de ser paralela al eje horizontal. Cuando es-
to no es así, a veces un cambio de escala apropiado puede convertir la
curva en recta (linealización): cambiar x por log x, 1/x, x , etc y/o simi-
larmente con y.
iii) Homogeneidad de varianzas: La nube de puntos ha de ser ovalada, sin
mostrar tendencia a ser más ancha o estrecha con el aumento de x. La de
residuales igual con el aumento de ŷ .
e) ¿Quién sobre quién?: Los parámetros anteriores se entiende que son ay·x, by·x
y s2y i x por haber sido obtenidos de la regresión de “y sobre x”. Los resultados
no son los mismos (ax·y, bx·y y s2x i y ) si en el eje horizontal se pone a la varia-
ble y y en el vertical a x (regresión de “x sobre y”). Se hace la regresión de “y
sobre x” cuando el objetivo es predecir y a partir de x. El muestreo de Tipo I
permite hacer ambas; el de Tipo II sólo la de “y sobre x”.
f) Precauciones y consejos:
i) No pueden hacerse inferencias fuera del rango de muestreo de x (el inter-
valo de valores entre el menor y el mayor valor de x obtenidos).
ii) El muestreo de Tipo II permite elegir el rango de interés de las x y, to-
mándolo amplio, hace más fiables las conclusiones.
10.4 INFERENCIAS CON RECTAS DE REGRESIÓN
En lo que sigue, salvo indicación expresa de lo contrario, la cantidad tα alu-
dida implícita (en el test) o explícitamente (en los intervalos) se busca en la Ta-
bla 6 con (n−2) g.1.:
a) Sobre la pendiente:
i) Intervalo de confianza: β∈ b±tαs/ (xx);
REGRESIÓN LINEAL 29

ii) Tets (H0 ≡ β=β0): texp = ⏐b−β0⏐× (xx) /s;


iii) Test de independencia (H0 ≡ β=0): texp = ⏐b⏐ (xx) /s.
b) Sobre la altura:
i) Intervalo: α ∈ a±tα s2 {1/ n +x 2 /(xx) } ;
ii) Test (H0 ≡ α=α0): texp = ⏐a−α0⏐/ s2 {1/ n +x 2 /(xx) } .
c) Sobre la media de “y” en un valor dado x0 de x:
i) Intervalo: α + β x 0 ∈ a+bx 0 ± t α s2 {1/ n +( x 0 − x)2 /(xx) }
Para muchos intervalos, tα = {2Fα[2; n−2]}0,5 con Fα en la Tabla 8;
ii) Test (H0 ≡ α+βx0=h0): texp = ⏐a+bx0−h0⏐/ s2 {1/ n +( x 0 − x)2 /(xx) } .
d) Sobre valores pronosticados:
i) Una predicción de “y” en x0: y0∈ (a+bx0)±tα s2 {1 + 1/ n +( x 0 − x)2 /(xx) }
Cambiando el 1 del interior de la raíz por l/m se obtiene un intervalo para
la media y0 de m observaciones de y en igual x0.
ii) Muchas predicciones (intervalo de aceptación) de “y” en diversos “x”:
Al error α y conteniendo al menos a un 100π% de las observaciones
⎧⎪ ⎡ 1 (x − x) 2 ⎤ n−2 ⎫⎪
y ∈ (a + bx) ± s ⎨ 2Fα/2 (2; n − 2) ⎢ + ⎥ + z1−π 2 ⎬
⎪⎩ ⎣n (xx) ⎦ χ1−α / 2 (n − 2) ⎪⎭
con F, z y χ2 en Tablas 8, 2 y 7 respectivamente. Cambiando z1−π por z1−π
/ m se obtiene el intervalo para la media de m valores de y en igual x.
iii) Una predicción del x0 que dio un cierto y0 (calibración lineal):
b(y0 − y) t s ⎛ 1 ⎞ (y − y) 2 t 2 s2
x 0 ∈ x+ ± α c ⎜1 + ⎟ + 0 , con c = b 2 − α
c c ⎝ n⎠ (xx) (xx)
Cambiando y0 por y0 y el 1 por l/m, se obtiene un intervalo para el x0 que
produjo la media y0 de m observaciones.
iv) Muchas predicciones de los valores de “x” que ocasionaron los valores
de “y” (calibración lineal): Al error α, conteniendo al menos a un
100π% de las observaciones, y si b≥0 (F, z y χ2 como en ii)):
b(y − y ¡ A) s 2 × Fα/2 (2; n − 2) c (y − y ¡ A) 2
x ∈ x+ ± + con
c c n (xx)
2 × Fα/2 (2; n − 2) × s 2 n−2
c = b2 − , A=z1−π s 2
(xx) χ1−α / 2 (n − 2)
Cuando b≤0, cambiar ¡A por ± A . Si se disponen de medias y′ de m
observaciones en igual x, cambiar y por y′ y z1−π por z1−π/ m .
e) Rechazo de observaciones extremas (H0 ≡ La observación xS debe aceptar-
se): De entre todas las parejas (xi; yi), la sospechosa (xS; yS) es aquella que
hace máxima la residual ⏐yi− ŷi ⏐, aunque generalmente se la puede localizar
a través de la nube de puntos. Si dS=⏐yS−a−bxS⏐, comparar con una tα(f=
n−3; K=n) de la Tabla 16 la cantidad
t exp = (n − 3)dS2 / ⎡⎣(n − 2)s 2 {1 −1/n − (x S − x) 2 /(xx)} − dS2 ⎤⎦
30

RESUMEN DEL CAPÍTULO XI

CORRELACIÓN

11.1 COEFICIENTE DE CORRELACIÓN LINEAL SIMPLE (O DE


PEARSON)
a) Objetivo: Dadas dos v.a. cuantitativas x e y, se trata de medir la fuerza con
que ambas están ligadas a través de los resultados (xi; yi), con i =1, 2,..., n,
obtenidos en n individuos.
b) Modelo, tipos de muestreo, cálculos intermedios y comprobación del
modelo: Como en Resúmenes 10.2.a) y b) y 10.3.a y d).
c) Estimación: La fuerza con que las dos variables están ligadas se mide me-
diante el coeficiente de correlación poblacional ρ, el cual se estima (bajo el
muestreo I) por el coeficiente de correlación muestral r = (xy)/ (xx)(yy).
d) Propiedades: Lo que sigue es válido también para r:
i) ρ es un número adimensional que no depende de las unidades de medida
ni del orden en que se enuncien las variables (ρxy=ρyx).
ii) ρ2 es la proporción de la variabilidad total de y que está explicada por su
regresión lineal en x.
iii) −1 ≤ ρ ≤ +1.
iv) El valor absoluto ⏐ρ⏐ mide la fuerza de relación entre x e y (a más ⏐ρ⏐
más fuerza), en tanto que el signo de ρ indica el tipo de la misma: positi-
va si ρ>0 (a más x más y), negativa si ρ<0 (a más x menos y) o nula (es
decir, x e y son independientes) si ρ=0.
v) Cuanto más aplastada es una nube de puntos y cuanto mayor sea la pen-
diente de la recta de regresión, más grande es ⏐ρ⏐ (cuando es paralela a
uno de los ejes entonces ρ=0).
e) Test de independencia: H0 ≡ ρ=0 (independientes) vs. H1 ≡ ρ≠0 (dependien-
tes): Comparar (test idéntico al del Resumen 12.4.a.iii)):
(n − 2)rxy2
t exp = vs. tα(n−2 g.l.) de la Tabla 6
1 − rxy2

11.2 COEFICIENTE DE CORRELACIÓN PARCIAL


a) Objetivo: La correlación ρxy entre dos variables x e y puede ser debida a su
común relación con una tercera variable z no contemplada hasta ahora. El co-
eficiente de correlación parcial ρxy·z mide el grado de asociación entre x e y
que no es un reflejo de la asociación de ambas con z (es decir, el grado de
asociación entre x e y para valores constantes de z).
b) Estimación: Obtener n ternas de valores (xi; yi; zi) en cada uno de los n indi-
viduos de una muestra, obtener los coeficientes de correlación lineal rxy, rxz y
ryz y entonces:
rxy − rxz ryz
ρˆ xy i z = rxy i z =
(1 − rxz2 )(1 − ryz2 )
CORRELACIÓN 31

c) Test de independencia: Comparar


(n − 3)rxy2 i z
t exp = vs. t α (n − 3) de la Tabla 6
1 − rxy2 i z

11.3 COEFICIENTE DE CORRELACIÓN DE SPEARMAN


a) Objetivo: Medir la asociación entre dos variables cuantitativas cualesquiera
(verifique o no el modelo de regresión lineal). Es un método no paramétrico.
b) Condiciones: La asociación ha de ser monotónica (una variable siempre cre-
ce o siempre decrece con la otra).
c) Estimación: La fuerza de la asociación la mide el coeficiente de correlación
poblacional (de Spearman) ρS, el cual se estima (bajo el muestreo I) por el
coeficiente de correlación muestral rS determinado a través de los siguientes
pasos: (1) Obtener una muestra de n parejas de valores (xi; yi); (2) Ordenar de
menor a mayor los valores de x y asignarles rangos Ri como en el Resumen
7.3.a); (3) Proceder igual con las y asignando rangos R ′i ; (4) Anotar las pare-
jas (Ri; R ′i ) correspondientes a las (xi; yi) originales, comprobando que ΣRi =
Σ R ′i = n(n+1)/2; (5) Obtener el coeficiente de correlación lineal simple para
las n parejas de rangos, es decir, y con igual convenio que en el Resumen
10.3.a), rS = (RR ′) / (RR)(R ′R ′). Cuando no hay empates, la fórmula se
puede simplificar en la siguiente:
∑ ( R i − R ′i )
2

rS = 1 − 6 ×
(n − 1)n(n+1)
d) Propiedades: Como en el Resumen 11.1.d), pero relativas a los rangos.
e) Test de independencia: (H0 ≡ ρS=0 vs. H1 ≡ ρS≠0): Con cualquier muestreo:
i) Si n≤30: Comparar ⏐rS⏐ con rα de la Tabla 22 en el modo allí indicado.
ii) Si n>30: Comparar zexp = ⏐rS⏐× n − 1 con una zα de la Tabla 2.

11.4 TEST DE INDEPENDENCIA CON VARIABLES MIXTAS (H0 ≡ Los


valores que toma un individuo con respecto a una variable cuantitativa x
son independientes de la clase a que este pertenece respecto de una cuali-
dad C).
Sea x una variable cuantitativa cualquiera y C una cualidad con s clases. Si
se toma una muestra de n individuos se obtendrán n parejas de valores (x; C) a
partir de las cuales hay que contrastar H0. El método para ello depende del caso:
a) Si C es una cualidad ordinal: Convertir la cualidad en cantidad asignándole
a sus clases valores cuantitativos arbitrarios y por el método del Resumen 9.6,
y aplicar a las parejas (xi; yi) así obtenidas el Resumen 11.1 o el 11.3.
b) Si C es una cualidad no ordinal:
i) Si r=2: Comparar los valores medios de x (μ1 y μ2) en las dos clases de C
por el procedimiento de los Resúmenes 7.1.a), 7.2.a) o 7.3.b) según pro-
ceda.
ii) Si r>2: Comparar los valores medios de x (μ1, μ2, ..., μs) en las s clases de
C por el procedimiento del análisis de la varianza (no contemplado en es-
tos Resúmenes). Alternativamente, convertir la cantidad x en cualidad
(definiendo r intervalos de clase arbitrarios), formar la tabla contingencia
r×s que ello produce y analizarla por la técnica de χ2 del Resumen 9.2
(aunque ello conlleva una gran pérdida de potencia).

Vous aimerez peut-être aussi