Académique Documents
Professionnel Documents
Culture Documents
DC =
2
Sección 3
BIOESTADISTICA
AUTORES
BIOESTADISTICA
BIBLIOGRAFIA
INDICE DE MATERIAS
Capítulo I
ESTADISTICA
DESCRIPTIVA Y
ESTIMACION
Indice
Estadística y metodología científica Distribuciones de frecuencia más utilizadas en me-
Concepto y tipos de estadística dicina
Conceptos estadísticos básicos Estimación de parámetros
Estadística descriptiva
125
ESTADISTICA DESCRIPTIVA Y ESTIMACION
man) e infinitas (no podemos conocer cuántos elementos la dad/desigualdad y menor/mayor. En muchas ocasiones las va-
forman). riables ordinales se representan con números, pero no por ello
deben considerarse variables cuantitativas.
Muestra
Es un subconjunto de elementos de la población que quere- Variables cuantitativas
mos estudiar. Se considera que una muestra es representativa Sus valores pueden medirse numéricamente y pueden cuan-
de una población cuando el método para elegir sus elementos tificarse. Con ellas pueden realizarse operaciones de igual-
es aleatorio (realizado al azar), es decir, cuando la probabilidad dad/desigualdad, cuantificando diferencias. Dentro de ellas
que tienen todos los elementos de la población de estar en la podemos diferenciar las continuas (tensión arterial, colestero-
muestra es la misma. lemia), que pueden adoptar todos los valores del intervalo de
Los procedimientos para obtener una muestra representativa medida (hasta la capacidad del instrumento de medición utili-
de una población se denominan técnicas de muestreo. Cuando
zado), y las discretas que únicamente pueden adoptar algunos
se estudian caracteres numéricos, se consideran muestras
valores (número de hijos, número de ingresos hospitalarios).
grandes aquellas que incluyen 30 o más individuos. Cuando se
estudian caracteres cualitativos, se consideran grandes mues- Existen otros términos que se utilizan con frecuencia al refe-
tras aquellas en las que la proporción del carácter menos fre- rirse a las variables. Variable dependiente/independiente, ha-
cuente multiplicado por el número de individuos es ≥ 5. ce referencia principalmente a modelos en los que se valora la
influencia de una o varias variables (independientes) sobre
Relación entre muestra y población otra (dependiente), sugiriendo una relación causal. También
con mucha frecuencia, especialmente en diseños experimenta-
La población en la que se quiere estudiar el fenómeno reci- les, se utiliza la terminología variable controlada/aleatoria, en
be el nombre de población diana (población objeto, población
referencia a aquella variable cuyo valor depende del investiga-
objetivo, población de referencia, población blanco). Sin em-
dor (controlada) y aquella que no (aleatoria).
bargo, no todos los pacientes de la población diana son accesi-
bles, ya que existen factores que limitan la posibilidad de que Según el número de variables que se incluyan simultánea-
se incluyan en el estudio. El conjunto de elementos que real- mente en el análisis, podemos diferenciar técnicas univarian-
mente puede ser incluido recibe el nombre de población infe- tes, técnicas bivariantes y técnicas multivariantes.
rencial (población marco, población de muestreo, población ac-
cesible, población de estudio). Sobre esta población es sobre Estadísticos y parámetros
la que se realiza el muestreo, y lógicamente la muestra es re- Un parámetro es un valor que resume los valores de una de-
presentativa de la población inferencial, no siéndolo siempre terminada variable en una población. Un estadístico expresa
de la población diana. En otras palabras, la extrapolación de los valores de una variable en una muestra. Los estadísticos
resultados a la población inferencial es directa, mientras que suelen utilizarse como estimadores de los parámetros, pero ló-
la extrapolación a la población diana no es directa y debe justi- gicamente para que la estimación sea buena, las muestras uti-
ficarse que los factores limitantes para la inclusión no influyen lizadas deben ser representativas.
en los resultados encontrados.
ESTADISTICA DESCRIPTIVA
Variables
Una variable es cada uno de los caracteres o aspectos que Tabulación y presentación gráfica de la información
se miden en los individuos. Según el tipo de escala de medida La estadística descriptiva intenta condensar y sumarizar un
podemos diferenciar: conjunto de medidas realizadas en un gran número de indivi-
duos. El primer paso de una descripción es la tabulación, ope-
Variables cualitativas (categóricas) ración que permite realizar un resumen de los datos, indicando
Sus valores son nominales (sexo, nacionalidad, medicamen- el número de veces (frecuencia) con que se repite un determi-
to utilizado, estado civil, etc.). La única operación que puede nado valor de una variable. El resumen de los datos se presen-
realizarse con ellas es la de igualdad/desigualdad. Aquellas ta como una tabla de frecuencias. Las tablas de frecuencias se
variables que pueden presentar únicamente dos valores se lla- pueden utilizar con cualquier tipo de variable, sin embargo en
man dicotómicas, las que pueden presentar varios valores se las variables cuantitativas la información debe agruparse en
denominan policotómicas. intervalos (especialmente en las continuas), que tengan un lí-
mite superior e inferior. Al tratarse de valores continuos la pro-
Variables ordinales babilidad o frecuencia en cada punto sería muy pequeña.
Sus valores son también nominales, pero pueden ordenarse La frecuencia puede presentarse en forma absoluta (número
(gravedad: leve/moderado/severo; estadio de un tumor, etc.). de veces que se repite un valor) o relativa (frecuencia absolu-
Las operaciones que pueden realizarse con ellas son igual- ta/número de observaciones). Con variables cuantitativas y con
126
BIOESTADISTICA
3
ordinales puede tener interés diferenciar la frecuencia simple
(número de veces que se repite un valor) y la frecuencia acu- 1
mulada (número de veces con que la variable puede tomar un ¿Cuál de las siguientes afirmaciones es falsa?:
valor igual o inferior a uno determinado).
Las tablas de frecuencia pueden representarse gráficamente 1. El término población diana hace referencia al conjunto de indivi-
de diversas maneras (fig. 1). Las más frecuentemente utiliza- duos accesibles para la realización del estudio.
2. Un estadístico resume los valores muestrales de una variable.
das son: 3. Los estadísticos se utilizan como estimadores de los parámetros
poblacionales.
Diagrama de barras 4. Las muestras obtenidas de forma no aleatoria pueden producir es-
timadores sesgados.
Utiliza barras de la misma anchura para cada valor, que tie- 5. La moda es el valor de la variable que más veces se repite.
nen una altura proporcional a la frecuencia. Se usa para varia-
bles cualitativas y cuantitativas discretas. Su utilización en va-
riables continuas no es razonable, ya que al estar las barras 2
separadas unas de otras, sugieren una falta de continuidad.
¿Cuál de las siguientes no es una medida de variabilidad?:
Pictograma 1. Desviación típica.
2. Distancia entre percentil 25 y 75.
Utiliza símbolos de distinto tamaño en función de la fre- 3. Recorrido.
cuencia. Se usa principalmente para variables cualitativas y 4. Segundo decil.
cuantitativas discretas. 5. Varianza.
127
ESTADISTICA DESCRIPTIVA Y ESTIMACION
350 331
297
300
250 204
200 164
150 103 111
100
40 30
50
0 0 1 2 3 4 5 6 7 >8
Aparato
N.° fármacos cardiovascular
DIAGRAMA DE BARRAS 28,3%
SECTOR CIRCULAR
80 Miles de defunciones/año de edad 80
70 70
Miles de defunciones/año de edad
60 60
50 50
40 40
30 30
20 20
10 10
0 0 0
10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100
Edad en el momnento de la defunción (años) Edad en el momento de la defunción (años)
de la variable sobre el que se agrupan las observaciones. Son series con un número par de casos, la mediana corresponde a
fundamentalmente tres: la semisuma de los valores centrales. Si únicamente se dispo-
ne de datos agrupados la mediana se calcula interpolando en
Moda el intervalo correspondiente.
Es el valor de la variable que más veces se repite. Una dis-
Media aritmética
tribución puede presentar una o varias modas (distribuciones
unimodales, bimodales, trimodales....). La moda puede utilizar- Representa el centro de gravedad de la distribución. La me-
se en variables cualitativas. En el caso de variables continuas dia poblacional suele representarse por µ, y la muestral por x.
debe hablarse de intervalo modal. Se calcula sumando todos los valores de la variable y dividien-
do por el numero total de individuos.
Mediana
∑ Xi
Es el valor que deja por debajo el 50% de los casos. Es pues x= ———————-
el valor central del conjunto ordenado de las observaciones. En n.° individuos
128
BIOESTADISTICA
3
Existen otras medias que se utilizan con poca frecuencia:
media geométrica, media ponderada, media cuadrática, media 6
armónica. ¿Qué significa que un determinado valor (B) de una variable es el percentil
20?:
Medidas de posición
1. El 20% de los valores de la variable son superiores a B.
Los percentiles dividen una distribución en 100 partes igua- 2. El 20% de los valores son inferiores o iguales a B.
les (el percentil 10 deja por debajo del valor al 10% de los ca- 3. El 20% de los valores son iguales a B.
4. El 80% de los valores son inferiores a B.
sos). Los deciles dividen la distribución en 10 partes (el decil 2 5. 1 y 4 son verdaderas.
deja al 20% de los casos por debajo de su valor) y los cuartiles
la dividen en 4. El decil 5, el percentil 50 y el cuartil 2 coinci-
den con la mediana. 7
¿Cuál de las siguientes es una medida de apuntamiento?:
Medidas de variabilidad 1. Amplitud intercuartílica.
2. Coeficiente de variación.
Evalúan la oscilación o dispersión de los valores de la varia- 3. Kurtosis.
ble. Las más utilizadas son: 4. Desviación media.
5. Mediana.
Amplitud
Es la diferencia entre el valor máximo y mínimo de la varia- 8
ble. También se denomina rango (por traducción del inglés ran- Tiene usted una variable de distribución normal, que ha sido medida en
ge), y recorrido. 100 pacientes. La media y mediana encontradas son de 6, y la varian-
za es de 9. ¿Cuál sería aproximadamente el intervalo que contendría
el 95% de los valores de esta distribución?:
Amplitud intercuartílica
1. 5.4 a 6.6.
Es la distancia entre el cuartil primero y tercero. 2. –3 a 15.
3. 3 a 9.
Desviación media 4. 0 a 12.
5. No puede calcularse.
El promedio de los valores absolutos de las diferencias en-
tre la media y los valores de la variable: 9
∑ Xi - x Tiene usted una variable de distribución normal, que ha sido medida en
DM = ———————— 100 pacientes. La media y mediana encontradas son de 6, y la varian-
n.° de individuos za es de 9. ¿Cuál sería aproximadamente el intervalo que contendría
el 68% de los valores de esta distribución?:
Varianza (variancia) 1. 5.4 a 6.6.
2. –3 a 15.
Es el promedio de los cuadrados de las diferencias entre la 3. 3 a 9.
media y los valores de la variable. La varianza muestral se re- 4. 0 a 12.
presenta por S2, y la poblacional por σ2 5. No puede calcularse.
129
ESTADISTICA DESCRIPTIVA Y ESTIMACION
95%
µ-2s µ-s µ µ+s µ+2s
DISTRIBUCION NORMAL
µ µ µ
Platicúrtica Mesocúrtica Leptocúrtica
K<0 K=0 K>0
(normal)
Representación de diferentes grados de apuntamiento.
µ µ µ
Asimetría negativa Simetría Asimetría positiva
S<0 S=0 S>0
Representación de los diferentes tipos de asimetría.
130
BIOESTADISTICA
3
Medidas de forma
11
Las índices que se utilizan son los de asimetría (skewness) y
de apuntamiento (kurtosis). La distribución normal tiene unos ¿Qué tipo de representación gráfica es más adecuada para variables conti-
índices de asimetría y apuntamiento de 0 (fig. 2). nuas?:
1. Diagrama de barras.
Una distribución con un índice de asimetría de: 2. Diagrama de sección circular.
3. Cartograma.
— 0: es simétrica. 4. Histograma.
— < 0: es asimétrica a la izquierda. 5. Ninguno de los anteriores.
— > 0: es asimétrica a la derecha. 12
¿Cuál de las siguientes afirmaciones es falsa?:
Una distribución con un índice de apuntamiento de:
1. La media es una medida de tendencia central que se afecta poco
— 0: es mesocúrtica (normal). por los valores extremos.
— < 0: es platicúrtica (aplanada). 2. El valor de la mediana se corresponde con el percentil 50.
— > 0: es leptocúrtica (puntiforme.) 3. La mediana es una medida de tendencia central que se afecta
poco por los valores extremos.
DISTRIBUCIONES DE FRECUENCIA MAS 4. La moda no suele resultar de gran utilidad cuando manejamos
variables continuas.
UTILIZADAS EN MEDICINA 5. El decil 25 se corresponde con el primer cuartil.
Distribución normal 13
Es un tipo de función de distribución de variables continuas ¿Cuál de las siguientes características no corresponde a la distribución
normal?:
que se caracteriza porque (fig. 2):
1. Es simétrica.
— Es simétrica. 2. Su media coincide con su mediana.
3. Su mediana coincide con su moda.
— Media, mediana y moda coinciden, y constituyen su
4. La distancia entre el punto de inflexión de la curva y el eje de si-
eje de simetría. metría es de una varianza.
— Sus colas son asíntotas al eje horizontal. 5. Sus colas son asíntotas al eje horizontal.
— La distancia entre el eje de simetría y el punto de in-
flexión de la curva es de 1 desviación típica. El inter- 14
valo comprendido entre estos puntos contiene el 68% ¿Cuál de las siguientes medidas de variabilidad permite comparar distin-
de los casos. tas distribuciones?:
1. Amplitud.
Como ocurre con las distribuciones continuas, el área bajo 2. Desviación media.
la curva de la distribución representa una probabilidad. El área 3. Varianza.
total bajo la curva incluirá la totalidad de los casos (probabili- 4. Coeficiente de variación.
dad=1), y el área bajo la curva entre dos puntos representaría 5. Desviación típica.
la probabilidad de que la variable presente valores comprendi- 15
dos entre ellos. Por ello, la probabilidad de distintos intervalos
de valores de las variables, que se ajusten a esta distribución, Tiene usted la distribución de una variable continua obtenida a partir de su
medición en una muestra de 120 pacientes. La variable oscila entre
pueden calcularse fácilmente. Para ello se utilizan las tablas 20 y 300. Su mediana es 40, su media 80, y su desviación típica de
de la distribución normal reducida (tipificada), distribución que 36. ¿Cuál de las siguientes afirmaciones sobre ella es correcta?:
se representa por Z. La distribución normal reducida se carac-
1. El 68% de los valores estarán comprendidos entre 50 y 110.
teriza porque: su media es 0 y su varianza y desviación típica 2. La media poblacional de la variable se encontrará con un 95% de
es 1. probabilidades entre 20 y 140.
Cualquier distribución normal puede ser transformada en 3. La media poblacional de la variable se encontrará con un 95% de
una reducida, restando la media a los valores de la variable y probabilidades entre 74.5 y 85.5.
dividiendo esta resta por su desviación típica. Las funciones de 4. Todas las anteriores son falsas, ya que esta distribución es cla-
probabilidad de la normal reducida están ampliamente difundi- ramente «no normal».
5. Unicamente son ciertas 1 y 3.
das.
x-µ
Z= ——— RESPUESTAS: 11: 4; 12: 1; 13: 4; 14: 4 ;15: 4.
σ
131
ESTADISTICA DESCRIPTIVA Y ESTIMACION
132
Capítulo II
ESTADISTICA ANALITICA
Indice
Comprobación de hipótesis Contraste variable categórica/cuantitativa
Pruebas paramétricas y no paramétricas Contraste variable cuantitativa/cuantitativa
Contrastes de hipótesis bivariantes Análisis de supervivencia
Contrastes variable categórica/categórica
133
ESTADISTICA ANALITICA
Ho: µ0 ≤ µ Ho µo = µ
Ha: µ0 > µ Ha µo ≠ µ
α = 0,05
α/2 = 0,025 α/2 = 0,025
H0 H1
β
α/2
p
H0
α/2 β
p
H0
Representación del riesgo β. Efecto del tamaño de
muestra sobre el valor del riesgo β.
134
BIOESTADISTICA
3
ajuste), o evalúan si un determinado valor muestral puede ajus-
tarse a una parámetro poblacional. Una de las pruebas de bon- 16
dad de ajuste más utilizada es la de Kolmogorov-Smirnov, que El error alfa indica:
evalúa si una distribución se ajusta a la distribución normal.
1. La posibilidad de aceptar la hipótesis nula cuando la hipótesis al-
ternativa es cierta.
Pruebas de relación/independencia 2. La posibilidad de rechazar la hipótesis nula cuando la hipótesis
Evalúa la existencia de dependencia entre variables. alternativa es cierta.
3. La posibilidad de aceptar la hipótesis alternativa cuando la hipó-
tesis nula es cierta.
Pruebas de homogeneidad
4. La posibilidad de aceptar la hipótesis alternativa cuando la hipó-
Verifican si dos o más muestras provienen de la misma po- tesis nula es falsa.
blación. 5. La posibilidad de rechazar la hipótesis alternativa cuando la hipó-
Las diferencias entre pruebas de homogeneidad y las de re- tesis nula es falsa.
lación son sutiles, y a veces puede ser difícil diferenciarlas. 17
135
ESTADISTICA ANALITICA
TABLA I
Errores en las pruebas de contrste de hipótesis
REALIDAD
E Diferentes Iguales
S
T Diferentes Correcto Error tipo I
U (potencia) Error alfa
D
I Iguales Error tipo II Correcto
O Error beta
136
BIOESTADISTICA
3
menos uno de cada variable. Si en alguna casilla de la tabla
existen efectivos esperados entre 3 y 5, se debe utilizar la lla- 20
mada corrección de Yates. Si en alguna de las casillas se ob-
La p obtenida en la prueba bilateral de contraste utilizada es de 0,01. ¿Qué
tienen efectivos esperados menores de 3, el valor de la Ji-Cua-
significa este resultado?:
drado obtenido no es correcto y la hipótesis no puede contras-
tarse. En esta situación la única posibilidad es la de colapsar 1. En el caso de que los tratamientos fuesen similares sólo se ha-
categorías (unir valores de la variable). El valor de la Ji-Cua- bría encontrado esta distribución u otra más extrema en 1 de ca-
da 100 casos.
drado representa la diferencia entre los valores observados y
2. Que si se hubiese utilizado una prueba unilateral la p valdría
esperados de cada casilla. 0,02.
Cuando los datos son agrupados, se realiza la prueba de 3. Que si los tratamientos fuesen distintos, en 1 de cada 100 casos
McNemar. no encontraríamos diferencias entre ellos.
En algunas ocasiones puede darse un caso ligeramente dife- 4. La interpretación del valor de la p es totalmente distinta en fun-
rente. Sabemos la distribución de una variable categórica en ción de la prueba estadística utilizada.
una población porque se ha estudiado en su totalidad y tene- 5. Ninguna de las respuestas anteriores es correcta.
mos la distribución de esta variable en una muestra. Se pre-
tende saber si la distribución muestral se ajusta a la poblacio-
nal (se trataría de una prueba de conformidad). En esta hipóte-
sis también se evalúa mediante la prueba de la Ji-Cuadrado,
con la salvedad que el número de grados de libertad en esta 21
caso es el número de categorías de la variable menos 1.
¿En cuál de los siguientes estudios no se aplicaría una prueba para datos
independientes?:
CONTRASTE VARIABLE CATEGORICA/
CUANTITATIVA 1. Se compara el efecto de 2 medicamentos sobre la evolución de
lesiones existentes en los pliegues interdigitales de los pies. Ca-
da paciente recibe 1 tratamiento distinto en cada pie.
En general estos contrastes se resuelven comparando los 2. Se compara el efecto hipotensor de 2 medicamentos. Los enfer-
valores medios de la variable cuantitativa en los distintos gru- mos reciben secuencialmente los dos medicamentos.
pos definidos por la variable categórica. Por ejemplo, al eva- 3. Se compara el efecto hipolipemiante de 2 medicamentos. Un
luar el efecto de dos medicamentos hipoglucemiantes pode- grupo de pacientes reciben el medicamento A y otro grupo el
mos ver las glucemias de los pacientes que reciben cada trata- medicamento B. Se evalúa la diferencia entre la colesterolemia
miento. La decisión del método de contraste a elegir depende antes de iniciar el tratamiento y la existente tras un mes de tra-
del número de grupos definidos por la variable cualitativa, de tamiento.
4. Se compara el efecto sobre el glaucoma de 2 medicamentos. Los
si se trata de datos apareados o independientes, y de si la dis-
pacientes reciben un medicamento distinto en cada ojo.
tribución de la variable cuantitativa sigue una distribución nor- 5. Se quiere evaluar si un medicamento tiene algún efecto hipoten-
mal. sor. Para ello se compara la tensión sistólica antes de tomar el
medicamento con la que presenta 1 hora después de haberlo re-
Variable categórica dicotómica cibido.
Si la variable categoría diferencia 2 subgrupos las pruebas
que suelen utilizarse son la prueba de Z y la t de Student. La
primera para muestras grandes (ambos grupos con un número
de individuos ≥ 30) y la segunda para muestras pequeñas. Es-
tas pruebas tienen versiones para datos apareados e indepen- 22
dientes, y necesitan que se cumpla el supuesto de normalidad,
Ha realizado usted un cuestionario sobre personalidad a 50 pacientes dia-
y de igualdad de varianzas en los dos grupos (en caso de no
béticos y a 50 controles. Un porcentaje mayor de diabéticos presenta
darse este último supuesto pueden utilizarse soluciones apro- una personalidad neurótica (p<0,002). ¿Qué conclusiones obtendría?:
ximadas).
En ocasiones no pretendemos comparar dos grupos distin- 1. Esta relación no parece debida a la casualidad.
2. Posiblemente la diabetes origine personalidad neurótica.
tos, sino que queremos comparar la media en una muestra ob-
3. Posiblemente la insulina origine personalidad neurótica.
tenida con una media poblacional conocida (prueba de confor- 4. Esta relación parece ser debida a la casualidad.
midad). La sistemática en este caso es la misma, siendo única- 5. Todas las anteriores afirmaciones son falsas.
mente distintas las fórmulas de cálculo de la Z y de la t.
Si los datos no cumplen el supuesto de normalidad, deben
utilizarse pruebas no paramétricas. Estas pruebas no comparan
la media de los valores, sino que comparan la distribución de RESPUESTAS: 20:1; 21: 3; 22: 1.
su ordenación en ambos grupos. Para datos independientes se
137
ESTADISTICA ANALITICA
TABLA II
Principales pruebas de hipótesis bivariantes
Cuantitativa Regresión
Correlación
Correlación Sperman*
* Pruebas no paramétricas
utiliza la U de Mann-Whitney, y para datos apareados se utili- Existen soluciones de esta prueba para datos independien-
za la T de Wilcoxon. tes y apareados (ANOVA de medidas repetidas).
El ANOVA requiere que se cumpla el supuesto de normali-
Variable categórica politómica dad y que la varianza en los distintos grupos sea homogénea.
Si esto no ocurre, puede recurrirse a las pruebas no paramétri-
En el caso de que la variable categórica diferencie más de cas. No obstante, los resultados del ANOVA no suelen ser muy
dos grupos (comparar 3 fármacos hipoglucemiantes), podría sensibles a pequeñas violaciones de estos supuestos. La prue-
pensarse que podrían realizarse varios pares de comparacio- ba no paramétrica utilizada en esta situación es la prueba de
nes utilizando las pruebas mencionadas en el apartado ante- Kruskall-Wallis.
rior. Sin embargo, esto no es razonable, ya que la posibilidad
de cometer un error alfa aumentaría proporcionalmente al nú- CONTRASTE VARIABLE
mero de comparaciones realizadas. Por ello debe realizarse CUANTITATIVA/CUANTITATIVA
una prueba especial, que recibe el nombre de análisis de la va-
rianza (ANOVA). El problema que intentan contestar este tipo de técnicas es
La variabilidad de los valores de cada individuo puede de- si el cambio del valor de una variable se acompaña de una mo-
berse al azar o al hecho de pertenecer a cada grupo. Este tipo dificación de la otra. Por ejemplo, podemos intentar ver si la
de prueba lo que hace es valorar si la variabilidad que aporta a dosis de hipoglucemiante administrada se relaciona con el
los datos el pertenecer a los distintos grupos es superior a la descenso de las cifras de glucemia.
que podría deberse al azar, es decir, la hipótesis nula sería que Las técnicas empleadas para la solución de este tipo de du-
la varianza que aporta el pertenecer a los distintos grupos (va- das se agrupan bajo el nombre de regresión/correlación. Estas
rianza intergrupo) no es mayor que la esperable por el azar, técnicas buscan la recta que mejor se ajusta a la nube de pun-
que en este caso estaría representada por la llamada varianza tos originada por la representación conjunta de ambas varia-
intragrupo (varianza residual). Lógicamente, si el pertenecer a bles y nos informa de la ecuación que mejor la representa
cierto grupo explica parcialmente el valor de la variable, sus (y=a+bx). Evalúan el grado de ajuste de la recta teórica a los
valores medios en cada grupo serán diferentes. puntos (coeficiente de correlación y coeficiente de determina-
Esta prueba nos informa de que las medias de los distintos ción). Estiman los parámetros propuestos (a, b, y coeficientes)
grupos son diferentes en conjunto, pero no informa específica- y finalmente contrastan su verosimilitud.
mente de cuáles son distintas entre sí (por parejas). Para resol- El coeficiente de correlación (r) es un estadístico que indica la
ver este problema se recurre a los llamados contrastes (Sheffé, exactitud de la relación entre dos variables cuantiativas. Oscila
Fisher, Tukey, etc.). entre -1 y +1. Cuando su valor es 0, no hay relación entre ellas.
138
BIOESTADISTICA
3
Cuando su valor es +1, hay una relación positiva perfecta (X au-
menta de forma exactamente proporcional al aumento de Y). 23
Cuando su valor es -1, hay una relación negativa perfecta (X dis- Ha realizado usted un ensayo clínico en el que ha comparado el efecto hi-
minuye de forma exactamente proporcional al aumento de Y). potensor de 3 tratamientos distintos (A, B, C). El tratamiento A origi-
El coeficiente de determinación (r2) nos indica qué porción nó un descenso medio de 20 mmHg en la tensión diastólica, el B de
de la variabilidad de una variable puede ser explicada por la 15 mmHg, y el C de 13 mmHg. El número de pacientes incluidos en
otra y cuánta puede ser explicada por el azar. Es el cuadrado cada grupo no fue homogéneo. El análisis ha sido realizado mediante
del coeficiente de correlación, y lógicamente oscila entre 0 y 1. un ANOVA, y se ha obtenido un p<0,0001. ¿Qué conclusiones podría
obtener con esta información?:
Cuando su valor es 0, ninguna proporción de la variabilidad de
cada variable puede ser explicada por la otra. Cuando su valor 1. El tratamiento A tiene mayor efecto que el B.
es 1, la modificación de una variable explica la totalidad del 2. El tratamiento B tiene mayor efecto que el C.
cambio que sufre la otra. 3. El tratamiento A tiene mayor efecto que el C.
4. Los tratamientos A, B y C tienen distinto efecto.
El coeficiente b (coeficiente de regresión) indica la magnitud
5. Todas las anteriores son ciertas.
del incremento de y con cada unidad de incremento de x. El co-
eficiente a (término independiente) nos indica el valor teórico 24
de y cuando x vale 0. Situación que frecuentemente no tiene ¿Podría haberse realizado el análisis del anterior ensayo mediante varias
sentido biológico. pruebas de la t de student?:
Los coeficientes de determinación y correlación no depen- 1. Sí, además este sistema permitiría comparar los tratamienos 2 a 2.
den del tipo de unidades utilizadas en la medición de las varia- 2. Si, pero aumentando el valor de error alfa asumible.
bles. Pero los coeficientes a y b sí dependen de estas unida- 3. No, ya que disminuiría la potencia del estudio.
des. 4. No, ya que incrementaríamos la posibilidad de que ocurriera
Una vez que estos estadísticos han sido calculados, deben error de tipo I.
contrastarse. La hipótesis nula que suele evaluarse es la de no 5. Sí, los resultados obtenidos serían estrictamente superponibles
existencia de relación, que en este caso equivale a que el coe- a los del ANOVA.
ficiente r o el b son distintos de 0. Esto se hace calculando el 25
valor de t, buscando posteriormente su probabilidad. En el ca- Quiere usted evaluar si la edad (medida en años), se relaciona con la ten-
so de 2 variables el contraste de b o r aporta el mismo resulta- sión arterial diastólica (medida en mmHg). ¿Qué método de análisis
do. Pero si se incluyen variables existirían varios coeficientes b emplearía?:
(y=a+b1x+b2x+b3x), y cada uno de ellos requeriría su contraste
1. Comparación de medias.
individualizado. En este caso, el contraste de r nos informaría 2. prueba de McNemar.
sobre la verosimiltud global del modelo. 3. Regresión.
Estas técnicas requieren para su aplicación: 4. ANOVA.
5. t de Student.
— Que la relación entre ambas variables sea lineal (se
ajuste a una línea recta); las variables estén asocia- 26
das por otro tipo de ecuación (exponencial, parábola, Ha realizado usted un estudio de casos y controles sobre la relación entre el
etc.), y que los datos no se ajusten a una recta. aceclofenaco y la hemorragia digestiva. Ha entrevistado a 200 pacien-
— Las variables deben ser normales. Ambas deben serlo tes con hemorragia digestiva (5 habían utilizado recientemente aceclo-
en correlación, y la dependiente (y) en regresión. fenaco) y a 200 controles (1 había utilizado recientemente aceclofena-
— Las variables deben ser homoescedásticas (varianzas co). El valor de p obtenido fue de 0,21. ¿Qué conclusiones obtendría?:
homogéneas). Ambas deben serlo en correlacion, y la 1. El aceclofenaco no se relaciona con el desarrollo de hemorragia
dependiente en regresión. digestiva.
— Los valores de las variables deben ser independien- 2. El aceclofenaco no produce hemorragia digestiva.
tes. 3. Si no encontrásemos otros factores que expliquen la no existen-
cia de relación estadística entre la hemorragia digestiva y con-
sumo de aceclofenaco, podríamos afirmar que el aceclofenaco
Los términos correlación y regresión están fuertemente em- no produce hemorragia digestiva.
parentados, pero no significan lo mismo. La regresión implica 4. Debido a la baja prevalencia de consumo de aceclofenaco, la
un cierto componente causal, existiendo una variable indepen- potencia del estudio no es muy alta, por lo que no se puede afir-
diente (x), y una dependiente (y), que se modifica a consecuen- mar que el aceclofenaco no se relacione con el desarrollo de he-
cia del cambio de x. La regresión está emparentada con los di- morragia digestiva.
5. La posbilidad de cometer un error de tipo II en este estudio es
seños experimentales (el investigador puede modificar la va- muy baja.
riable independiente) y la correlación con observacionales. Por
otro lado, a la regresión le interesan los coeficientes b y a, y
suele tener un objetivo predictivo; por el contrario, a la correla- RESPUESTAS: 23:4; 24: 4; 25: 3; 26: 4.
ción le interesan r y r2.
139
ESTADISTICA ANALITICA
TABLA III
Tabla de contingencia
MEDICAMENTO
A B
() Efectivos esperados
MEDICAMENTO
A B
(a+b)*(a+c) (a+b)*(b+d)
Casilla a´ = Casilla b´ =
total total
La técnica no paramétrica que puede utilizarse cuando no se ta que aparece un determinado acontecimiento. El nombre de
cumplan los supuestos de normalidad es la correlación de Spe- análisis de supervivencia se debe a que con mucha frecuencia
arman. el acontecimiento que se espera es la muerte, pero también
pueden utilizarse para evaluar el tiempo transcurrido hasta
ANALISIS DE SUPERVIVENCIA otro tipo de eventos (aparición de infarto agudo de miocardio,
aparición de embolismo cerebral, etc.). Los métodos más utili-
Bajo este nombre se agrupan una serie de técnicas que se zados son el Kaplam-Meier y el actuarial.
caracterizan por intentar analizar el tiempo que transcurre has-
BIBLIOGRAFIA
ARMITAGE, P.; BERRY, G.: «Estadística para la investigación KRAMER, M. S.: «Clinical Epidemiology and Bioestatistics».
biomédica». Doyma. Barcelona, 1992. Springer-Verlag. Berlin, 1988.
BAKKE, O. M.; CARNÉ, X.; GARCIA-ALONSO, F.: «Ensayos Clí- PARDELL, H.; COBO, E.; CANELA, J.: «Manual de bioestadísti-
nicos con medicamentos». Doyma. Barcelona, 1994. ca». Massons. Barcelona, 1986.
CHOU, Y. L.: «Análisis estadístico». Interamericana. México, TSOKOS, M.: «Estadística para biología y ciencias de la salud».
1977. Interamericana, 1987.
DOMÉNECH, J. M.; RIBA, M. D.: «Una síntesis de los métodos
estadísticos bivariantes». Herder. Barcelona, 1987.
140
Sección 3
INDICE
DE
MATERIAS
141
INDICE DE MATERIAS
142