Vous êtes sur la page 1sur 38

C. Mora.

Notas de clase Bioestadística,


Universidad
Universidad del Valle, Colombia 2018

UNIVERSIDAD DEL VALLE


PROGRAMAS DE POSTGRADOS
FACULTAD DE SALUD

NOTAS DE CLASE
INFERENCIA ESTADÍSTICA

Asignaturas: BIOESTADÍSTICA
INVESTIGACIÓN

Elaborado por:
Claudia Patricia Mora
MSc en Epidemiología Universidad del Valle
claudia.mora@correounivalle.edu.co

Santiago de Cali, 2018

1
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Tema 1. Estimación de parámetros, conceptos básicos, estimación puntual,


Intervalos de Confianza, nivel de confianza, error máximo en la estimación, tamaño
de muestra en la estimación.

Tema 2. Prueba de hipótesis, tipos de hipótesis, error tipo I y Tipo II.

2
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Unidad III –INFERENCIA ESTADÍSTICA

PRESENTACIÓN

La Estadística se divide en dos componentes: la primera es la Estadística Descriptiva


y la segunda la Inferencia Estadística, esta última se ocupa de a través de una
muestra de individuos o elementos generalizar los resultados a la población de la
cual se extrajo la muestra o con cierta probabilidad rechazar o uno una hipótesis
de investigación.

El proceso de inferencia se puede desarrollar a partir de dos estrategias: Estimando


parámetros de la población, tales como promedios, proporciones, varianzas, OR,
ODDS, tasas, etc., los cuales deben acompañarse por sus respectivos Intervalos de
confianza, la segunda aplicando pruebas estadísticas para rechazar o no
determinada hipótesis.

En esta unidad se desarrollaran los siguientes temas:


• Estimación de parámetros
• Calculo de intervalos de confianza: uso de tablas de distribución y software.
• Pruebas de hipótesis

Se retomarán algunos aspectos de la Unidad II para el cálculo del tamaño de la


muestra dependiendo de:

El nivel de confianza deseado


La variabilidad del estimador
El error máximo que se está dispuesto a aceptar en la estimación
El tamaño de la población

La prueba de hipótesis, busca “poner a prueba una hipótesis”, considerando que el


resultado o decisión a tomar sea rechazarla o no tener suficiente evidencia para
hacerlo. Hace parte de la inferencia estadística, por tanto se hace basado en la
muestra.

OBJETIVOS

General
Propender porque los futuros magister en enfermería desarrollen las competencias
para la aplicación de la estadística y la probabilidad en ejercicios de la vida real.
1. Diferenciar el diverso tipo de estimadores puntuales que se pueden obtener
de una población.
2. Estimar e interpretar los intervalos de confianza que acompañan las
estimaciones a través de muestras aleatorias de una población.

3
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
3. Aplicar herramientas como tablas de distribuciones de probabilidad y
software para el desarrollo de cálculos.

4. Reconocer y aplicar los principios y procedimientos de la prueba de


hipótesis.

Contenidos

Tema 1. Estimación de parámetros y de Intervalos de confianza: nivel de confianza,


error máximo en la estimación, tamaño de muestra en la estimación.

Tema 2. Prueba de hipótesis: tipos de hipótesis, error tipo I y Tipo II.

4
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
TEMA 1 - ESTIMACIÓN DE PARÁMETROS

Estimación es el proceso de utilizar información muestral para “hallar” los valores


desconocidos de una población (parámetros). Por ejemplo,

• Se desea estimar la prevalencia o proporción de personas que en


determinada comunidad presentan ciertos factores de riesgo de enfermar o
morir.
• Una fábrica debe calcular el porcentaje de productos defectuosos en un
lote.
• Una universidad desea calcular el promedio de ingreso mensual de sus
estudiantes matriculados.
• Las empresas de seguros se interesan por estimar la vida promedio de las
personas bajo ciertas condiciones.
• Un investigador desea estimar el porcentaje de adolescentes que no viven
con sus padres.

En todos los ejemplos anteriores, se puede tener información sobre muestras para
establecer con ella el valor de interés.

La estimación puede ser puntual, cuando se entrega un valor individual para el


parámetro, o por intervalo, cuando se entrega un rango de valores entre los que
con cierta probabilidad debe estar el parámetro poblacional.

El proceso de estimación implica, que de la o las variables principales del estudio


se puedan reconocer qué tipo de parámetro se quieren estimar. Puede ser el
promedio (µ), la proporción (p), la desviación estándar (σ), Riesgo Relativo (RR),
ODDS, Odds Ratio (OR), Tasas de mortalidad, de incidencia, de curación, de
sobrevida, etc., o cualquier otro parámetro que sea de interés para el investigador
sobre una población en particular.

Se debe escoger un estadígrafo o indicador que sirva como “estimador” del


parámetro que se desea conocer, éste debe cumplir ciertas condiciones para
considerarse un “buen” estimador: consistente, insesgado, eficaz y suficiente.

 Consistente implica que a medida que aumenta el tamaño de la muestra, es


estimador se aproxima más al valor real del parámetro.

 Insesgado o Ausencia de sesgo, significa que el promedio de la


distribución de dicho estimador es igual al parámetro poblacional.

 Eficaz es aquel estimador que presenta menor error o desviación estándar

 Suficiente es el estimador que aprovecha toda la información disponible en


la muestra. (1)
5
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
1.1. Estimación Puntual

De una población puede interesar conocer parámetros el promedio (µ), la


proporción (p), la desviación estándar (σ), Riesgo Relativo (RR), ODDS, Odds Ratio
(OR), Tasas de mortalidad, de incidencia, de curación, de sobrevida, etc., o
cualquier otro parámetro que sea de interés para el investigador.

Es muy importante definir que parámetro es el que se desea conocer de la


población y los siguientes aspectos:
• El tipo de variable o variables de las cuales se obtienen las estimaciones, es
decir, cualitativas o cuantitativas.
• Que tan rara o común es la característica que se desea medir en la
población objetivo.
• Existen estudios o estimaciones anteriores del parámetro de interés.

Lo anterior, afecta directamente el cálculo del tamaño de muestra, cuando es muy


rara la característica se dificulta obtener una muestra aleatoria, “es como buscar
una aguja en un pajar”, otro aspecto a tener en cuenta es si existe o no información
valida y útil de estudios anteriores para definir el error de la estimación y la
varianza del estimador, elementos necesarios para calcular un tamaño de muestra.

Algunas fórmulas de cálculo de estimadores son:

Promedio muestral:
 ∑1 
 

Varianza muestral:

∑  


   

Ejemplo: En una institución de nivel IV de la ciudad de Bogotá se desea estimar el


promedio de supervivencia (en meses) para pacientes diagnosticados con cáncer a
los cuales se les está dando un tratamiento con un nuevo fármaco. El parámetro a
estimar es el promedio poblacional (µ) de supervivencia de pacientes con cáncer
sometidos al tratamiento del fármaco. El estimador adecuado para la media
poblacional es la media de la muestra ( x ).

Al tomar una muestra de n = 200 pacientes con cáncer tratados con el fármaco, se
obtuvo un promedio de supervivencia de 58,5 meses y una desviación estándar de
23,1 meses.

6
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
A su vez cada estimador puntual debe tener un intervalo de confianza que con
cierta probabilidad de certeza al investigador de que su estimación se encuentra
cerca del valor verdadero es decir el parámetro en la población.

1.2. Estimación por “intervalos de confianza”

Las estimaciones puntuales deben acompañarse de su respectivo intervalo de


confianza porque este es el que asegura con cierta probabilidad que el verdadero
parámetro de la población, puede ser el valor puntual estimado o por lo menos,
estar contenido entre un rango de posibles valores.

Los intervalos de confianza tienen un nivel de confianza que se denota como (1-α),
a su vez α “alfa” es el nivel de significancia que se ha propuesto desde un principio
el investigador, dependiendo de la naturaleza del fenómeno o experimento que
este analizando.

Por lo general la confianza está entre el 90 al 99%, la más comúnmente usada es la


del 95%.

En la curva de la normal estándar:

7
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
2.1. Estimación intervalo de confianza para el promedio

Para estimar un promedio poblacional µ, el mejor estimador es la media de la


muestra y se calcula con la siguiente expresión:

 σ σ 
 x − zα / 2 n , x + zα / 2
n 

Un intervalo de confianza como este, significa que el promedio verdadero o


poblacional µ, se encuentra dentro de dicho intervalo, con una probabilidad igual a
1 - α.. Consecuentemente, existe una probabilidad α de que el parámetro o sea la
media poblacional no esté dentro de dicho intervalo.

La fórmula presentada incluye el valor de σ, que en ocasiones no se conoce, sin


embargo cuando la muestra es suficientemente grande, (por lo menos 30 datos o
mas) es posible usar, como ya se mencionó, la desviación estándar de la muestral
en vez del valor poblacional σ.

Ejemplo. Continuando con el ejemplo de la IPS de Bogotá calcule el intervalo de


confianza de 95% para el verdadero promedio de supervivencia de pacientes con
cáncer tratados con el nuevo fármaco.
Recordemos que una muestra de 200 pacientes, dio un promedio x = 48,5 meses y
una desviación estándar s = 23.1 meses.

Usaremos por tanto la desviación de la muestra (s) para sustituir la desviación de la


población.

Como el nivel de confianza es 95%, debemos calcular Z de tal manera que entre –Z
y +Z bajo la curva normal quede un área de 0.95. De la tabla se obtiene el valor Z =
1.96

El intervalo es, entonces:

23.1 23.1
IC µ 95% =[48.5 − 1.96 × ;48.5 + 1.96 × ]
200 200
[48.5 - 3.2 ; 48.5 + 3.2]
[45.3 ; 51,7]

El promedio de supervivencia de pacientes con cáncer tratados con el nuevo


fármaco está entre 45.3 a 51.7 meses, con una confianza de 95%, es decir, que por
8
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
cada 100 veces que se repita el muestreo y se estime la media de supervivencia de
los pacientes 95 de estas, el intervalo de confianza va a contener el verdadero valor
del parámetro de la población.
Si repitiera muchas veces el experimento el 95% de las veces el intervalo de
confianza podría contener el verdadero parámetro poblacional.

Nota: El uso de Z es válido cuando la distribución es normal o aproximadamente


normal. (Teorema del límite central).

La expresión Zσ x se denomina “error máximo en la estimación” y se representa por


e.

O sea que e = Zσ x
σ
e=Z
n

La amplitud del intervalo depende de e

 −  ; 
Intervalo de confianza (  + 

2.2 intervalos para proporciones

Cuando lo que interesa es conocer una proporción sobre la población se puede


estimar a través de un muestreo y a su vez éste indicador debe acompañarse del
respectivo intervalo de confianza.

Recuerde que si tiene una variable X con distribución Binomial, usted conoce los
parámetros número de experimentos (n), probabilidad de éxito (p) y probabilidad
de fracaso (q=1-p).

pq
Como el error estándar de las proporciones muestrales es σ pˆ =
n
P es la probabilidad de éxito, puede ser la prevalencia de una enfermedad en la
población, por lo general este valor es el que se quiere estimar, obviamente no se
conoce, por lo cual se usa el valor de la proporción de la muestra que se denota
como p̂ , es decir, proporción muestral. La expresión para el error estándar de las
p̂ q̂
proporciones muestrales es σ p̂ = .
n

El intervalo de confianza de la proporción tiene la siguiente fórmula de cálculo:

9
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
p̂ q̂
p̂ ± z
n

Ejemplo. Se desea estimar la proporción de personas que no cumplen con las citas
médicas, pero que no la cancelan previamente. Se escoge una muestra de 80
pacientes que han pedido cita médica (medicina general). Encontramos que 12 de
los pacientes del estudio no cumplen con la cita pero tampoco la cancelan.
Construya un intervalo de confianza del 90% para la estimación deseada.

Nivel de confianza 90%, lo que indica que Z = 1.65; el valor de n o tamaño de la


muestra es 80 y la proporción muestral p̂ = 12 80 = 0.15

Reemplazando estos datos en la expresión del intervalo, obtenemos:

0.15(0.85)
IC<P>95% = 0.15 m 1.65
80

±0.0659
IC<P>95% =0.15±
IC<P>95% =[0.0841 ; 0.2158]

Es decir, convirtiendo estas proporciones a porcentajes, que entre el 8.4% y el


21.6% de los pacientes no cumplen con las citas médicas y no las cancelan
previamente. Hay una probabilidad del 10% de que la proporción de pacientes
referidos esté fuera del intervalo.

De manera análoga a lo desarrollado en la estimación de la media poblacional,


cuando se trata de estimar la proporción poblacional, la cantidad que se le suma o
resta a la proporción de la muestra se denomina “Error máximo en la estimación de
p” y se representa por e, de tal manera que:

pq
e=z
n

En esta expresión, e, es el error máximo en la estimación de p, n es el tamaño de la


muestra, p es el valor de la proporción poblacional, mientras que q es la
proporción del evento complementario (se cumple que p + q = 1 ).

z 2 pq
n=
e2

Encontramos que el tamaño de muestra cuando se quiere estimar la proporción


poblacional, depende del nivel de confianza deseado en la estimación, del error
10
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
máximo que se está dispuesto a aceptar cuando se quiera hacer la estimación y del
valor de p.

El problema es que p (proporción poblacional) es precisamente el parámetro que


nos interesa y para el cual estamos decidiendo qué tamaño de muestra sería
adecuado.

No tenemos proporción de una muestra ( p̂ ), puesto que aún no tenemos la


muestra. Se tienen tres alternativas para determinar el valor de p que se utiliza en
la expresión del tamaño de muestra:

• Un valor de p, tomado de un estudio previo reciente en el que se tenga


información sobre dicho valor.
• Un valor de p, calculado sobre una muestra piloto o de ensayo.
• Un valor de p = 0.5, ya que este valor es el que produce el máximo producto
pq, lo que nos daría la muestra que garantiza las condiciones deseadas.
Cualquier otro valor de p, da un producto menor y la muestra resulta de
menor tamaño.

Ejemplo. Calcular el tamaño de muestra mínimo requerido para estimar la


proporción de historias clínicas mal elaboradas. Se desea un confianza del 99% y el
error no debe pasar del 2%.

Obsérvese que para estimar p nos dieron el nivel de confianza 1 - α = 0.99; además
el error máximo en la estimación e = 0.02, pero no dieron información acerca del
valor de p.

Consideremos en primera instancia el valor de p = 0.5

2.58 2 (0.5 )(0.5)


n= = 4160.25
0.02 2

Esto nos da un tamaño de muestra de 4161, aproximando al siguiente entero.

Para analizar el efecto de cada elemento en el cálculo del tamaño de muestra


consideremos que de un estudio anterior o de una muestra piloto sabemos que la
proporción de historias clínicas mal elaboradas en esa entidad no debe pasar del
20%, sin cambiar ninguna de las demás condiciones. En ese caso el tamaño de
muestra para estimar ahora la proporción de historias clínicas mal elaboradas es:

2.58 2 (0.2)(0.8)
n= = 2662.56
0.02 2
Por tanto el tamaño de muestra en este caso es de 2663 (nótese la reducción del
tamaño muestral).

11
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Si aún este tamaño resulta demasiado elevado (costos y tiempo) podemos reducir
el nivel de confianza deseado, por ejemplo pasarlo del 99% al 95%. El nuevo
tamaño de muestra es:

1.96 2 (0.2)(0.8)
n= = 1536.64
0.02 2

El tamaño de muestra es 1537 historias clínicas.

Todavía podemos trabajar en la reducción del tamaño de la muestra, aumentando


el error máximo en la estimación, por ejemplo del 2% al 4%. El nuevo tamaño es:

1.96 2 (0.2)(0.8)
n= = 384.16
0.04 2

El tamaño queda en 385 historias clínicas. Nótese cómo el aumentar el error


máximo en la estimación, logró una reducción importante en el tamaño de la
muestra.

2.3 Estimación de la diferencia de dos Promedios Poblacionales

Cuando en un estudio, el objetivo es comparar dos poblaciones, por ejemplo


comparar los promedios de tiempo de incapacidad entre hombres y mujeres en
una determinada empresa, o comparar los promedios de gastos administrativos en
dos hospitales regionales, una manera de realizar dicha comparación es estimando
la diferencia de dichos promedios. Para ello, se toma de cada población y de
manera independiente, una muestra aleatoria. De la información obtenida de
dichas muestras se encontrará un intervalo dentro del cual, con cierta probabilidad
o confianza, estará la diferencia de los promedios de las poblaciones en estudio.

Por ejemplo si estamos comparando, como se mencionó antes, los promedios de


tiempo de incapacidad entre hombres y mujeres, se tomaría una muestra de
hombres de la compañía e igualmente una muestra de mujeres. µ 1 − µ 2 es la
diferencia (desconocida) entre el promedio de tiempo de incapacidad en hombres
y el de mujeres. Si el resultado fuera [8.2 ; 13.8], estaríamos diciendo que los
hombres presentan un promedio de tiempo de incapacidad mayor que el de
mujeres y que dicha diferencia está entre 8 y 14 días aproximadamente, con una
confianza (1 - α)

Otro diseño mediante el cual se comparan dos promedios poblacionales, es a


través de dos muestras relacionadas o apareadas. Por ejemplo a unas personas se
las va a someter a una dieta para rebajar de peso. Aquí, tomamos los pesos de las
personas antes de iniciar la dieta, y después de cierto tiempo se vuelve a tomar el

12
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
peso a las personas. El interés radica en analizar para cada persona si el peso
disminuyó y como estos cambios se dieron a lo largo de todos los individuos
participantes del estudio. En este caso se trabaja con la diferencia de los valores en
cada individuo y se construye un intervalo para dicha diferencia.

2.4. Calculo intervalos de confianza con el software en EPIDAT

Continuando con los datos de la IPS de Bogotá donde se deseaba establecer el


tiempo promedio de sobrevida en meses, se obtuvo una media = 58,5 meses y
desviación estándar de 23,1 meses con un tamaño de muestra n=200, se desea
obtener el intervalo de confianza:

En el software EPIDAT en el menú Métodos, Inferencia sobre parámetros, Una


población, opción media:

Se registran los datos de media, desviación estándar, tamaño de muestra en las


casillas respectivas:

13
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Posteriormente se da click en el botón de la calculadora que se encuentra en la


parte superior izquierda:

Se obtuvo un intervalo para la media de:

IC (95% = [55.3; 61.7]

14
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Interpretación IC para la media:


Es decir que con una confianza del 95% el verdadero valor de la media de
supervivencia de los pacientes de la IPS de Bogotá estará entre 55.3 a 61.7 meses.

2.5. Tamaño de Muestra en la Estimación de la Media Poblacional

Esta fórmula es útil para el cálculo de los estudios descriptivos y de Prevalencia, en


los cuales se espera obtener precisamente la media poblacional.

De la expresión para e, se puede despejar el símbolo n, con lo cual estamos


presentando una expresión para determinar el tamaño de la muestra cuando se
trata de estimar la media de una población.

2
 zσ 
n= 
 e 

Para calcular el tamaño de muestra requerido en la estimación, debemos conocer


el nivel de confianza deseado, la desviación estándar poblacional, y el error
máximo que estamos dispuestos a aceptar en la estimación.

En resumen, el tamaño de muestra depende de tres factores:

• El nivel de confianza deseado en la estimación de la media.


• La varianza de la población.
• El error máximo aceptable en la estimación del parámetro deseado.

Ejemplo. Se desea estimar el promedio de gastos mensual en fármacos que debe


realizar los pacientes con problemas atópicos. La confianza en la estimación debe
ser 95% y el error en la estimación no debe pasar de $5.000. Conocemos que la
desviación estándar de los gastos de estos pacientes es $15.600. En cuántos
pacientes debemos observar los gastos para poder establecer el intervalo de
interés.

Como el nivel de confianza deseado es 95%. El valor de Z de la tabla normal es Z =


1.96, la desviación estándar poblacional de los gastos es σ = 15600 y el error en la
estimación no debe pasar de e = 5000

2
 1.96 • 15600 
n=  = 37.396
 5000 

Como el tamaño de la muestra debe ser una cantidad entera, aproximamos al


entero siguiente. Tenga en cuenta que el tamaño calculado a través de la fórmula

15
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
es el mínimo para poder cumplir con las condiciones de confianza y error máximo.
Cualquier disminución al tamaño no permitiría cumplir con dichas condiciones.

El tamaño es en este ejemplo de 38 gastos de pacientes.


<En cierto tipo de problemas en el que conocemos el tamaño de la población N y
este es un valor reducido, el tamaño de la muestra ya calculado, se puede ajustar
reduciendo su valor por efecto del tamaño poblacional.
La expresión de ajuste por efecto de una población finita es

n0
n=
n
1+ 0
N
En donde no es el tamaño de la muestra calculado sin tener en cuenta el tamaño
poblacional.

Ejemplo. Se desea estimar el tiempo promedio que los estudiantes de cierta


institución dedican diariamente a ver televisión, con una confianza del 95% y
asumiendo que la desviación estándar de los tiempos dedicados a la televisión por
los estudiantes es 1.5 horas. El error en la estimación no debe pasar de 12 minutos.
En la institución donde se realiza el estudio hay en total 200 estudiantes.
Como las unidades de la desviación estándar están en horas, el error debemos
pasarlo de minutos a horas (dividiendo por 60). Es decir que 12 minutos
corresponden a 0.2 horas.
2
 zσ 
n= 
 e 
2
 1.96 • 1.2 
n=  = 138.3
 0 .2 
El tamaño de muestra debe ser 139 estudiantes. Como tenemos el dato de la
población N = 200, aplicaremos la expresión de ajuste de población finita.
n0
n=
n
1+ 0
N
139
n= = 82
139
1+
200
Finalmente el tamaño de la muestra requerido es 82 estudiantes.

1.4. Estimación de La media µ cuando no se conoce la Desviación Estándar


Poblacional σ

16
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
Distribución T Student.

El intervalo de confianza estudiado implica conocer la desviación estándar de la


población, con la cual se halla la desviación estándar o error estándar muestral.

Cuando esta desviación no se conoce, debemos recurrir a la desviación estándar de


la muestra, pero este cambio conlleva también cambiar la distribución normal z
por la distribución t.

La distribución t es como la normal, de forma simétrica y acampanada, pero a


diferencia de esta, la t depende del tamaño de la muestra, tamaño que se ve
reflejado en el concepto “grados de libertad”: gl., definido como el número de
observaciones que se pueden escoger libremente. Es el número de observaciones
menos el número de restricciones impuestas sobre esas observaciones. Una
restricción es un valor que las observaciones deben tener. Cuando se tiene un
conjunto de 4 observaciones cuyo promedio es 50, este valor restringe la
escogencia de las observaciones. Se pueden escoger libremente 3 observaciones, o
sea los grados de libertad gl = 3. Si la restricción es el promedio, la expresión para
gl = n – 1
Cuando el tamaño de la muestra es 30 o más, la distribución t los valores de t y de
z son muy semejantes. Pero cuando el tamaño de la muestra es menor de 30, los
valores de t son significativamente diferentes de los valores z.
Condiciones para el uso de la distribución t:
1) La muestra es pequeña (n < 30)
2) σ es desconocida
3) La población de la cual seleccionamos la muestra es normal o casi normal
A continuación se presenta una gráfica que incluye varias distribuciones t en las
que se cambia el tamaño de la muestra y por tanto los grados de libertad.
Cuando más aumentan los grados de libertad más se parece la distribución t a
la normal.

Para hallar el valor de t en esta distribución necesitamos el tamaño de la muestra n


= 15 (gl = 14) y el área de cola por ejemplo 0.05. El valor de t sería 1.761
17
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

La expresión el intervalo de confianza para la media poblacional cuando no se


conoce la desviación estándar de la población y el tamaño de la muestra es
reducido (n < 30) queda:

s
x ±t
n
x : La media de la muestra.
t: valor obtenido de la tabla de distribución t, para un área de cola y cierto tamaño
de muestra.
s: desviación estándar de la muestra
n: Tamaño de la muestra
Ejemplo. Los tiempos (en minutos) que se gastaron en determinada cirugía fueron
registrados: 90; 65; 75; 100; 105; 85; 90; 80 y 95. Determinar el intervalo de
confianza del 95% para el tiempo promedio que los cirujanos gastan en la cirugía
específica.
Sólo disponemos de los datos de la muestra. n = 9. De la muestra obtenemos la
media y la desviación estándar x = 87.22; s = 12.53
El valor de t se obtiene así: como n = 9 entonces los grados de libertad gl = 8.
Como el nivel de confianza es 95% el área de cola superior será 0.025. De la tabla
de distribución t leemos t = 2.306. Así la expresión quedaría:
12.53 12.53
µ
IC ( )95% = (87.22 − 2.306 9 ;87.22 + 2.306 9 )
[77.59; 96.85]

El tiempo promedio que los cirujanos de la institución gastan en determinada


cirugía está entre 78 y 97 minutos, con una confianza del 95%, es decir, por cada
100 veces que se realice el muestreo 95 veces el verdadero promedio de la
población estará contenido por el intervalo de confianza.

18
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
Intervalo de confianza para la varianza

En algunas investigaciones en la vida real el interés es conocer la varianza de la


población, ya se vio previamente que existe un estimador (S2 ) de este parámetro,
este indicador debe acompañarse de su respectivo intervalo de confianza para ello
se utiliza la tabla de distribución de probabilidad de la Chi-Cuadrado denotada

como α

La fórmula de cálculo del intervalo de confianza para la varianza IC ( (1-α)% es:


 
 
IC ( (1-α)%= ; "
!
α

! α
 

19
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
TEMA 2

PRUEBA DE HIPÓTESIS

Se estudiará el concepto de prueba de hipótesis y sus componentes, hipótesis nula,


hipótesis alterna, significación, potencia, error tipo I, error tipo II.

2.1 Hipótesis Nula y Alterna

En un estudio para analizar las posibles diferencias de microfiltrado entre dos tipos
de sellantes dentales.

• La hipótesis nula sería: No hay diferencia entre los dos sellantes en relación
a su microfiltrado.

En el caso de comparar dos grupos, la hipótesis nula plantea que no hay diferencia
entre los grupos. Se quiere saber si la crema dental A es mejor que la crema B para
prevenir la caries dental.

• La hipótesis nula sería: No hay diferencia entre las cremas A y B en relación


a la prevención de caries dental.

Observe como hay pruebas sobre promedios, pruebas sobre proporciones y


también las hay para varianzas.

Asociada a esta hipótesis se tiene otra, llamada “hipótesis alterna” Es la negación


de la hipótesis nula, y puede tener una dirección según la redacción del enunciado.

• En el caso de los sellantes la hipótesis alterna sería: Uno de los sellantes


presenta un promedio mayor que el otro en microfiltrado.

• En el caso de la comparación de las cremas dentales, la hipótesis alterna


sería: La proporción de dientes cariados es menor para los usuarios de la
crema A que para los de la crema B.

La hipótesis nula plantea una afirmación para el parámetro de la población.

Dicha afirmación se considera verdadera, mientras una muestra no señale lo


contrario

p1 = p2

20
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
La hipótesis alterna. Plantea la negación de la hipótesis nula y puede tener una de
dos presentaciones:
p1< p2
o
p1> p2

2.2. Errores tipo I y Tipo II

Para poner a prueba una hipótesis nula, se utiliza una muestra y los resultados de
la muestra se comparan con los que se obtendrían si la hipótesis nula fuera
verdadera.

Como la muestra es aleatoria, bien podría ocurrir que la muestra me indique


que la hipótesis nula es falsa, cuando en realidad es verdadera.

Si el resultado de la muestra, no presenta mucha diferencia con el que debe dar si


la hipótesis nula fuera verdadera, entonces apoyamos la hipótesis nula, lo que
querría decir que la diferencia se al azar, pero...si el resultado de la muestra
presenta diferencia notoria con el que debería dar si la hipótesis nula fuera
verdadera, lo que prácticamente descarta el azar, debemos rechazar la hipótesis
nula y concluir la hipótesis alterna

El nivel de significación es el riesgo que estamos dispuestos a correr en una


muestra que señaló una diferencia haya sido “engañosa”. Es decir, esta diferencia
se debe únicamente al azar, pero se creyó que se debía al no cumplimiento de Ho.
Error tipo I:α
Si por ejemplo α = 0.05, en el caso de tomar la decisión de rechazar la hipótesis
nula podemos estar cometiendo un error (podría ser verdadera y la estamos
rechazando). La probabilidad de cometer este error es el nivel de α

Potencia de una prueba.

Es la capacidad que tiene un estudio de encontrar o detectar una diferencia y


poder rechazar la hipótesis nula cuando esta es falsa (o sea que la hipótesis alterna
es verdadera) 1 - β
Esta capacidad se logra a través del tamaño de la muestra.
El riesgo de no rechazar una hipótesis nula que es falsa, se conoce como error tipo
II y se expresa como β
En el caso de la comparación de cremas dentales para la prevención de la caries, si
una prueba tiene 80% de potencia, esto significa que si hay diferencia entre las
cremas para prevenir la caries, hay un 80% de probabilidad de ser detectada dicha
diferencia.

21
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
La manera de comparar los resultados de una muestra con los que se esperarían si
la hipótesis nula fuera verdadera, es calculando la probabilidad de obtener
resultados como los de la muestra o incluso más alejados del valor de la hipótesis
nula. Este valor se representa por P.
Si P es muy pequeño, menor del 5% o aún mejor, menor del 1%, podemos decir
que el resultado de esta muestra es muy improbable si la hipótesis nula fuera
verdadera. Esto nos lleva a decidir el “rechazo de la hipótesis nula” y a aceptar la
hipótesis alterna.

Si el valor de P es suficientemente grande (valores por encima del 5%) se puede


interpretar como: Partiendo de una hipótesis nula el resultado de nuestra muestra
es bastante probable, lo que no permite rechazar la hipótesis nula.

Situación frente a la decisión tomada:

Valor verdadero Hipótesis nula Hipótesis nula


verdadera falsa (alterna
verdadera)
Decisión tomada

Valor de p<0.05 Error tipo I (α) Decisión correcta


Rechazo de H0

Valor de p>0.05 Decisión correcta Error tipo II (β)


No rechazo de H0

22
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

2.3. Prueba sobre un promedio o una media.

El objetivo de esta prueba es revisar un valor propuesto para la media de la


población a la luz de los resultados de una muestra aleatoria.

La distribución debe ser la de promedios muestrales cuya forma según el teorema


del Límite Central es normal. (El teorema supone conocida la desviación
poblacional)

En el Hospital hay interés por revisar la duración de cierto bombillo de gran


importancia en la sala de cirugía.

La desviación estándar de ese tipo de bombillo es 40 horas. El fabricante afirma


que el promedio de duración es de por lo menos 800 horas. ¿Se podría concluir al
4% de significancia que el fabricante ha exagerado, cuando una muestra aleatoria
de 30 de esas bombillas presentó un promedio de 788 horas?
Se quiere aquí contrastar la afirmación del fabricante sobre el promedio de
duración de las bombillas usando como medio de prueba una muestra.
Sistema de hipótesis:
Ho:µ = 800
H1:µ< 800
Criterio de decisión y distribución teórica.
Nivel de significancia α = 0.04

23
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Distribución Normal Estándar. Variable z

Rechazo Ho

El valor crítico de la prueba estadística se denota como ZC este se obtiene con el


valor de alfa, es decir en este caso Zc= -1,75 el cual acumula el 4%, ahora se debe
calcular el Z para los valores del problema con la ecuación transformadora de X a
valores de Z:
x−µ
z=
σ
n

785 − 800
z= = −2.05
40
30

Con el Z=-2,05 se verifica cual es la probabilidad que acumula este valor de Z, esa
probabilidad es a lo que se denomina p-valor, en este caso es P = 0.02018

Decisión: si el p-valor es menor que el valor de α=0.04, se rechaza la Ho.

P-valor= 0.0218 < 0.04, por lo tanto, se rechaza la Ho.

Respuesta: A un nivel de significancia del 4% se puede decir que el fabricante ha


exagerado y que el promedio de duración de ese tipo de bombillas es menor de
800 horas

Prueba sobre una media cuando no se conoce la desviación estándar


poblacional σ
En caso de desconocerse la desviación estándar poblacional σ, se puede usar en su
reemplazo s, o sea la desviación estándar de la muestra. Este cambio nos lleva a
usar la distribución t en lugar de la distribución normal. (Hay una condición para la
distribución poblacional de la cual se toma la muestra: es que ella sea normal o al
menos simétrica)

x−µ
t= con gl=(n−1)
s
n 24
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Ejemplo.El administrador de un centro de salud desea saber si el tiempo medio


invertido por los pacientes en la sala de espera es mayor de 20 minutos. Una
muestra de 25 pacientes permanecieron en promedio 23 minutos, con una
desviación estándar de 10 minutos. ¿Al nivel del 5% de significancia, se podría
concluir que el tiempo de espera es mayor de 20 minutos?

Ho: promedio de espera =20 minutos


Ha: promedio de espera > 20 minutos

La prueba se denomina “prueba t para una muestra” y su valor es:


x−µ
t= con gl = (n − 1)
s
n
23 − 20
t= = 1 .5
10
25

Tomando la tabla t con 24 grados de libertad, el valor p = 0.07


Como p-valor > α No se encontró evidencia estadísticamente significativa para
rechazar la Ho.
En este caso la probabilidad P obtenida a partir de la tabla t es mayor de 0.05, no
se puede rechazar la hipótesis nula y tendremos que aceptar que no hay suficiente
evidencia para concluir que el tiempo de espera en la sala sea mayor de 20
minutos.

2.4. Prueba de la diferencia de dos promedios:

25
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
Se pueden distinguir dos situaciones: para un diseño de muestras independientes
o para un diseño de muestras pareadas.

Muestras Independientes. Su objeto es comparar dos poblaciones, que se supone


iguales, tomando de cada población una muestra aleatoria e independiente de la
otra muestra.

Muestras Apareadas.- Pretende comparar dos poblaciones que se supone iguales


pero el diseño consiste en tomar cada unidad experimental y realizar un par de
observaciones, una para cada población. Las dos poblaciones son “antes” y
“después”

2.4.1. Comparación de dos promedios usando muestras independientes:

Se quieren comparar los enfermos de dengue, con los de leptospirosis, en relación


a la cantidad de anticuerpos presentes a una semana de haber presentado los
síntomas.

Aquí hay dos poblaciones: los enfermos de dengue y los de leptospirosis.


Se toma una muestra de pacientes de cada población y se mide el número de
anticuerpos en cada paciente. Estas muestras son independientes.

Una muestra de 27 pacientes con dengue da un promedio de 250 con una


desviación estándar de 33, mientras que en el grupo de 28 pacientes con
leptospirosis el promedio fue 286 con una desviación de 24. La media poblacional
de anticuerpos de Dengue es de 245 y 289 de Leptospirosis.

¿Se podría concluir al 1% de significancia que el promedio de anticuerpos es


mayor en pacientes con leptospirosis que el de los pacientes con dengue?
Sistema de hipótesis:

– Ho: µ1 = µ2

– H1 : µ1>µ2
4
Criterio de decisión y distribución.

Se toma un nivel de significancia del 1% y la distribución es t con


Gl = n1 + n2 – 2 = 53

26
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

El valor de la prueba t para dos muestras independientes es:

( x1 − x2 ) − ( µ1 − µ 2 )
tp =
1 1
sp +
n1 n2

( n1 − 1) s12 + (n2 − 1) s22


s =
2

n1 + n2 − 2
p
Sp= 28.8

tp=-4,6 la probabilidad asociada a este valor en la distribución t-Student, este


valor es el que se denomina p-value o valor p. se puede obtener en Excel usando
la función =distr.t (4,6; 53; 1) da como resultado el p=0,000013

27
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Regla para la decisión:

Si p-value<α se rechaza Ho.

Interpretación:
Cuando no se rechaza la Ho, se dice que no hay suficiente evidencia estadística
para rechazar la hipótesis nula.

Cuando si se rechaza la Ho, se dice que con una significancia de α% se rechaza la


Hipótesis nula (agregar en palabras que era la hipótesis nula), otra forma más corta
y muy usada en artículos científicos es que se rechaza la hipótesis nula con un p de
tanto.

Decisión: Se rechaza Ho. El valor de p =que el nivel de significancia α= 0.01

Conclusión. No hay suficiente evidencia para concluir que los enfermos de


Leptospirosis tengan un promedio mayor de anticuerpos que los pacientes con
Dengue.

28
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
2.4.2. Comparación de dos promedios usando muestras apareadas

Recordemos que las muestras apareadas se pueden obtener cuando al mismo


sujeto (paciente) se le toman dos mediciones bajo diferentes condiciones.

Se desea valorar el efecto de una dieta para perder peso. Se toman 10 pacientes, se
les mide su peso (antes de la dieta), a continuación se los somete a la dieta
destinada a rebajar peso y después de un período semejante para cada persona, se
les vuelve a medir su peso (después de la dieta)
Este es un diseño de muestras apareadas.

Los datos de los pesos de antes y después se muestran en el siguiente cuadro

Sujeto Peso antes Peso después


(X1) (X2)
1 78 75
2 84 80
3 89 85
4 73 73
5 69 71
6 79 74
7 86 82
8 85 81
9 88 84
10 76 72

29
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
El procedimiento implica obtener para cada sujeto la diferencia entre sus dos
mediciones y finalmente de lo que se trata es de analizar una muestra (la de
diferencias). Calculemos diferencias:

Sujeto Peso antes Peso después Diferencia


(X1) (X2) (Y= X1-X2))
1 78 75 3
2 84 80 4
3 89 85 4
4 73 73 0
5 69 71 -2
6 79 74 5
7 86 82 4
8 85 81 4
9 88 84 4
10 76 72 4

Sistema de hipótesis:

– H0: δ = 0

– H1 : δ> 0
Criterio de decisión y distribución de probabilidad:

2.1 t
Nivel de significancia α = 0.05

– Distribución t con gl = n – 1

Valor de la prueba t para muestras apareadas:

30
C. Mora. Notas de clase Bioestadística,

%−μ'
Universidad
Universidad del Valle, Colombia 2018

#$ 
( /√
Donde,

%, es promedio de la variable diferencia de X1 y X2
µ0, es la media poblacional de no contarse con el valor se asume como
cero.
( , la desviación estándar de la variable Y (diferencia de X1 y X2)
n, es el tamaño de muestra inicial.

Continuando con el ejercicio,


(  2.21

%  3.0 y n=10 personas, reemplazando en la ecuación para el calculo de tp

3.0 − 0
#$   4.29
2.21/√10

Luego de obtener tp se debe verificar cual es la probabilidad que acumula este


punto de corte en la distribución t-Student, este valor es lo que se considera P-
VALUE

P-value: 0.001 (verificar en Excel con función distribución t).

Se rechaza si p-value<α

Decisión: Se rechaza la hipótesis nula. El valor de P=0.001<α=0.05 valor que por


ser menor que el nivel de significancia, por lo tanto se rechaza la hipótesis nula.
Respuesta. Se puede concluir al 5% de significancia que la dieta es efectiva para
rebajar de peso.

31
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

2.5. Prueba de asociación o independencia de variables (Chi cuadrado)

Cuando se tienen variables categóricas (genero, estado civil, profesión, etc., se


puede usar una prueba para analizar la diferencia entre las proporciones de las dos
variables que se están estudiando. Dicha prueba se denomina “Prueba Chi
Cuadrado”.

Considere que hay dos hipótesis una nula Ho y una Alterna Ha, así;

H0: No existe asociación entre la variable 1 y la variable 2.


Versus

Ha: La variables 1 y 2 no son independientes

Se debe considerar que así como en la normal α defina una zona de rechazo, en la
Chi-cuadrado también hay que definirlo como


1 
2 ;

α

Donde r-1 son el número de filas de la tabla menos 1 y c-1 es el número de


columnas menos 1.

Con los datos del problema hay que calcular el valor calculado o experimental de
la Chi-cuadrado, se denota como3 , se calcula como:

Donde, Oi son los valores observados de las variables y Ei son los valores esperados
de la variable.

Ejemplo:
En un estudio realizado en escolares en el cual se tiene la variable Sexo y la
variable: “Se ha sentido hostigado por sus compañeros”, se contó con una muestra

32
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
n=424 estudiantes y los datos obtenidos se presentan en la siguiente tabla de
contingencia

Sexo
H M Total
Siempre 21 78 99
Hostigado en
su escuela

Casi siempre 20 102 122


Algunas veces 18 91 109
Nunca 25 69 94
TOTAL 84 340 424
% total 19,8% 80,2% 100,0%

Determinar a partir de esta muestra si hay diferencias de hostigamiento por parte


de compañeros en hombres y en mujeres usando un nivel de significancia del 5%.

Solución:

Considere las hipótesis:


H0: No hay asociación (son independientes) entre ser hostigado y el sexo
Versus

Ha: existe asociación entre ser hostigado y el sexo

El valor de chi-cuadrado que define la región de rechazo es:


4 
;','6

 7,81

El valor de 7,81 puede obtenerse de la tabla de la distribución de la Chi –cuadrado


acumulada a la derecha o puede obtenerse con la hoja electrónica de Excel, así:

33
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Usando la función Chi-cuadrado cola derecha:

34
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Ahora, el cálculo del 3 :



Los valores observados son los reportados en la tabla de contingencia hay que
elaborar otra tabla con los valores esperados que se calcula al multiplicar los
totales de las filas por la proporción de hombres 0,198 y de mujeres 0,802,
obteniendo la siguiente tabla:

35
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

Sexo
H M Total
Siempre 21 78 99
Hostigado en
su escuela

Casi siempre 20 102 122


Algunas veces 18 91 109
Nunca 25 69 94
TOTAL 84 340 424
% total 19,8% 80,2% 100,0%

Sexo
H M Total
Siempre 19,6 79,4 99
Hostigado en
su escuela

Casi siempre 24,2 97,8 122


Algunas veces 21,6 87,4 109
Nunca 18,6 75,4 94
TOTAL 84 340 424

Luego se realiza una tercera tabla con la fórmula de cálculo de la chi-cuadrado


donde cada celda se realiza la resta entre el valor original Oi menos el valor
correspondiente de la tabla de esperados Ei, eleva al cuadrado y divide por Ei,
obteniendo los siguientes resultados:

H M
Hostigado en

Siempre 0,09805603 0,024226


su escuela

Casi siempre 0,71938197 0,17773


Algunas veces 0,59827147 0,147808
Nunca 2,18393837 0,539561

Chi2 4,489

3  4,489

36
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018
Como el valor calculado es inferior al valor de 7,81 no hay suficiente evidencia para
rechazar la Ho, es decir, el hostigamiento escolar es independiente del sexo de la
víctima.
El valor de P = 0.2132 no permite rechazar la hipótesis de independencia entre el
hostigamiento y el género a un nivel del 5% de significancia. Ósea que en esta
muestra no se encuentra asociación entre el hostigamiento y el género.

P-valor función en Excel=DISTR.CHICUAD.CD(4,489;3)

Ver video en Youtube sobre el cálculo del valor X2 en Excel:

https://www.youtube.com/watch?v=Dntc_MxPdVY

37
C. Mora. Notas de clase Bioestadística,
Universidad
Universidad del Valle, Colombia 2018

BIBLIOGRAFÍA.

1. Dennis, Wackerly; William, Mendenhall III; Richard Scheaffer. Estadística


Matemática con aplicaciones. Florida – USA: Thomson; 2002.

Carvajal O, A; Cruz V,C.A; Vásquez, M.L Biometría. 1993. Programa de Magíster a


Distancia en Enfermería. XYZ impresores. (Libro guía). Este texto desarrolla los
temas orientado en la metodología a distancia.

Carvajal O, Reynaldo. Estadística para Análisis Epidemiológico 2004. Catorse S.A.


Presenta elementos de estadística que serán de mucha utilidad en epidemiología

Daniel, Wayne W. Bioestadística base para el análisis de las ciencias de la salud.


México. Editorial Limusa Wiley. 2002.

Downie M. R y Heath R. W. 1973. Métodos Estadísticos Aplicados. 3 Ed. México:


Harla, Harper y Row Latinoamericana.

Sánchez, Ismael. Notas de Clase Estadística. Universidad Carlos III. Madrid. Año
2016.

38

Vous aimerez peut-être aussi