Texto Guia de Bioestadistica

BIOESTADISTICA
INTRODUCCION
Los estudiantes que ingresan a las carreras del área de la salud de la Universidad Diego
Portales, en general vienen de la enseñanza media con una formación matemática muy
heterogénea. Tienen en su formación Universitaria, asignaturas como Bioestadística y
Metodología de investigación, que requieren un razonamiento lógico y matemático.
El objetivo de este texto, es ayudar a los estudiantes de pregrado a comprender los
métodos estadísticos, a analizar y presentar información de utilidad en la investigación del
área de la salud, a comprender publicaciones científicas.
En cada concepto que ha sido tratado, se ha buscado más la ejemplificación que la
demostración matemática y para su mejor comprensión, se ha incluido ejemplos
desarrollados completamente. También se incluye en los principales capítulos, ejercicios
propuestos, con su respectivo resultado.
Prof. W. Aranda Página 1

INDICE
Introducción ---------------------------------------------------1
Índice ---------------------------------------------------2
Capítulo I: Estadística descriptiva ---------------------------------------------------3
Medida de Tendencia Central ---------------------------------------------------3
Medida de Dispersión ---------------------------------------------------7
Ejercicios resueltos ---------------------------------------------------16
Capítulo II: Probabilidades ---------------------------------------------------17
Axiomática y Teoremas ---------------------------------------------------17
Prob. Condicional ---------------------------------------------------20
Teorema de Bayes ---------------------------------------------------23
Aplicaciones ---------------------------------------------------26
Modelo Binomial ---------------------------------------------------36
Distribución Normal ---------------------------------------------------39
Capítulo III: Inferencia Estadística ---------------------------------------------------43
Estimación de Parámetros Poblacionales ---------------------------------------------------45
Estimación de parámetros por intervalos ---------------------------------------------------46
de confianza
Estimación de un promedio poblacional ---------------------------------------------------47
Estimación de la varianza poblacional ---------------------------------------------------48
Estimación de la proporción poblacional ---------------------------------------------------51
Pruebas de hipótesis: Conceptualización ---------------------------------------------------53
Pruebas de hipótesis para la media ---------------------------------------------------56
Pruebas de hipótesis para la proporción ---------------------------------------------------61
Pruebas de hipótesis para la varianza ---------------------------------------------------63
Pruebas de hipótesis para 2 medias en ---------------------------------------------------67
muestras independientes
Pruebas de hipótesis para 2 proporciones ---------------------------------------------------71
Pruebas de hipótesis para 2 muestras ---------------------------------------------------74
relacionadas
Ejemplos resueltos de pruebas de ---------------------------------------------------76
hipótesis
Análisis de Varianza ---------------------------------------------------80
Prueba de hipótesis de Asociación ---------------------------------------------------84
Análisis de Regresión Lineal Simple ---------------------------------------------------87
Anexo: Tablas ---------------------------------------------------95

CAPITULO I
ESTADISTICA DESCRIPTIVA
Uno de los objetivos más importantes de la estadística es describir usando
estadígrafos adecuados y gráficos estadísticos, los resultados obtenidos del análisis de los
datos obtenidos en una muestra.
MEDIDAS DE TENDENCIA CENTRAL

1. La Media Aritmética.
1.1 Media poblacional.

Es el valor promedio de una variable cuantitativa medida sobre
toda la población, representa el valor que tendrían todas las observaciones, si fuesen
todas iguales.El valor obtenido para la variable utilizada es único y se denota con la
letra griega μ ( mu).
N
 xi
  i 1
N
1.2 Media muestral.

Es un valor obtenido para una variable cuantitativa usando
datos de una muestra, se denota con el símbolo: x
Si x1, x2, …, xnrepresentan un conjunto de n observaciones de una muestra de una

variable X. La media aritmética de estos valores se obtiene a través de:
x  x 2  ··· x n  x
x 1 
n n

Su interpretación es: “ Si todas las observaciones de la muestra tuviesen el mismo valor,
éste sería el valor de la media aritmética “
Ejemplo: En un estudio en una maternidad, se registró el peso de nacimiento( en
gramos ) de una muestra de 5 recién nacidos.
X: 3100, 2780, 2900, 3200, 3000
El valor promedio del peso de nacimiento de recién nacidos es: x y representa el peso
que tendrían los recién nacidos si hubiesen pesado lo mismo.
3100  2780  2900  3200  3000

X  2996 grs
5
Cálculo de la Media Aritmética para una variable continua tabulada en intervalos

y i = centro de clase del intervalo (i) ni= frecuencia absoluta del intervalo (i)
Y 
y i  ni
n
2. La Mediana
2.1 Mediana de la población.
Al ordenar de menor a mayor los datos de una población, la

mediana se ubica en el centro quedando un 50% bajo su valor y un 50% sobre el
valor. Si el número de observaciones es impar, ese valor central es único, pero si el
número de observaciones es par, hay dos términos centrales y la mediana es el
promedio aritmético de ellos.
Se prefiere usar la mediana como valor central de una distribución, cuando hay
algunos valores muy grandes o muy pequeñoscomparados con la mayoría de los
demás valores de la muestra, que producen una asimetría en la distribución y

arrastran el valor del promedio a uno de los extremos haciendo que no sea
representativo.
2.2 Mediana ( Me) en una muestra

Definición.Supongamosque tenemos una muestra de n observaciones de una
variable X, que se ordenan de menor a mayor : x1, x2, …, xn. La mediana de esta
muestra es la observación que ocupa el lugar central si el número de datos (n) es
impar y si el número de observaciones (n) es par, la mediana es el promedio de las
dos observaciones centrales.
n 1
Posición de la mediana = cuando n es impar
2
n
Cuando n es par, la mediana es el promedio de los valores que ocupan la posición y
2
n
la posición +1
2
Ejemplo: Si ordenamos de menor a mayor el peso de nacimiento de los recién

nacidos obtenemos que:
X:2780, 2900, 3000,3100,3200
Dado que n=5, la mediana es el valor que ocupa la posición central: (n+1)/2 = 6/2 = 3
Obteniéndose después de ordenar de menor a mayor
Me= 3000 grs

Si suponemos que n=6 recién nacidos y al ordenar de menor a mayor el peso de
nacimiento tenemos:
X:2780, 2900,3000,3100,3200,3400
El valor de la mediana se obtiene de promediar los dos términos centrales, el que ocupa la
posición n/2= 3 que es 3000 y el siguiente que es 3100.
Me=3050 grs

Tanto el Promedio como la Mediana señalan la posición central de una distribución
de datos, pero sus valores coinciden siempre que la distribución sea simétrica.
En ocasiones al registrar los datos de una muestra,aparecen observaciones con valores
extremos muy altos o muy bajos, afectando el resultado de la media aritmética y alterando
la simetría de la distribución, en estos casos es preferible usar la mediana y percentiles
para describir la distribución.
3. Moda o Valor Modal.Es el valor de la variable que tiene la mayor frecuencia,

este estadígrafo se puede calcular también cuando la variable es nominal
Ejemplo: Se tabuló el diagnóstico dado a 50 pacientes que consultan en un servicio

de salud, obteniéndose:
Diagnóstico Frecuencia %
Diabetes 10 20
Hipertensión 25 50
Dislipidemia 8 16
Asma Bronquial 7 14
Total 50 100
La moda es Hipertensión con un 50%
Cálculo de la Moda de una variable continua tabulada en intervalos
ni 1
M oda (x)  Linf  Ci 
(ni 1  ni 1 )
4.Percentiles.
Consiste en encontrar un valor de la variable que supera a un
porcentajedado de los datos, el cálculo de la mediana en el que corresponde al percentil
50

Percentil 75: Es el valor de la variable que supera a no más del 75% de las
observaciones,ocupa la posición :(n/100)*75 una vez ordenadas de menor a mayor.
Percentil 90: Es el valor de la Variable que supera a no mas del 90% de las
observaciones, ocupa la posición: ( n/100)*90 una vez ordenadas de menor a mayor.
En el peso de nacimiento de los 5recién nacidos tenemos: Percentil(75) = 3100grs
Cálculo del Percentil k en datos de una variable continua tabulada en intervalos
 nk 
 100  N i 1 
Pk (x)  Linf  Ci 
ni
En el cálculo de la mediana k=50
MEDIDAS DE DISPERSIÓN O VARIABILIDAD

1. La Varianza de la población: Es un indicador de la variabilidad que tienen los
datos de la población con respecto a la Media aritmética de la población μ.
 2

 (x  )
i
2
2. La Varianza de la muestra:Es un indicador de la variabilidad que tienen los

datos de la muestra, con respecto a la Media aritmética de la muestra x . Si
tenemos x1, x2, …, xn un conjunto de n observaciones de una variable, con un
promedio x . La varianza de la muestra se denota por s2 y expresa la suma de

cuadrados de las diferencias de los valores, con respecto al promedio, dividido por
n-1. Su fórmula de cálculo es

 (x x  n
x)2
 x) 2 2 (
 
2 i 2 i
s = s
n 1 n 1
Algunas observaciones acerca de la Varianza.
 Su valor es siempre mayor o igual a cero. ( Nunca negativa ya que sus valores son
cuadrados)
 Si todos los valores de la muestra son iguales, la varianza es cero
 Si a todos los valores de la muestra se les suma una misma cantidad, el valor de la
varianza se mantiene igual.
 Si todos los valores de la muestra son amplificados por una misma cantidad, la
varianza resulta amplificada por el cuadrado del factor de amplificación.
3. La desviación estándar.
Se obtiene al extraer la raíz cuadrada de la
varianza, por tal razón se mide en la misma unidad de la variable.
Desviación estándar de la muestra. Sea x1, x2, …, xn una muestra de n
observaciones de una variable X. La desviación estándar de la muestra se define
por:
s   s2 con varianza s2
Ejemplo. Se registró la edad en años cumplidos de 5 niños que fueron controlados

en el consultorio. Calcular la edad promedio y su desviación estándar.
X1= 2 X2= 5 X3=1 X4= 3 X5= 4
La edad promedio de los 5 niños es igual a 3 años.
Su varianza muestralse obtiene por:

s2 
 (x i  x) 2
n 1
(2  3) 2  (5  3) 2  (1  3) 2  (3  3) 2  (4  3) 2

4
(1) 2  2 2  (2) 2  0 2  12 1  4  4  0  1 10
    2.5
4 4 4
La desviación estándar es : s   s 2  2.5 = 1.58 años
4. Coeficiente de variación(C.V)
El coeficiente de variación es un indicador de la variabilidad de una
distribución, mientras más pequeño es su valor más homogénea es la distribución,
además como es adimensional permite comparar la variabilidad en un conjunto de datos
con la de otro, incluso si tienen distinta unidad de medición.
Ejemplo: Se midió y pesó a una muestra de 50 niños. Determinar si hay mayor

variabilidad en la talla o en el peso de los niños Una forma rápida de comparar la
variabilidad es con el coeficiente de variación (CV) dado por:
s
CV  (100) Señala que porcentaje es la desviación estándar con respecto a la media de
x
la distribución.
x s s
CV 
x
Talla 1.12 mts 0.05 mts 4,5%
Peso 35 kgs 2.1 kgs 6%
Observamos que en la muestra de los niños, en el peso hay mayor heterogeneidad que en
la talla.

5. Recorrido Intercuartílico (I.Q)
La desviación estándar se usa para describir la variabilidad de una
distribución, cuando se ha usado la media aritmética como indicador de posición central,
pero cuando su valor está afectado por valores extremos, pierde representatividad y es
conveniente usar la mediana como indicador central y para describir la variabilidad usar el
recorrido intercuartílico que es la diferencia entre el percentil 75 y el percentil 25; Su valor
contiene un 50% de los valores del centro de la distribución. Mientras más pequeño es su
valor, más homogénea es la distribución.
IQ= P75-P25
Ejercicio.
En una prueba psicológica, se registró en segundos, el tiempo que demora
un niño de 6 años en encontrar la salida de un laberinto. La prueba se realizó en un curso
de 35 niños de primer año básico de un colegio.
45 55 98 62 62
72 79 49 85 81
52 66 89 45 99
40 78 53 71 71
66 71 68 70 51
79 61 67 81 84
82 91 90 100 110
a. Construir un diagrama de tallo y hojas (utilizando como tallos 4, 5, 6, 7, 8, 9, 10,
11) y comentar la forma sugerida por los datos
Diagrama de hoja-árbol para los datos observados en la Tabla
4* | 0559
5* | 1235
6*|1226678
7*|01112800
8* | 112459
9* | 0189
10*| 0
11*| 0

(*: Los tallos aquí corresponden a las unidades de los enteros, las ramas son
lasdecenas)
Observación: El diagrama muestra que existe una distribución heterogénea de los datos,
tendiendo a estar preferentemente en torno a 61 y 89. La mayor frecuencia de todo el
conjunto de datos está entre 70 y 79.
.
b. Construir una tabla de distribución de frecuencias de cinco intervalos de amplitud
constante.
Para tabular:
1) Se calcula el recorrido de la variable L= Valor máximo – Valor mínimo
L = 110- 40 = 70
2) Se determina la amplitud de los intervalos,dividiendo el recorrido de la variable por
el número de intervalos que se desea obtener. C= L/ k = 70/5=14
C= amplitud constante K= Nº de intervalos= 5
Tabla de distribución de frecuencias de cinco intervalos de amplitud constante.
Frecuencia Frecuencia Frecuencia porcentual
Tiempo Frecuencia
acumulada porcentual acumulada
40 – 54 7 7 20 % 20 %
54 – 68 7 14 20 % 40 %
68 – 82 11 25 31,43% 71,43%
82 – 96 6 31 17,14% 88,57%
96 – 110 4 35 11,4% 100 %
Total 35 100
Observación: El intervalo con mayor cantidad de datos es aquel comprendido ente 68 y

82, siendo esta observación más o menos coincidente con la realizada respecto al
diagrama de tallo y hoja.
c. Calcular con los datos sin tabular y con los datos tabulados: media aritmética,
mediana, percentil 25, percentil 75. Interpretar cada valor obtenido.

Datos sin tabular
45  72  ··· 110 2523

Media Aritmética: x   72,09 segundos
35 35
Mediana: Al ordenar de menor a mayor, el valor que ocupa la posición 18, es 71
segundos.
Percentil 25: El valor que ocupa la posición 9, es 61 segundos.
Percentil 75: El valor que ocupa la posición 27, es 84 segundos.
Media
72,09
aritmética
Mediana 71
Percentil 25 61
Percentil 75 84
Datos tabulados
Media Aritmética
Y 
y i  ni
= (47*7+61*7+75*11+89*6+103*4 )/35 = 72,2 segundos
n
Mediana.
 n  50 
 100  N i 1 
Me ( x)  Linf  Ci   
ni
Me ( x)  68  14 
 17.5  14   72.45
11

Percentil 25
P25( x)  54  14
8,75  7  57.5
7
Percentil 75
P75( x)  82  14
26,25 - 25  84.9
6
Media
72,2
aritmética
Mediana 72.5
Percentil 25 57.5
Percentil 75 84.9
Observación:
Se observa que los indicadores estadísticos no varían significativamente
según se calculen sin tabular o tabulados, la pequeña variación se debe a que al agrupar
los datos, los cálculos se realizan usando la marca de clase para representar a todas las
observaciones que hay en el intervalo. Respecto a la interpretación de los datos, la media
aritmética indica que si todos los niños hubiesen empleado el mismo tiempo en resolver el
problema del laberinto, tendrían un valor de 72,2 segundos. La mediana indica que 72,5
segundos es el valor que supera al 50% de los datos de la muestra, en tanto que es
superado por el 50% restante de datos de la muestra. El percentil 25 corresponde a 57.5
segundos, que es el valor tal que supera al 25% de los datos de la muestra, en tanto que
se superado por el 75% restante de datos de la muestra. El percentil 75 corresponde a
84,9 que es el valor tal que supera al 75% de los datos de la muestra, en tanto que es
superado por el 25% restante de datos de la muestra.

d. Construya un histograma para la tabla construida por intervalos y comente su
forma.
Histograma de los intervalos de la variable tiempo empleado por los niños.

Leyenda: 1: 40 - 54; 2: 54 – 68 ;3: 68 – 82 ; 4: 82 – 96; 5: 96 – 110
Tiempo en resolver el laberinto
Observación:
El histograma indica que la distribución de los datos es homogénea a
través de los intervalos, tendiendo a ser máxima en el intervalo 3, comprendido entre 68 y
82. Se observa que los intervalos 1 y 2 tiene una frecuencia igual para los datos
contenidos en dichos intervalos. El histograma sugiere además que los datos tienen una
distribución que tiene una leve asimetría.
e) Calcular el coeficiente de variabilidad y el recorrido intercuartílico y discuta cuál

de los dos estadígrafos es más adecuado en este caso para representar la
variabilidad de estos datos.
Coeficiente 24,1%
variabilidad. C.V
Recorrido 23
intercuartílico : IQ

Observación:
Según el tipo de datos, el indicador más adecuado para este conjunto de datos
es el coeficiente de variabilidad, debido a que las variables analizadas son de tipo
cuantitativas de escala continua, por lo que la desviación estándar informa con más
precisión los valores de las respectivas desviaciones que hay con respecto al promedio, el
valor del coeficiente de variabilidad de un 24,1%, señala que la desviación estándar es un
24,1% con respecto a su promedio, sugiere una heterogeneidad moderada de los datos. El
recorrido intercuartílico indica que la diferencia que hay entre el percentil 75 y el percentil
25 es de 23 segundos.

DIAGRAMA DE CAJAS
El diagrama de cajas es una representación gráfica de un conjunto de datos que

facilita la percepción visual de su localización, extensión, del grado de heterogeneidad.
También permite identificar los datos atípicos. Es especialmente útil cuando se desean
comparar dos o más conjuntos de datos.
Construcción de un diagrama de cajas
1. Se construye una escala de referencia horizontal o vertical.
2. Se observa que :
Me=71 ;q1 = 61 ;q3 =.84 R.Q=23
Box-Plot para las variables agrupadas según la Tabla anterior
Observación:
En el gráfico se observan los siguientes parámetros: Las líneas horizontales
fuera de la caja indican el máximo y el mínimo (línea superior e inferior respectivamente).
El límite inferior de la caja indica el valor del percentil 25, de61; el límite superior de la
caja indica el valor del percentil 75, de 84. La línea al interior de la caja indica el valor de
la mediana que es 71.

CAPITULO II
PROBABILIDADES
Axiomas de Probabilidades.
1) Ax.1. El primer axioma señala que el valor de la probabilidad de cualquier
suceso se encuentra en el intervalo [0, 1].
0≤P(A) ≤1
2) Ax.2. El segundo axioma señala que la probabilidad del espacio muestral
completo es 1.
P(Ω)=1
3) Ax.3. El tercer axioma señala que si se tiene dos sucesos definidos en el
mismo espacio muestral y son mutuamente excluyentes, la probabilidad de
que ocurra al menos uno de los dos, es igual a la suma de las probabilidades
de cada uno de ellos.
P(AUB)=P(A)+P(B) si A∩B=Ø donde Ø es el conjunto vacío
El conjunto de todos los resultados posibles se llama espacio muestral (Ω).
Se llama suceso a un subconjunto de dichos resultados.
Conceptos básicos de probabilidades
1. Se llama suceso complementario de un suceso A , al suceso formado por los

elementos que no están en A y se denota por: A’
A
A’

2. Se llama suceso unión de A y B,( AUB), a aquel formado por los elementos
que están en A o en B (incluyendo los que están en la intersección de
ambos).
Unión
P(AUB)=P(A)+P(B) –P( A∩B)
3. Se llama suceso intersección de A y B,( A∩B) a aquel formado por los

elementos que están simultáneamente en A y B
Intersección

Teoremas de probabilidades
Además de los tres axiomas, hay varios teoremas que facilitan el trabajo de cálculo
de probabilidades.
1. P(A’) = 1 - P(A)
2. P(AUB) = P(A) + P(B) - P(A∩B)
3. P(A∩B) = P(A) P(B|A)=P(B) P(A|B)
4. P(AUB)’ = P(A’ ∩ B’ )
5. P(A∩B)’ = P(A’U B’)
Ejemplo.
En un consultorio, se entrevistó a 100 adultos mayores, acerca de dos

enfermedades crónicas: Diabetes e Hipertensión. En el resultado se obtuvo que: 60
adultos mayores declaran ser diabéticos, 50 declaran ser hipertensos y 20 declaran tener
ambas enfermedades. Se elige al azar un adulto mayor de la muestra. ¿ Cuál es la
probabilidad de que:
a) Tenga solo diabetes

b) Tenga ambas enfermedades
c) Tenga al menos una de las dos enfermedades
d) No tenga ninguna de las dos enfermedades
e) Tenga diabetes sabiendo que es Hipertenso
f) Tenga Hipertensión sabiendo que es Diabético.
Respuestas:
a) 0,4 b) 0,2 c) 0,9 d) 0,1 e) 0,4 f) 0,33333

Probabilidad Condicional.
Si dos sucesos A y B están definidos en un mismo espacio muestral, la probabilidad

de que ocurra el suceso A, sabiendo que ya ocurrió el suceso B se define como:
P( A  B)
P( A | B) 
P( B)
Lo anterior se puede resumir diciendo que mientras mayor es la intersección de A
con B, mayor es la probabilidad de que ocurra el suceso A cuando ya ocurrió B.
Independencia de Sucesos.
Dos sucesos A y B definidos en un mismo espacio muestral son independientes, si

la ocurrencia de uno de ellos no afecta a la ocurrencia del otro.
P( A | B)  P( A)
P( B | A)  P( B)
Se cumple que:P(A∩B) = P(A) P(B|A)=P(B) P(A|B) = P(A)*P(B)

Ejemplo.
La tabla siguiente corresponde a un estudio sobre el diagnóstico en dos
exámenes realizados a 100 pacientes, mediante dos técnicas diferentes.
Diagnóstico Técnica “A” Técnica “B” TOTAL

Enfermo 15 12 27
Sano 25 48 73
TOTAL 40 60 100
Se selecciona al azar un diagnóstico obtenido de uno de los exámenes.

¿Cuál es la probabilidad que:
1.1. El diagnóstico haya sido realizado con la Técnica “A” ?
P( A)  40 / 100  0,4
1.2. El diagnóstico no sea que está enfermo?
P( Sano)  73 / 100  0,73
1.3. El diagnóstico haya sido realizado por la técnica “A” y su diagnóstico
sea que no está enfermo?
P( A  No Enfermo )  25 / 100  0,25 (viendo directo de la tabla)
1.4. El paciente haya sido realizado por la técnica “A” ó su diagnóstico no
es que está enfermo?
P( A  No Enfermo )  P( A)  P( No Enfermo )  P( A  No Enfermo )
P( A  No Enfermo )  40 / 100  73 / 100  25 / 100
P( A  No Enfermo )  0,88
1.5. El paciente no haya tenido un diagnóstico de enfermo si fue
diagnosticado con la técnica “A”
P( Sano  A) 25 / 100 0.25

P( Sano / A)     0,625
P( A) 40 / 100 0.4

1.6. Qué tipo relación tienen los sucesos: “Diagnóstico Sano” con
“Diagnóstico Enfermo”
Son sucesos excluyentes, ya que no ocurren simultáneamente.El diagnóstico
no puede ser Enfermo y Sano a la vez.

Teorema de Probabilidad Total.
Si el espacio muestral está particionado en los sucesos A1, A2, A3, A4 de

modo que son sucesos excluyentes y exhaustivos. Si se define un suceso B en el mismo
espacio muestral, éste se puede construir como:
A1 A2 A3 A4
B  ( A  B)  ( A  B)  ( A  B)  ( A  B)
1 2 3 4
P( B)  P( B  A1 )  P( B  A2 )  P( B  A3 )  P( B  A4 )
P( B)  P( B )  P( A1 )  P( B )  P( A2 )  P( B )  P(A 3 )  P( B )  P( A4 )
A1 A2 A3 A4
k
P(B)=  P( B A )  P( A )
i 1 i
i
Teorema de Bayes.
Si en el caso presentado anteriormente, ocurre el suceso B. ¿ Cuál es la

probabilidad de que ocurra el suceso A1 ? ¿ El Suceso A2 ? ¿ El Suceso A3 ? ¿ El
Suceso A4 ?Se trata del cálculo de una probabilidad aposterioris de tener una información
adicional“ que ocurrió el suceso B” lo que condiciona de distinta forma la ocurrencia de A1,
A2, A3 y A4.

P( B )  P ( Ai )
P 
A Ai
 i B 
  k
 P( B A )
i 1 i
 P ( Ai )
Ejemplo.
En un curso de la Universidad el 60% de los alumnos son mujeres. Se les
realiza un examen para determinar la prevalencia de alergia alimentaria. El resultado dio
que de las mujeres el 30% presenta alergia alimentaria, mientras que en los varones lo
presenta un40%.
1. Si se elige al azar un alumno del curso. ¿Cuál es la probabilidad de que tenga alergia
alimentaria?.
Aquí se aplica el teorema de probabilidad total
P( A) = P(A∩H) + P(A∩M) H= El alumno es varón

M= El alumno es mujer
A= El alumno presenta alergia alimentaria
= P(A|H) P(H) + P(A|M) P(M)
=0,4 x 0,4 + 0,3 x 0,6= 0,34
Es decir que en promedio hay un 34% de alumnos que presenta alergia alimentaria.
2. Suponga que el alumno elegido al azar resultatener alergia alimentaria ¿Cuál es la

probabilidad de que sea un hombre?
En este caso se aplica el teorema de Bayes, ya que tenemos una información adicional
(que presenta alergia alimentaria ) que reduce el espacio muestral solo al 34% que
presenta la característica ,luego:

P(H/A) = P(A ∩ H)/P(A)
= P(A/H) P(H) / P(A)
=(0,4 x 0,4)/ 0,34= 0,47
Es decir que el saber que la persona elegida presenta alergia alimentaria, existe una
probabilidad de 47% de que sea hombre, lo cuál señala a la vez que en este nuevo
espacio muestral, la probabilidad de que sea mujer es 53%.

APLICACIÓN DE LA PROBABILIDAD CONDICIONAL Y DEL TEOREMA DE BAYES EN
PRUEBAS DIAGNÓSTICAS
Una prueba diagnóstica es de utilidad para mejorar una estimación de la
probabilidad de que un individuo presente una enfermedad.
En un comienzo tenemos una idea general de la probabilidad de que una persona esté
enferma,basamos esta información, en estadísticas que poseen las instituciones de Salud
como por ejemplo, conocer la tasa de prevalencia de VIH que tiene registrado el Minsal.
Para confirmar la presencia de la enfermedad, usamos una prueba diagnóstica.
Esta prueba ha sido evaluada con anterioridad sobre dos grupos de individuos: sanos y
enfermos, estimando:
1. Sensibilidad (verdaderos +)= Probabilidad que la prueba resulte positivaen una

población de enfermos.
2. Especificidad (verdaderos -)= Probabilidad que la prueba resulte negativaen la

población de sanos.
Una vez conocido el resultado del test, usando el teorema de Bayes, podemos calcular
la probabilidad de que el paciente esté realmente enfermo o realmente sano, lo que
recibe el nombre de Valores Predictivos del Test
3. P(Enfermo / Test +) = Valor predictivo positivo
4. P(Sano /Test -) =Valor predictivo negativo

Sensibilidad,
verdaderos (+) +
+
Enfer
mo
Falsos - -
Falsos +
+
Sano
Especificidad, -
Verdaderos -
CUADRO RESÚMEN
ESTADO REAL
+(Enfermo) -(Sano)
E S
+ (a) (b) a+b

Resultado No hay Error α
de la error
Prueba -
(c) (d) c+d

No hay
Error β
error
a+c b+d
SENTIDO DEL ANÁLISIS

a
1) Sensibilidad : P(+/E) =
ac
d
2) Especificidad = P(-/S) =
bd
3) Falso negativo:Error β
c
P(-/E) =
ac
4) Falso positivo: Error α
b
P(+/Sano) =
bd
VALOR PREDICTIVO DE UN TEST
1.- Valor predictivo positivo
P( /E) · P(E)

P(E/ )  dónde: P()  P( /E) * P(E)  P( /S) * P(S)
P()
2.- Valor predictivo negativo
P(-/S) · P(S)
P(S/-)  donde: P(-)  1  P()
P(-)

Ejemplo.
El síndrome de ovario poliquistico afecta a un 30% de las mujeres adolescentes,

que consultan al médico por fuertes dolores en el período de menstruación.
Se creó un test diagnóstico basado en 10 preguntas, que permitiría detectar
precozmente si una adolescente tiene ovario poliquistico. El test se probó en 50
adolescentes enfermas (con ovario poliquistico) y en 50 adolescentes sanas y se obtuvo
una sensibilidad de 80% y una especificidad de 95%. Determinar los valores predictivos de
esta prueba.
0,8 +
7
0.3
Padece O.P
0,2 -
0,7 0,05
+
No padece O.P
0,95 -
Resultados:
1. La Probabilidad de dar positivo al test es:

P(+) = 0.8*0.3 + 0.05*0.7 = 0.275
Este valor se puede interpretar como: “ En promedio, un 27,5% de las adolescentes de la
muestra, dan positivo al test.
2. El valor Predictivo Positivo es:
P(E/+) = 0.8*0.3 / 0.275 = 0.873
“ De las adolescentes que dieron positivo al test, un 87,3% tiene ovario poliquistico”

3. El valor Predictivo Negativo es:
P ( S/ -) = 0.95*0.7/ 0.725 = 0.917
“ De las adolescentes que dieron negativo al test, un 91,7% está sana.”
TASAS DE RIESGO O RIESGO RELATIVO( R.R )
Cuando se realiza un estudio longitudinal prospectivo, es posible calcular el Riesgo

Relativo, asociado a una exposición. Esto consiste en calcular el cuociente entre dos
tasas de incidencia para una misma enfermedad, entre un grupo expuesto a un factor de
riesgo y otro grupo no expuesto a dicho factor. Este factor de riesgo puede aumentar la
probabilidad de enfermar o bien puede reducir la probabilidad de enfermar.( Tabaquismo
en el primer caso y una vacuna en el segundo)
El método que permite comparar las probabilidades de enfermedad para personas
expuestas y no expuestas es un cociente llamado riesgo relativo(RR), que formalmente
se expresa como:
P ( Enf Expuesto)
RR 
P ( Enf No Expuesto)
Un valor de RR=2se interpreta como que la probabilidad de enfermedad para las personas
expuestas es dos veces mayor que para las personas no expuestas. Cuando RR es mayor
que 1,0 se dice que la exposición es un factor de riesgo, pero si su valor es menor que
1.0, se dice que la exposición es un factor de protección.
Un valor del R.R de 1.0 significaría la enfermedad es independiente de la exposición.

Ejemplo.
En un estudio prospectivo, se tomó una muestra de 110 personas cuyos trabajos
operan bajo temperaturas elevadas en una fundición, realizando soldaduras de distintas
clases y 110 personas que trabajan en un ambiente libre de contaminación. Transcurrido
un periodo de tiempo se sometió a todas las personas de la muestra a un riguroso examen
de las vías respiratorias para determinar enfermedades asociadas a la exposición, se
obtuvo los valores de la tabla adjunta.
Expuestos No
expuestos
Enfermo 30 (a) 10(b)
no 80 (c ) 100(d)
enfermo
Total 110(n1) 110(n2)
Solución:
0.273
P ( Enf )  30 / 110  0.273 y P (Enf No exp)  10 / 110  0.091  RR  3
Exp 0.091
Esto significa que la probabilidad de enfermar de las vías respiratorias para las
personas expuestas a los factores de riesgo propios de una fundición en altas
temperaturas ,es 3 veces mayor que la de las personas no expuestas a dichos factores.
Intervalo de Confianza para estimar RR.
L inf =lnRR- z * Var(ln RR)

(1  α/2)
Lsup= lnRR + z * Var(ln RR)

(1  α/2)
Var(lnRR)= 1/a +1/b - 1/n1- 1/n2

Luego el intervalo para estimar RR, se obtiene con el antilogaritmo de los límites
encontrados para estimar lnRR
Ln(3) = 1,0986
Var(lnRR)= 1/30 + 1/10 - 1/110- 1/110= 0,11515

Si se considera un nivel de confianza del 95% para la construcción del intervalo, tenemos
que Z= 1,96
L inf = 1,0986 -1,96* 0,11515 = 0,4335
Lsup= 1,0986 + 1,96* 0,11515 = 1,7637
Luego a través del antilogaritmo se obtiene: I.C para RR =[1,5426 ; 5,834 ]
Razón de disparidad. O.R
Cuando es estudio es retrospectivo, no es posible calcular probabilidades por lo

tanto no es factible usar el R.R para comparar riesgo, pero un buen estimador del R.R es
la razón de disparidad (Odd-Ratio) para hacer comparaciones. En el cálculo de O.R se
considera el cuociente entre los “ Odds” (Chance) de los expuestos y los no expuestos.
P(Enf Expuesto)
P(NoEnf Expuesto)
OR 
P(Enf NoExpuesto)
P(NoEnf NoExpuesto)
El “ Odds” de los expuestos esta dado por el cuociente entre la probabilidad de que
enferme y la probabilidad de que no enferme, en el espacio muestral de los expuestos.
P(Enf Expuesto)
P(NoEnf Expuesto)

luego el “ Odds” de los no expuestos se calcula por el cuociente entre la probabilidad de
que enferme y la probabilidad de que no enferme, en el espacio muestral de no expuestos
P(Enf NoExpuesto)
P(NoEnf NoExpuesto)
El valor del O.R o la razón de disparidad (odds ratio,) es el cuociente entre ambos
“ Odds”.
El O.R no es tan fácil de comprender como el R.R , pero tiene gran aplicabilidad al
ajustar un modelo de regresión logístico a los datos en un análisis multivariado.
Al igual que en el RR, una valor de O.R=1 significa que el nivel de riesgo es igual en el
grupo expuesto como en el grupo no expuesto. Cuando la prevalencia de enfermedad es
muy pequeña, El valor del R.R y del O.R son equivalentes.
Un ejemplo práctico para comprender el concepto de O.R es el siguiente:
El Odds de ganar con una moneda es 1 ya que la probabilidad de ganar y de perder son
iguales a 0,5. El Odds de ganar apostando a una cara de un dado es 0,2, ya que tiene una
chance de ganar y 5 de perder. Por lo tanto el valor del O.R que es el cuociente entre los
Odds de ambos juegos es 5. Es decir tiene 5 veces más chance de ganar con una
moneda que con un dado.

Ejemplo.
Suponga que en una maternidad se escoge 45 niños que nacieron con bajo
peso y 90 niños que nacieron con peso normal. Se investigó en ambos grupos, si la madre
fue fumadora durante el embarazo. Se desea estudiar la importancia que tuvo la
exposición al factor de tabaquismo de la madre considerado como un factor de riesgo que
influye en el peso de nacimiento del hijo, los resultados obtenidos son::
Enfermos No
enfermos
Expuestos 15 ( a) 10(b)
no 30 (c) 80(d)
expuestos
Total 45 90
Odds de Enfermos: (15/45)/ (30/45) = 0,5

Odds de No enfermos: ( 10/90)/(80/90) =0,125
O.R = 0,5/0,125 = 4
Nota. El cálculo del O.R también se llama “ De productos cruzados” ya que su valor se
obtiene fácilmente, haciendo el cuociente entre los productos cruzados de la tabla.
O.R = ( 15*80)/( 10*30) = 4
Intervalo de Confianza para estimarln( O.R)
L inf =lnOR - z * Var(ln OR)

(1  α/2)
Lsup= lnOR + z * Var(ln OR)

(1  α/2)
Var(lnOR) = 1/a +1/b + 1/c + 1/d

Luego el intervalo para estimar OR, se obtiene con el antilogaritmo de los límites
encontrados en el intervalo para estimar ln(OR)
En el ejemplo tenemos:
Ln(O.R)=ln4= 1,3863
Var(lnO.R) = 1/15 + 1/10 + 1/30 + 1/80 = 0,2125
Si se considera un nivel de confianza del 95% para la construcción del intervalo, tenemos
que Z= 1,96
L inf(lnO.R) = 1,3863 – 1,96* 0,2125 = 0,4828
L sup(lnO.R)= 1,3863 + 1,96* 0,2125 = 2,2898
Luego aplicando el antilogaritmo a los límites del intervalo, se obtiene el intervalo de

confianza para estimar el valor de O.R.
I.C para O.R=[ 1,62 : 9,87 ]

Modelos de probabilidad.
1. Cuando la variable es discreta.
Modelo Binomial.
Si consideramos una variable discreta y dicotómica, si
llamamos “éxito “ a que ocurra el suceso deseado y “ fracaso” a que no ocurra dicho
suceso ,donde 1= éxito que ocurre con probabilidad “ p” y 0= fracaso que ocurre con
probabilidad “ q= 1-p “ Si el interés es calcular la probabilidad de obtener “ x” éxitos en “ n
“ ensayos, tenemos las condiciones de aplicar el modelo Binomial.
n
P ( X  x)    p x q n x
 x
n
  Representa el número de combinaciones para obtener “ x éxitos “ en los n ensayos
 x
p x = p p p…..pRepresenta la probabilidad de “ éxito “ multiplicada x veces
q n  x = q qq ….q Representa la probabilidad de “ fracaso “ multiplicada (n- x) veces
E(x)= n*p es el número esperado de éxitos en los n ensayos.

Ejemplo:
En un colegio se sabe que un 5% de los estudiantes padece de déficit atencional lo que le
impide tener un buen rendimiento. Si se escoge al azar una muestra de 25 alumnos del
colegio.
a) ¿ Cuál es la probabilidad de que en la muestra ningún alumno tenga déficit

atencional?
 25 
P( x  0)   (0,05) 0 (0,95) 25  0,2774
 0 
b) ¿Cuál es la probabilidad de que cuatro alumnos tengan déficit atencional?

 25 
P( x  4)   (0,05) 4 (0,95) 21  0,0269
 4
Valor Esperado. Puesto que en un modelo Binomial el valor esperado de éxitos en n

ensayos es :
E(x)= n*p
Si el colegio tiene 800 alumnos, el número esperado de alumnos que tienen déficit
atencional es:
E(x)= 800*0,05 = 40 alumnos.
EJERCICIOS RESUELTOS.
1. En un consultorio un 5% de los pacientes que consultan no tienen ninguna

previsión. Si se elige al azar 25 consultantes del consultorio.
a) ¿Cuál es la probabilidad de al menos dos de ellos no tengan previsión ?
b) ¿Cuál es la probabilidad de que solo 5 de ellos no tengan previsión ?
Sea x= nº de consultantes en una muestra seleccionada al azar de tamaño n =

25 que no tiene previsión
n
P ( X  x)    p x q n x
 x
a) P( x  2)  1  P( x  2)  1  0,6422  0,3578
 25 
P( x  0)   (0,05) 0 (0,95) 25  0,2774
 0 

 25 
P ( x  1)   (0,05)1 (0,95) 24  0,3648
 1 
0,2774  0,3648  0,6422
Resultado= 1- 0,6422= 0,3578
 25 
b) P ( x  4)   (0,05) 5 (0,95) 20  0,00595
 5 
2. En un colegio se sabe que un 10% de sus alumnos tienen déficit en el desarrollo

del lenguaje y deben tener apoyo de fonoaudiólogos.
En una muestra de 30 estudiantes del colegio:
a) ¿Cuál es la probabilidad de que se encuentre solo un niño con déficit en el

desarrollo de lenguaje?
b) Si el colegio tiene 400 estudiantes. ¿Cuál es el número esperado de niños

con trastorno del lenguaje?
c) ¿Cuál es la probabilidad de que en la muestra no se encuentre niños con

déficit en el desarrollo del lenguaje?
Solución;
 30 
a) P ( x  1)   (0,1)1 (0,9) 29  30  0,1  0,0471  0,141
 1 
b) E ( x)  400 * 0,1  40
 30 
c) P ( x  0)   (0,1) 0 (0,9) 30  0,042
 0

3. Cuando la variable es continua
Las probabilidades están representadas por el área comprendida entre la curva y el
eje X, por tal motivo la probabilidad en un punto vale cero.( no hay área en un punto).
Entre las distribuciones de probabilidad continuas, una de las más importantes es la
Distribución Normal.
Distribución Normal
Sea X una variable aleatoria continua, se dice que sigue una distribución
normal de parámetros  y 2 si su función de densidad es:
X μ
2
1
1 ( )
e
2
σ Sí -< X<
2π
f(x)=
0 todo otro valor
Su gráfico es una curva simétrica, asintótica en ambas direcciones:
- - -  +  -
0.68 
0.95
0.99
Características:
1) Depende de dos parámetros:  (media) y 2 (varianza).
2) Es simétrica en torno a 
P(X<-K) = P(X>K)
3) La curva se extiende en forma infinita en ambas direcciones, asintóticamente.

4) El área comprendida entre:
 -  y  +  es 0.684
 - 2 y  + 2 es 0.954
 - 3 y  + 3 es 0.997
Es muy difícil evaluar en una distribución normal, valores que se alejen más de tres
desviaciones estándar desde la media  (en ambas direcciones).
Como se trata de una función continua la probabilidad en un punto vale cero. P(X=1)=0. Y
para calcular la probabilidad en un intervalo se debería integrar. Si se quiere calcular
P(X<a) se debería integrar entre - y a.
a
P(X  a)   f(x)dx

a
Sin embargo, integrar no es necesario puesto que se encuentra tabulada la

probabilidad de la función de distribución (F(X)) de una Distribución Normal, con media 
=0 y varianza 2=1, llamada distribución normal estándar. Toda distribución normal puede
ser llevada a ésta mediante la estandarización:
x μ
Z
σ
La función de densidad de la distribución normal estándar es:
1 2
1 Sí -< Z<
2Z
2π
e
f(Z)=
0 todo otro valor
Z se mide en unidades de desviación estándar.

Ejemplo
En una determinada población de adultos, el nivel de colesterol se distribuye normal, con
media de 260 mg/dl y una desviación estándar de 15 mg/dl
a) Se elige al azar una persona ¿Cuál es la probabilidad de que su nivel de colesterol sea
inferior de 230?
b) Si una persona tiene un nivel de colesterol de 290 ¿A qué porcentaje de las personas
supera en el valor de colesterol?
c) Si se considera adecuado un valor oscile entre –1,5 y +1,5 desviaciones estándar ¿de
qué valores de colesterol se habla?.
d) Si se desea establecer los límites del nivel de colesterol que esté en el 90% central
alrededor de la media. ¿Cuáles son sus límites?
Solución:
a)
P(X<230)
215 230 26 290 305 X

245 275
0
Z
-3 -2 -1 0 1 2 3
X  μ 230  260
P(X  230)  P(  )
σ 15
P(X  230)  P(Z  2)  P(X  230)  0,0228
b)
P(X<290)
215 230 26 290 305 X

245 275
0
Z
-3 -2 -1 0 1 2 3

X  μ 290  260
P(X  290)  P(  )
σ 15
P(X  290)  P(Z  2)  P(X  290)  0,9772
c) P(-1.5<Z<1.5) = P(X1<X<X2)
X1  μ X  260
Z1   1.5  1  X1  237,5 mg/dl
σ 15
X μ X  260
Z2  2  1.5  2  X 2  282,5 mg/dl
σ 15
0,9
d)
0,05 0,05
Z1  Z2
P(Z<Z1)=0,05 P(Z<Z2)=0,95 Z1= -1,645 Z2= 1.645
X1  μ X  260
 Z1  1  1.645  X1  235,325 mg/dl
σ 15
X2  μ X  260
 Z 2  2  1.645  X 2  284,67 mg/dl
σ 15
Luego, sus límites son: 235,325 mg/dl y 284,67 mg/dl

CAPITULO III
INFERENCIA ESTADÍSTICA
En general las variables que caracterizan a las poblaciones, son resumidaspor
medidas descriptivas que se expresan numéricamente, llamadas parámetros: promedios,
tasas, varianza, etc, cuyos valores cambian en el tiempo y difieren de una población a
otra.
Debido a las dificultades que significa hacer un censo cada vez que se desea
obtener información de las poblaciones la inferencia estadística entrega métodos para
hacer estimaciones muestrales de los parámetros de interés y de obtener conclusiones
acerca de hipótesis planteadas entorno a sus valores. Los métodos a utilizar dependen de
condiciones basales previas, una de ellas es que para hacer estadística paramétrica, la
variable debe tener un comportamiento Normal, lo cual se puede verificar mediante un test
como el de Shapiro-Wilk, Shapiro-Francia y otros. En los ejemplos que se presentan en
este texto, se hace el supuesto que las variables cumplen con dicha condición.
Definiciones básicas
1) Población:
La población está constituida por todas las unidades de análisis, respecto a
las cuales se inferirán las conclusiones
2) Parámetro:
Es un valor constante que describe una característica de la población.
Ejemplos:
  Promedio de edad de los fallecidos de cáncer pulmonar en Chile.
P = Proporción de mujeres en Chile que fallecen de cáncer de mama.
N
 xi
  1 Media poblacional
i
N

3) Muestra:
Es un subconjunto de la población de interés y es muy importante que sea
representativa de ella para que las inferencias sean válidas.
La técnica de muestreo ha desarrollado un conjunto de procedimientos para:
calcular el tamaño de muestra adecuado con sus factores de expansión respectivos,
la selección de las unidades muestrales y la estimación de parámetros de interés
según el tipo de estudio que se desee realizar..
4) Estimador:
Es una función de las observaciones muestrales, es el medio para calcular la
estimación deseada.
n
 xi
Ejemplo: x  i1 media muestral
n
5) Estimación:
Es el valor que asume el estimador una vez que se conocen los valores de la
muestra.
Ejemplo:𝑋̅ = 68 𝑎ñ𝑜𝑠 de edad, es la edad promedio estimada de las personas que

fallecen de cáncer pulmonar en Chile.
Distribución de probabilidades de la Media muestral

Puesto que el valor que asume el estimador x depende de la muestra seleccionada,
podemos decir que dicha estadística es una variable aleatoria y como tal tiene asociada
una distribución de probabilidades.
Se puede probar a través del Teorema del límite central que la media muestral x ,
para un tamaño de muestra suficientemente grande, tiene distribución aproximadamente
Normal con Media:  y Varianza: V( x ) 

 2 , Valor de los Parámetros de esta población.
n

N N 2
 xi  (xi  )
 Media Poblacional;  2  i 1 Varianza Poblacional
N N
N 2
 (xi  )
N
 xi i 1
2
a) 𝜇𝑥̅ = =  b) V( x )  N 
N n n
Luego para un valor de n suficientemente grande se puede afirmar que:
x ~ N( μ,  )
2
n
Sin importar que distribución de probabilidad tiene la variable X(ver teorema del límite
central).
En forma análoga se puede determinar que distribución de probabilidades tienen los

demás estimadores que se usan en estadística.
En la inferencia estadística se distinguen 2 áreas:
(1) La estimación de Parámetros Poblacionales

(2) Las pruebas (Dócimas o Contrastes) de Hipótesis.
(1) Estimación de Parámetros
Existen 2 métodos para realizar la estimación de un Parámetro de una Población.
A) Estimación Puntual
B) Estimación por intervalos de confianza.

(A) Estimación Puntual
Un procedimiento de estimación puntual utiliza la información de la
muestra para llegar a un sólo número o punto que estima el valor del parámetro
de interés.
Tiene una escasa confiabilidad puesto que no considera el error asociado a
la estimación.
(B) Estimación por intervalo de confianza.

Consiste en Construir un intervalo basándose en la distribución de
probabilidades del estimador respectivo, con una probabilidad asociada llamada nivel
de confianza que el valor del parámetro se encuentre al interior del intervalo.
Ejemplo:
Supongamos que se desea estimar el tiempo promedio que espera un
paciente de un consultorio para ser atendido por un profesional de la salud. Se
selecciona al azar una muestra de n = 200 pacientes y construimos un intervalo de
confianza para la media  , con un nivel de confianza dado. El intervalo se puede
representar como en la figura adjunta.

El punto centro del intervalo representa la estimación puntual de la media y
el área central no achurada, representa el nivel de confianza. Debemos notar que el
parámetro  es un valor constante y único y el intervalo es aleatorio, luego la
interpretación será: "La probabilidad de que el intervalo contenga a  esde
(1 -  )% ".
 
P(θ d  θ  θ d)  1 

θ  Parámetro θ  Estimador
d = Error de estimación 1 -  = Nivel de confianza

1.- Intervalo de confianza para estimar la media de una población
(1.1) Cuando se conoce la varianza poblacional σ 2
Con una muestra aleatoria de tamaño n, se obtiene la media muestral x

y con un nivel de confianza (1 -  ). 100 % el intervalo es:
P( x  z · σ μx z 
σ ) 1 
(1  α/2) n (1  α/2) n
L inf  x  Z 
n
L sup  x  Z 
n
(1.2.) Cuando no se conoce  2
En este caso, en lugar de usar la distribución Normal, se usa la distribución t-

Student, que es una distribución de probabilidades simétrica muy parecida a la
Distribución normal, y sus valores coinciden cuando el tamaño de la muestra es muy
grande (n>100) De la muestra aleatoria de tamaño n, además de calcular x , se calcula S2
(varianza muestral) y con el nivel de confianza dado, tenemos el intervalo:
S S
P( x  t · μ x t · )  1
(1  α/2) n (1  α/2) n
L inf  x  t s
n
L sup  x  t s
n

Ejemplo.
De una población de pacientes de un consultorio, se escoge una muestra al
azar de 25 de ellos. Se desea estimar con un 95% de confianza el peso promedio
de la población de consultantes. De la muestra se obtuvo un peso promedio de 65,52
kg. Con una desviación estándar de 6,67 Kg.
Solución:
Se trata de estimar µ con  2 desconocida:

Se tiene que: x = 65,52 Kgs. S = 6,67 Kgs.
t(0,975) = 2,064 ( Valor obtenido con 24 grados de libertad de la distribución
t- student )
 S S 
P x  t ·  μ  x t ·   1
 n n
 6,67 6,67 
P 65,52  2,064 ·    65,52  2,064 ·   0.95
 25 25 
P(62,77 < µ < 68,27) = 0.95
Con un 95% de confianza, se estima que el peso promedio de la población de

consultantes, está entre 62,77 kgs y 68,27 kgs.
Tamaño de muestra para estimar 

Si la media muestral x se usa como estimador . El tamaño de muestra que
permite realizar la estimación con un nivel de confianza del (1 - ) · 100% y un error de

estimación d =  x -  está dada por:
2
   
2
 z1-

n  2

 d 
 

Ejemplo. Supongamos que en el ejemplo anterior, se desea mejorar la precisión en la
estimación del peso promedio de los consultantes, disminuyendo el error absoluto de la
estimación a la mitad, manteniendo el 95% de confianza. ¿Qué tamaño de muestra de
debe tomar?
2
 1,96 ·6,67 
n 

  90 ; con d= 2,75/2=1,375;

 =6,67 y z = 1,96
 1,375 
2.- Intervalo de confianza para estimar la varianza  2
(2.1) Si se conoce la media poblacional 
x x 2
Si x ~ N (  ,  2) Z = ~ (N (0,1)  Z2 =  ~x
    (1)
( Ji – Cuadrado con un grado de libertad )
Para una muestra aleatoria de tamaño n se tiene:
2
n 2 n  xi  μ 
(1)  Z     ~ x 2 ( Ji-Cuadrado con n grados de libertad)
i1 i i1 σ 
 (n)
De (1) con un nivel de confianza del ( 1 - ) · 100% se puede obtener el

intervalo:
 n n 
  (x - μ) 2  (x - μ) 2 
 i i 
P i  1  σ2  i 1   1 α
 b a 
 
 

(2.2) Si no se conoce la media 
Se usa el estimador muestral x por lo que se pierde un grado de libertad,
quedando el intervalo para estimar  2 con un nivel de confianza del (1- ) · 100%
como:
n n 
  (x - x )2  (x - x )2 
 i i 
P  σ2    1 α
 b a 
 
 
 
Ejemplo (2).
Suponga que se desea estimar con un 95% de confianza, el valor de la varianza
para la variable peso en una muestra de muestra de 50 personas.
Solución:
Se trata de estimar  2 con µ (media poblacional) desconocida.
 n n 
  (x - x )2  (x - x )2 
i 1 i i 
P  σ2  i 1   1 α
 b a 
 
 
Datos obtenidos de la muestra.

G. de libertad= 49 S2 = 84,744
n 2
 (x i  x) = (n - 1) · S = 49 · 84,744 = 4.152,48
2
i1
b = x2(0,975) = 71,4 a = x2(0,025) = 32,3
 4152 ,48 4152 ,48 

P 2    0,95
 71, 4 32 ,3 
P( 58,158 <σ2< 128,559) = 0,95

Con un 95% de confianza, se estima que la varianza del peso de esta población de
personas, está entre 58,158 kg2 y 128,559 kg2.
3.- Intervalo de confianza para estimar una proporción poblacional P
En una muestra de tamaño n de variables dicotómicas.
1 si posee el atributo
xi=
0 si no posee el atributo
n
  xi
La proporción muestral con el atributo es: p  i1
n
Luego con un nivel de confianza de ( 1 - ) · 100% tenemos el intervalo.
   
   
P  p z · pq
 P  p z ·
pq   1 
 (1  α/2) n (1  α/2) n 
 
 
Ejemplo (3).
En una población de adultos mayores, se desea estimar con un 95% de

confianza la proporción de personas que tiene hipertensión arterial. Para lograr el
objetivo propuesto, se eligió una muestra de 100 adultos mayores seleccionados al
azar desde la población de interés.
Solución:
1 si es Hipertensa
xi= 0 si no es Hipertensa

Se encontró a 22 personas que posee el atributo de ser Hipertensa, po tanto, de lo
n
  x
i 22
anterior se tiene: p    0,22 ; Donde z(0,975) = 1,96
n 100
   
   
P p z ·
pq
 P  p z ·
pq   1 
 n n 
 
 
0,22 0,78 0,22 0,78

P(0,22 – 1,96 < P < 0,22+ 1,96 ) = 0,95
100 100
P( 0,139 < P < 0,301) = 0,95

Con un 95% de confianza, se estima que la proporción de personas Hipertensas en esta
población de adultos mayores está entre un 13,9% y un 30,1% , con un error de
estimación de 0,08.
Tamaño de muestra para estimar una proporción poblacional
(z) 2 (p) (q)

n
(d) 2
Suponga que usando la información obtenida en el ejemplo anterior, se

desea obtener un tamaño de muestra que permita disminuir el error de estimación a la
mitad, manteniendo el mismo nivel de confianza.
d= 0,04 z= 1,96 p= 0,22 q=0,78
(1,96) 2 (0,22) (0,78)

n  412
(0,04) 2
Pruebas de hipótesis
INTRODUCCIÓN
El objetivo de realizar una prueba o test de hipótesis es respaldar la toma de una
decisión, respecto a rechazar o no una hipótesis llamada Hipótesis nula (H0), en
contraste con una segunda hipótesis llamada Hipótesis alternativa (H1), propuesta por el
investigador.
El problema se plantea en términos de una disyuntiva entre ambas hipótesis (se tiene que
decidir por una de las dos).
La hipótesis de nulidad (H0) plantea que el valor o los valores históricos del o los
parámetros del estudio no han cambiado y que las diferencias observadas se deben a
error de muestreo.
H0:  = 0 (valor histórico).
La hipótesis de alternativa (H1) postula un valor diferente para el parámetro que el que
sostiene (H0) y es la hipótesis propuesta por el investigador.
Nivel de Significación, errores tipo I y II
La conclusión de rechazar o aceptar la hipótesis nula (H0), se basa en el análisis de una

muestra, luego es posible que ocurran dos tipos de errores:
Error Tipo I (): Conocido como el nivel de significación de la prueba de hipótesis, es la

probabilidad de rechazar la hipótesis de nulidad dado que es verdadera.
α  P 
Rechazar H 0
 H 0 es verdadera 
Error Tipo II (): Es la probabilidad de aceptar la hipótesis de nulidad, dado que es falsa.

β  P 
Aceptar H 0

 H 0 es falsa 
Ambos errores no son independientes. Es decir, no se puede manipular uno sin afectar al
otro. Y lo deseable es que sean pequeños y parejos.
El error tipo I () es dado por el investigador por ser más delicada su falta. Y el error tipo II
() aparece como consecuencia del primero.
incertidumbre
H0 H1
 
Generalmente el investigador tiene una teoría acerca de los parámetros de una

población, que su valor aumentó, que disminuyó o que cambió su valor histórico.
Ejemplo: Un investigador sostiene que por efectos de la mala alimentación, la tasa de
obesidad en escolares ha aumentado con respecto al valor registrado en una última
medición hacer 3 años: P0 .
En este caso la prueba de hipótesis a realizar propone:
H0 : P = P0 "La tasa de obesidad no ha aumentado su valor".

H1 : P > P0 "La tasa de obesidad ha aumentado su valor"
La hipótesis que sostiene que no ha habido cambios se llama "hipótesis de nulidad" y

se denota por H0. La hipótesis que sostiene la proporción del investigador se llama
"Hipótesis de alternativa y se denota por H1.
= Declarar que la obesidad en escolares ha aumentado, equivocadamente

= Declarar que la obesidad en escolares no ha aumentado equivocadamente
En una prueba de hipótesis podemos distinguir 4 partes:
1) Planteamiento de las hipótesis.

2) Elección del nivel de significación y ubicación de la región de rechazo de H0.
3) Aplicación del estadístico de prueba.
4) La conclusión.
1) Planteamiento de las hipótesis
Se realiza en forma de una disyuntiva entre dos hipótesis:

i) Hipótesis Nula H0.
Establece la hipótesis que será sometida a prueba. H0 : θ  θ
0
ii) Hipótesis de alternativa H1.
La hipótesis que se propone como alternativa a H0puede ser presentada de 3 formas.

H1 : θ  θ Unilateral izquierda si propone que el valor disminuyó
0
H1 : θ  θ Unilateral derecha si propone que el valor aumentó
0
H1 : θ  θ Bilateral si propone que el valor cambió, pero no señala dirección
0
2) Nivel de significación :
Dado que el contraste está basado en datos experimentales, decidir rechazar o no la

hipótesis considerada como H0, puede ser un acierto o un error,  representa la
probabilidad de rechazar H0, siendo ésta verdadera y el investigador fija su valor
antes de realizar el proceso de la investigación..
 = P (Rechazar H0 / H0 es verdadera)
3) Estadística de Prueba.
El contraste entre el valor sostenido por Ho y el valor obtenido de la muestra, se

realiza a través de una fórmula llamada "Estadística de Prueba" que entrega un valor
El conjunto completo de valores que el estadístico de prueba pueda asumir, se
divide en 2 regiones:
una región de rechazo de H0 y una región de aceptación de H0.

<--------------------------------------------|------------------------------------------->
Región de Aceptación de H0 C Región de Rechazo de H0

4) Conclusión:
Si el estadístico de prueba calculado a partir de la muestra toma un valor que está

dentro de la zona de rechazo, entonces se rechaza H 0 y se decide en favor de H1.
En caso de que quede en la zona de aceptación, se decide en favor de H0.
El error  , llamado error tipo II representa a su vez la probabilidad de no rechazar
H0 siendo ésta falsa.
 = Prob (No rechazar H0/ H0 es falsa)
Lo expuesto anteriormente se puede resumir en el siguiente cuadro
DECISION DE REALIDAD DE LA
LAPRUEBA HIPOTESIS NULA
VERDADERA FALSA
RECHAZAR H0  (ERROR 1) DECISIÓN CORRECTA
NO RECHAZAR H0 DECISIÓN CORRECTA  (ERROR II)
1. PRUEBA DE HIPOTESIS (DOCIMA) PARA LA MEDIA ARITMETICA
H0 : = 0 (valor histórico de la media aritmética de una variable).

H1 : = 1
Se sabe que X ~ N ( , 2) para una muestra aleatoria de tamaño n: X1, X2, X3,........., Xn
 σ  X μ
X ~ N μ,   Z  (1)
 n  σ
n
Bajo la condición de que H0 es verdadera, la estadística (1) se usa para contrastar.
Se tiene dos casos, el primero es el caso de dócima para la media, con varianza
poblacional conocida, en el cual se usa la estadística basada en Z (Normal (0,1)). Y el
segundo, es el caso de dócima para la media con varianza poblacional desconocida, en el
cual se usa la varianza de la muestra y la estadística de prueba, basada en la distribución
t-student.
Caso 1: Cuando la varianza poblacional 2 es conocida:
H0:  = 0
H1 : i) <0 ii) >0 iii) 0
En este caso la estadística es:
X μ0
Z 
cal
σ
n
Dado  como nivel de significación, se determina el valor crítico de Z
En el caso i) H1 :<0 se rechazará H0 si Zcal< Z()
(Por ejemplo si =0,025 =>Z()= -1,96)
Se Rechaza H0 H0
H1
 Z
Z() 0
Otra forma de ver esto es en unidades de la variable:
σ
K  μ 0  Z(1 -  ) Se rechaza H0 si : X  K .
n
En el caso ii) H1 :>0 Se rechaza H0 si Zcal> Z(1-)

σ
O bien si : X  μ 0  Z(1  α) .
n
En el caso iii) H1 : 0 El nivel de significación  se divide en dos partes iguales:
1- 
Z(/2) Z(1- /2)

 
α  α
Se rechaza H0 si: Z cal  Z  ó Z cal  Z1  
2  2

 α σ  α σ
O bien si: X  μ 0  Z1   ó X  μ 0  Z1  
 2 n  2 n
K1 K2
A los casos i) y ii) se les llama test de hipótesis unilateral. Al caso iii) se le llama test de
hipótesis bilateral.
Caso 2: Cuando la varianza poblacional 2 es desconocida:
En este caso, la estadística en que se basa la dócima es:
X μ
t ~ t(n  1)
S
n
X μ0
Bajo H0 verdadera queda como t cal  . Siendo el criterio de rechazo igual al
S
n
planteado anteriormente, es decir:
H0 : = 0
H1 : i) <0
ii) >0
iii) 0
Dado  como nivel de significación, se determina el valor crítico de t.
En el caso i) H1 :<0se rechazará H0 si tcal<tcrítico

Donde: t crítico  t n 1 ( ) . Es decir con n-1 grados de libertad.
Se Rechaza H0 H0
H1
 Z
tcrítico 0
Otra forma de ver esto es en unidades de la variable:

S
K  μ 0  t n -1 (1   ) Se rechaza H0 si : X  K .
n
En el caso ii) H1 :>0 Se rechaza H0 si tcal>tcrítico

Donde: t crítico  t n 1 (1  α) . Es decir con n-1 grados de libertad.
S
O bien si : X  μ 0  t n 1 (1  α) .
n
En el caso iii) H1 :0 El nivel de significación  se divide en dos partes iguales:
α  α
Se rechaza H0 si: t cal  t n 1   ó t cal  t n 1 1  
2  2
 α S  α S
O bien si: X  μ 0  t n 1 1   ó X  μ 0  t n 1 1  
 2 n  2 n
K1 K2
El concepto de p-value:
Es muy importante pues en su valor se basa la decisión del investigador, de rechazar lo
que sostiene la hipótesis nula Ho. Es la probabilidad asociada al valor muestral X o bien
al Zcal(o tcal), y se define como: “El nivel de significación  mínimo a partir del cual se
comienza a rechazar H0”.

pvalue Rechazo H0 siempre que
p-value<
Zcrit Zcalc
p-value
Si p-value>

=> no rechazo H0 .
ZcalZcrit

Un ejemplo práctico para comprender el concepto de p-value es el siguiente:
Supongamos que una persona está postulando a ingresar a una institución.
Al inicio, la hipótesis Ho señala que “ el postulante no está admitido en la institución”
mientras que la hipótesis de alternativa H1señala que “ el postulante está admitido en la
institución”.
La prueba de admisión consta de 100 preguntas y el valor de es de 5%, significa
que si tiene 5 o más respuestas erradas, no se rechaza Ho y el postulante no es admitido.
Luego, para rechazar Ho debe tener menos de 5 respuestas erradas. Si el postulante
tiene solo 3 respuestas erradas de las 100, el valor del p-value es 3% y al ser menor que
alfa, se rechaza Ho. (p<0,05). La conclusión sería rechazar Ho y la persona quedaría
admitida.
Ejemplo.
Un fabricante de alimentos procesados, asevera que cada frasco de 250 gramos

de un alimento envasado contiene en promedio 2500 miligramos de sodio. Un
representante de la Dirección de Control de Medicamentos analiza 64 frascos y encuentra
un contenido medio de sodio de 2480 miligramos con una desviación estándar de 160
miligramos. Si el representante de la Dirección de Control de Medicamentos está
dispuesto a rechazar una afirmación verdadera no más de 5 veces en 100, ¿rechazará la
afirmación del fabricante?
Hipótesis
H0 El promedio de sodio que contiene cada frasco de alimento envasado es igual

a 2500 miligramos
H1 El promedio de sodio que contiene cada frasco es distinto a 2500 miligramos.
H 0 :   2500
H 1 :   2500
Nivel de significación
  0.05
Ubicación de la Región de Rechazo
Dado que  es igual a 0.05 y t 0.975 (63)  2.0 , rechazamos H 0 si t cal  2.0
o si de lo contrario tcal  2.0

Estadística de Prueba
x   o 2480  2500
t    1.0
cal S 160
n 64
Conclusión
Como tcal pertenece a la región de no rechazo, no hay evidencias para suponer que
el promedio de sodio es distinto a 2500 miligramos por frasco, a un nivel de significación
  0.05 . Por lo tanto, la Dirección de Control de Medicamentos no debería rechazar lo
afirmado por el fabricante.
2. DÓCIMA PARA LA PROPORCIÓN

En este caso se trata de determinar si la magnitud con que se presenta un atributo en la
población ha variado respecto a un valor histórico P0.
H0: P = P0v/s H1: i) P< P0 ii) P> P0 iii) P P0
 pq 
Sabemos que para una muestra aleatoria de tamaño n : p̂ ~ N p, 
 n 
p̂  p
Es decir Z ~ N(0,1)
pq
n
La estadística en que se basa la decisión, bajo H0 queda:
p̂  p 0
Z cal  donde q 0  1  p 0
p0q 0
n

Dado un nivel de significación  se rechaza H0 en el caso:
i) Si Zcal< Z()
Z() 0
ii) Si Zcal> Z(1-)
0 Z(1-)
iii) Si Zcal< Z(/2) o Zcal>Z(1-/2)
Z(/2) 0 Z(1-/2)
Ejemplo.
En una comuna del país históricamente un 60% delos adultos mayores esta con
problemas de enfermedades crónicas no controladas. Se inicia una campaña del servicio
de salud de la municipalidad para reducir este porcentaje. Después de un tiempose
escoge al azar una muestra de 200 adultos mayores, de ellos ,105 declaran enfermedades
crónicas no controladas. Con un nivel de significación del 5% ¿Se logró el objetivo que se
planteó el servicio de salud en su campaña?
Solución:
H0: P = 0,6
H1: P< 0,6
=0,05 => Z=-1,645( nivel crítico para rechazar Ho)
p̂  p 0
Z cal 
p0q0 105
p̂   0,525 0,525  0,6
n 200 Z cal   2,16
0,6 * 0,4
200
Conclusión:  2,16 < -1,645 . Se Rechaza H0 con un nivel de significación de un 5%,
entonces la campaña de del servicio de salud ha logrado su objetivo.

3. DÓCIMA PARA LA VARIANZA:
Para realizar la dócima:
H0: 2 =02
H1: i) 2<02
ii) 2>02
iii) 202
La estadística en que se basa la dócima depende del caso:
Caso 1: Media Poblacional () conocida:
Se usa distribución Chi – cuadrado:
 (X
i 1
i  μ) 2
χ2  ~ χ 2 (n)
σ2
nσ 2 n
Bajo H0 verdadera se tiene: χ 2
cal  2
σ0
Caso 2: Media Poblacional () desconocida:
Se usa el estimador X y se pierde un grado de libertad en la distribución Chi – cuadrado.
n
 (X
i 1
i  X) 2
χ2  ~ χ 2 (n - 1)
σ2
(n - 1)σ 2 n -1
Bajo H0 verdadera se tiene: χ
2
cal  2
σ0
Para ambos casos, dado un nivel de significación , se rechaza H0 en el caso:

i) H1: 2<02 Si 2cal<2() ( crítico1)
0
2()
1
No olvidar que la tabla chi-cuadrado no es simétrica, y sólo tiene lado derecho. Por lo que se debe trabajar
con /2 y /2 aparte.

ii) H1: 2>02 Si 2cal>2(1-) ( crítico)
0 2(1-)
iii) H1: 202Si 2cal<2(/2) o 2cal>2(1-/2)
0 2(/2) 2(1-/2)
Ejemplo 15:
Se sabe que un aumento en la variabilidad en el porcentaje de impureza del aire ,

implica un mayor riesgo para las personas. Un experto en salud del ambiente ha
establecido como límite para la varianza en 20 mediciones, de 2=(1,5)2.
Se toma una muestra aleatoria de 20 días registrándose el % de impureza obteniéndose lo
siguiente:
87,5 90 85 89 96
37 94,5 81 84 90
78,5 91 78,5 80 91
79 84 81 77 95
Solución:
H0 :2 = 2,25 v/s H1 :2> 2,25

 = 0,05 (Cada vez que no se especifica el nivel de confianza, se toma 5%, por defecto.)

=0,05
0,95
χ 2 crítico  30,144 2(19)
0 30,144
S = 6,32 S2=39,94 (n-1)S2=19*39,94=758,86
(n  1)S 2 758,86
χ 2 cal  2
  337,26
σ0 2,25
Conclusión: Se rechaza H0 ya que la varianza sobrepasa los límites puestos por el

analista. Con un nivel de significación de un 5%, el riesgo aumentó

EJERCICIOS PROPUESTOS DE PRUEBA DE HIPÓTESIS EN UNA MUESTRA
1. El máximo aceptable para la exposición a radiación de las personas se ha establecido

en un promedio de 11 microwatios por centímetro cuadrado. En una planta radioactiva,
se realiza periódicamente mediciones, para determinar el nivel de contaminación del
aire.
Construya las hipótesis nula y alternativa para contrastar el posible aumento del
promedio de radiación, en una muestra al azar de 50 mediciones realizadas en
distintas horas del día, las cuáles dieron un promedio de 11,5 microwatios por
centímetro cuadrado, con una desviación estándar de 1,6 microwatios y concluya con
un nivel de significación de 2,5%.
Solución: tcrítico=2.01 tobservado= 2.2 Conclusión: Se rechaza Ho ( El promedio de
la muestra supera el valor establecido)
2. La publicidad de un nuevo tratamiento para adelgazar, afirma que al ser aplicado
durante 4 meses, la disminución promedio de peso es de 6 kgs. Para verificar la
veracidad de la publicidad, se realizó el tratamiento a 40 personas durante 4 meses,
logrando una pérdida promedio de peso de 5,2 kgs, con una desviación estándar de
1,2 kgs. Usando un nivel de significación de 1%. ¿Es posible afirmar que veracidad
de la publicidad del tratamiento ofrecido no se cumple ?
Solución: tcrítico= 2,4 tobservado= -2,6 Conclusión: Se rechaza Ho ( Se
verifica la afirmación de la publicidad)
3. El hipotiroidismo se asocia a un alto nivel de triglicéridos en la sangre, ( valores
mayores a 200 mg/dl). Se desea probar un nuevo fármaco para reducir
significativamente el nivel de triglicéridos, el laboratorio afirma que en una muestra
de 60 personas que tienen un nivel alto de triglicéridos, con el tratamiento del nuevo
fármaco en un período de 3 meses, un 80% de ellos debería alcanzar valores
normales. Compruebe la veracidad de la afirmación con un 5% de significación,
sabiendo que 54 personas que hicieron el tratamiento por tres meses, lograron
reducir el nivel de triglicéridos a valores ubicados en rangos normales.
Solución: Zcrítico=-1,645 Zobservado= -0,639 No existe evidencias para
rechazar Ho.

4. DÓCIMA PARA DOS MEDIAS (MUESTRAS INDEPENDIENTES):
Se tiene dos poblaciones normales:
X1~ N(1, 12) y X1~ N(2, 22).
Sabemos que para una muestra aleatoria de tamaño n 1, de la primera población y una
muestra aleatoria de tamaño n2 de la segunda población:
 σ   σ 
Tenemos: X 1 ~ N μ 1 , 1  y X 2 ~ N μ 2 , 2 
 n1   n2 
 σ1
2
σ2 
2

Entonces: (X 1  X 2 ) ~ N μ 1  μ 2 ;  
 n n 
 1 2 
(X 1  X 2 )  (μ 1  μ 2 )
=> Z 
2 2
σ1 σ
 2
n1 n2
Para docimar:
H0: 1=2 v/s H1:i) 1<2 ii) 1>2 iii) 12
Caso 1: 12 y 22 conocidas

Se considera dos casos:
Caso 2: 12 y 22 desconocidas
Caso 1: 12 y 22 conocidas:

En este caso la estadística bajo H0 verdadera queda como:
(X 1  X 2 )  (μ 1  μ 2 )
Z cal 
2 2
σ1 σ
 2
n1 n2
Los límites de rechazo de H0 se determinarán en la distribución normal (0,1) de acuerdo al

nivel de significación  dado (Z crítico).
En el caso i) H1 :1<2 se rechazará H0 si Zcal< Z()
En el caso ii) H1 :1>2 Se rechaza H0 si Zcal> Z(1-)
En el caso iii) H1 :12 El nivel de significación  se divide en dos partes iguales:

1- 
Z(/2) Z(1-
/2)
α  α
Se rechaza H0 si: Z cal  Z  ó Z cal  Z1  
2  2
Caso 2: 12 y 22 desconocidas:
Aquí se tiene dos opciones, una es que sean iguales las varianzas (12=22) y otra es que
sean distintas (1222).
Esta disyuntiva se resuelve haciendo una dócima para comparar varianzas:
H0: 12=22 v/s H1: 1222
σ̂ 2 mayor
Basado en la estadística: Fcal  2 ~ f(numerado r, denominado r) . La distribución f es
σ̂ menor
conocida como Fisher y también se encuentra tabulada2 en función de tres parámetros.
Uno es la probabilidad (tabulada desde 0,5 a 0,995), y los otros dos son números enteros
que llamaremos numerador y denominador. Los cuales corresponden a los grados de
libertad (n-1) de cada una de las dos muestras.
Dado  se determina el valor crítico: f (1-/2) y se rechaza H0 (de esta segunda dócima) si
Fcal>fcrítico(1-/2)
/2
f(numerador,
0 fcrítico denominador)
2
Al igual que N(0,1), t-student y Chi cuadrado.

Regresemos al problema de dócima para dos medias, una vez resuelta la disyuntiva
sobre si las varianzas desconocidas son iguales o distintas, se tienen dos situaciones:
1.- Si se acepta H0 en la dócima que compara varianzas:
Si no se rechaza H0: 12=22 se busca una varianza común con las dos varianzas
muestrales:
(n  1)S1  (n 2  1)S 2
2 2
 1
2
SC la cual se reemplaza en la estadística y queda:
n1  n 2  2
(X 1  X 2 )  (μ 1  μ 2 )
t cal 
1 1
SC 
n1 n 2
t – student con r = n1 + n2 - 2 grados de libertad.

Se concluye de la misma manera que para una sola muestra.
2.- Si se rechaza H0 en la dócima que compara varianzas:
Si se rechaza H0: 12=22 se tiene que 1222 luego en la estadística se usa el estimador
respectivo en cada caso, quedando:
(X 1  X 2 )  (μ 1  μ 2 )
t cal 
2 2
S1 S
 2
n1 n2
2
 S1 2 S 2 2 
  
n n 
 1 2 
Con r grados de libertad: r  2 2
 S1 2   S2 2 
   
n  n 
 1   2 

n1 1 n 2 1
Se concluye de la misma manera que para una sola muestra.
Ejemplo.
Se desea comparar el promedio de la grasa corporal entre hombres activos y
hombres sedentarios, en población menor de 50 años.. Con este objetivo se toma
una muestra al azar de 10 hombres activos y 10 hombres sedentarios de la misma
población de menores de 50 años con los siguientes resultados.

Hombres Activos Sedentarios
1 11.2 14.1 Hombres Hombres
2 10.1 11 Activos Sedentarios
3 9.4 11.4 x A  8.37 x S  11.79
4 9.2 14.3 S  1.664 S S  1.92
5 8.3 9.2 A
6 8.2 12.7 n A  10 n S  10
7 7.6 8.7
8 7.3 12.7
9 6.9 13.1
10 5.5 10.7
Se tiene el antecedente que el nivel de la grasa corporal tiene aproximadamente

una distribución normal y que la varianza de los hombres activos es igual al de los
hombres sedentarios. Si el nivel de significación es de 0.01 ¿Cuál es su decisión?
Hipótesis
H0 El promedio de la grasa corporal entre hombres activos y Sedentarios no

difiere significativamente.
H1 El promedio de la grasa corporal entre hombres activos y Sedentarios
difiere significativamente.
H 0 :  A  S
H1 :  A   S
Nivel de Significación   0.01
Ubicación de la región de Rechazo
Dado que  es igual a 0.01 y t0.995(18)=2.878, rechazamos

H 0 si t cal  2.878 o si de lo contrario t cal  2.878

Estadístico de Prueba
S H2 (n H  1)  S M2 (n M  1) 1.664 2  9  1.92 2  9
S c2    3.228
nH  nM  2 18
( x s  xc )  (  s   c ) (8.37  11.79)  0
t cal    4.26
Sc 1
ns
 1
nc
1.797 1
10
 10
1
Conclusión.
Como tcal( -4,26) pertenece a la región de rechazo, hay evidencias suficientes
Para suponer que el promedio de la grasa corporal entre hombres activos y hombres
sedentarios es significativamente distinto, a un nivel de significación del 1%.
La recomendación sería realizar la prueba estadística en forma unilateral ya que la

hipótesis H1 debería ser que el porcentaje de grasa es significativamente menor en los
hombres activos.
5. DÓCIMA PARA DOS PROPORCIONES:

Si se desea docimar si la presencia de un determinado atributo en una población
es igual o diferente a la presencia del mismo atributo en una segunda población. Se elige
una muestra al azar en forma independiente en cada población y se estima en cada una
de ellas la proporción que tiene el atributo de interés..
H0: P1=P2
H1: i) P1< P2
ii) P1> P2
iii)P1 P2
Observación:
La hipótesis nula H0, representa la relación histórica entre las proporciones de
ambas Poblaciones. No necesariamente tiene que ser igualdad, puede también
presentarse como desigualdad o como combinación lineal.
La dócima se basa en la estadística:

(p̂ 1  p̂ 2 )  (p1  p 2 )
Z ~ N(0,1)
p1q 1 p 2 q 2

n1 n2
Como siempre el proceso se inicia con H0 verdadera, luego se tienen dos estimadores p̂1
y p̂ 2 para un mismo parámetro (P1=P2), entonces se usa el promedio de ellos.
p̂1 n 1  p̂ 2 n 2
p0  q 0  1 p0
n
Luego la estadística bajo H0 quedó como:
(p̂1  p̂ 2 )  (p1  p 2 ) (p̂1  p̂ 2 )  (p1  p 2 )
Z cal  
p0q 0 p0q 0  1 1 
 p 0 q 0   
n1 n2  1
n n 2 
Dado  nivel de significación, se rechaza H0 en la forma habitual.

Ejemplo.
Un investigador afirma que con un nivel de significación del 5% se puede probar
que la tasa de mujeres que tiene enfermedades biliares es superior a la tasa de hombres
con la misma enfermedad, en una población de mayores de 50 años de edad
Se elige al azar una muestra de 30 hombres y de forma independiente, una muestra de 30
mujeres de la misma población mayor de 50 años de edad. Se encontró que 18 mujeres
han tenido enfermedades biliares y solo tres hombres han padecido de la misma
enfermedad.
Tasa de mujeres con enfermedad biliar=18/30=0.6
Tasa de hombres con enfermedad biliar =3/30=0.1
Hipótesis
H0 La tasa de mujeres que tiene enfermedad biliar es la misma que se

encuentra en los hombres con las mismas características.
H1 La tasa de mujeres que tiene un enfermedad biliar es superior ala a la
tasa de hombres con la misma característica.
H 0 : PH  PM
H 1 : PH  PM
Dado que  es igual al 0.05 y z0.95=1.645, rechazamos H 0 si z cal  1.645
Estadístico de Prueba
( PM  PH )  ( PM  PH ) (0.6  0.1)  0
z cal    4,06
po qo ( n1  1
nH
) 0.35  65( 30
1
 1
30
)
M
n M PM  n H PH 30  0.6  30  0.1
Po    0.35
nM  nH 60
Observación: Cuando el tamaño de muestra es igual en ambas poblaciones, no es

necesario ponderar ya que el promedio es simplemente la semisuma de las dos
proporciones.
Conclusión.
Como zcal pertenece a la región de rechazo( 4,06>1,645), entonces hay evidencias
para afirmar que la tasa de mujeres que tiene enfermedad biliar es superior a la tasa de
hombres con enfermedad biliar con las mismas características de edad, a un nivel de
significación del 5%.

6. Dócima para dos medias en Muestras pareadas
Este tipo de dócima se utiliza para evaluar una determinada intervención en un
proceso, por ejemplo al comparar el peso de una muestra de personas antes y después
de una dieta , se está evaluando la eficacia de esta última.
Sea X una variable aleatoria que se distribuye Normal con media 1 y varianza 12.
X~N(1, 12).
Sea Y una variable aleatoria que se distribuye Normal con media 2 y varianza 22.
Y~N(2, 22).
Como no son independientes, se crea la variable auxiliar:
d i  X i  Yi di~N(D, d2). Donde D=1-2.
Para una muestra aleatoria de tamaño n se tiene:
n
d n
 (d
i
d i 1
i  d) 2
i 1
Sd 
2
n
n 1
dD
 σd 2  Z ~ N(0,1)
σd
d ~ N D, 
 n 
  Lo que implica n
Cuando no se conoce la varianza poblacional de la variable auxiliar d2, se usa Sd2 (la
varianza muestral).
dD
t ~ t(n  1)
 S d 2
 Sd
d ~ t  D, 
 n  Lo que lleva a n
H0: D=0 (La hipótesis nula plantea que las medias de ambas muestras son iguales 1=2)
H1: i) D<0(Caso i de hipótesis alternativa, plantéa que 1>2)
ii) D>0 (Caso ii de hipótesis alternativa, plantea que 1<2)
iii) D0 (Caso iii de hipótesis alternativa, plantea que 12)
Los casos i) y ii) se conocen como dócimas unilaterales, y el caso iii) es bilateral.
Dado  como nivel de significación, se concluye de la manera habitual. Para Unilateral se
utiliza , y para bilateral se utiliza /2.

Ejemplo.
Se desea conocer el efecto de un nuevo fármaco para disminuir la presión arterial

sistólica en individuos Hipertensos. Con este propósito se dispone de una muestra de 20
individuos Hipertensos en los cuales se determina la presión arterial sistólica (mm. Hg)
antes y después de consumir el nuevo fármaco.
X : Después del consumo Y: Antes del consumo del di =Xi - Yi

del Fármaco Fármaco
150 160 -10
160 160 0
150 170 -20
150 155 -5
140 170 -30
135 160 -25
130 132 -2
160 140 20
150 160 -10
158 148 10
160 165 -5
160 150 10
142 155 -13
135 150 -15
128 140 -12
138 148 -10
130 160 -30
158 168 -10
135 145 -10
160 161 -1
Concluya con =5%.
Solución: Como se desconoce la varianza poblacional de la

Planteamiento de Hipótesis: variable auxiliar d, se usará distribución t-student.
H0: D=0
=5% grados de libertad=19, planteamiento unilateral.
H1: D<0 ( Hay disminución de la P.A)
=>tcrítico= t(19; 0,95)=1,7291
De la tabla de datos se obtiene: d  8,4 Sd=12,7873. Con esto se calcula la estadística:

d  D  8,4  0
t   2,93 . Es decir nos encontramos en el lado izquierdo de la
Sd 12,783
n 20
distribución t-student.
=0,05
0,95
-2,93 -
1,72
Conclusión:
Con un nivel de significación de 5%, se rechaza H0. Es decir, al consumir el nuevo
fármaco, las personas hipertensas disminuyen significativamente su presión arterial
sistólica..
EJERCICIOS RESUELTOS
1. En una muestra de 100 personas adultas se determinó un promedio para el nivel de
colesterol HDL de 50 mg/dL. Se hizo un tratamiento durante tres meses en base a un
nuevo medicamento, con el fin de aumentar este nivel promedio, luego se midió el nivel
de colesterol en las mismas personas, obteniéndose un valor promedio de 60 mg/dL
con una desviación estándar de 3,4 mg/dL. Usando un nivel de significación 0,01 se
puede concluir que el tratamiento fue eficaz?
Solución:
 = 50 mg  = 100 personas x = 60 mg/dL S = 16,6 mg/dL
 = 0,01=> t crítico= 2,365
Hipótesis : Ho :  = 50 mg/dL
H1 :> 50 mg/dL
Estadística de contraste.

x  o 60  50 10
tc  S
 16, 6
 6
n 100
1,66
Conclusión.
Se Rechaza Ho. Con un nivel de significación de 1%, se puede afirmar que el
tratamiento fue eficaz.(tcal>2,365) => p-value< 0,01 )
2. En una muestra de 50 trabajadores de una planta radioactiva, en el hemograma se

obtuvo un valor promedio de Hemoglobina de 12 g/dL con una desviación estándar de
1,5 g/dL, se les aplicó un tratamiento para aumentar dicho valor, luego se hizo
nuevamente el hemograma obteniéndose un valor promedio de 14 g/dl. Usando un
nivel de significación de 5%, se logró el objetivo con el tratamiento realizado?
Hipótesis
H0 : El tratamiento no fue eficaz
H1: El tratamiento fue Eficaz
H 0 : PM  PH
H 1 : PM  PH
Dado que  = 0.05 y z0.95=1.645, rechazamos H 0 si z cal  1.645

x  o 14  12 2
Zc  
 1, 5
  9,4
n 50
0,212
Conclusión.
Se rechaza Ho, puesto que z cal  1.645 ( 9,4>1,645 => p-value<0,05)
3. Un investigador postula que la tasa de alcoholismo en varones adultos, es mayor en la

Región A que en la región B. Para confirmar su hipótesis realiza el siguiente estudio:
Escoge una muestra al azar de 120 varones adultos de la región A y en forma
independiente escoge una muestra de 100 varones de la región B. Realizado los
exámenes correspondientes, se obtuvo en la región A una tasa de alcoholismo de 8%
mientras que en la región B se obtuvo una tasa de 5%. ¿ Con un nivel de significación
de 5% se confirma la hipótesis del investigador ?
Hipótesis
H 0 : PA  PB
H 1 : PA  PB
Región de Rechazo de Ho
Dado que  = 0.05 y z(0.95)=1.645, rechazamos H 0 si z cal  1.645
n A p A  nB p B 120  0.08  100  0.05

Po    0.066 Tasa promedio
n A  nB 220
Estadística de contraste
( p A  p B )  ( PA  PB ) (0.08  0.05)  0
z cal    0,89
po qo ( n1  nB1
) 0.066  0.934( 120
1
 100
1
)
A
Conclusión.
No existe evidencias para rechazar Ho, puesto que z cal  1.645
(Zcal=0,89 => p-value= 0,18 es un error mayor que 0,05)

¿ Cómo influye el tamaño de la muestra en la decisión de rechazar o no una
hipótesis ?
Para responder esta pregunta, consideremos que se encontró las mismas tasas de
alcoholismo en una muestra de 500 varones adultos de la región A y 500 varones adultos
de la región B.
La solución sería la siguiente:
n A p A  nB p B 0.08  0.05
Po    0.065 No es necesario ponderar ya que los tamaños
n A  nB 2
de muestra son iguales.
( p A  p B )  ( PA  PB ) (0.08  0.05)  0
z cal    1,92
po qo ( n1  nB1
) 0.065  0.935( 500
1
 500
1
)
A
La conclusión sería:
Existe evidencias para rechazar Ho, puesto que z cal  1.645
(Zcal=1,92 => p-value= 0,027 es un error menor que 0,05)
En resumen se puede decir que en la medida que los tamaños de muestra son
mayores, se requiere una menor diferencia entre las tasas para ser consideradas
significativas.

7. ANÁLISIS DE VARIANZA:
Dentro del diseño de experimentos, el análisis de varianza corresponde al modelo
completamente al azar.
y ij  μ  Ti  ε ij , donde yij = variable respuesta, =Valor basal de y, Ti= Efecto de
tratamiento, y ij= error aleatorio.
T1 T2 TK
Supuestos:
1) ij ~N(0,e2)
2) COV(i,j)=0 " los errores son independientes".
...................
K ....
3) T
i 1
i 0
4) 12=22=....=K2.
Se tienen K "tratamientos"
Planteamiento test de hipótesis:
H0: los K tratamientos tienen el mismo resultado promedio: 1=2=............=K.

H1: por lo menos hay una pareja que difiere: i j (para algún ij).
Si se acepta H0, el problema de análisis de varianza está terminado, pero si se rechaza H 0
comienza una segunda etapa para verificar cuáles son las parejas que difieren.
Procedimiento test de hipótesis:

El procedimiento se inicia como es usual considerando H0 verdadera y luego se realizan
dos estimaciones para la varianza.
La estimación para la intervarianzaes:
K
 (y
i 1
i  yT )2 n i
σ̂ 2b  k= Número de muestras
K 1
Donde y i= media de la muestra i, i=1,2,...,K.
y T =media total.
y 1 n 1  y 2 n 2  ....... y K n K
yT  .
n

La estimación para la intravarianza es:
K
S
i 1
i
2
(n i  1)
σ̂ 
2
nK
w
2
σ̂ b
Luego se construye la estadística: Fcal  2
σ̂ w
Grados de libertad para la distribución f: gl=(K-1 ; n-K)
Dado  como nivel de significación se determina el valor crítico f(1-) y se rechaza H0 si
Fcal>f(1-).
fcrit

Si se acepta H0, el problema está terminado (Las medias son iguales). En cambio si se
rechaza H0, comienza una segunda etapa de comparaciones múltiples para descubrir
entre que muestras se produjo la diferencia.
Existen varios test de comparaciones múltiples:Test de Scheffé, Test de Bonferroni ,etc .
Todos los software estadísticos tienen incorporado estos tests.
Ejemplo.
Se desea comparar la frecuencia cardíaca entre 3 tipos de personas adultas. Este
rendimiento es medido en número de latidos del corazón por minuto. En el experimento se
asignan completamente al azar 24personas adultas a tres grupos distintos, de acuerdo a
un plan de actividad física: Resultando en el grupo A, 9personas adultas que deben
realizar ejercicio intenso durante dos meses, en el grupo B, 8 personas adultas que
realizan un ejercicio moderado ( caminatas) durante dos meses y en el grupo C,7
personas adultas que tendrán un comportamiento sedentario durante los dos meses que
dura el experimento.. Al cabo de dos meses se mide la frecuencia cardíaca en los tres
grupos de personas y se pide determinar si se registra diferencias estadísticamente
significativas usando un nivel de significación de un 2.5%.
Los resultados son los siguientes:

Grupo Grupo
Grupo
B C
60 61 63
58 58 64
57 64 70
56 60 68
59 65 66
53 54 71
55 62 67
54 63
62
Solución:
De los datos entregados se tiene que:
n1=9 n2=8 n3=7
y1  57.11 y 2  60.88 y 3  67
S1=2,93 S2=3.56 S3=2,94
H0: A = B = C (no hay diferencias de rendimiento cardíaco)

H1:i j (i  j) (al menos 1 difiere)
=0,05
=0,05
g.l= (K-1;n-K) = (3-1 ; (9+8+7)-3)=(2 ; 21)
fcrit=3.4668
3
Rechazaremos H0 si Fcal>3,4368 (es decir que la intervarianza tiene que superar en 3,44
veces la intravarianza).
La media total es:
57.11* 9  60.875 * 8  67 * 7
yT   61.25
24
La intervarianza estimada es:
(57.11  61.25) 2 * 9  (60.875  61.25) 2 * 8  (67  61.25) 2 * 7
  193.368
2
σ̂ b
2

La intravarianza estimada es:
K
S i
2
(n i  1)
(2.93) 2 * 8  (3.56) 2 * 7  (2,94) 2 * 6
σ̂ w  i 1
  9.989
2
nK 21
193.368
Luego, FCal   19.35 >3,4368
9.989
Se rechaza H0, el rendimiento cardíaco difiere entre al menos un par de grupos.
Como se llega a la conclusión de rechazo de la hipótesis nula, se pasa a una segunda
etapa de aplicación de un test de comparaciones múltiples, haciendo todas las
comparaciones posibles: A con B, A con C y B con C, lo cual es sencillo de realizar
usando un software estadístico.

8. Prueba de Hipótesis (Docima) de Asociación
Esta dócima está basada en la Distribución Ji- Cuadrado y permite determinar si
existe asociación entre las categorías de dos variables.
Planteamiento de las Hipótesis.
Ho: No Existe asociación entre las categorías de las variables A y B
H1: Existe asociación entre las categorías de las variables A y B
Variable A
CATEGORÍAS A1 A2 AK TOTAL
B1 n11n12 . . . n1k n1.
VARIABLE B2 n21 n22 . . . n2k n2.
B . . .
. . .
. . .
Bh nh1 nh2. . . nhk nh.
TOTAL n.1 n.2 . . . n.k n
Estadística en que se basa la decisión: Se basa en la definición de dos sucesos

Independientes, que es lo que propone la hipótesis Ho
h k (n ij  n * pi. * p.j ) 2
1)  c2  
i l j1 n * pi. * p .j
n n .j
p i.  i. p.j 
n n
2
 n *n 
 O  i. .j 
h k  ij n 
2)  c   
2
Grados de Libertad = (h-1)*(k-1)
i  l j1 n i. * n.j
n
h k (O ij  e ij ) 2 Oij= valor observado enla fila (i), columna (j).

3)  c2   eij = valor esperado enla fila (i), columna (j).
i l j1 e ij

Ejemplo.
En un estudio para determinar si existe asociación entre la exposición materna
a radioactividad y la malformación congénita de labio leporino, se seleccionó una
muestra de 90 niños: 28 niños nacidos con labio leporino y 62 niños con similares
antecedentes que no presentan la enfermedad. Se entrevista a la madre de cada
niño para determinar si estuvo o no expuesta a radioactividad durante el embarazo.
Se obtienen los datos que se muestran en la Tabla .
La madre estuvo expuesta

El niño nace con Si No Total
labio leporino
Si 20 8 28
No 15 47 62
Total 35 55 90
a) Plantear las hipótesis apropiadas para contrastar la asociación entre variables.

b) Hallar la frecuencia esperada para cada celda.
c) Concluir usando un nivel de significación de un 2.5%
d) Hallar el valor del Odd-Ratio asociado a la exposición
e) Construir un intervalo de 95% de confianza para el valor del O.R
Solución:
a) Ho : No existe Asociación entre la exposición materna a la radioactividad y la
malformación congénita de labio leporino
H1: Existe Asociación entre la exposición materna a la radioactividad y la
malformación congénita de labio leporino.
b) Valores Esperados: e11 = 10.89 e12= 17.11
e21= 24.11 e22= 37,89
c) Estadística de Decisión.
h k (O ij  e ij ) 2
 c2  
2
= (20-10.89) 2 /10.89 + (8-17.11) 2 / 17.11 +(15-24,11) /24.11+
i l j1 e ij
2
+(47-37.89) /37.89 = 18.1

Usando un nivel de significación de 2.5% el valor c2 =18,1 es mayor que c2 Crítico=
5.02, por lo tanto se rechaza Ho.
=0,025
0 X 2 = 5,02
Calculo de la razón de Disparidad. O.R.

Intervalo de Confianza para estimar ln( O.R)
O.R= 7,83
Ln O.R = 2,058
Var(lnOR) = 1/a +1/b + 1/c + 1/d
Var(lnO.R) = 1/20 + 1/8 + 1/15 + 1/47 = 0,263
L inf =lnOR - z * Var(ln OR)

(1  α/2)
Linf = 2,058 – 1,96* 0,263 = 1,053
Lsup= lnOR + z * Var(ln OR)

(1  α/2)
Lsup = 2,058 + 1,96* 0,263 = 3,063
Luego el intervalo para estimar OR, se obtiene con el antilogaritmo de los límites
encontrados para estimar lnOR.
O.R =[ 2,87 ; 21,39 ]

9. ANÁLISIS DE REGRESIÓN
El objetivo del análisis de regresión es: A partir de un conjunto de datos
muestrales, obtener un modelo matemático que permita predecir valores para una variable
dependiente ante cambios observados en la o las variables independientes.
Una segunda etapa después de obtener el modelo es decidir mediante
algunas pruebas de hipótesis, que tan bueno es el modelo asumido.
REGRESIÓN LINEAL SIMPLE:

El modelo es y  β 1 x  β 0 + eij donde, 1= pendiente de la recta, 0=
coeficiente de posición y eij es el error aleatorio.
A partir de una muestra de n pares (x, y) se determina una recta "estimada", que
gráficamente entrega la línea que se presenta la mayor cercanía a todos los puntos:

yi ŷ  β̂ 1 x  β̂ 0
 
ye  
 


Xi
Error: es la diferencia entre el valor observado y el valor entregado por el modelo. Es

decir, la diferencia entre cada punto y la recta es un error. e  y i  ŷ .
yi = valor observado, ŷ = valor entregado por el modelo.

Bajo la recta de regresión, este error e es negativo, y sobre ella es positivo.
Método de Mínimos Cuadrados:

El método llamado "Método de Mínimos Cuadrados" permite obtener un valor para
β̂ 0 y β̂ 1 de modo que la suma de los cuadrados de los errores sea mínima.

n n
f   e i   ( y i  ŷ i ) 2  S.C.E : Suma de los cuadrados de los errores.
2
i 1 i 1
n
f   (y i  β̂ 1 x  β̂ 0 ) 2
i 1
Primero, se deriva parcialmente respecto de β̂ 0 para hallar la primera ecuación:
f n
 2 (y i  β̂ 1 x  β̂ 0 ) * (1)  0
β̂ 0 i 1
 (y
i 1
i  β̂ 1 x  β̂ 0 )  0
n n n
 y i  β̂1  x i   β̂ 0  0
i 1 i 1 i 1
n n
 y i  β̂1  x i  nβ̂ 0
i 1 i 1
1a ecuación.
Luego, derivando respecto de β̂1 se obtiene la segunda ecuación:
f n
 2 (y i  β̂1 x  β̂ 0 )( x)  0
β1 i 1
n n n
  x i y i  β̂1  x i  β̂ 0  x i  0
2
i 1 i 1 i 1
n n n
x y
i 1
i i  β̂ 1  x i  β̂ 0  x i
i 1
2
i 1
2a ecuación.
 
Luego resolviendo el sistema de ecuaciones se obtiene el valor de 1 y 0.
n
n n x
 y i  β̂1  x i  nβ̂ 0
i
(1) /* i 1
x
i 1 i 1 n
n n n
(2)  x i y i  β̂1  x i  β̂ 0  x i
i 1 i 1
2
i 1

Formulas Alternativas:
Resolviendo el mismo sistema de ecuaciones, se puede llegar a las siguientes formulas:
n
x y i i  nxy
β̂ 1  i 1
n
β̂ 0  y  β̂ 1 x
x
i 1
i
2
 n( x ) 2
Interpretación:
dŷ
y  β̂1 x  β̂ 0  ε  β̂1
dx
" β̂ 1 representa el cambio promedio que experimenta la variable dependiente y, por cada
unidad de cambio que experimenta la variable independiente x".
" β̂ 0 es el valor basal de la variable dependiente y" (el valor basal se obtiene para y,
cuando x=0).
SEGUNDA ETAPA:
Una vez obtenido el modelo con los datos de la muestra, la segunda etapa es
determinar qué tan bueno es el modelo para predecir valores para la variable dependiente
y dado un valor específico de la variable independiente x.
Existen tres pruebas de hipótesis para lograr este objetivo:
1) ANDEVA.3 ( Análisis de varianza)
2) Prueba de hipótesis para la pendiente β̂1 .

3) Prueba de hipótesis para el coeficiente de correlación r.
SCT: Suma de Cuadrado Total

SCE: Suma de cuadrado de errores.
SCR: Suma de Cuadrado de Regresión.
1
y 2 No será tratado en este texto.

n n n
 (y i  y) 2   (y i  ŷ) 2   (ŷ i  y) 2
i 1 i 1 i 1
SCT = SCE + SCR
Definición 1: Coeficiente de determinación: (r2)

n
SCR
 ( ŷ i  y) 2
r2   i 1
n
, 0  r2 1
SCT
 (y
i 1
i  y) 2
Este coeficiente indica que porcentaje de la variabilidad que experimenta la variable

dependiente "y" es aplicada por el modelo ajustado.
El mejor valor de este coeficiente es 1 y el peor valor es 0.
Definición 2: Varianza residual:

n
SCE
 (y
i 1
i  ŷ i ) 2
σ̂ e  S 2yx  
2
n2 n2
Definición 3: Varianza total.

n
SCT
 (y
i 1
i  y) 2
S 2y  
n 1 n 1
Definición 4: Coeficiente de Correlación:(r)

n
 (x y )  n x y
i i n n
r i 1
, SC x   ( x i  x ) 2  (n  1)S 2x , SC y   ( y i  y) 2  (n  1)S 2y
SC x SC y i 1 i 1
El coeficiente de correlación señala la fuerza de asociación entre las variables x e y, y la

relación que hay entre ellas (que puede ser directa o inversa).
Este coeficiente toma valores entre –1 y 1, mientras más cercano sea a los extremos,
mejor es el modelo de ajuste lineal.

Si r es positivo implica que las variables x e y tienen relación directa, si r es negativo
significa que la relación es inversa. En ambos casos solo se sabe si la correlación es
significativa, cuando se realiza la prueba de hipótesis correspondiente
Dócima para la correlación r: H0: =0
H0: "El modelo ajustado no es bueno para explicar los cambios de y observando x, es
decir, no existe correlación entre x e y".
H1: 0
H1: Las variables están correlacionadas linealmente, según el modelo ajustado a los
datos"
es un parámetro (rho), es el coeficiente de correlación de la población, y r es el
coeficiente de correlación de la muestra aleatoria que se escoja.
Estadística para la decisión
r  ρ H0
t cal  ~ t(n  2)
1 r 2
n2
Dado  como nivel de significación se rechaza H0 si:
tcal<t(/2), o , tcal>t(1-/2).
1-
t(/2) t(1-/2)

Ejemplo.
Se desea ajustar un modelo lineal que permita determinar la relación existente entre
el porcentaje en que se incrementa el volumen máximo de oxígeno ( VO2max) y el tiempo
de ejercicio aeróbico intenso que fueron sometidos 12 pacientes, durante 30 días.
Después del período de duración del experimento se registra ron los siguientes valores.
X se expresa en minutos e Y en % deVO2max (mL.kg-1 X min-1)
X: Minutos Y: % de ganancia de VO2max
8 2,5
12 6,5
10 7,5
9 4,0
17 8,5
15 9,0
16 10,5
14 12,5
6,5 3,8
20 15
16 10,5
13 9,0
a) Ajuste un modelo lineal para estos datos.

b) Verifique el modelo mediante una prueba de hipótesis para el coeficiente de
correlación.
c) Verifique el modelo mediante una prueba de hipótesis para la pendiente.
Solución:
De la muestra (tabla), se obtiene que: X  13,041 , Y  8,275 , X Y
i i  1.441,2
X i
2
 2.222,25 , Y i
2
 971,17
Modelo Lineal: y  β 1 x  β 0
a)
β̂1 
 X Y  n XY  1.441,2  12 * (13,041) * (8,275)  0,8065
i i
 X  n(X)
i
2 2
2.222,25  12 * (13,041) 2
β 0  Y  β̂ 1 X  8,275  0,8065 *13,041  2,243
Ŷ  0,8065X  2,243
Coeficiente de Correlación Lineal r=0,888

Interpretación:
1:" Por cada minuto diario que aumente el ejercicio aeróbico, el porcentaje de
incremento de VO2max será en promedio en un 0,8%.
b) Dócima para r:
H0: =0
H1: 0 95%
r  ρ (H0 ) 0,888  0
t cal    6,1 -2,22 2,22
1 r 2 1  (0,888) 2
n2 10
=0,05 ,g.l = 10 =>tcritico=2,22
Conclusión:Se observa que tcal>tcrítico por lo tanto se rechaza H0, es decir, con un
nivel de significación del 5% se puede afirmar que el porcentaje de ganancia de
VO2max está correlacionado linealmente con el número de minutos de ejercicio
aeróbico que realice diariamente la persona, según el modelo ajustado a los datos de
la muestra.

Ejercicio propuesto.
Los datos de la tabla adjunta corresponden a una muestra de 14
personas a las cuáles se les preguntó la edad y el monto que pagaban por un mismo
plan de salud en la Isapre en que está afiliado.
Edad en años
Monto en miles de $
EDAD 38 45 76 65 55 43 60 28 43 58 53 49 29 72
MONTO 40 41 90 70 55 40 54 35 39 54 50 44 32 89
a) Ajuste un modelo lineal que permita predecir el monto que debe pagar un
afiliado a Isapre en función de su edad
b) Calcule el coeficiente de determinación e interprete su valor.
c) Mediante una prueba estadística para la correlación, determinar si las variables

están correlacionadas significativamente, con un nivel de 5%.
Resultado:
a) Y= 1,19*Edad – 8,36
b) R2 = 0,8723
c) Tc= 9,05 La correlación entre las variables es significativa

Valores de la Probabilidad acumulada de la Distribución Normal estándar
x
Z=

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
-3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002
-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
-3.0 0.0013 0.0013 0.0013 0.0012 0.0011 0.0011 0.0011 0.0011 0.0010 0.0010
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
-1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
-0.7 0.2420 0.2389 0.2358 0.2327 0.2297 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
-0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998

Valores delaProbabilidadacumuladadistribución t -Student
G.L0.80.90.950.9750.990.9950.999
1 1.376 3.078 6.314 12.706 31.820 63.656 318.294
2 1.061 1.886 2.920 4.303 6.965 9.925 22.327
3 0.978 1.638 2.353 3.182 4.541 5.841 10.214
4 0.941 1.533 2.132 2.776 3.747 4.604 7.173
5 0.920 1.476 2.015 2.571 3.365 4.032 5.893
6 0.906 1.440 1.943 2.447 3.143 3.707 5.208
7 0.896 1.415 1.895 2.365 2.998 3.499 4.785
8 0.889 1.397 1.860 2.306 2.896 3.355 4.501
9 0.883 1.383 1.833 2.262 2.821 3.250 4.297
10 0.879 1.372 1.812 2.228 2.764 3.169 4.144
11 0.876 1.363 1.796 2.201 2.718 3.106 4.025
12 0.873 1.356 1.782 2.179 2.681 3.055 3.930
13 0.870 1.350 1.771 2.160 2.650 3.012 3.852
14 0.868 1.345 1.761 2.145 2.624 2.977 3.787
15 0.866 1.341 1.753 2.131 2.602 2.947 3.733
16 0.865 1.337 1.746 2.120 2.583 2.921 3.686
17 0.863 1.333 1.740 2.110 2.567 2.898 3.646
18 0.862 1.330 1.734 2.101 2.552 2.878 3.610
19 0.861 1.328 1.729 2.093 2.539 2.861 3.579
20 0.860 1.325 1.725 2.086 2.528 2.845 3.552
21 0.859 1.323 1.721 2.080 2.518 2.831 3.527
22 0.858 1.321 1.717 2.074 2.508 2.819 3.505
23 0.858 1.319 1.714 2.069 2.500 2.807 3.485
24 0.857 1.318 1.711 2.064 2.492 2.797 3.467
25 0.856 1.316 1.708 2.060 2.485 2.787 3.450
26 0.856 1.315 1.706 2.056 2.479 2.779 3.435
27 0.855 1.314 1.703 2.052 2.473 2.771 3.421
28 0.855 1.313 1.701 2.048 2.467 2.763 3.408
29 0.854 1.311 1.699 2.045 2.462 2.756 3.396
30 0.854 1.310 1.697 2.042 2.457 2.750 3.385
35 0.852 1.306 1.690 2.030 2.438 2.724 3.340
40 0.851 1.303 1.684 2.021 2.423 2.704 3.307
45 0.850 1.301 1.679 2.014 2.412 2.690 3.281
50 0.849 1.299 1.676 2.009 2.403 2.678 3.261
60 0.848 1.296 1.671 2.000 2.390 2.660 3.232
70 0.847 1.294 1.667 1.994 2.381 2.648 3.211
80 0.846 1.292 1.664 1.990 2.374 2.639 3.195
90 0.846 1.291 1.662 1.987 2.368 2.632 3.183
100 0.845 1.290 1.660 1.984 2.364 2.626 3.174
200 0.843 1.286 1.652 1.972 2.345 2.601 3.131
500 0.842 1.283 1.648 1.965 2.334 2.586 3.107
1000 0.842 1.282 1.646 1.962 2.330 2.581 3.098

Valores de Probabilidad Acumulada de la distribución chi-cuadrado
G.L 0.0050.010.0250.050.10.90.950.9750.990.995
1 0.00 0.00 0.00 0.00 0.02 2.71 3.84 5.02 6.64 7.90
2 0.01 0.02 0.05 0.10 0.21 4.60 5.99 7.38 9.22 10.59
3 0.07 0.11 0.22 0.35 0.58 6.25 7.82 9.36 11.32 12.82
4 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.15 13.28 14.82
5 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.84 15.09 16.76
6 0.67 0.87 1.24 1.63 2.20 10.65 12.60 14.46 16.81 18.55
7 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.02 18.47 20.27
8 1.34 1.64 2.18 2.73 3.49 13.36 15.51 17.55 20.08 21.94
9 1.73 2.09 2.70 3.32 4.17 14.69 16.93 19.03 21.65 23.56
10 2.15 2.55 3.24 3.94 4.86 15.99 18.31 20.50 23.19 25.15
11 2.60 3.05 3.81 4.57 5.58 17.28 19.68 21.93 24.75 26.71
12 3.06 3.57 4.40 5.22 6.30 18.55 21.03 23.35 26.25 28.25
13 3.56 4.10 5.01 5.89 7.04 19.81 22.37 24.75 27.72 29.88
14 4.07 4.65 5.62 6.57 7.79 21.07 23.69 26.13 29.17 31.38
15 4.59 5.23 6.26 7.26 8.55 22.31 25.00 27.50 30.61 32.86
16 5.14 5.81 6.90 7.96 9.31 23.55 26.30 28.86 32.03 34.32
17 5.69 6.40 7.56 8.67 10.08 24.77 27.59 30.20 33.43 35.77
18 6.25 7.00 8.23 9.39 10.86 25.99 28.88 31.54 34.83 37.21
19 6.82 7.63 8.90 10.11 11.65 27.21 30.15 32.87 36.22 38.63
20 7.42 8.25 9.59 10.85 12.44 28.42 31.42 34.18 37.59 40.05
21 8.02 8.89 10.28 11.59 13.24 29.62 32.68 35.49 38.96 41.45
22 8.62 9.53 10.98 12.34 14.04 30.82 33.93 36.79 40.31 42.84
23 9.25 10.19 11.69 13.09 14.85 32.01 35.18 38.09 41.66 44.23
24 9.87 10.85 12.40 13.84 15.66 33.20 36.42 39.38 43.00 45.60
25 10.50 11.51 13.11 14.61 16.47 34.38 37.66 40.66 44.34 46.97
26 11.13 12.19 13.84 15.38 17.29 35.57 38.89 41.94 45.66 48.33
27 11.79 12.87 14.57 16.15 18.11 36.74 40.12 43.21 46.99 49.69
28 12.44 13.55 15.30 16.92 18.94 37.92 41.34 44.47 48.30 51.04
29 13.09 14.24 16.04 17.70 19.77 39.09 42.56 45.74 49.61 52.38
30 13.77 14.94 16.78 18.49 20.60 40.26 43.78 46.99 50.91 53.71
35 17.16 18.49 20.56 22.46 24.79 46.06 49.81 53.22 57.36 60.31
40 20.67 22.14 24.42 26.51 29.06 51.80 55.75 59.34 63.71 66.80
45 24.28 25.88 28.36 30.61 33.36 57.50 61.65 65.41 69.98 73.20
50 27.96 29.68 32.35 34.76 37.69 63.16 67.50 71.42 76.17 79.52
60 35.50 37.46 40.47 43.19 46.46 74.39 79.08 83.30 88.40 91.98
70 43.25 45.42 48.75 51.74 55.33 85.52 90.53 95.03 100.44 104.24
80 51.14 53.52 57.15 60.39 64.28 96.57 101.88 106.63 112.34 116.35
90 59.17 61.74 65.64 69.13 73.29 107.56 113.14 118.14 124.13 128.32
100 67.30 70.05 74.22 77.93 82.36 118.49 124.34 129.56 135.82 140.19

Distribución de Fisher acumulativa ( grados de libertad del numerador y del denominador)

Denom Num® 1 2 3 4 5 6 7 8 9 10 12 15 20 30 60 120
¯
0.90 39.1 49.5 53.6 55.8 57.2 58.2 58.9 59.4 59.9 60.2 60.7 61.2 61.7 62.3 62.8 63.1 63.3
0.95 161 200 216 225 230 234 237 239 241 242 244 246 248 250 252 253 254
0.975 1 648 800 864 900 922 937 948 957 963 969 977 585 993 1000 1010 1010 1020
0.99 4050 5000 5400 5620 5760 5860 5930 5980 6020 6060 6110 6160 6210 6260 6310 6340 6370
0.90 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.41 9.42 9.44 9.46 9.47 9.18 9.49
0.95 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5
0.975 2 38.5 39.0 39.2 39.2 39.3 39.3 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.5 39.5 39.5 39.5
0.99 98.5 99.0 99.2 99.2 99.3 99.3 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.5 99.5 99.5 99.5
0.90 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5.18 5.17 5.15 5.14 5.13
0.95 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.62 8.57 8.55 8.53
0.975 3 17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5 14.4 14.3 14.3 14.2 14.1 14.0 13.9 13.9
0.99 34.1 30.8 29.5 28.7 28.2 27.9 27.7 27.5 27.3 27.2 27.1 26.9 26.7 26.2 26.3 26.2 26.1
0.90 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.93 3.92 3.90 3.87 3.84 3.82 3.79 3.78 3.76
0.95 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.75 5.69 5.66 5.63
0.975 12.2 10.6 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.46 8.36 8.31 8.26
0.99 21.2 18.0 16.7 16.0 15.5 15.2 15.0 14.8 14.7 14.5 14.4 14.2 14.0 13.8 13.7 13.6 13.5
0.90 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.21 3.17 3.14 3.12 3.11
0.95 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.50 4.43 4.40 4.37
0.975 5 10.0 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.23 6.12 6.07 6.02
0.99 16.3 13.3 12.1 11.4 11.0 10.7 10.5 10.3 10.2 10.1 9.89 9.72 9.55 9.38 9.20 9.11 9.02
0.90 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.80 2.76 2.74 2.72
0.95 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.84 3.81 3.74 3.70 3.67
0.975 6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.07 4.96 4.90 4.85
0.99 13.7 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.23 7.06 6.97 6.88
0.90 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.56 2.51 2.49 2.47
0.95 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.38 3.30 3.27 3.29
0.975 7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.36 4.25 4.20 4.14
0.99 12.2 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 5.99 5.82 5.74 5.65
0.90 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.25 2.21 2.18 2.16
0.95 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.86 2.79 2.75 2.71
0.975 9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.56 3.45 3.39 3.33
0.99 10.6 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.65 4.48 4.40 4.31
0.90 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.15 2.11 2.08 2.06
0.95 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.84 2.77 2.70 2.62 2.58 2.54
0.975 10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.31 3.20 3.14 3.08
0.99 10.0 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.25 4.08 4.00 3.91
0.90 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.15 2.10 2.06 2.01 1.96 1.93 1.90
0.95 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.47 2.38 2.34 2.30
0.975 12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 2.96 2.85 2.79 2.72
0.99 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.70 3.54 3.45 3.36
0.90 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.02 1.97 1.92 1.87 1.82 1.79 1.76
0.95 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.25 2.16 2.11 2.07

0.975 15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.28 3.12 3.06 2.96 2.86 2.76 2.67 2.51 2.36 2.20
0.99 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.21 3.05 2.96 2.87
0.90 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 1.84 1.79 1.74 1.68 1.64 1.61
0.95 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.04 1.95 1.90 1.84
0.975 20 5.87 4.46 3.86 3.51 3.29 3.19 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.35 2.22 2.16 2.09
0.99 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.78 2.61 2.52 2.42
0.90 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.61 1.54 1.50 1.46
0.95 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.84 1.74 1.68 1.62
0.975 30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.07 1.94 1.87 1.69
0.99 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.39 2.21 2.11 2.01
0.90 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.60 1.54 1.48 1.40 1.35 1.29
0.95 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.65 1.53 1.47 1.39
0.975 60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.82 1.67 1.58 1.48
0.99 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.03 1.84 1.73 1.60
0.90 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.60 1.54 1.48 1.41 1.32 1.26 1.19
0.95 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.55 1.43 1.35 1.25
0.975 120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 1.69 1.53 1.43 1.31
0.99 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.03 1.86 1.66 1.53 1.38
0.90 2.71 2.30 2.08 1.94 1.85 1.77 1.72 1.67 1.63 1.60 1.55 1.49 1.42 1.34 1.24 1.17 1.00
0.95 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.46 1.32 1.22 1.00
0.975  5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.94 1.83 1.71 1.57 1.39 1.27 1.00
0.99 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.18 2.04 1.88 1.70 1.47 1.32 1.00

Bibliografía
 Milton, J. Susan.; Delgado Crespo, Diego; tr., Llovet Verdugo, Juan, tr., Martínez Valero,
Julián, tr.Estadística para Biología y Ciencias de la salud,3º Edición, Editorial Mc Graw-
Hill,Madrid 2007
 Spiegel, Murray R.; Valdés Ramírez, Abel; rev., Stephens, Larry J., coaut., Pineda Ayala,
Leticia Esther, tr. Estadística, 3ª Edición,2007, Editorial Mc Graw-Hill,Mexico.
 Doménech, Joseph; Métodos estadísticos en Ciencias de la Salud,2ª Edición,1988,
Editores Barcelona: Signo
 Daniel, Wayne W.; León Hernández, Francisco, tr; Bioestadística.Bases para el análisis
de las ciencias de la Salud,4º Edición, 2002, Editorial LimusaWiley

Texto Guia de Bioestadistica

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Texto Guia de Bioestadistica

Transféré par

Droits d'auteur :

Formats disponibles

BIOESTADISTICA

Prof. W. Aranda Página 1

Prof. W. Aranda Página 2

MEDIDAS DE TENDENCIA CENTRAL

1.1 Media poblacional.

1.2 Media muestral.

datos de una muestra, se denota con el símbolo: x

Si x1, x2, …, xnrepresentan un conjunto de n observaciones de una muestra de una

Prof. W. Aranda Página 3

X: 3100, 2780, 2900, 3200, 3000

3100  2780  2900  3200  3000

Cálculo de la Media Aritmética para una variable continua tabulada en intervalos

Al ordenar de menor a mayor los datos de una población, la

Prof. W. Aranda Página 4

2.2 Mediana ( Me) en una muestra

Ejemplo: Si ordenamos de menor a mayor el peso de nacimiento de los recién

Me= 3000 grs

Prof. W. Aranda Página 5

3. Moda o Valor Modal.Es el valor de la variable que tiene la mayor frecuencia,

Ejemplo: Se tabuló el diagnóstico dado a 50 pacientes que consultan en un servicio

Cálculo de la Moda de una variable continua tabulada en intervalos

Prof. W. Aranda Página 6

En el peso de nacimiento de los 5recién nacidos tenemos: Percentil(75) = 3100grs

Cálculo del Percentil k en datos de una variable continua tabulada en intervalos

En el cálculo de la mediana k=50

MEDIDAS DE DISPERSIÓN O VARIABILIDAD

2. La Varianza de la muestra:Es un indicador de la variabilidad que tienen los

promedio x . La varianza de la muestra se denota por s2 y expresa la suma de

Prof. W. Aranda Página 7

Algunas observaciones acerca de la Varianza.

Ejemplo. Se registró la edad en años cumplidos de 5 niños que fueron controlados

X1= 2 X2= 5 X3=1 X4= 3 X5= 4

La edad promedio de los 5 niños es igual a 3 años.

Su varianza muestralse obtiene por:

Prof. W. Aranda Página 8

Ejemplo: Se midió y pesó a una muestra de 50 niños. Determinar si hay mayor

Prof. W. Aranda Página 9

Prof. W. Aranda Página 10

Observación: El intervalo con mayor cantidad de datos es aquel comprendido ente 68 y

Prof. W. Aranda Página 11

45  72  ··· 110 2523

Percentil 25: El valor que ocupa la posición 9, es 61 segundos.

Percentil 75: El valor que ocupa la posición 27, es 84 segundos.

Prof. W. Aranda Página 12

Prof. W. Aranda Página 13

Histograma de los intervalos de la variable tiempo empleado por los niños.

Tiempo en resolver el laberinto

e) Calcular el coeficiente de variabilidad y el recorrido intercuartílico y discuta cuál

Prof. W. Aranda Página 14

Prof. W. Aranda Página 15

El diagrama de cajas es una representación gráfica de un conjunto de datos que

Me=71 ;q1 = 61 ;q3 =.84 R.Q=23

Box-Plot para las variables agrupadas según la Tabla anterior

Prof. W. Aranda Página 16

Conceptos básicos de probabilidades

1. Se llama suceso complementario de un suceso A , al suceso formado por los

Prof. W. Aranda Página 17

P(AUB)=P(A)+P(B) –P( A∩B)

3. Se llama suceso intersección de A y B,( A∩B) a aquel formado por los

Prof. W. Aranda Página 18

2. P(AUB) = P(A) + P(B) - P(A∩B)

3. P(A∩B) = P(A) P(B|A)=P(B) P(A|B)

5. P(A∩B)’ = P(A’U B’)

En un consultorio, se entrevistó a 100 adultos mayores, acerca de dos

O.R = ( 1580)/( 1030) = 4