Vous êtes sur la page 1sur 10

Bioestadística Rina M.

Zamalloa Cornejo

CAPITULO VII
INFERENCIA ESTADISTICA

ESTADÍSTICA INFERENCIAL

Es aquella rama de la estadística que apoyándose en el cálculo de probabilidades y a partir de datos muéstrales, efectúa
estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos. Puede definirse como
aquella rama de la estadística que hace posible la estimación de una característica de una población o la toma de una
decisión referente a una población, fundamentándose sólo en los resultados de la muestra.

También se puede decir que la estadística inferencial es cuando de los datos estadísticos obtenidos de una muestra se
infiere o se deduce una observación la cuál se generaliza sobre la población en total. Para determinar la confiabilidad de
la inferencia de los datos estadísticos de una muestra, se hace necesario comprobar la misma para poder asegurar que lo
que se observa en una muestra se observará también en la población. Por lo tanto, esto requiere utilizar técnicas, cálculos
y análisis estadísticos más avanzados con los datos estadísticos obtenidos de la muestra para así confirmar la veracidad
de las inferencias que se haga sobre la respectiva población a que corresponde la muestra. Generalmente el análisis
estadístico inferencial se lleva cabo para mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías
científicas.

POBLACIÓN Y MUESTRA

Las estadísticas de por sí no tienen sentido si no se consideran o se relacionan dentro del contexto con que se trabajan.
Por lo tanto es necesario entender los conceptos de población y de muestra para lograr comprender mejor su significado
en la investigación educativa o social que se lleva a cabo.

POBLACION:
Estadísticamente, la población se define como un conjunto de individuos, objetos etc. que poseen una o varias
características comunes que interesan al investigador. No se refiere esta definición únicamente a los seres vivientes; una
población puede estar constituida por los habitantes de un país o por lo peces de un estanque, así como por los
establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad. A el número de elementos de la
población se denota por N.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el término infinito no está siendo
tomado con el rigor semántico de la palabra; por ejemplo, los peces dentro de un estanque son un conjunto finito; sin
embargo, en términos estadísticos, puede ser considerado como infinito.

MUESTRA:
Es el conjunto de elementos que forman parte de población. La muestra representa a esta población.
También se puede definir como el subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar
las propiedades del conjunto del cual es obtenida. Existen diversos métodos para calcular el tamaño de la muestra y
también para tomar los elementos que la conforman, la muestra debe ser representativa de la población y sus elementos
escogidos al azar para asegurar la objetividad de la investigación.

MUESTRA ALEATORIA:
Sean X 1 , X 2 , ..., X n variables aleatorias independientes e igualmente distribuidas, cuya distribución conjunta es:
f ( x1 , x2 ,..., xn ) = f ( x1 ) f ( x2 ) ... f ( xn )
Donde la función de densidad de cada X i , para i = 1, 2, … , n es f ( x ) . En tal supuesto se dice que X 1 , X 2 , ..., X n
es una muestra aleatoria de tamaño n de la variable aleatoria X con función de densidad f ( x) .

MUESTREO – Es el procedimiento científico que se utiliza para la obtención de muestras estadísticamente


significativas de una población que permitirá estimar los parámetros poblacionales con un grado de confianza fijado
previamente.

Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán representativo se
quiera sea el estudio de la población.

ALEATORIA - Cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser incluido.

ESTRATIFICADA - Cuando se subdivide en estratos o subgrupos según las variables o características que se pretenden
investigar. Cada estrato debe corresponder proporcionalmente a la población.

1
Bioestadística Rina M. Zamalloa Cornejo

SISTEMÁTICA - Cuando se establece un patrón o criterio al seleccionar la muestra. Ejemplo: se entrevistará una
familia por cada diez que se detecten.

CONGLOMERADOS – El muestreo por conglomerados es eficaz solamente cuando los conglomerados son numerosos
y de pequeños tamaños, homogéneos entre ellos y cuyos individuos en cada conglomerado son heterogéneos.

PARÁMETRO VS ESTADÍGRAFO
PARÁMETRO:
Es una medida resumen que se obtiene a base de los datos de una población es decir que cuantifica una característica de
esa población. Nos referimos a las funciones, tales como las medias, desviaciones típicas, momentos, coeficientes de
correlación, etc. Los parámetros son cantidades, las cuales son constantes para distribuciones en particular, pero pueden
tomar diferentes valores para diferentes miembros de familias de distribuciones del mismo tipo.

ESTADÍGRAFO:
Un estadístico o estadígrafo es una medida resumen cuyo valor se puede calcular a partir de datos muestrales.
Antes de obtener datos, hay incertidumbre en cuanto a que valor resulta de cualquier estadística particular, por lo tanto,
un estadístico es una variable aleatoria y estará denotada por una letra mayúscula; una minúscula se emplea para
representar el valor calculado u observado de la estadística para toda la población, entonces se le considera como un
parámetro.
Cuando se llevan a cabo investigaciones y sus resultados son comprobados como ciertos y los mismos se generalizan o
se aplican a la población, se da entonces la inferencia estadística como un procedimiento mediante el cuál se estiman los
parámetros, por ejemplo una media muestral es un estadígrafo que estima la media de la población, que es un parámetro.

APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL POR LA NORMAL


Cuando n es grande y p está próximo a 0,5 el comportamiento de una distribución binomial B(n, p) es aproximadamente
igual a una distribución normal, N ( np , npq ) .
Esto permite sustituir el estudio de una B ( n, p ) por el de una N ( np , npq ) .
Es decir una distribución binomial B(n,p) se parece a una normal tanto más cuanto mayor es el producto np (o n(1-p) si
(1-p)<p) o cuando np y n(1-p) superan 5, la aproximación es casi perfecta, como se puede apreciar en la figura.
Podemos emplear la normal para calcular probabilidades en el caso de una distribución binomial, aunque se debe tener
en cuenta que la binomial es discreta y la normal continua, por lo que es necesario introducir un ajuste en el cálculo
llamado corrección de Yates, siendo este factor ½ llamado también factor de corrección de continuidad. Así:
 1 1
P ( X = x ) = P x − ≤ X ≤ x +  (se alarga el intervalo ½ por la izquierda y ½ por la derecha.)
 2 2
 1 1
P ( a < X ≤ b) = P a + ≤ X ≤ b + 
 2 2
Para valores de n mayores de 1000 se puede suprimir la corrección.

Vamos a representar en un sistema de referencia distribuciones binomiales para distintos valores de n y p=0,3.

2
Bioestadística Rina M. Zamalloa Cornejo

Se puede apreciar en los gráficos anteriores como a medida que aumenta n mejora el parecido de las gráficas de barras
de las distribuciones binomiales (discretas) a la gráfica de la distribución normal estándar (continua), pero con el
inconveniente de que se produce un desplazamiento hacia la derecha de la distribución binomial a medida que aumenta
n.
Este inconveniente se evita, corrigiendo la variable aleatoria X, restando la media (para corregir el desplazamiento) y
dividiendo por la desviación estándar (para ajustar la dispersión):
X − np
Z =
np(1 - p)

De aquí:
 1 1 
 x − − np x + − np 
P ( X =x) = P 2 ≤Z ≤ 2 
 np (1 − p ) np (1 − p ) 
 
 
 1 1 
 a + − np b + − np 
P ( a < X ≤ b) = P 2 ≤ Z ≤ 2 
 np (1 − p ) np (1 − p ) 
 
 

Ejemplo
1.- Se lanza una moneda correcta al aire 400 veces. Calcula la probabilidad de obtener un número de caras comprendido
entre 180 y 210, ambos inclusive.
Solución:
Calculamos la media y la desviación típica de la distribución binomial:
1 1 1
µ = np = 400 . = 200 ; σ = np (1 − p) = 400 . .
= 10 . Por tanto,
2 2 2
 179 ,5 − 200 210 ,5 − 200 
P (180 ≤ X ≤ 210 ) = P ≤Z ≤  = P ( −2,05 ≤ Z ≤ 1,05 )
 10 10 
= P ( −2,05 ≤ Z ≤1,05 ) = A( 2,05 ) + A(1,05 ) = 0,4798 + 0,3531 = 0,83629

2.- Un tirador acierta en el blanco en el 70% de los tiros. Si el tirador participa en una competición y tira 35 veces, ¿cuál
es la probabilidad de que acierte:
a) Por lo menos de 20 tiros?
b) Más de 25 y menos de 29?
Solución:
Es una distribución b(35; 0,7) que podemos aproximar a través de la normal:
µ = n. p = 35 .0,7 = 24 ,5 y σ = np (1 − p ) = 35 .0,7.0,3 = 2,711
 19 ,5 − 24 ,5 
a) P ( X ≥ 20 ) = P Z ≥  = P ( Z ≥ −1,84 ) = 0,5 + A(1,84 )
 2,711 
= 0,5 + 0,4671 = 0,9671

3
Bioestadística Rina M. Zamalloa Cornejo

 25 ,5 − 24 ,5 28 ,5 − 24 ,5 
b) P (25 < X < 29 ) = P ≤Z ≤  = P (0,37 ≤ Z ≤ 1,48 )
 2 , 711 2,711 
= A(1,48 ) − A( 0,37 ) = 0,4306 − 0,1443 = 0,2863

Ejercicios

1.- En una estación marítima de transbordadores se sabe que el 65% de los vehículos que se trasladan son de turismo, y
el resto son motocicletas. Si este verano han pasado 150 vehículos. Calcular la probabilidad de que:
a) El nº de vehículos de turismo que se trasladan esté entre 105 y 130 incluidos.
b) Sea menor que 115

2.- Según un estudio de la SUNAT, de las declaraciones que son sujetas a revisión un 35% acaba teniendo que pagar
algún tipo de recargo. Si este año la SUNAT a mandado a revisar 3000 declaraciones, ¿cuál es la probabilidad de que al
menos 1000 de ellas tengan recargo?

DISTRIBUCION MUESTRAL

La estadística inferencial trata sobre las inferencias con respecto a poblaciones ( sus parámetros como por ejemplo µ y
σ 2 a partir de la información contenida en las muestras ( los estadísticos X y S 2 ). Para poder llevar a cabo esas
inferencias es necesario conocer la relación que se establece entre estadísticos y parámetros. El concepto que permite
poner en relación ambas cosas es “la distribución muestral de un estadístico”

Las muestras aleatorias obtenidas de una población son, por naturaleza propia, impredecibles. No se esperaría que dos
muestras aleatorias del mismo tamaño y tomadas de la misma población tenga la misma media muestral o que sean
completamente parecidas; puede esperarse que cualquier estadístico, como la media muestral, calculado a partir de las
medias en una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se quiere estudiar la distribución de
todos los valores posibles de un estadístico. Tales distribuciones serán muy importantes en el estudio de la estadística
inferencial, porque las inferencias sobre las poblaciones se harán usando estadísticas muestrales. Con el análisis de las
distribuciones asociadas con los estadísticos muestrales, podremos juzgar la confiabilidad de un estadístico muestral
como un instrumento para hacer inferencias sobre un parámetro poblacional desconocido.

Si la población de la que se extraen las muestras es normal, la distribución muestral de medias será normal sin importar
el tamaño de la muestra.

Si la población de donde se extraen las muestras no es normal, entonces el tamaño de la muestra debe ser mayor o igual a
30, para que la distribución muestral tenga una forma acampanada. Mientras mayor sea el tamaño de la muestra, más
cerca estará la distribución muestral de ser normal.

Para muchos propósitos, la aproximación normal se considera buena si se cumple n=30. La forma de la disitribución
muestral de medias es aproximadamente normal, aún en casos donde la población original es bimodal, es realmente
notable.

DISTRIBUCIÓN MUESTRAL DE LA MEDIA

Suponga que se han seleccionado muestras aleatorias de tamaño n en una población grande. Se calcula la media muestral
para cada muestra; la colección de todas estas medias muestrales recibe el nombre de distribución muestral de medias
o distribución de la media muestral, lo que se puede ilustrar en la siguiente figura:
4
Bioestadística Rina M. Zamalloa Cornejo

Si se seleccionan muestras aleatorias de n observaciones de una población con media µ y desviación estándar σ
entonces, cuando n es grande la distribución muestral de medias tendrá aproximadamente una distribución normal con
σ2
una media igual a µ y una varianza de . La aproximación será cada vez más exacta a medida de que n sea cada vez
n
mayor y la distribución muestral de medias tiene un comportamiento aproximadamente normal por lo tanto:
(X − µ) n
Z = siempre que n sea grande y la población se infinita o finita con muestreo con reeplazo.
σ

N  −n 
Cuando las muestras se toman de una población finita y sin reemplazo la varianza queda afectada por factor 
N 
−1 
 
2
σ N − n
llamado factor de corrección para poblaciones finitas es decir σ X2 =   donde σ 2 es la varianza de
n  N − 1
la población de donde se toman las muestras, n es el tamaño de la muestra y N el de la población y
( X − µ)
Z =
2
σ N − n

 N −1 

n  

El diagrama de flujo resume las decisiones que deben tomarse cuando se calcula el valor del error estándar:

5
Bioestadística Rina M. Zamalloa Cornejo

Nota: Si la población de la que se extraen las muestras es normal, la distribución muestral de medias será normal sin
importar el tamaño de la muestra.

DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la
proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de
proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la
distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico
x
ˆ=
proporción p , donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en
n
lugar del estadísitico media.

Una población binomial está estrechamente relacionada con la distribución muestral de proporciones; una población
binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de proporciones contiene las
posibilidades o proporciones de todos los números posibles de éxitos en un experimento binomial, y como consecuencia
de esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la
aproximación normal a la binomial, siempre que np ≥5 y n (1 − p ) ≥5 . Cualquier evento se puede convertir
en una proporción si se divide el número obtenido entre el número de intentos.

6
Bioestadística Rina M. Zamalloa Cornejo

La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada en la
ˆ − p
p
Z =
aproximación de la distribución normal a la binomial p (1 − p) . Esta fórmula nos servirá para calcular la
n
probabilidad del comportamiento de la proporción en la muestra. A esta fórmula se le puede agregar el factor de
N − n 
corrección de 
 N −1 
 si la población es finita y el muestreo es sin reemplazo es decir
 
ˆ − p
p
Z =
p (1 − p)  N − n  .
 
n  N −1 

Además si las muestras no son tan grandes se debe utiliza el factor de corrección de continuidad 1 / 2 n

TEORIA DE PEQUEÑAS MUESTRAS O TEORIA EXACTA DEL MUESTREO

En las unidades anteriores se manejó el uso de la distribución z, la cual se podía utilizar siempre y cuando los tamaños de
las muestras fueran mayores o iguales a 30 ó en muestras más pequeñas si la distribución o las distribuciones de donde
proviene la muestra o las muestras son normales.

En esta unidad se podrán utilizar muestras pequeñas siempre y cuando la distribución de donde proviene la muestra
tenga un comportamiento normal. Esta es una condición para utilizar las tres distribuciones que se manejarán en esta
unidad: X2 Chi-cuadrada t de student y Fisher.

A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que también la podemos utilizar con
muestras aleatorias de tamaño grande.

En esta unidad se verá un nuevo concepto necesario para poder utilizar a las tres distribuciones mencionadas. Este
concepto es "grados de libertad".

Para definir grados de libertad se hará referencia a la varianza muestral:

∑( x i − X )2
1  k 2 
S2 = =  ∑ xi − nX 2 
n −1 n − 1  i =1 

Esta fórmula está basada en n-1 grados de libertad (degrees of freedom). Esta terminología resulta del hecho de que si

bien S2 está basada en n cantidades ..., éstas suman cero, así que especificar los valores de
cualquier n-1 de las cantidades determina el valor restante. Por ejemplo, si n=4 y ; y

, entonces automáticamente tenemos , así que sólo tres de los cuatro valores de están
libremente determinamos, es decir tienen 3 grados de libertad.

Entonces, en esta unidad la fórmula de grados de libertad será n-1 .

DISTRIBUCION CHI – CUADRADO

Se dice que la variable aleatoria continua X tiene distribución Chi-cuadrado con r grados de libertad y se representa por
X χ2 ( r ) , si su función de densidad es:

7
Bioestadística Rina M. Zamalloa Cornejo

 1 2r − 1 − 2x
 r/2 x e s ix ≥ 0
f ( x) =  2 Γ ( r / 2 )
0 s ix< 0

donde r es un número entero positivo.

DISTRIBUCION MUESTRAL DE LA VARIANZA

En realidad la distribución ji-cuadrada es la distribución muestral de S². Es decir que si se extraen todas las muestras
posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de
varianzas.

Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X2. Si se elige una
2
( n − 1) S
muestra de tamaño n de una población normal con varianza , el estadístico: Y = 2 tiene una distribución
σ

muestral chi-cuadrada con n-1 grados de libertad donde n es el tamaño de la muestra, s2 la varianza muestral y
la varianza de la población de donde se extrajo la muestra.

(X − µ) n
DISTRIBUCIÓN MUESTRAL
S

Sea X 1 , X 2 , ..., X n una muestra aleatoria de tamaño n ( pequeña) de una variable aleatoria X : N ( µ , σ 2 ) y
− µ) 2 − µ)
(X n ( n − 1) S (X n
: N ( 0,1) y : χ 2 ( n − 1) gl entonces tiene distribución T-
σ 2 S
σ
Student con n-1 grados de libertad

ESTIMACIÓN

El objetivo principal de la estadística inferencial es la estimación, esto es que, mediante el estudio de una muestra de una
población se quiere generalizar las conclusiones al total de la misma.

Existen dos tipos de estimaciones: puntuales y por intervalo.

a) Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado
se denomina estimador.
b) Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que contenga el
parámetro.

ESTIMACION INTERVALAR
Una estimación puntual no nos indica cuán próximo está el estimador al parámetro que se está estimando, por lo tanto
este procedimiento no es muy significativo si no se considera alguna medida del error que se comete en la estimación,
debido a las fluctuaciones aleatorias en las estimaciones. Es necesario por lo tanto tener cierto nivel de confianza de que
la estimación puntual se encuentra dentro de un intervalo.
Esto es, la precisión de un estimador puede evaluarse en una muestra, construyendo intervalos de tal manera que
podamos establecer el nivel de confianza de que el intervalo [ LI , LS ] incluya dentro de sus límites al parámetro
θ que se está estimando LI ≤θ ≤ LS , a dichos intervalos se les llama Intervalos de confianza.

8
Bioestadística Rina M. Zamalloa Cornejo

INTERVALOS DE CONFIANZA

PARA LA MEDIA:
Varianza poblacional conocida o muestra grande

 σ
L I= X − z0
n


I C( µ ) 1 0γ %0 =  A( z o ) =
γ
Población infinita
 L S= X + z σ
2

 0
n


 σ 2  N − n
 L I= X − z0  
 n  N − 1 


I C( µ ) 1 0 γ 0% =  A( z o ) =
γ
Población finita
2
 σ 2  N − n
 L S= X + z0 n  N − 1 
  

Varianza poblacional desconocida, muestra pequeña

 S
L I= X − t0
n


I C( µ ) 1 0γ %0 =  t 0 = t (α, n −1 gl ) Prueba de dos colas
 L S= X + t S
 0
n


PARA LA PROPORCION:

9
Bioestadística Rina M. Zamalloa Cornejo

 pˆ (1 − pˆ )
 L I= p
ˆ − z 0
n


I C( p ) 1 0 γ0% =  A( z o ) =
γ
2
Población infinita
 L S= pˆ + z pˆ (1 − pˆ )
 0
n


 pˆ ( 1 − pˆ )  N − n 
 L I= pˆ − z0  
 n  N − 1

I C( p ) 1 0 γ0% =  A( z o ) =
γ
2
Población finita
 L S= p + z pˆ (1 − pˆ )  N − n 
 ˆ 0  
n  N − 1


PARA LA VARIANZA:

 ( n − 1) S 2
 L =I
 Y2
I C( σ ²) 1 0γ %0 = 
 L =S ( n − 1) S 2

 Y1
 α  2 α  2 α 
Y1 = χ 2 1 − , n − 1 gl  = χ  + γ , n − 1 gl  Y2 = χ  , n − 1 gl 
 2   2   2 

10

Vous aimerez peut-être aussi