Vous êtes sur la page 1sur 35

INSTITUTO TECNOLÓGICO DE POCHUTLA

INGENIERÍA EN GESTIÓN EMPRESARIAL


MATERIA:
PROBABILIDAD Y ESTADISTICA DESCRIPTIVA
DOCENTE:
ROJAS DE LA CRUZ JESUS
TEMA 4: MUESTREO
ALUMNAS:
AGUILAR MARTINEZ JOSE ANTONIO
HERNÁNDEZ REYES BRISEIDA
JUAREZ ALMARAZ HECTOR
LORENZO ORTIZ MARLIZETH
RUIZ MATIAS HILENIA TERESA
VASQUEZ HERNANDEZ AMAIRANI
3ER SEMESTRE GRUPO “A”
FECHA:
28 DE NOVIEMBRE DEL 2018
INDICE
TEMA 4. MUESTREO 3

4.1 DEFINICIÓN DE MUESTREO 3

4.1.1 Tipos de muestreo aleatorio, sistematizado, estratificado y conglomerado. 3

4.2 CONCEPTO DE DISTRIBUCIÓN DE MUESTREO DE LA MEDIA 5

4.2.1 Distribución muestral de la media con varianza conocida y desconocida


Error! Bookmark not defined.

4.2.2 Distribución muestral de la diferencia entre dos medias con varianza


conocida y desconocida Error! Bookmark not defined.

4.2.3 Distribución muestral de la proporción Error! Bookmark not defined.

4.2.4 Distribución muestral de la diferencia de dos proporciones Error!


Bookmark not defined.

4.3 TEOREMA DE LIMITES CENTRAL 12

4.4 TIPOS DE ESTIMACIONES Y CARACTERISTICAS 15

4.5 DETERMINACION DEL TAMAÑO DE LA MUESTRA DE UNA POBLACION 21

4.6 INTERVALOS DE CONFIANZA PARA LA MEDIA, CON EL USO DE LA


DISTRIBUCION 26
TEMA 4. MUESTREO

4.1 DEFINICIÓN DE MUESTREO


En ocasiones en que no es posible o conveniente realizar un censo (analizar a
todos los elementos de una población), se selecciona una muestra, entendiendo
por tal una parte representativa de la población.
El muestreo es por lo tanto una herramienta de la investigación científica, cuya
función básica es determinar que parte de una población debe examinarse, con la
finalidad de hacer inferencias sobre dicha población.
La muestra debe lograr una representación adecuada de la población, en la que
se reproduzca de la mejor manera los rasgos esenciales de dicha población que
son importantes para la investigación. Para que una muestra sea representativa, y
por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la
población, es decir ejemplificar las características de ésta.

4.1.1 Tipos de muestreo aleatorio, sistematizado, estratificado y conglomerado.


Existen diferentes criterios de clasificación de los diferentes tipos de muestreo,
aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo
probabilísticos y métodos de muestreo no probabilísticos.

I. Muestreo probabilístico: Los métodos de muestreo probabilísticos son


aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en
los que todos los individuos tienen la misma probabilidad de ser elegidos para
formar parte de una muestra y, consiguientemente, todas las posibles muestras de
tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos
de muestreo probabilísticos nos aseguran la representatividad de la muestra
extraída y son, por tanto, los más recomendables. Dentro de los métodos de
muestreo probabilísticos encontramos los siguientes tipos:

1.- Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1)


se asigna un número a cada individuo de la población y 2) a través de algún medio
mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números
aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos
sujetos como sea necesario para completar el tamaño de muestra requerido.

2.- Muestreo aleatorio sistemático: Este procedimiento exige, como el


anterior, numerar todos los elementos de la población, pero en lugar de extraer n
números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es
un número elegido al azar, y los elementos que integran la muestra son los que
ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k
en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de
la muestra: k= N/n. El número i que empleamos como punto de partida será un
número al azar entre 1 y k.
El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en
la población ya que al elegir a los miembros de la muestra con una periodicidad
constante (k) podemos introducir una homogeneidad que no se da en la población.
Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos
en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un
muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo
hombres o sólo mujeres, no podría haber una representación de los dos sexos.

3.- Muestreo aleatorio estratificado: Trata de obviar las dificultades que


presentan los anteriores ya que simplifican los procesos y suelen reducir el error
muestral para un tamaño dado de la muestra. Consiste en considerar categorías
típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a
alguna característica (se puede estratificar, por ejemplo, según la profesión, el
municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este
tipo de muestreo es asegurarse de que todos los estratos de interés estarán
representados adecuadamente en la muestra. Cada estrato funciona
independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio
simple o el estratificado para elegir los elementos concretos que formarán parte de
la muestra. En ocasiones las dificultades que plantean son demasiado grandes,
pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos,
edades,...).
La distribución de la muestra en función de los diferentes estratos se denomina
afijación, y puede ser de diferentes tipos:

Afijación Simple: A cada estrato le corresponde igual número de elementos


muéstrales.

Afijación Proporcional: La distribución se hace de acuerdo con el peso


(tamaño) de la población en cada estrato.

Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados,


de modo que se considera la proporción y la desviación típica. Tiene poca
aplicación ya que no se suele conocer la desviación.

4.- Muestreo aleatorio por conglomerados: Los métodos presentados hasta


ahora están pensados para seleccionar directamente los elementos de la
población, es decir, que las unidades muéstrales son los elementos de la
población.
En el muestreo por conglomerados la unidad muestral es un grupo de elementos
de la población que forman una unidad, a la que llamamos conglomerado. Las
unidades hospitalarias, los departamentos universitarios, una caja de determinado
producto, etc., son conglomerados naturales. En otras ocasiones se pueden
utilizar conglomerados no naturales como, por ejemplo, las urnas electorales.
Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo
por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto
número de conglomerados (el necesario para alcanzar el tamaño muestral
establecido) y en investigar después todos los elementos pertenecientes a los
conglomerados elegidos.

4.2 CONCEPTO DE DISTRIBUCIÓN DE MUESTREO DE LA MEDIA


Si recordamos a la distribución normal, esta es una distribución continua, en forma
de campana en donde la media, la mediana y la moda tienen un mismo valor y es
simétrica. Con esta distribución podíamos calcular la probabilidad de algún evento
relacionado con la variable aleatoria, mediante la siguiente fórmula:
𝑋−μ
𝑍=
𝜎
En donde z es una variable estandarizada con media igual a cero y varianza igual a
uno. Con esta fórmula se pueden a hacer los cálculos de probabilidad para cualquier
ejercicio, utilizando la tabla de la distribución z. Sabemos que cuando se extraen
muestras de tamaño mayor a 30 o bien de cualquier tamaño de una población
normal, la distribución muestral de medias tiene un comportamiento
aproximadamente normal, por lo que se puede utilizar la fórmula de la distribución
normal con m = µx y s = s x, entonces la fórmula para calcular la probabilidad del
comportamiento del estadístico, en este caso la media de la muestra, quedaría de
la siguiente manera:
𝑋̃−𝜇
𝑍=𝜎
⁄ 𝑁

𝑋̃−𝜇
Y para la población finita y muestreo con remplazo: 𝑍 = 𝜎
⁄ 𝑁

Ejemplo: Una empresa eléctrica fabrica focos que tienen una duración que se
distribuye aproximadamente en forma normal, con media de 800 horas y desviación
estándar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de
16 focos tenga una vida promedio de menos de 775 horas. Solución:
775 − 800
𝑍= = −2.5
40⁄
√16

Este valor se busca en la tabla z𝑝(𝑥̃ ≤ 755) =


𝑝(𝑧 ≤ −2.5) = 0.0062
La interpretación sería que la probabilidad de que la media de la muestra de 16
focos sea menor a 775 horas es de 0.0062.
Ejemplo: Las estaturas de 1000 estudiantes están distribuidas aproximadamente
en forma normal con una media de 174.5 centímetros y una desviación estándar
de 6.9
800775
0.0062
14
Centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 sin reemplazo
de esta población, determine: a) El número de las medias muéstrales que caen
entre 172.5 y 175.8 centímetros. b) El número de medias muéstrales que caen por
debajo de 172 centímetros. Solución:
Como se puede observar en este ejercicio se cuenta con una población finita y un
muestreo sin reemplazo, por lo que se tendrá que agregar el factor de corrección.
Se procederá a calcular el denominador de Z para sólo sustituirlo en cada inciso.

4.2.1 Distribución muestral de la media con varianza conocida y desconocida


Existen ocasiones en las cuales no estamos interesados en la media de la muestra,
sino que queremos investigar la proporción de artículos defectuosos o la proporción
de alumnos reprobados en la muestra. La distribución muestral de proporciones es
la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de
igual manera que la distribución muestral de medias, a excepción de que al extraer
las muestras de la población se calcula el estadístico proporción (p=x/n en donde
“x” es el número de éxitos u observaciones de interés y “n” el tamaño de la muestra)
en lugar del estadístico media.
Una población binomial está estrechamente relacionada con la distribución muestral
de proporciones; una población binomial es una colección de éxitos y fracasos,
mientras que una distribución muestral de proporciones contiene las posibilidades
o proporciones de todos los números posibles de éxitos en un experimento binomial,
y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a
la proporción muestral pueden evaluarse usando la aproximación normal a la
binomial, siempre que np≥5 y n(1-p)≥5. Cualquier evento se puede convertir en una
proporción si se divide el número obtenido entre el número de intentos.
Generación de la Distribución Muestral de Proporciones
Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos
defectuosos. Se van a seleccionar 5 artículos al azar de ese lote sin reemplazo.
Genere la distribución muestral de proporciones para el número de piezas
defectuosas. Como se puede observar en este ejercicio la Proporción de artículos
defectuosos de esta población es 4/12=1/3. Por lo que podemos decir que el 33%
de las piezas de este lote están defectuosas.
El número posible de muestras de tamaño 5 a extraer de una población de 12
elementos es 12C5=792, las cuales se pueden desglosar de la siguiente manera:
Ejemplo: Se ha determinado que 60% de los estudiantes de una universidad
grande fuman cigarrillos. Se toma una muestra aleatoria de 800 estudiantes.
Calcule la probabilidad de que la proporción de la muestra de la gente que fuma
cigarrillos sea menor que 0.55.
Solución: Este ejercicio se puede solucionar por dos métodos. El primero puede
ser con la aproximación de la distribución normal a la binomial y el segundo
utilizando la fórmula de la distribución muestral de proporciones.
4.2.2 Distribución muestral de la diferencia entre dos medias con varianza conocida
y desconocida
Suponga que se tienen dos poblaciones distintas, la primera con media µ1 y
desviación estándar σ1, y la segunda con media µ2 y desviación estándar σ2. Más
aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una
muestra independiente aleatoria de tamaño n 2 de la segunda población; se calcula
la media muestral para cada muestra y la diferencia entre dichas medias. La
colección de todas esas diferencias se llama distribución muestral de las diferencias
entre medias o la distribución muestral del estadístico 𝑥̃1− 𝑥̃2
La distribución es aproximadamente normal para n 1≥30 y n 2≥30. Si las
poblaciones son normales, entonces la distribución muestral de medias es normal
sin importar los tamaños de las muestras.
Ejemplo: En un estudio para comparar los pesos promedio de niños y niñas de sexto
grado en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de
25 niñas. Se sabe que tanto para niños como para niñas los pesos siguen una
distribución normal. El promedio de los pesos de todos los niños de sexto grado de
esa escuela es de 100 libras y su desviación estándar es de 14.142, mientras que
el promedio de los pesos de todas las niñas del sexto grado de esa escuela es de
85 libras y su desviación estándar es de 12.247 libras. Si 1 x representa el promedio
de los pesos de 20 niños y 2 x es el promedio de los pesos de una muestra de 25
niñas, encuentre la probabilidad de que el promedio de los pesos de los 20 niños
sea al menos 20 libras más grande que el de las 25 niñas.

Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños


sea al menos 20 libras más grande que el de la muestra de las niñas es 0.1056.
Ejemplo: Uno de los principales fabricantes de televisores compra los tubos de rayos
catódicos a dos compañías. Los tubos de la compañía A tienen una vida media de
7.2 años con una desviación estándar de 0.8 años, mientras que los de la B tienen
una vida media de 6.7 años con una desviación estándar de 0.7. Determine la
probabilidad de que una muestra aleatoria de 34 tubos de la compañía A tenga una
vida promedio de al menos un año más que la de una muestra aleatoria de 40 tubos
de la compañía B.

4.2.3 Distribución muestral de la proporción


Si una población es infinita y distribuida binomial mente, si p y q son las
probabilidades respectivas y considerando muestras de tamaño n extraída de esta
población, la distribución muestra de proporciones está dada por:
𝑝̃
−𝑝
𝑧=
√𝑝(1 − 𝑝)
𝑛

4.2.4 Distribución muestral de la diferencia de dos proporciones

𝑝̃
−𝑝
𝑧=
√𝑝(1 − 𝑝)
𝑛
̌ 1 − 𝑃̃2) − (𝑃1 − 𝑃2)
(𝑃
𝑍=
𝑃1(1 − 𝑃1) 𝑃2(1 − 𝑃2)
𝑛1 + 𝑛2
DISTRIBUCIÓN MUESTRAL DE σ
Si S2 es la varianza de una muestra aleatoria de tamaño n tomada de una población
normal que tiene varianza σ 2, entonces los valores de la variable aleatoria X2 se
calculan con:
(𝑁 − 1)𝑆 2
𝑋2 =
σ2
σ1
DISTRIBUCIÓN MUESTRAL DE
σ2

Si S1 y S2 son las varianzas de variables aleatorias independientes de tamaños n1


y n2, que se sacan de poblaciones normales con varianzas σ1 y σ2,
respectivamente, entonces,
𝑆12
σ12 σ22 𝑆12
𝐹= 2 = 2 2
𝑆2 σ1 𝑆2
σ22

Tiene una distribución F con v1 = n1 – 1 y v2 = n2 – 1 grados de libertad donde si


se escribe fα (v1, v2) para fα con v1 y v2 grados de libertad, se tiene que:

1
𝐹1−𝑎 = (𝑉1 , 𝑉2 ) =
𝐹𝑎(𝑉2 , 𝑉1 )

4.3 TEOREMA DE LIMITES CENTRAL


El teorema central del límite es uno de los resultados fundamentales de la
estadística. Este teorema nos dice que si una muestra es lo bastante grande
(generalmente cuando el tamaño muestral (n) supera los 30), sea cual sea la
distribución de la media muestral, seguirá aproximadamente una distribución
normal. Es decir, dada cualquier variable aleatoria, si extraemos muestras de
tamaño n (n>30) y calculamos los promedios muéstrales, dichos promedios
seguirán una distribución normal. Además, la media será la misma que la de la
variable de interés, y la desviación estándar de la media muestral será
aproximadamente el error estándar.

Un caso concreto del teorema central del límite es la distribución binomial. A partir
de n=30, la distribución binomial se comporta estadísticamente como una normal,
por lo que podemos aplicar los test estadísticos apropiados para esta distribución.

La importancia del teorema central del límite radica en que mediante un conjunto
de teoremas, se desvela las razones por las cuales, en muchos campos de
aplicación, se encuentran en todo momento distribuciones normales o casi
normales.
Este teorema afirma que la distribución de medias muéstrales tiende hacia una
distribución normal, aunque las muestras procedan de una distribución no normal
determinar un modelo de probabilidad para describir el comportamiento de una
variable continua. Es un Teorema de gran importancia en Estadística,
especialmente para la parte de Inferencia Estadística. Establece que si
X1,………….,Xn son variables aleatorias independientes con media µi y varianza σi
2 , al margen del tipo de distribución que sigan los sumandos, la suma de todas
ellas, Y = X1+………+Xn tiende a distribuirse aproximadamente normal, con media
µ = (µ1+………..+ µn) y varianza σ2 =( +……….+ )/n, siendo las aproximaciones
mejores a medida que aumenta n.

 Si u n a po bl aci ón ti e n e m edi a μ y d e s vi aci ón tí pi ca σ , y


tom am o s mu e st ra s de ta mañ o n (n > 3 0, ó cu al qu i e r ta ma ñ o
si l a p obl a ci ón e s "n o rm al "), l as m edi a s de e sta s mu e st ra s
si gu en a p ro xi mad a men t e l a di st ri bu ci ó n :

Consecuencias

1. Permite averiguar la probabilidad de que la media de una


muestra concreta esté en un cierto intervalo.

2. Permite calcular la probabilidad de que la suma de los


elementos de una muestra esté, a priori, en un cierto intervalo.
3. Inferir la media de la p oblación a partir de una muestra.

EJEMPLOS DEL TEOREMA DE LIMITE CENTRAL

Las bolsas de sal envasadas por una máquina tienen μ = 500 g y σ = 35 g. Las
bolsas se empaquetaron en cajas de 100 unidades.

1. Calcular la probabilidad de que la media de los pesos de las bolsas de un paquete


sea menor que 495 g.

2. Calcular la probabilidad de que una caja 100 de bolsas pese


más de 51 kg.
4.4 TIPOS DE ESTIMACIONES Y CARACTERISTICAS

Estimacion: conjunto de técnicas que permiten dar un valor aproximado de un


parámetro de una población a partir de datos proporcionados por una muestra.
Estimador: es un estadístico de la muestra utilizado para estimar un parámetro
poblacional.
𝑥− = 𝜇
Estimar qué va a ocurrir respecto a algo (o qué está ocurriendo, o qué ocurrió), a
pesar de ser un elemento muy claramente estadístico, está muy enraizado en
nuestra cotidianidad. Dentro de ello, además hacemos estimaciones dentro de un
intervalo de posibilidades.

La estimación puntual

Estimar puede tener dos significados interesantes. Significa querer e inferir. Desde
luego, el primer significado es más trascendente. Pero no tiene ningún peso en la
estadística, disciplina que no se ocupa de los asuntos del amor. El segundo
significado es el importante aquí. Una estimación estadística es un proceso
mediante el que establecemos qué valor debe tener un parámetro según
deducciones que realizamos a partir de estadísticos. En otras palabras, estimar es
establecer conclusiones sobre características poblacionales a partir de resultados
muéstrales.
Una estimación puntual consiste en establecer un valor concreto (es decir, un punto)
para el parámetro. El valor que escogemos para decir “el parámetro que nos
preocupa vale X” es el que suministra un estadístico concreto. Como ese estadístico
sirve para hacer esa estimación, en lugar de estadístico suele llamársele estimador.
Así, por ejemplo, utilizamos el estadístico “media aritmética de la muestra” como
estimador del parámetro “media aritmética de la población”. Esto significa: si quieres
conocer cuál es el valor de la media en la población, estimaremos que es
exactamente el mismo que en la muestra que hemos manejado.

. Las propiedades deseables que ha de tener un estimador para considerarse adecuado son las
siguientes:

-Ausencia de sesgo-
Se dice que un estimador es insesgado (o centrado) si la esperanza del estimador coincide con el
ˆ
parámetro a estimar. E(! ) =!. En caso contrario se dice que es sesgado y a la cantidad b(!) = [!"
E(!ˆ)] se la denomina sesgo.

La propiedad es importante ya que los posibles valores del estimador fluctúan alrededor del
verdadero parámetro. Por ejemplo, si utilizamos la media muestral como estimador de la media
poblacional en una distribución normal, se trata de un estimador insesgado ya que la esperanza de
su distribución muestral es la media poblacional µ. El hecho de que además, tenga distribución
normal, es importante en la práctica, ya que aunque la media muestral y la poblacional no
coinciden exactamente, los valores de aquella fluctúan de forma simétrica alrededor de esta, son
valores próximos con probabilidad alta y la dispersión disminuye cuando aumenta el tamaño
muestral.

-Consistencia-

ˆ
Se dice que un estimador ! es consistente si se aproxima cada vez más al verdadero valor del
parámetro a medida que se aumenta el tamaño muestral. Más formalmente, un estimador es
r$ #
consistente si P %!ˆ "! > ’&( 0 cuando n ! " , para ! > 0 . o dicho de

Otra forma la distribución del estimador se concentra más alrededor del verdadero parámetro
cuando el tamaño muestral aumenta.

La media muestral es un estimador consistente de la media poblacional en una


!2
Distribución normal, ya que, la varianza de la misma tiende a cero para n! “, de n
Forma que la distribución se concentra alrededor del verdadero valor µ cuando n crece.

-Eficiencia-
Es claro que un estimador será tanto mejor cuanto menor sea su varianza, ya que se concentra
más alrededor del verdadero valor del parámetro. Se dice que un estimador insesgado es eficiente
si tiene varianza mínima.

Una cota inferior para la varianza viene dada por la denominada cota de Cramer-Rao.

Sea X1, X2,... , Xn. una muestra aleatoria simple de una distribución con densidad f(x; θ). Sujeto a
ciertas condiciones de regularidad en la función de densidad, cualquier estimador insesgado
verifica que
1
Var(!ˆ) " nE,*, &$%#ln #f! (X;!))(’ 2/ -/ .

ln "f!(X;!)&’(2,.. se la denomina cantidad de información de


A la cantidad In(!) = nE)++ #%$"
*

Fisher asociada a una muestra aleatoria simple de tamaño n.

Cuando hacemos una estimación puntual del valor de un determinado parámetro poblacional nos
encontramos con un doble problema: por un lado el valor obtenido solamente da una idea
aproximada del verdadero valor del parámetro a estimar, por otro, no sabemos el grado de
bondad de la aproximación, es decir, ignoramos en qué medida el valor obtenido se aproxima al
verdadero valor del parámetro estimado.

Los valores a y b, extremos de un intervalo de la recta real, no son sino los valores
tomados por dos funciones L1 , L2 que dependen de la muestra x1, ... , xn elegida al azar, es

decir, L1(x1,,xn) y L2(x1,,xn) toman uno u otro valor dependiendo de cuáles sean los
valores que las variables tomen sobre los n elementos de una muestra aleatoria cualquiera de
la población en estudio.

Así pues, el problema consiste en determinar cuáles son las funciones L1(x1,,xn) y

L2(x1,,xn), que nos permitan afirmar que el parámetro µ verifica, con una cierta "seguridad"

que a ≤ µ ≤ b , siendo a y b los valores tomados por las funciones L1(x1,,xn) y L2(x1,,xn)
sobre la muestra x1, ... , xn.

En este sentido podemos afirmar que

Intervalo de confianza de un parámetro poblacional es un par ordenado de

funciones reales L1(x1,,xn) , L2(x1,,xn) que dependen de las n medidas de


una muestra aleatoria de la población en cuestión.

Cada muestra concreta dará lugar, a partir de L1 y L2, a un intervalo de confianza, por lo
que podemos entender que un estimador por intervalos es una variable aleatoria
bidimensional y, en consecuencia, tendrá sentido hablar de P( a ≤ µ ≤ b ) (probabilidad de que
el estimador "cubra" el verdadero valor del parámetro µ), probabilidad que recibe el nombre
de nivel de confianza y que denotaremos por 1-α.

Teniendo en cuenta lo anterior también podemos definir un intervalo de confianza


de un parámetro poblacional µ , al nivel de confianza 1-α, como un intervalo para
el que se verifica que la probabilidad de que sus extremos tomen valores a, b tales
que el parámetro poblacional µ esté comprendido entre ellos es 1-α, es decir:

P( a ≤ µ ≤ b ) = 1-α

α se llama nivel de error del intervalo o nivel crítico.

Nótese que lo que afirmamos es que si se repitiera muchas veces el experimento con
muestras extraídas al azar, se verificaría que en el 100(1-α)% de las ocasiones obtendríamos
extremos a y b de los intervalos de confianza correspondientes que contendrían al verdadero
valor del parámetro µ, mientras que el 100α% restante, no lo contendrían, tal y como indica la
figura 4.1 siguiente

F i g ura 4.6: F i gura que mues tra el conc epto de ni v el de conf i anza
En consecuencia, y dado que para una muestra en particular obtendríamos valores
concretos a y b para los que se verifica o no que a ≤ µ ≤ b es una clara incorrección afirmar que
"el parámetro µ pertenece al intervalo de confianza de extremos a, b con probabilidad 1-α ",
toda vez que la probabilidad de que tal cosa suceda es 1 si se verifica que a ≤ µ ≤ b, ó 0 en caso
contrario. ¡Nótese que el valor µ es fijo, mientras que a y b, por el contrario, son variables
aleatorias!.

Es claro que, para una muestra concreta, es imposible saber si el intervalo de confianza
correspondiente contiene, o, no al parámetro µ.

Veamos ahora cómo obtener intervalos de confianza para los parámetros más
importantes.

EJEMPLOS

1. Si X ~ N (40,10), calcular Pr (39≤ X ≤41) para n=10. ¿En qué intervalo se obtendrán el
95% de los resultados?

SOLUCIÓN:

39 − 40 X − 40 41 − 40
Pr (39≤ X ≤ 41) = Pr ( ≤ ≤ ) = Pr(-0.31623≤ X ≤ 0.31623)
10 10 10

X − 40
Z= → N (0,1); Pr (39 ≤ X ≤ 41) = Pr (Z ≤0.31623) - Pr (Z ≤-0.31623) =
10

= 2 Pr (Z ≤0.31623)

Y por tanto, Pr (39≤Z≤41) = 2∗0.6241−1 = .02482

Pr (µ-ε≤ X ≤ µ+ε)=0.95
ε ) 1
≤ −
10
Pr (µ-ε≤ X ≤ µ+ε)=2∗Pr(Z

ε )= 1 + 0.95

10 2
Pr (Z =0.975 → Z 0.975 →ε=1.96 10 = 6.1981

Por tanto, el intervalo es: (33.802,46.198)

2. Si el contenido en gr. de un determinado medicamento X sigue una distribución N(7.5,0.3),


calcular la probabilidad de que para una muestra de tamaño n=5, se obtenga
Medio menor que 7, Pr ( X ≤ 7).

SOLUCIÓN:

A partir de una muestra de tamaño n=5 de una población normal N(µ=7.5,σ=0.3), tenemos que:

X 0−.37.5 ≤ 7 −0.73.5
Pr(X ≤ 7) = Pr = Pr(Z ≤ −3.7269)

5 5

Donde Z tiene una distribución normal estándar, y por tanto, Pr ( X ≤7) = 0.0001
4.5 DETERMINACION DEL TAMAÑO DE LA MUESTRA DE UNA
POBLACION

Tamaño de la muestra:

En estadística el tamaño de la muestra es el número de sujetos que componen


la muestra extraída de una población, necesarios para que los datos obtenidos sean
representativos de la población.

Población: Está formada por la totalidad de las observaciones en las cuales se tiene
cierta observación.

Muestra: Es un subconjunto de observaciones seleccionadas de una población.

Aplicación: Al determinar el tamaño de una muestra representa una parte esencial


del método científico para poder llevar a cabo una investigación.
Al muestreo es el conjunto de observaciones necesarias para estudiar la distribución
de determinadas características en la totalidad de una población, a partir de la
observación de una parte o subconjunto de una población.
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar
en cuenta varios aspectos.

 El tipo de muestreo
 El parámetro y estimador
 El sesgo
 El error muestral admisible
 La varianza poblacional
 Nivel de confianza

Parámetro y estimador: Parámetro es la característica de la población que es objeto


de estudio y el estimador es la función de la muestra que se usa para medirlo.
El error muestral: Siempre se comete debido a la pérdida de la representatividad al
momento de escoger los elementos de la muestra.
la naturaleza de la investigación nos indicará hasta qué grado se puede aceptar.

Nivel de confianza: Probabilidad de que la estimación efectuada se ajuste a la


realidad.
Se encuentre dentro de un intervalo determinado basado en el estimador y que
capte el valor verdadero del parámetro a medir.

Para calcular el tamaño de la muestra hay que tomar en cuenta tres factores:

 El porcentaje de confianza con el cual se quiere generalizar los datos desde


la muestra hacia la población total
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe
para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del
100% equivale a decir que no existe ninguna duda para generalizar tales resultados,
pero también implica estudiar a la totalidad de los casos de la población. para evitar
un costo muy alto para el estudio o debido a que en ocasiones llega a ser
prácticamente imposible el estudio de todos los casos, entonces se busca un
porcentaje de confianza menor, comúnmente en las investigaciones sociales se
busca un 95%.

 El porcentaje de error que se pretende aceptar al momento de hacer la


generalización.
El error o porcentaje de error equivale a elegir una probabilidad de aceptar una
hipótesis que sea falsa como si fuera verdadero la inversa: rechazar a hipótesis
verdadera por considerarla falsa.

 El nivel de variabilidad que se calcula para comprobar la hipótesis.

Formulas:

𝑁𝜎 2 𝑍 2
𝑛= 2
(𝑁 − 1)𝑒 2+𝜎 𝑍 2
Donde:
n=el tamaño de la muestra
N=tamaño de la población
σ=desviación estándar de la población
Z=valor obtenido mediante niveles de confianza
e=limite aceptable de error muestral

Primera fórmula: esta fórmula aplica en el caso de que no se conozca con precisión
el tamaño de la población:

𝑍 2 𝑝𝑞
𝑛=
𝑒2
Donde:
n=es el tamaño de la muestra
Z=es el nivel de confianza
P=es la variabilidad positiva
q=es la variedad negativa
e=es la precisión o error

Segunda fórmula: esta fórmula aplica en el caso de que si se conozca el tamaño de


la población:

𝑍 2 . 𝑝. 𝑞. 𝑁
𝑛=
𝑁𝐸 2 + 𝑍 2 𝑝. 𝑞.
Z=nivel de confianza
N=población-censo
P=probabilidad a favor
q=probabilidad en contra
e=error de estimación
n=tamaño de la muestra

EJEMPLOS 1:
Calcular el tamaño de la muestra de una población de 500 elementos con un nivel
de confianza del 95%
Solución:
Realizando el gráfico que representa el 95% de confianza se obtiene:

Se tiene N=500, para el 95% de confianza Z = 1,96, y como no se tiene los


demás valores se tomará y e = 0,05.
Reemplazando valores de la fórmula se tiene:

Los cálculos en Excel se muestran en la siguiente figura:


EJERCICIO 2:

Calcular el tamaño de la muestra de una población de 500 elementos con un nivel


de confianza del 99%
Solución:
Realizando el gráfico que representa el 99% de confianza se obtiene:

Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los demás
valores se tomará y e = 0,05.
Reemplazando valores en la fórmula se obtiene:

Los cálculos en Excel se muestran en la siguiente figura:

4.6 INTERVALOS DE CONFIANZA PARA LA MEDIA, CON EL USO DE LA


DISTRIBUCION
Un intervalo de confianza es una técnica de estimación utilizada en estadística inferencial

que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la

estimación puntual buscada (con una determinada probabilidad).

Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media

muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual,

con una determinada probabilidad, se va a localizar el parámetro poblacional.

Factores de los que depende un intervalo de confianza

El cálculo de un intervalo de confianza depende principalmente de los siguientes factores:


 Tamaño de la muestra seleccionada: Dependiendo de la cantidad de datos que se

hayan utilizado para calcular el valor muestral, este se acercará más o menos al

verdadero parámetro poblacional.

 Nivel de confianza: Nos va a informar en qué porcentaje de casos nuestra

estimación acierta. Los niveles habituales son el 95% y el 99%.

 Margen de error de nuestra estimación: Este se denomina como alfa y nos

informa de la probabilidad que existe de que el valor poblacional esté fuera de

nuestro intervalo.

 Lo estimado en la muestra (media, varianza, diferencia de medias…): De esto

va a depender el estadístico pivote para el cálculo del intervalo.

Al calcular un intervalo de confianza para la media pueden presentarse los siguientes

escenarios:

1) Intervalo de confianza para la media de una población con distribución normal y con

varianza conocida. Este escenario, aunque posible, tiene poca utilidad práctica, pues lo más

frecuente es que no se conozca el valor de los parámetros; sin embargo tiene utilidad desde

el punto de vista teórico.

2) Intervalo de confianza para la media de una población con distribución normal y con

varianza desconocida. Este es el escenario más frecuente en aplicaciones de la vida real.


Ejemplo de intervalo de confianza para la media, asumiendo normalidad y conocida la
desviación típica
El estadístico pivote utilizado para el cálculo sería el siguiente:

El intervalo resultante sería el siguiente:

Vemos como en el intervalo a la izquierda y derecha de la desigualdad tenemos la cota

inferior y superior respectivamente. Por tanto la expresión nos dice, que la probabilidad de

que la media poblacional se sitúe entre esos valores es de 1-alfa (nivel de confianza).

Veamos mejor lo anterior con un ejemplo numérico.

Se desea estimar la media del tiempo que un corredor emplea para completar una maratón.

Para ello se han cronometrado 10 maratones y se ha obtenido una media de 4 horas con

una desviación típica de 55 minutos. Se desea obtener un intervalo al 95% de confianza.


Para obtener el intervalo, no tendríamos más que sustituir los datos en la fórmula del

intervalo.

El intervalo de confianza, sería la parte de la distribución que queda sombreada en azul.

Los 2 valores acotados por este serían los correspondientes a las 2 líneas de color rojo. La

linea central que parte la distribución en 2 sería el verdadero valor poblacional.

Es importante resaltar que en este caso, dado que la función de densidad de la distribución

N(0,1) nos da la probabilidad acumulada (desde la izquierda hasta el valor crítico), tenemos

que encontrar el valor que nos deja a la izquierda 0,975% (este es 1,96).
Ejemplos:

Intervalo de confianza para la media μ de una población normal con desviación

típica conocida σ

Si partimos de una población que sigue una distribución Z ~ N(0,1) bastará con encontrar

el punto crítico zα/2 para tener un intervalo que contenga la media poblacional con

probabilidad c.

p(-zα/2 < Z < zα/2) = c

Si en el caso general tomamos:

bastará con hacer unas sencillas operaciones para llegar a que el intervalo de confianza

para la media μ de una población normal con desviación típica conocida σ es:

Intervalo de confianza para la media μ de una población con desviación típica

conocida σ
En el caso de poblaciones que no son normales, o que simplemente no sabemos si lo son

o no, necesitamos que el tamaño de la muestra sea suficientemente grande (n > 30) para

poder aplicar el Teorema central del límite para obtener que el intervalo de confianza para

la media μ de una población con desviación típica conocida σ es:

Intervalo de confianza para la media μ de una población con desviación típica

desconocida

Cuando se desconoce la desviación típica poblacional se usa como estimador la

desviación típica de la muestra con lo que el intervalo de confianza para la media μ de

una población con desviación típica desconocida es:

Intervalo de confianza de la media de una población


De una población de media y desviación típica se pueden

tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media.

Se puede demostrar que la media de todas las medias muestrales coincide con la media

poblacional:[3] 𝜇ᾱ = 𝜇

Pero además, si el tamaño de las muestras es lo suficientemente grande,[4] o la distribución

poblacional es normal, la distribución de medias muestrales es, prácticamente,

una distribución normal (o gaussiana) con media μ y una desviación típica dada por la
𝜎 𝜎
siguiente expresión: 𝜎ᾱ = . Esto se representa como sigue: 𝑋~𝑁(𝜇, .
√𝑛 √𝑛

𝑋−𝜇
Si estandarizamos, se sigue que: 𝜎 = 𝑍~𝑁(0,1)
√𝑛

En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual

caigan un determinado porcentaje de las observaciones, esto es, es sencillo

hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado.

En esta distribución normal de medias se puede calcular el intervalo de confianza donde se

encontrará la media poblacional si solo se conoce una media muestral (ᾱ), con una

confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por

ciento. A este valor se le llamará 1-ᾱ (debido a que ᾱ es el error que se cometerá, un

término opuesto).

Para ello se necesita calcular el punto 𝑋𝛼/2 —o, mejor dicho, su versión

estandarizada 𝑍𝛼/2 o valor crítico— junto con su "opuesto en la distribución" 𝑋−𝛼/2 . Estos

puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:


Dicho punto es el número tal que:

ℙ[ẋ ≥ 𝑿𝜶/𝟐 ] = ℙ [𝒁 ≥ 𝒁𝜶 ] = 𝜶/𝟐


𝟐

Y en la versión estandarizada se cumple que:

𝑍−𝛼/2 = −𝑍𝛼/2
Así:
𝜎 𝜎
ℙ [ẋ − 𝑍𝛼 ≤ 𝜇 ≤ ẋ + 𝑧𝛼 ]= 1−𝛼
2 √𝑛 2 √𝑛

De lo cual se obtendrá el intervalo de confianza:


𝜎 𝜎
(ẋ−𝑧𝛼 , ẋ + 𝑧𝛼/2 )
2 √𝑛 √𝑛
Obsérvese que el intervalo de confianza viene dado por la media muestral (ẋ) ± el
𝜎
producto del valor crítico 𝑧𝛼/2 por el error estándar ( 𝑛)

Si no se conoce y n es grande (habitualmente se toma n ≥ 30):[5]
Aproximaciones para el valor 𝑧𝛼/2 para los niveles de confianza estándar son 1,96
para 1−𝛼 = 95% y 2,576 para 1−𝛼 = 99%.[6]
Bibliografía

http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf

Neus Canal Díaz. (3/12/06). Distribuciones de probabilidad. El teorema

central del límite. 25/11/2018, de Universidad Tecnológica de Pereira

Sitio web: http://www.revistaseden.org/files/8-CAP%208.pdf

http://www.dm.uba.ar/materias/probabilidades-

estadisticaC/2004/2/PyEC14.pdf

Cochran, Willian G. Técnicas de Muestreo. Editorial Continental S.A. México,

1972.

https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0717-

95022017000100037

http://cigeg.uneg.edu.ve/documentos/curso/teoria%20elemental%20de%20muestreo.pdf

Vous aimerez peut-être aussi