Académique Documents
Professionnel Documents
Culture Documents
𝑝̃
−𝑝
𝑧=
√𝑝(1 − 𝑝)
𝑛
̌ 1 − 𝑃̃2) − (𝑃1 − 𝑃2)
(𝑃
𝑍=
𝑃1(1 − 𝑃1) 𝑃2(1 − 𝑃2)
𝑛1 + 𝑛2
DISTRIBUCIÓN MUESTRAL DE σ
Si S2 es la varianza de una muestra aleatoria de tamaño n tomada de una población
normal que tiene varianza σ 2, entonces los valores de la variable aleatoria X2 se
calculan con:
(𝑁 − 1)𝑆 2
𝑋2 =
σ2
σ1
DISTRIBUCIÓN MUESTRAL DE
σ2
1
𝐹1−𝑎 = (𝑉1 , 𝑉2 ) =
𝐹𝑎(𝑉2 , 𝑉1 )
Un caso concreto del teorema central del límite es la distribución binomial. A partir
de n=30, la distribución binomial se comporta estadísticamente como una normal,
por lo que podemos aplicar los test estadísticos apropiados para esta distribución.
La importancia del teorema central del límite radica en que mediante un conjunto
de teoremas, se desvela las razones por las cuales, en muchos campos de
aplicación, se encuentran en todo momento distribuciones normales o casi
normales.
Este teorema afirma que la distribución de medias muéstrales tiende hacia una
distribución normal, aunque las muestras procedan de una distribución no normal
determinar un modelo de probabilidad para describir el comportamiento de una
variable continua. Es un Teorema de gran importancia en Estadística,
especialmente para la parte de Inferencia Estadística. Establece que si
X1,………….,Xn son variables aleatorias independientes con media µi y varianza σi
2 , al margen del tipo de distribución que sigan los sumandos, la suma de todas
ellas, Y = X1+………+Xn tiende a distribuirse aproximadamente normal, con media
µ = (µ1+………..+ µn) y varianza σ2 =( +……….+ )/n, siendo las aproximaciones
mejores a medida que aumenta n.
Consecuencias
Las bolsas de sal envasadas por una máquina tienen μ = 500 g y σ = 35 g. Las
bolsas se empaquetaron en cajas de 100 unidades.
La estimación puntual
Estimar puede tener dos significados interesantes. Significa querer e inferir. Desde
luego, el primer significado es más trascendente. Pero no tiene ningún peso en la
estadística, disciplina que no se ocupa de los asuntos del amor. El segundo
significado es el importante aquí. Una estimación estadística es un proceso
mediante el que establecemos qué valor debe tener un parámetro según
deducciones que realizamos a partir de estadísticos. En otras palabras, estimar es
establecer conclusiones sobre características poblacionales a partir de resultados
muéstrales.
Una estimación puntual consiste en establecer un valor concreto (es decir, un punto)
para el parámetro. El valor que escogemos para decir “el parámetro que nos
preocupa vale X” es el que suministra un estadístico concreto. Como ese estadístico
sirve para hacer esa estimación, en lugar de estadístico suele llamársele estimador.
Así, por ejemplo, utilizamos el estadístico “media aritmética de la muestra” como
estimador del parámetro “media aritmética de la población”. Esto significa: si quieres
conocer cuál es el valor de la media en la población, estimaremos que es
exactamente el mismo que en la muestra que hemos manejado.
. Las propiedades deseables que ha de tener un estimador para considerarse adecuado son las
siguientes:
-Ausencia de sesgo-
Se dice que un estimador es insesgado (o centrado) si la esperanza del estimador coincide con el
ˆ
parámetro a estimar. E(! ) =!. En caso contrario se dice que es sesgado y a la cantidad b(!) = [!"
E(!ˆ)] se la denomina sesgo.
La propiedad es importante ya que los posibles valores del estimador fluctúan alrededor del
verdadero parámetro. Por ejemplo, si utilizamos la media muestral como estimador de la media
poblacional en una distribución normal, se trata de un estimador insesgado ya que la esperanza de
su distribución muestral es la media poblacional µ. El hecho de que además, tenga distribución
normal, es importante en la práctica, ya que aunque la media muestral y la poblacional no
coinciden exactamente, los valores de aquella fluctúan de forma simétrica alrededor de esta, son
valores próximos con probabilidad alta y la dispersión disminuye cuando aumenta el tamaño
muestral.
-Consistencia-
ˆ
Se dice que un estimador ! es consistente si se aproxima cada vez más al verdadero valor del
parámetro a medida que se aumenta el tamaño muestral. Más formalmente, un estimador es
r$ #
consistente si P %!ˆ "! > ’&( 0 cuando n ! " , para ! > 0 . o dicho de
Otra forma la distribución del estimador se concentra más alrededor del verdadero parámetro
cuando el tamaño muestral aumenta.
-Eficiencia-
Es claro que un estimador será tanto mejor cuanto menor sea su varianza, ya que se concentra
más alrededor del verdadero valor del parámetro. Se dice que un estimador insesgado es eficiente
si tiene varianza mínima.
Una cota inferior para la varianza viene dada por la denominada cota de Cramer-Rao.
Sea X1, X2,... , Xn. una muestra aleatoria simple de una distribución con densidad f(x; θ). Sujeto a
ciertas condiciones de regularidad en la función de densidad, cualquier estimador insesgado
verifica que
1
Var(!ˆ) " nE,*, &$%#ln #f! (X;!))(’ 2/ -/ .
Cuando hacemos una estimación puntual del valor de un determinado parámetro poblacional nos
encontramos con un doble problema: por un lado el valor obtenido solamente da una idea
aproximada del verdadero valor del parámetro a estimar, por otro, no sabemos el grado de
bondad de la aproximación, es decir, ignoramos en qué medida el valor obtenido se aproxima al
verdadero valor del parámetro estimado.
Los valores a y b, extremos de un intervalo de la recta real, no son sino los valores
tomados por dos funciones L1 , L2 que dependen de la muestra x1, ... , xn elegida al azar, es
decir, L1(x1,,xn) y L2(x1,,xn) toman uno u otro valor dependiendo de cuáles sean los
valores que las variables tomen sobre los n elementos de una muestra aleatoria cualquiera de
la población en estudio.
Así pues, el problema consiste en determinar cuáles son las funciones L1(x1,,xn) y
L2(x1,,xn), que nos permitan afirmar que el parámetro µ verifica, con una cierta "seguridad"
que a ≤ µ ≤ b , siendo a y b los valores tomados por las funciones L1(x1,,xn) y L2(x1,,xn)
sobre la muestra x1, ... , xn.
Cada muestra concreta dará lugar, a partir de L1 y L2, a un intervalo de confianza, por lo
que podemos entender que un estimador por intervalos es una variable aleatoria
bidimensional y, en consecuencia, tendrá sentido hablar de P( a ≤ µ ≤ b ) (probabilidad de que
el estimador "cubra" el verdadero valor del parámetro µ), probabilidad que recibe el nombre
de nivel de confianza y que denotaremos por 1-α.
P( a ≤ µ ≤ b ) = 1-α
Nótese que lo que afirmamos es que si se repitiera muchas veces el experimento con
muestras extraídas al azar, se verificaría que en el 100(1-α)% de las ocasiones obtendríamos
extremos a y b de los intervalos de confianza correspondientes que contendrían al verdadero
valor del parámetro µ, mientras que el 100α% restante, no lo contendrían, tal y como indica la
figura 4.1 siguiente
F i g ura 4.6: F i gura que mues tra el conc epto de ni v el de conf i anza
En consecuencia, y dado que para una muestra en particular obtendríamos valores
concretos a y b para los que se verifica o no que a ≤ µ ≤ b es una clara incorrección afirmar que
"el parámetro µ pertenece al intervalo de confianza de extremos a, b con probabilidad 1-α ",
toda vez que la probabilidad de que tal cosa suceda es 1 si se verifica que a ≤ µ ≤ b, ó 0 en caso
contrario. ¡Nótese que el valor µ es fijo, mientras que a y b, por el contrario, son variables
aleatorias!.
Es claro que, para una muestra concreta, es imposible saber si el intervalo de confianza
correspondiente contiene, o, no al parámetro µ.
Veamos ahora cómo obtener intervalos de confianza para los parámetros más
importantes.
EJEMPLOS
1. Si X ~ N (40,10), calcular Pr (39≤ X ≤41) para n=10. ¿En qué intervalo se obtendrán el
95% de los resultados?
SOLUCIÓN:
39 − 40 X − 40 41 − 40
Pr (39≤ X ≤ 41) = Pr ( ≤ ≤ ) = Pr(-0.31623≤ X ≤ 0.31623)
10 10 10
X − 40
Z= → N (0,1); Pr (39 ≤ X ≤ 41) = Pr (Z ≤0.31623) - Pr (Z ≤-0.31623) =
10
= 2 Pr (Z ≤0.31623)
Pr (µ-ε≤ X ≤ µ+ε)=0.95
ε ) 1
≤ −
10
Pr (µ-ε≤ X ≤ µ+ε)=2∗Pr(Z
ε )= 1 + 0.95
≤
10 2
Pr (Z =0.975 → Z 0.975 →ε=1.96 10 = 6.1981
SOLUCIÓN:
A partir de una muestra de tamaño n=5 de una población normal N(µ=7.5,σ=0.3), tenemos que:
X 0−.37.5 ≤ 7 −0.73.5
Pr(X ≤ 7) = Pr = Pr(Z ≤ −3.7269)
5 5
Donde Z tiene una distribución normal estándar, y por tanto, Pr ( X ≤7) = 0.0001
4.5 DETERMINACION DEL TAMAÑO DE LA MUESTRA DE UNA
POBLACION
Tamaño de la muestra:
Población: Está formada por la totalidad de las observaciones en las cuales se tiene
cierta observación.
El tipo de muestreo
El parámetro y estimador
El sesgo
El error muestral admisible
La varianza poblacional
Nivel de confianza
Para calcular el tamaño de la muestra hay que tomar en cuenta tres factores:
Formulas:
𝑁𝜎 2 𝑍 2
𝑛= 2
(𝑁 − 1)𝑒 2+𝜎 𝑍 2
Donde:
n=el tamaño de la muestra
N=tamaño de la población
σ=desviación estándar de la población
Z=valor obtenido mediante niveles de confianza
e=limite aceptable de error muestral
Primera fórmula: esta fórmula aplica en el caso de que no se conozca con precisión
el tamaño de la población:
𝑍 2 𝑝𝑞
𝑛=
𝑒2
Donde:
n=es el tamaño de la muestra
Z=es el nivel de confianza
P=es la variabilidad positiva
q=es la variedad negativa
e=es la precisión o error
𝑍 2 . 𝑝. 𝑞. 𝑁
𝑛=
𝑁𝐸 2 + 𝑍 2 𝑝. 𝑞.
Z=nivel de confianza
N=población-censo
P=probabilidad a favor
q=probabilidad en contra
e=error de estimación
n=tamaño de la muestra
EJEMPLOS 1:
Calcular el tamaño de la muestra de una población de 500 elementos con un nivel
de confianza del 95%
Solución:
Realizando el gráfico que representa el 95% de confianza se obtiene:
Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los demás
valores se tomará y e = 0,05.
Reemplazando valores en la fórmula se obtiene:
que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media
muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual,
hayan utilizado para calcular el valor muestral, este se acercará más o menos al
nuestro intervalo.
escenarios:
1) Intervalo de confianza para la media de una población con distribución normal y con
varianza conocida. Este escenario, aunque posible, tiene poca utilidad práctica, pues lo más
frecuente es que no se conozca el valor de los parámetros; sin embargo tiene utilidad desde
2) Intervalo de confianza para la media de una población con distribución normal y con
inferior y superior respectivamente. Por tanto la expresión nos dice, que la probabilidad de
que la media poblacional se sitúe entre esos valores es de 1-alfa (nivel de confianza).
Se desea estimar la media del tiempo que un corredor emplea para completar una maratón.
Para ello se han cronometrado 10 maratones y se ha obtenido una media de 4 horas con
intervalo.
Los 2 valores acotados por este serían los correspondientes a las 2 líneas de color rojo. La
Es importante resaltar que en este caso, dado que la función de densidad de la distribución
N(0,1) nos da la probabilidad acumulada (desde la izquierda hasta el valor crítico), tenemos
que encontrar el valor que nos deja a la izquierda 0,975% (este es 1,96).
Ejemplos:
típica conocida σ
Si partimos de una población que sigue una distribución Z ~ N(0,1) bastará con encontrar
el punto crítico zα/2 para tener un intervalo que contenga la media poblacional con
probabilidad c.
bastará con hacer unas sencillas operaciones para llegar a que el intervalo de confianza
para la media μ de una población normal con desviación típica conocida σ es:
conocida σ
En el caso de poblaciones que no son normales, o que simplemente no sabemos si lo son
o no, necesitamos que el tamaño de la muestra sea suficientemente grande (n > 30) para
poder aplicar el Teorema central del límite para obtener que el intervalo de confianza para
desconocida
tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media.
Se puede demostrar que la media de todas las medias muestrales coincide con la media
poblacional:[3] 𝜇ᾱ = 𝜇
una distribución normal (o gaussiana) con media μ y una desviación típica dada por la
𝜎 𝜎
siguiente expresión: 𝜎ᾱ = . Esto se representa como sigue: 𝑋~𝑁(𝜇, .
√𝑛 √𝑛
𝑋−𝜇
Si estandarizamos, se sigue que: 𝜎 = 𝑍~𝑁(0,1)
√𝑛
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual
encontrará la media poblacional si solo se conoce una media muestral (ᾱ), con una
ciento. A este valor se le llamará 1-ᾱ (debido a que ᾱ es el error que se cometerá, un
término opuesto).
Para ello se necesita calcular el punto 𝑋𝛼/2 —o, mejor dicho, su versión
estandarizada 𝑍𝛼/2 o valor crítico— junto con su "opuesto en la distribución" 𝑋−𝛼/2 . Estos
𝑍−𝛼/2 = −𝑍𝛼/2
Así:
𝜎 𝜎
ℙ [ẋ − 𝑍𝛼 ≤ 𝜇 ≤ ẋ + 𝑧𝛼 ]= 1−𝛼
2 √𝑛 2 √𝑛
http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
http://www.dm.uba.ar/materias/probabilidades-
estadisticaC/2004/2/PyEC14.pdf
1972.
https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0717-
95022017000100037
http://cigeg.uneg.edu.ve/documentos/curso/teoria%20elemental%20de%20muestreo.pdf