Académique Documents
Professionnel Documents
Culture Documents
Unidad 2: Estimación
Docentes:
Mag. María Isabel Flury
Dra. Lucía Hernández
Mag. Alejandro Izaguirre
Estimación
■ Si a partir de las observaciones de una muestra se calcula un solo valor como estimación de
un parámetro poblacional desconocido, el procedimiento se denomina estimación puntual, ya
que se utiliza como estimación un solo punto del conjunto de todos los posibles valores.
■ Dado que una muestra es una parte del conjunto mucho más grande de observaciones
(población), es muy probable que la estimación sea diferente del parámetro y sólo por
coincidencia sería uno exactamente igual al otro.
■ La diferencia entre el valor de una estimación y el correspondiente parámetro se denomina
error de estimación. Sólo se sabría cuál es el error de estimación si se conociera el parámetro
poblacional, pero este por lo general se desconoce.
■ De modo de utilizar la información que se tenga de la mejor manera posible, se necesita
identificar los estimadores que sean ‘buenos’. Los criterios que se suelen aplicar para
determinar si un estimador es bueno son: insesgamiento, eficiencia, consistencia y suficiencia.
En este curso sólo veremos los dos primeros.
Estimador insesgado
■ El valor de 𝜃 varía de muestra en muestra ya que es función de los valores observados de la
variable 𝑋 que varían de muestra en muestra. Por lo tanto 𝜃 es también una variable aleatoria.
■ La distribución de 𝜃 estimador dice dónde caen las estimaciones 𝜃 y con qué probabilidad. A
mayor concentración de ella alrededor de 𝜃, mejor será el estimador. Esta distribución tiene
asociada una esperanza y una variancia.
■ La esperanza es el valor promedio de las estimaciones a través de todas las muestras posibles.
El estimador 𝜃 es un estimador insesgado para 𝜃 si su valor esperado es igual al valor del
parámetro: E 𝜃 = 𝜃.
Esta propiedad significa que si se obtuvieran todas las muestras posibles y para cada una de
ellas se calculara la estimación, el promedio de estos valores sería igual al verdadero valor del
parámetro que se está estimando.
■ Ejemplos:
– La media muestral es un estimador insesgado de la media poblacional.
– La variancia muestral es un estimador insesgado de la variancia poblacional.
Eficiencia
■ La variancia de un estimador mide la variabilidad de las estimaciones respecto a su esperanza.
Lo ideal es utilizar estimadores insesgados con variancia pequeña porque así las estimaciones
estarán próximas a su valor esperado, es decir al verdadero valor del parámetro (insesgados).
■ Supongamos que interesa estimar la media de un población cuyo valor es 10. Entre dos
estimadores insesgados preferimos el de menor variancia (Figura 1: curva negra). Aunque es
deseable que un estimador sea insesgado, puede haber ocasiones en las cuales podríamos
preferir estimadores sesgados (Figura 2: curva azul).
■ Entre todos los estimadores insesgados, se prefiere el de menor variancia. De hecho, se dice
que un estimador es más eficiente que otro si el primero tiene menor variancia.
Estimación por intervalos
■ Ahora bien, un estimador puntual sólo dice parte de la historia. Aunque se espera que el
estimador puntual se aproxime al parámetro poblacional, sería conveniente medir cuán
próximo se encuentra en realidad. Un intervalo de confianza sirve para este propósito.
■ Un intervalo de confianza es un conjunto o rango de valores construido alrededor de una
estimación puntual de modo que se conozca la probabilidad de que el intervalo incluya al
parámetro poblacional. La mencionada probabilidad es llamada nivel de confianza
■ Ejemplo: Una empresa que fabrica cereales envasa miles de cajas en cada turno de trabajo. El
gerente de la planta es responsable de monitorear la cantidad de cereal colocado en cada caja
que está calibrado en 368grs (pensemos este valor como µ ) . Por la velocidad y otras
características del proceso, la cantidad de cereal varía de caja en caja. Controlar cada una de
las cajas demandaría mucho tiempo y costo (incluso puede ser impracticable). La opción es
entonces seleccionar una muestra de cajas, pesar cada caja de la muestra y obtener
conclusiones en base a la muestra.
Intervalo de confianza para 𝝁 (𝝈 conocido)
■ En la práctica, se trabaja con una sola muestra y 𝜇 se desconoce por lo que no se puede saber
si el intervalo la incluye o no. Sin embargo, si se construye un intervalo de 100(1 − 𝛼)% de
confianza, se puede estar seguro que 1 − 𝛼 % de las muestras arrojarán intervalos que
incluyan a 𝜇 y sólo 𝛼% no lo harán. Esta precisamente es la interpretación del coeficiente de
confianza.
■ Por ejemplo, supongamos que 100 1 − 𝛼 % = 95% . Si se seleccionaran 100 muestras
aleatorias todas de igual tamaño y a partir de cada una de ellas se construyera un intervalo de
confianza, es de esperar que el 95% de los intervalos de confianza cubran al valor del
parámetro y 5% no lo hagan.
Determinación del tamaño de muestra para
estimar la media µ
En la práctica, la determinación del tamaño de la muestra es de importancia crucial, ya
que: si se toma una muestra demasiado grande para el objetivo perseguido, ello puede
llevar a un desperdicio de recursos; por el contrario, una muestra demasiado pequeña
puede conducir a resultados poco confiables.
Cuando se desea estimar una media poblacional, el tamaño que debe tener la muestra
depende del nivel de confianza propuesto para el intervalo, así como del máximo error
(diferencia entre el valor estimado y el real) que se está dispuesto a cometer.
Para construir el intervalo de confianza, al estimador puntual 𝑋 se le suma y resta un
valor que se conoce como margen de error o error de muestreo. Esta expresión viene
dada por:
𝝈𝑿
𝑬= 𝒛𝟏−𝒂/𝟐
𝒏
Fijando un valor para el error E y disponiendo de un valor de 𝜎𝑋 , puede determinarse el
tamaño de la muestra 𝑛 a partir de la siguiente expresión:
𝟐 𝝈𝟐
𝒏= 𝒛 𝟐
𝑬
De la expresión anterior se desprende que el tamaño de la muestra aumenta:
- A medida que aumenta el nivel de confianza (manteniendo el mismo valor de E y de
𝜎)
ó cuando:
- Disminuye el error de muestreo o margen de error ( manteniendo el mismo nivel de
confianza y el mismo 𝜎 )
Nota: esta fórmula es válida cuando el muestreo se hace con reposición o cuando se
realiza en una población de tamaño teóricamente infinito. Cuando la población es de
tamaño finito y ese tamaño debe ser tenido en cuenta, el tamaño de la muestra viene
dado por la ecuación:
𝑵𝒛𝟐 𝝈𝟐
𝒏= 𝟐
𝑬 𝑵 − 𝟏 + 𝒛𝟐 𝝈𝟐
𝑛
En la práctica, esta fórmula suele emplearse cuando la relación > 0,05
𝑁
Intervalo de confianza para 𝝁 (𝝈 desconocido)
■ Supongamos ahora que se desconoce el valor de σ. Si 𝑋 es una variable aleatoria con
distribución Normal con media 𝜇, entonces la estadística:
𝑋−𝜇
𝑡=
𝑆 𝑛
tiene distribución 𝑡 de Student con 𝑛 − 1 grados de libertad (donde 𝑛 es el tamaño de la
muestra y 𝑆 la desviación estándar muestral ).
■ El intervalo de 100 1 − 𝛼 % de confianza para la media poblacional (𝜇) siendo 𝜎 desconocida
está dado por:
𝒔
𝑰𝑪𝝁,𝟏𝟎𝟎 𝟏−𝜶 % = 𝑿 ± 𝒕𝒏−𝟏,𝟏−𝜶 𝟐
𝒏
donde 𝑡𝑛−1,1− 𝛼 2 es el valor de la distribución 𝑡 de Student con 𝑛 − 1 grados de libertad que
acumula una probabilidad igual a 1 − 𝛼 2. ( cuando n es grande, por lo general mayor que 30,
se reemplaza el valor de t por el de z).
■ Observación: si 𝑋 no tiene distribución Normal, este intervalo seguirá siendo válido siempre
que el tamaño de la muestra sea grande (TCL).
𝟐
Intervalo de confianza para 𝝈
■ Si el interés se centra en construir un intervalo de confianza para la variancia poblacional 𝜎 2
en base a una muestra aleatoria de 𝑛 valores de 𝑋, recordar que si 𝑋 es una variable aleatoria
con distribución Normal con media 𝜇 y variancia 𝜎 2 la estadística:
𝑛 − 1 𝑆2
𝜎2
2
tiene distribución Chi-Cuadrado con 𝑛 − 1 grados de libertad (𝜒𝑛−1 ).
■ En base a la distribución muestral anterior, se calcula el intervalo de 100 1 − 𝛼 % de
confianza para 𝜎 2 como:
𝒏 − 𝟏 𝑺𝟐 𝒏 − 𝟏 𝑺 𝟐
𝑰𝑪𝝈𝟐 ,𝟏𝟎𝟎 𝟏−𝜶 % = 𝟐
; 𝟐
𝝌𝒏−𝟏,𝟏−𝜶 𝟐 𝝌𝒏−𝟏,𝜶 𝟐
2
Donde 𝜒𝑛−1,1−𝛼 2 es el valor de la distribución Chi-Cuadrado con 𝑛 − 1 grados de libertad que
2
acumula un área igual a 1 − 𝛼 2 y 𝜒𝑛−1,𝛼 2 el valor de la distribución que acumula un área
igual a 𝛼 2.
Dado que la distribución chí cuadrado es asimétrica, el intervalo de confianza para la variancia,
no será simétrico alrededor de la variancia muestral.
Intervalo de confianza para 𝒑
■ Los intervalos de confianza también se pueden construir para datos categóricos, es decir
cuando se quiere estimar la proporción de unidades en una población que tienen cierta
característica de interés. Sea 𝑝 la proporción poblacional desconocida. La estimación puntual
𝑋
de p es 𝑝 = siendo 𝑛 el tamaño muestral y 𝑋 el número de unidades en la muestra que
𝑛
poseen la característica de interés.
■ El intervalo de 100 1 − 𝛼 % de confianza para la proporción poblacional (𝑝) está dado por:
𝒑 𝟏−𝒑
𝑰𝑪𝒑,𝟏𝟎𝟎 𝟏−𝜶 % = 𝒑 ± 𝒁 𝟏−𝜶 𝟐
𝒏
donde 𝑍 1−𝛼 2 es el valor de la distribución Normal Estándar que acumula una probabilidad
igual a 1 − 𝛼 2.
𝑝 1−𝑝
■ es el error estándar del estimador 𝑝.
𝑛
■ Observación: Para utilizar esta ecuación para construir 𝐼𝐶, la muestra debe ser suficientemente
grande para asegurar que 𝑋 > 5 y n − 𝑋 > 5
Determinación del tamaño de muestra para estimar la
proporción p
Al igual que en el caso de la media, cuando se desea estimar una proporción
poblacional, el tamaño que debe tener la muestra depende del nivel de confianza
propuesto para el intervalo, así como del máximo error (diferencia entre el valor
estimado y el real) que se está dispuesto a cometer.
Siguiendo el procedimiento visto , fijando un valor para el error E y disponiendo de un
valor de 𝒑 (𝑝𝑟 ) dado como referencia , puede determinarse el tamaño de la muestra 𝑛 a
partir de la siguiente expresión:
𝒛𝟐 𝒑𝒓 (𝟏 − 𝒑𝒓 )
𝒏=
𝑬𝟐
Nota: Cuando no se dispone de un valor de referencia 𝑝𝑟 , puede reemplazarse dicho
valor por el de 0,5. Ello conducirá al mayor tamaño de muestra posible.
Intervalo de confianza para 𝝁𝟏 − 𝝁𝟐
(variancias conocidas)
■ En algunas ocasiones interesa construir un intervalo de confianza para la diferencia de medias
de dos poblaciones (1 y 2). Sean las variables 𝑋1 y 𝑋2 tal que, en la población 1,
2 2
𝑋1 ~𝑁 𝜇1 , 𝜎1 y en la población 2, 𝑋2 ~𝑁 𝜇2 , 𝜎2 . Se supone que las poblaciones son
independientes.
■ El parámetro de interés es 𝜇1 − 𝜇2 . Se extrae una muestra aleatoria de tamaño 𝑛1 de la
población 1 y otra de tamaño 𝑛2 de la población 2. La estimación puntual de dicho parámetro
es 𝑋1 − 𝑋2 .
■ El intervalo de 100 1 − 𝛼 % de confianza para la diferencia de las medias poblacionales 𝜇1 y
𝜇2 siendo 𝜎12 y 𝜎22 conocidas está dado por:
𝝈𝟐𝟏 𝝈𝟐𝟐
𝑰𝑪𝝁𝟏 −𝝁𝟐 ,𝟏𝟎𝟎 𝟏−𝜶 % = 𝒙𝟏 − 𝒙𝟐 ± 𝒁𝟏− 𝜶 𝟐 +
𝒏𝟏 𝒏𝟐
donde 𝑍 1−𝛼 2 es el valor de la distribución Normal Estándar que acumula una probabilidad
igual a 1 − 𝛼 2. Cuando el intervalo de confianza contiene el valor 0, se dice que no hay
diferencia estadísticamente significativa entre las medias de ambas poblaciones.
■ Observación: si 𝑋1 y 𝑋2 no tienen distribución Normal, este intervalo seguirá siendo válido
siempre que el tamaño de la muestra sea grande (TCL)
Intervalo de confianza para 𝝁𝟏 − 𝝁𝟐
(variancias desconocidas)
■ Observación: este intervalo es válido si las variancias de las dos poblaciones (aunque
desconocidas) pueden suponerse iguales. Para verificarlo, se debe realizar primero un test de
hipótesis para igualdad de variancias.
Intervalo de confianza para 𝝈𝟐𝟏 𝝈𝟐𝟐
■ En algunas situaciones interesa en construir un intervalo de confianza para comparar las variancias
de dos poblaciones independientes. La estimación por intervalos se basa en el cociente de las
variancias (y no en su diferencia). Sean 𝑋1 y 𝑋2 dos variables tales que 𝑋1 ~𝑁 𝜇1 , 𝜎12 y
𝑋2 ~𝑁 𝜇2 , 𝜎22 . Se extrae una muestra aleatoria de tamaño 𝑛1 de valores de 𝑋1 y otra de tamaño de
𝑛2 de valores de 𝑋2 . Se puede probar que la estadística:
𝑆12 𝜎12
𝑓= 2 2
𝑆2 𝜎2
tiene distribución 𝐹 con 𝑛1 − 1 y 𝑛2 −1 grados de libertad.
■ El intervalo de 100 1 − 𝛼 % de confianza para el cociente de las variancias 𝜎12 y 𝜎22 está dado por:
𝟏 𝑺𝟐𝟏 𝟏 𝑺𝟐𝟏
𝑰𝑪𝝈𝟐 𝝈𝟐 ,𝟏𝟎𝟎 𝟏−𝜶 % = ;
𝟏 𝟐 𝑭𝒏𝟏 −𝟏; 𝒏𝟐 −𝟏; 𝟏−𝜶 𝟐 𝑺𝟐𝟐 𝑭𝒏𝟏 −𝟏; 𝒏𝟐 −𝟏; 𝜶 𝟐 𝑺𝟐𝟐
donde 𝐹𝑛1 −1; 𝑛2−1; 1−𝛼 2 es el valor de la distribución 𝐹 con 𝑛1 − 1 y 𝑛2 − 1 grados de libertad que
acumula un área igual a 1 − 𝛼 2 y 𝐹𝑛1 −1; 𝑛2 −1; 𝛼 2 es el valor de la misma distribución que acumula
un área igual a 𝛼 2. Cuando el intervalo de confianza contiene el valor 1, se dice que no hay
diferencia estadísticamente significativa entre las variancias de ambas poblaciones.
1
Nota: Aplicar la relación: 𝑭𝒏𝟏 −𝟏; 𝒏𝟐 −𝟏; 𝜶 𝟐 =𝑭
𝒏𝟐 −𝟏; 𝒏𝟏 −𝟏; 𝟏−𝜶 𝟐
Intervalo de confianza para 𝒑𝟏 −𝒑𝟐
■ Si el objetivo es estimar la diferencia en la proporción de unidades que tienen cierta
característica de interés en dos poblaciones, el parámetro de interés es 𝑝1 −𝑝2 . Se extrae una
muestra aleatoria de tamaño 𝑛1 de la población 1 y otra de tamaño 𝑛2 de la población 2. La
𝑋 𝑋
estimación puntual de 𝑝1 −𝑝2 es 𝑝1 − 𝑝2 = 1 − 2 siendo 𝑋1 el número de unidades en la
𝑛1 𝑛2
muestra de la población 1 que tienen la característica de interés y 𝑋2 el número de unidades
en la muestra de la población 2 que tienen la característica de interés.
■ El intervalo de 100 1 − 𝛼 % de confianza para la diferencia entre las proporciones muestrales
(𝑝1 −𝑝2 ) está dado por:
𝒑𝟏 𝟏 − 𝒑𝟏 𝒑𝟐 𝟏 − 𝒑𝟐
𝑰𝑪𝒑𝟏−𝒑𝟐,𝟏𝟎𝟎 𝟏−𝜶 % = 𝒑𝟏 − 𝒑𝟐 ± 𝒁 𝟏−𝜶 𝟐 +
𝒏𝟏 𝒏𝟐
donde 𝑍 1−𝛼 2 es el valor de la distribución Normal Estándar que acumula una probabilidad
igual a 1 − 𝛼 2.
■ Observación: Para utilizar esta ecuación para construir 𝐼𝐶, la muestra debe ser suficientemente
grande.