Académique Documents
Professionnel Documents
Culture Documents
1.1 INTRODUCCION
Recordemos algunos conceptos de la Estadística que serán importantes en el desarrollo de este curso
POBLACIÓN
Es un conjunto de elementos de naturaleza cualquiera de los cuales estamos interesados en estudiar
al menos una característica común y observable de dichos elementos en un determinado lugar y en
un momento dado.
Observación: La población en estudios debe estar definida sin ambigüedad de manera que no de
lugar a confusiones. Los elementos consideramos que se encuentran localizados en un determinado
lugar o región geográfica y en un periodo de tiempo dado.
Ejemplo
El conjunto de todos los supermercados de Nicaragua en un momento dado
Elementos: Supermercados.
Características : ventas mensuales, N° empleados, nombre, atención, N° cajeras, etc.
VARIABLES
Utilizaremos variables como X, Y, Z, etc. para representar las características de los elementos
Para el ejemplo anterior podemos hacer que X represente las ventas mensuales
DATOS ESTADISTICOS
Los valores posibles de una característica X los denotaremos por x , mientras que los valores
realmente observados de esa característica X , los llamaremos datos y los denotaremos por x i donde
el valor del subíndice i nos indica que es la i-ésima observación de X.
Con frecuencia usaremos el término población para referirnos a la totalidad de datos que podrían
recopilarse en una situación dada.
x1 , x2 , … , xN
2
PARAMETROS
Es una medida que proviene de todos los datos de la población. Los parámetros son constantes que
representan por lo general características de la población. Generalmente se representan por letras
griegas.
Por ejemplo, la media poblacional es un parámetro que se denota y define como
N
x x 2 ... x N
x i
μ 1 .
N N
N
El total poblacional es otro parámetro que se denota y define como τ x i
Si para el ejemplo anterior X representa la venta mensual entonces representa la venta mensual
promedio y la venta mensual total
MUESTRA
Es una parte de la población que se espera sea representativa de ella.
Con frecuencia usaremos el término muestra para referirnos a los datos muestrales x1 , x2 , … , xn
Población tamaño N
X
x1 muestra tamaño n
x2
. x1, x2,….xn
.
xN datos muestrales
Una muestra de familias de un barrio puede ser útil para estimar el número promedio de niños por
familia del barrio.
En la industria una muestra de artículos puede servirnos para estimar la proporción de artículos
defectuosos producidos en cierto momento.
3
El muestreo es una técnica que utiliza recursos materiales, económicos y humanos disponibles, para
obtener en el menor tiempo, al menor costo y con cierta exactitud aceptable información necesaria
acerca de algunos parámetros.
Decimos que una población es finita cuando sabemos cuántos elementos existen en ella, esto es,
cuando posee un tamaño que denotaremos por N.
Existen poblaciones finitas tan grandes que resulta imposible observar sus elementos en un período
de tiempo razonable, por ejemplo, todas las familias de una ciudad. Otras son tan inmensas que
muchos de sus elementos son inaccesibles y su tamaño puede ser desconocido, por ejemplo, todos
los pequeños agricultores de un país.
También existen poblaciones infinitamente grandes, esto es, con un número ilimitado de elementos,
razón por la cual le llamaremos poblaciones infinitas.
Podríamos considerar que los procesos contínuos de producción de algún bien generan poblaciones
infinitas porque, teóricamente, podría suponerse que estos procesos operan indefinidamente, por
ejemplo, el proceso de producción de chips de computadoras.
Los censos, debido a la gran cantidad de recursos que requieren, se realizan en períodos retirados de
tiempo. Sin embargo su aplicación es ventajosa cuando la población es muy pequeña o se requiere
una exactitud completa.
4
En todo muestreo lo deseable básicamente es obtener una muestra que sea una buena representación
de la población en miniatura y que además su costo sea el menor posible, ya que a mayor
representatividad de la muestra se espera mayor precisión en las estimaciones de los parámetros.
Existen dos métodos que tratan de obtener la muestra anterior: el muestreo no probabilístico y el
muestreo probabilístico.
- En este método no todos los elementos poblacionales tendrán posibilidad de integrar la muestra,
motivo por el cual se espera poca representatividad de la muestra.
- Se usan el conocimiento, la experiencia y la opinión personal para identificar los elementos de la
población que van a incluirse en la muestra.
El conocimiento y la experiencia ayudan a aumentar la precisión de las estimaciones y la opinión
personal para minimizar el costo.
- La precisión de sus resultados generalmente no se puede medir en forma objetiva porque no hay
ninguna ley del azar que permita medir su error de muestreo.
A pesar de esta falta de objetividad los métodos de muestreo no probabilísticos son importantes en
los negocios y la investigación económica.
- La precisión de sus resultados se puede medir objetivamente porque, según veremos más adelante,
los estimadores de parámetros seguirán las leyes del azar, esto es, una distribución de probabilidad
conocida de la cual podremos considerar su desviación estándar como un error de muestreo
esperado (promedio).
Aunque el error de muestreo es de naturaleza aleatoria podremos controlarlo, es decir hacerlo más
pequeño, seleccionando el tipo de muestreo más adecuado.
También controlaremos el costo del muestreo seleccionando un tipo de muestreo que logre reducir
sustancialmente ese costo.
Algunos tipos de muestreos probabilísticos son los siguientes: muestreo aleatorio simple,
muestreo aleatorio sistemático, muestreo aleatorio estratificado y muestreo aleatorio por
conglomerado.
5
En el muestreo aleatorio simple se seleccionan las muestras mediante métodos que permitan a cada
muestra posible tener igual probabilidad de ser seleccionada y a cada elemento de la población tener
igual probabilidad de quedar incluido en la muestra.
Cuando muestreamos sin reposición de una población de tamaño N (el elemento seleccionado no se
devuelve a la población y por tanto no puede seguir siendo considerado para otra extracción) las
probabilidades de seleccionar los elementos restantes después de cada extracción van aumentando
porque el tamaño de la población se va reduciendo en uno tras cada extracción. De manera que la
l
probabilidad de seleccionar un elemento particular en la primera extracción es , la probabilidad
N
l
de seleccionar otro elemento particular en una segunda extracción consecutiva es y así
N -1
sucesivamente.
Al seleccionar sin reposición una muestra aleatoria simple de tamaño n de una población finita de
tamaño N puede demostrar que:
l
i) Cada muestra posible tiene una probabilidad de ser seleccionada.
N
n
n
ii) Cada elemento de la población tiene una probabilidad de ser incluido en la muestra.
N
6
El número de dígitos a utilizar dependerá del tamaño de la población N y será el mismo para cada
situación.
Ejemplo, si N = 140 sus elementos se codificarán así: 001, 002, ... ,139, 140
Si N = 10 sus elementos se codificarán así: 1, 2, .... , 9, 0 donde “0” debe leerse como 10.
Si N = 100 sus elementos se codificarán así: 01, 02, , 99, 00 donde “00” debe leerse como 100.
Si N = 1000, N = 10,000, etc, se utilizará el mismo criterio anterior parar asignar números de
códigos a los elementos poblacionales.
Si al terminar la fila o columna en la dirección escogida, no se tienen aún los n números que
requiere la muestra, continue en la siguiente fila o columna.
EJEMPLO 1.1
Utilice la tabla de números aleatorios para obtener una muestra aleatoria de 5 estudiantes de esta
clase.
7
EJEMPLO 1.2
Ventas diarias 8.1 7.5 5.4 3.0 6.2 7.0 8.0 2.5 1.8 4.3 3.8 5..5 4.6 8.3 9.0 3.6
(en miles de C$)
ii) Iniciando en la fila 26 y columna 4 de la tabla de números aleatorios y con una dirección
horizontal de izquierda a derecha, tome una muestra aleatoria simple de 4 supermercados.
Luego márquelos con un *.
Cada número de código tendrá dos dígitos porque la población es de tamaño N = 16. Observando,
para la fila 26 y columna 4, los dos primeros dígitos, obtenemos el número 96 que es rechazado
porque es mayor que 16.
Siguiendo en la dirección horizontal de izquierda a derecha, nos fijaremos ahora sólo en los menores
o iguales que 16 y que no se repitan porque el muestreo se está realizando sin reposición.
El resultado serán los números:
14, 13, 12 y 05
Por ejemplo, seleccionemos una pieza electrónica de un proceso contínuo de producción de una
fábrica y hagamos que la variable aleatoria X representa la duración de la pieza.
La duración de la primera pieza seleccionada puede representarse por la variable aleatoria X 1, la
duración de la segunda pieza seleccionada por X2 y así sucesivamente hasta la duración de la n-
ésima pieza seleccionada por Xn. Para poder decir que X1, X2,...,Xn es una muestra aleatoria de X,
debemos asegurarnos de que las observaciones sean independientes y estén hechas bajo las mismas
condiciones normales de trabajo, esto es, que no se haya obtenido una observación en un momento
en que el proceso de producción estaba fallando.
Otro ejemplo, supongamos que la variable aleatoria X representa la precipitación pluvial anual de
cierta localidad. La precipitación pluvial anual durante el presente año podría representarse por la
variable aleatoria X1 . Durante los años siguientes las variables aleatorias X 2,...,Xn pueden definirse
análogamente. Podemos considerar X1, X2,...,Xn como una muesta aleatoria de tamaño n, obtenida
de la población de todas las precipitaciones pluviales anuales posibles en esa localidad y podría
suponerse que las Xi son variables aleatorias independientes e idénticamente distribuidas.
1.3.3 ESTADISTICOS
Sea X1, X2,...,Xn una muestra aleatoria de una variable aleatoria X. Sea h una función de las
variables aleatorias X1, X2,...,Xn . Definimos que Y = h(X1, X2,...,Xn) es un estadístico
Observación: Un estadístico es una variable aleatoria.
Por ejemplo, sea X1, X2,...,Xn una muestra aleatoria de tamaño n de una variable aleatoria X cuya
distribución de probabilidad depende de la media poblacional desconocida . Entonces
n N
X i x i
EJEMPLO 1.5
1) Con la muestra del inciso ii) del ejemplo 1.2
Estime , y
Las ventas diarias que corresponden a los supermercados 14, 13, 12 y 05 son presentadas en la
siguiente tabla.
No. Super Xi X i2
05 6.2 38.44
12 5.5 30.25
13 4.6 21.16
14 8.3 68.89
24.6 158.74
n
Xi 24.6
X . 6.15 ( en miles de C$) N X 16 ( 6.15 ) 98.4 ( en miles C$)
n 4
n
( X ) 2
n i 24.62
Xi - .
2
158.74 -
158.74 - 151.29
S2 . n 4
n -1 4 1 3
7.45
2.4833 S 2.4833 1.5758 (en miles de C$ )
3
2) Con la muestra del ejemplo 1.1, realice una encuesta dentro del aula de clase para estimar la
cantidad promedio de dinero que trajo hoy un estudiante. ¿Cómo estimaría la cantidad total de
dinero que trajeron hoy los estudiantes de esta clase.
10
Cuando hacemos una encuesta o una investigación estadística, los datos pueden ser recopilados a
través de un cuestionario escrito o una entrevista personal o telefónica, lo cual da lugar a que se
cometan dos tipos de errores.
1. Errores de muestreo.
Estos errores ocurren debido a que sólo se hace una observación parcial de la población.
El error de muestreo es la diferencia absoluta entre el resultado de la muestra y el parámetro.
Por ejemplo, si estamos estimando la media poblacional entonces el error de muestreo de una
estimación se denota y define así
em X - μ
Estos errores no son medibles porque los parámetros son desconocidos y aunque son aleatorios
pueden ser controlados.
De manera que a menor error de muestreo mayor precisión de la estimación.
Mas adelante miraremos que lo que realmente tratamos de medir es un error de muestreo esperado
(promedio) al utilizar un determinado estimador.
Estos errores no ocurren debido al muestreo en sí, sino a otras causas, motivo por el cual este tipo de
error puede ocurrir en un censo o muestreo.
Estos errores no son medibles pero pueden ser controlados evitando la causa que los producen.
La exactitud de una estimación tiene que ver con lo que llamaremos el error total, esto es, un
resultado del error de muestreo y los errores ajenos del muestreo.
Una preocupación importante de toda encuesta o investigación estadística es hacer lo más pequeño
posible el error total, es decir tratar de maximizar la exactitud aunque no sea medible directamente.
Para el ejemplo 1.5 parte 1), obtenga el error de muestreo correspondiente a la estimación de
N
x i
88.6
Como μ = 5.5375 entonces em x - μ = 6.15 – 5.5375 = 0.6125 (en miles C$)
N 16
Cómo obtendría para el ejemplo 1.5 parte 2), el error de muestreo de la estimación de
11
Es precisamente la media y la varianza de la distribución muestral del estimador lo que nos ayudará
a conocer las propiedades deseables de un estimador para hacer las mejores inferencias sobre los
parámetros.
Para una población con característica de interés X y media poblacional , presentamos gráficamente
la idea anterior aplicable a la media muestral donde hemos supuesto que se pudieron seleccionar M
muestras de tamaño n de la población.
1 x1
2 Distribución de probabilid ad de X
x2
(Distribuc ión muestral de X )
M xM
Fig. 1.1
12
EJEMPLO 1.6
A 8
B 6
C 4
D 10
E 6
xi f ( xi )
4 0.20
6 0.40
8 0.20
10 0.20
1.00
Tabla 1.1
f(X) 0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12
X
Fig. 1.2
ii) Considerando todas las muestras posibles de tamaño dos que pueden seleccionarse sin
reposición y sin orden de la población.
Construya la distribución muestral de X representándola gráficamente.
13
8, 6 7
8, 4 6
8, 10 9
8, 6 7
6, 4 5
6, 10 8
6, 6 6
4, 10 7
4, 6 5
10, 6 8
Seleccionando todas las medias muestrales posibles y haciéndoles corresponder a cada una su
probabilidad obtenemos.
xi f (x i )
5 0.20
6 0.20
7 0.30
8 0.20
9 0.10
1.00
Tabla 1.2
f( X) 0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10
Fig. 1.3
14
Esto quiere decir que si utilizamos un estimador insesgado para hacer una estimación particular de
un parámetro, ésta puede ser menor o mayor que el parámetro, pero si utilizamos muchas veces el
mismo estimador entonces tendríamos que el valor medio de todas las estimaciones sería igual al
parámetro.
̂ 1 ̂ 2
ˆ
ˆ
Estimador insesgado Estimador sesgado
2. Eficiencia
Otra propiedad deseable de un estimador es que tenga distribución muestral con varianza lo más
pequeña posible. Esto asegura una probabilidad alta de que una estimación particular se encuentre
cerca del parámetro.
Si se tienen dos estimadores ̂ 1 y ̂ 2 de un mismo parámetro y la varianza del estimador ̂ 1 es
menor que la varianza del estimador ̂ 2 , lo cual denotaremos así.
2ˆ 2ˆ
1 2
̂1 ̂ 2
Fig. 1.6 Fig. 1.7
Naturalmente el estimador ̂1 porque proporciona estimados más cerca de que el estimador ̂ 2 ,
esto es, porque 2ˆ 2ˆ
1 2
El mejor estimador posible es aquel que es insesgado y que posee una varianza menor que la de
cualquier otro estimador, motivo por el cual lo llamaremos estimador insesgado de mínima varianza.
Consideraremos la desviación estándar del estimador ̂ , denotada por ˆ ,como un error de
muestreo esperado (promedio) que será llamado error estándar del estimador ̂ y que vendrá a
ser un indicador de la precisión del estimador.
EJEMPLO 1.7
i) Para la distribución poblacional del ejemplo 1.6 calcule y 2
xi f ( xi ) xi fi ( xi - 6.8 )2 f(xi )
= x i f (x i ) 6.8
2 = (x i - )2 f (x i ) 4.16
2 = 4.16 seguros2
σ 4.16 2.0396 seguros
16
ii) Para la distribución muestral de la media del ejemplo 1.6 calcule X y X2 y verifique que
μX μ
2
xi f( xi ) xi f( xi ) (x i - 6.8 ) f (x i )
Puede demostrarse (no lo haremos aquí) que X2 es menor que la de cualquier otro estimador de .
Como X representa el error estándar de la media muestral X , será de interés saber que
X 1.560 1.2490 seguros
Debido a que X es considerado como un error de muestreo esperado (promedio) utilizaremos esta
medida para apreciar la precisión de X como estimador de .
Puede demostrarse que si tenemos un población cuya variable de interés X tiene una distribución de
probabilidad con media y desviación estándar entonces X seguirá una distribución de
probabilidad con
σ
μX μ y σX para cualquier n
n
siempre que el muestro se haya realizado de una población infinita o bien muestreamos con
reposición de una población finita.
Si el muestreo se hizo sin reposición de una población finita de tamaño N, se debe usar el factor de
corrección para población finita (F C P F) al expresar el error estándar de X así
σ N - n
σX
n N - l
N - n
La introducción del F C P F hace que X se vuelva más pequeño porque l
N - l
17
EJEMPLO 1.8
Para la distribución muestral de la media del ejemplo 1.6 calculemos ahora μ X y X basándonos
en la distribución poblacional, esto es, aplicando las fórmulas anteriores.
N - n
X
n N - l
2.0396 5-2 2.0396
X = 0.75 2.0396 0.375 1.2490 seguros
2 5 -1 2
Comparando estos resultados con los del ejemplo 1.7 concluimos que son iguales.
Cuando la característica de interés X de los elementos de una población sigan una distribución
normal diremos que estamos ante una población normal.
Puede demostrarse que si tenemos una población normal con media y desviación estándar
entonces X seguirá también una distribución normal
~ Normal ~ Normal
X (, ) X ( X , X )
n
σ N - n
el error estándar de X se expresa así σX
n N - l
18
X X X
Fig. 1.8
Observemos la distribución muestral de X de la figura 1.3 del ejemplo 1.6 y preguntémonos qué
aspecto tomaría si el tamaño de la muestra hubiera sido más grande; probablemente la distribución
muestral de X sería más simétrica.
La pregunta anterior nos conduce al teorema más importante en la Estadística básica, el teorema del
límite central.
σ N - n
el error estándar de X se expresa así σX
n N - l
Este teorema es importante porque le permite al investigador hacer inferencias en cuanto a la media
poblacional sin tener que conocer la forma específica de la distribución de la población.
19
Un estimador por intervalo de confianza de un parámetro es aquel que define un par de variables
aleatorias Li y Ls (que llamaremos límite inferior y límite superior del intervalo) entre los cuales
diremos que hay una probabilidad de 1 - (que llamaremos nivel de confianza) de que el
parámetro se encuentre entre dichos límites; y también diremos que hay una probabilidad (que
llamaremos riesgo) de que no se encuentre entre dichos límites.
Cada muestra particular proporcionará un intervalo conocido que llamaremos intervalo de confianza
del (1 - )100% para el parámetro.
Las fórmulas que presentaremos para los estimadores puntuales y por intervalo de cualquier
parámetro en un muestreo aleatorio simple serán aplicables también al muestreo aleatorio
sistemático.
x
n
i X i
Un estimador puntual de la media poblacional μ es la media muestral X
N n
N
Un estimador puntual del total poblacional τ x i es el total muestral NX
ERROR ESTANDAR DE X Y NX
σ σ N - n
σX si la población es infinita y σX si la población es finita.
n n N - l
σ NX Nσ X
20
Puesto que X varía de una muestra a otra, se necesita contar con un estimador de más aplicable a
la realidad, objetivo que se logra cuando tomamos en cuenta la distribución muestral de X , según
veremos a continuación.
Cuando la desviación estándar poblacional sea conocida y utilicemos X como estimador de ,
supondremos que tiene una distribución aproximadamente normal y que por tanto podemos expresar
el error de muestreo, X - , en unidades del error estándar de X , es decir, podemos estandarizar la
variable aleatoria X así
X -
Z
X
Como P( zα/2 Z zα/2 ) 1 α donde zα/2 es un valor de la normal estándar que tiene a su
derecha una área acumulada de y a su izquierda un área acumulada de 1 -
2 2
P - z α/2 X - μ z α/2 1 - α
σX
El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que
X - z α/2 σ x μ X z α/2 σ x
O de una manera más breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para estará dado por
X z/2 σ x
donde X - z/2 X será el límite inferior y X z/2 x será el límite superior del intervalo.
Con un razonamiente similar podemos llegar a la conclusión de que un estimador por intervalo de
confianza del (1 - )100% para está dado por
NX z/2 σ NX donde σ NX Nσ X
Si una población es normal, esto es, si su característica de interés X tiene una distribución normal
con desviación estándar conocida, entonces:
1) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así:
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así:
σ N -n
N X z α/2 N para cualquier n
n N -1
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
Notas:
z α/2 es un valor que se obtiene de la expresión P( Z < z/2 ) = 1 -
2
Si la fracción muestral n 0.05 podemos omitir el factor de corrección N - n
N N -1
N-n
La introducción del factor en la fórmula reduce el error estándar del estimador.
N -1
n
La proporción muestral representa la proporción de la población que se ha muestreado.
N
n N-n n
Podemos utilizar 1- como una aproximación de donde 1 - representa la
N N -1 N
proporción de la población que no se ha incluido en la muestra.
Esto es, que los errores de muestreo tengan un valor máximo E que llamaremos error máximo
permitido en la estimación de .
Si queremos tener una confianza del ( 1 - ) 100% de que E sea el máximo error permitido,
escribiremos
P ( X - μ E) 1 - α
P X - E μ X E 1-α
El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que
X - E μ X E
o de una manera más breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para estará dado por
X E
lo cual es otra manera equivalente de representar el estimador por intervalo de confianza del ( 1 - )
100% para .
X z/2 x
Comparando las dos expresiones equivalentes concluimos que el error máximo permitido en la
estimación de es
E z/2 σx
De manera similar podemos concluir también que el error máximo permitido en la estimación de
es
E z/2 σ N x
El tamaño de muestra requerido n para estimar con error máximo permitido E y un nivel de
confianza de ( 1 - ) 100% es
2
z σ
n /2
E
2
z/2 σ
no
E
Por consiguiente para determinar el tamaño de la muestra, se tienen que conocer tres factores:
Observe que el cuadrado del error máximo permitido es inversamente proporcional al tamaño de la
muestra.
Para el error de muestreo permitido se debe pensar qué tanto error se puede “aceptar” y con qué
nivel de confianza de manera que aún se puedan proporcionar conclusiones adecuadas.
Finalmente, si la población no es normal y el tamaño de muestra que se está calculando está por
debajo de 30 entonces debe incrementarse a 30, porque las fórmulas anteriores se basan en el uso de
la distribución normal.
24
EJEMPLO 1.9
Una máquina empaca azúcar en bolsas plásticas. Se quiere estimar el peso promedio de las bolsas
de azúcar sabiendo por estudios anteriores que la desviación estándar poblacional es de 0.10 lbs.
Del flujo de producción se toma una muestra aleatoria de 10 bolsas, obteniendo los siguientes pesos
en libras.
5.10, 4.90, 4.80, 5.15, 5.05, 4.95, 4.97, 4.85, 5.03, 5.00
i) Obtenga un intervalo de confianza del 80% para el peso promedio de las bolsas de azúcar.
X i
49.8
donde X 4.98 lbs. y z α/2 lo determinamos de P( Z < z/2 ) = 1 - así
n 10 2
Según la tabla de la distribución de Z el área más cercana a 0.90 es 0.8997. Trace a partir de esta
área una línea horizontal imaginaria hacia la izquierda (que señalará 1.2 ) y luego otra línea vertical
imaginaria hacia arriba (que señalará 8). Se dirá que al área 0.90 le corresponde zα/2 = 1.28
ii) Identifique el error muestral promedio en la estimación por intervalo del inciso i)
σ x = 0.0316 lbs.
25
iii) Con la misma muestra anterior, obtenga otro intervalo de confianza para el peso promedio de
las bolsas de azúcar, pero con un nivel de confianza del 97%. Compare la longitud de este intervalo
con el obtenido en el inciso i) haciendo los comentarios pertinentes.
zα/2 lo determinamos de P( Z < z/2 ) = 1 - así
2
4.9114 5.0486
Observemos que la longitud de este intervalo es mayor que la longitud del intervalo del inciso i),
esto significa que entre más confiable sea nuestra estimación menos precisa será.
iv) Identifique el valor del error máximo permitido con una confianza del 80% en la estimación
del inciso i)
E = 0.0404 lbs
v) Si quiero estimar el peso promedio de las bolsas de azúcar con una confiabilidad del 90% de que
el error máximo permitido sea de 0.0313 lbs, ¿Cuál debe ser el tamaño de la muestra?
2
n = z/2
E
2
=
1.65 (0.10)
n
= 27.7894 28 bolsas
0.0313
Se necesita una muestra de tamaño n = 28 bolsas para tener una confiabilidad del 90% de que el
error máximo permitido sea de 0.0313 lbs.
26
EJEMPLO 1.10
Consideremos el conjunto de todas las pequeñas industrias de un determinado artículo. Se quiere
estimar la producción anual total de las industrias y se sabe, en base a estudios anteriores, que la
desviación estándar poblacional de las producciones anuales es igual a 2 en miles de unidades. Con
tal propósito se selecciona de un listado actualizado de 826 industrias una muestra aleatoria de 50
industrias, obteniendo una producción anual promedio de 5.52 en miles de unidades.
i) Encuentre un intervalo de confianza del 90% para la producción anual total de las industrias.
Los elementos son las pequeñas industrias. La población es finita de tamaño N = 826
X representa la producción anual por industria. La población se supone que no es normal y es
conocido. representa la producción anual promedio. representa la producción anual total
n = 50 pequeñas industrias
Aunque la población no sea normal podemos aplicar, según el teorema del límite central, la
siguiente fórmula:
σ N-n porque n 30
NX z/2 N
n N -1
n 50
Observe que = 0.0605 0.05 y que por tanto no podemos omitir el factor de
N 826
corrección.
2 826 - 50
826 (5.52) 1.65 (826)
50 826 - 1
ii) Con una confianza del 95% calcule el valor del error máximo permitido en la estimación de la
producción anual total del inciso i)
E z/2 σN X = 1.96 (226.5383) = 444.0151
iii) Si quiero estimar la producción anual promedio de las industrias con una confiabilidad del
80% de que el error máximo permitido sea de 300 unidades, ¿Cuál debe ser el tamaño de la
muestra?
Como la población es finita, la fórmula es
2
no = z/2
E
27
2
1.28 (2)
no = = 72.8178
0.3
Cuando la desviación estándar poblacional sea desconocida y X tenga una distribución normal o
aproximadamente normal, tendremos primero que estimar para poder estimar x .
S
n si se muestreó de una población infinita
σˆ X
S N-n
si se muestreó sin reposición de una población finita de tamaño N
n N -1
σˆ NX Nσˆ X
X -μ
t
σ̂
x
la cual incluye una variable aleatoria en el denominador porque S es variable aleatoria, y por lo tanto
σ̂ X , también es una variable aleatoria.
28
Esto da como resultado que la estandarización de X ya no sea la variable aleatoria Z sino otra
variable aleatoria que representaremos por t y que tendrá una distribución de probabilidad conocida
con el nombre de distribución t de Student con n – 1 grados de libertad, ya que fue investigada
originalmente por William Gossett, quien publicó sus escritos con el seudónimo “Student”.
El hecho de tener que estimar el parámetro σ x con los mismos n datos que se utilizan para poder
calcular el valor del estadístico t, hace que t pierda un grado de libertad, esto es, que quede con n –
1 grados de libertad (g.l).
CARACTERISTICAS
1. Es una familia de distribuciones t de tal forma que cada vez que se especifiquen sus grados de
libertad n – 1, se produce una distribución t particular.
n
t 0 y , n 2
t n - 2
dist. Z
dist. t
0 t
Fig. 1.9
29
Ahora que ya estudiamos la distribución t de student, podemos utilizar el mismo razonamiento que
se utilizó para la distribución Z para demostrar que las expresiones que definen los límites inferior y
superior de un intervalo de confianza para y son:
donde t α/2 es el valor de la distribución t con n – 1 grados de libertad que tiene a su derecha un área
acumulada de
2
Si sustituimos σ̂ X o σ̂ N X por su correspondiente fórmula según la población sea infinita o finita,
llegamos al siguiente resultado:
Suponga que estamos ante una población normal y que S es una estimador de
1) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así:
X t/2
S
siempre que n 30
n
donde t α/2 es un valor de la distribución t de Student que tiene a su derecha una área de
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
S N-n
X t /2 siempre que n 30
n N -1
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así
Observación 1.
Si la población es normal y n 30 entonces según la característica 4 de la distribución t,
podemos escribir en todas las fórmulas anteriores z como una aproximación de t
Observación 2.
Si la población es no normal, pero n 30 entonces según el teorema del límite central y la
característica 4 de la distribución t, también podemos escribir en todas las fórmulas anteriores z
como una aproximación de t.
DISTRIBUCION DE LA POBLACION
Tamaño Normal No Normal
de
muestra n conocido desconocido conocido desconocido
n 30 Z t
n 30 Z Z Z Z
Con un razonamiento similar al realizado en la situación cuando era conocido llegamos a que:
EJEMPLO 1.11
Un auditor quiere estimar el saldo promedio y el saldo total de una población de 1000 cuentas por
cobrar. Con tal propósito selecciona al azar una muestra aleatoria de 6 cuentas, obteniendo los
siguientes resultados en miles de córdobas.
Los elementos son las cuentas por cobrar. La población es finita de tamaño N = 1000
X representa el saldo de la cuenta. Asumimos que la población es normal pero se desconoce
representa el saldo promedio. representa el saldo total. n=6
31
S N-n
X t/2
n N -1
n 6 N-n
Como = = 0.006 0.05 podemos omitir el factor
N 1000 N -1
El valor t /2 lo determinaremos de la expresión P(t t /2 ) =
2
Como la tabla de la distribución t de Student sólo presenta áreas acumuladas a la derecha,
encontremos el área así: 1 - = 0.90 = 0.10 0.05
2 2
Ahora tracemos dos líneas imaginarias, una horizontal que pase por n -1 = 6 – 1 = 5 y otra vertical
que pase por 0.05. En la intersección de las líneas anteriores encontraremos el valor t /2 = 2.015
0.7099
2.5 2.015
6
1.9161 3.0839
32
S N-n
N X t/2 N
n N -1
N-n
donde también se puede omitir el factor
N -1
N S
X t /2
n
2) Con una confianza del 98% calcule el valor del error máximo permitido en la estimación del
saldo promedio de las cuentas del punto 1) inciso i)
3) Si el auditor quiere estimar el saldo promedio de las cuentas con un error de más o menos C$
500 y con una confianza del 98%, ¿qué tamaño mínimo de muestra se requiere?
2
no = z/2 S
E
500
Compruebe que zα/2 = 2.33 y que E = = 0.50 (en miles de C$.)
1000
2
no = 2.33 ( 0.7099 ) = 10.9438
0.5
n0 10.9438
Como = = 0.0109 0.05, no no puede ser reducida
N 1000
EJEMPLO 1.12
Suponga para el ejemplo 1.11 que ahora el auditor decide seleccionar una muestra aleatoria de 36
cuentas por cobrar, obteniendo los siguientes resultados en miles de córdobas.
i) Determine un intervalo de confianza del 95% para el saldo promedio de las cuentas.
S N-n
X z/2
n N -1
n 36 N-n
Como = = 0.036 0.05 podemos omitir el factor
N 1000 N -1
0.5
2.6 1.96
36
2.6 1.96 ( 0.0833 )
ii) Identifique el valor del error muestral promedio en la estimación del saldo promedio de las
cuentas del inciso i)
EJEMPLO 1.13
Se va a vender un nuevo cereal para desayuno como prueba de mercados durante un mes en las
tiendas de una cadena de autoservicio. Los resultados de una muestra de 36 tiendas indicaron ventas
promedio de C$ 1200 con una desviación estándar de C$ 180.
i) Establezca un intervalo de confianza del 99% para las ventas promedios reales de este nuevo
cereal.
Los elementos son las tiendas. La población se considera muy grande o infinita
X representa las ventas por tienda. Se supone que la población no es normal y que se desconoce
representa las ventas promedios de las tiendas
n = 36 , X = 1200 y S = 180
34
La población no es normal, pero n 30, esto nos permite utilizar el teorema del límite central
y la característica 4 de la distribución t, para escribir z como una aproximación de t en la
fórmula del intervalo de confianza para , quedando así
S
X z/2
n
180
1200 2.58
36
C$ 1122.60 C$ 1277.60
ii) Si la cadena tiene 200 tiendas, establezca un intervalo de confianza del 99% para las ventas
promedios reales de este producto.
S N-n
X z/2
n N -1
N-n
Como n
= 36 = 0.18 0.05, no podemos omitimos el factor
N 200 N -1
180 200 - 36
1200 2.58
36 200 - 1
C$1129.7363 C$1270.2637
Al comparar este intervalo con el obtenido en el inciso i) notamos que tiene una longitud menor,
esto es, que proporciona mejor precisión al mismo nivel de confianza.
35
En estas poblaciones la característica de interés Y es una variable aleatoria que presenta solamente
dos resultados mutuamente excluyentes y exhaustivos que llamaremos éxito (E) y fracaso (F).
1 si se tiene un E
Y
0 si se tiene un F
Bajo las circunstancias anteriores diremos que Y tiene una distribución de Bernoulli dada por la
siguiente expresión.
p si y 1
f ( y)
1 - p si y 0
Se demuestra fácilmente que Y = p y que Y = p (1- p )
N
El total poblacional = yi y la media poblacional Y =
N
.
El total poblacional lo definiremos así
Debido al hecho de que Y = p , donde p es una probabilidad (un número entre 0 y 1 ), la media
poblacional será llamada proporción poblacional y la denotaremos y definiremos así
Y i
X No. total de éxitos en la muestra
pS .
n n Tamaño de la muestra
N ps
36
μ pS μ Y p y
σY p(1 p) p (1 p)
si la población es infinita
n n n
σ pS
σY Nn p (1 p) N n
si la población es finita
n N 1 n N 1
p S (1 p S )
si la población es infinita
n
σ
ˆ pS
p S (1 p S ) Nn
si la población es finita
n N 1
donde pS es el estimador de p
El error estándar estimado del total muestral NpS se denota y define así.
σˆ Np S Nσˆ p S
Puede demostrarse que las expresiones que definen los limites inferior y superior de un intervalo de
confianza para p y son:
pS z σˆ p S y Np S z α/2
σˆ NpS respectivamente.
α/2
Si sustituimos ̂ p S o ̂ NpS por su correspondiente fórmula, según la población sea infinita o finita,
llegamos al siguiente resultado:
Supongamos que estamos ante una población con distribución de Bernoulli y que hemos
seleccionado una muestra suficientemente grande, esto es, n p 5 y n ( 1 – p ) 5
1) Un estimador por intervalo de confianza del ( 1 - )100 % para p esta dado así
pS ( 1 - pS )
pS z/2
n
donde zα/2 es un valor de la normal estándar que tiene a su derecha una área acumulad de
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite superior
( Ls ) es la suma señalada por las mismas expresiones.
pS ( 1 - pS ) N-n
pS z/2
n N -1
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
N-n
Si n 0.05 , podemos omitir el factor de corrección
N N -1
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así
pS ( 1 - pS ) N-n
Np S z/2 N
n N -1
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
N-n
Si n 0.05 , podemos omitir el factor de corrección
N N -1
Haciendo un razonamiento similar al utilizado para el tamaño de muestra para podemos concluir
que el error máximo permitido en la estimación de p es
E z/2 σˆ p S
Si sustituimos ̂ p S por su correspondiente fórmula, según la población sea infinita o finita y luego
resolvemos para n llegamos al siguiente resultado:
El tamaño de muestra requerido n para estimar p con un error máximo permitido E y un nivel de
confianza de ( 1 - ) 100% es
2
z/2
n p(1 p) donde p puede ser estimado con pS
E
2
z/2
n 0 p(1 p) donde p puede ser estimado con pS
E
no
Si 0.05, n0 puede ser reducida a
N
no N
n
no ( N - 1 )
Si no se cuenta con una estimación de p , utilizaremos en la fórmula anterior el valor de p que hace
máxima la expresión p ( 1 – p ), es decir tomaremos p = 0.50
EJEMPLO 1.14
i) Encuentre un intervalo de confianza del 99% para la proporción real de tarjetahabientes que
comprarían los domingos.
Como estamos interesados en los que están dispuestos a comprar, el éxito será “comprar”.esto es,
1 si compra
Y
0 si no compra
X 60
n = 100 tarjetahabientes, X = 60 tarjetahabientes y pS = = 0.60
n 100
la fórmula es
pS ( 1 - pS )
pS z α/2
n
El gerente seleccionó un elevado nivel de confianza del 99% en la estimación de p porque quiere
sentirse seguro antes de tomar esta importante decisión de comercialización.
0.60 (0.40))
0.60 2.58
100
0.4736 p 0.7264
ii) Identifique el valor del error máximo permitido en la estimación de la proporción real de
tarjetahabientes que comprarían los domingos del inciso i)
E = 0.1264
40
iii) Si el gerente quiere estimar la proporción real de tarjetahabientes que comprarían los
domingos con un 99% de confianza de tener una tolerancia de 0.025, ¿qué tamaño de muestra se
requiere?
2
n = p ( 1 – p ) z/2
E
Utilizando pS como una estimación de p y sustituyendo zα/2 y E por sus valores correspondientes
2
n = 0.60 (0.40 ) 2.58 = 0.24 (10650.24) = 2556.0576 2557 tarjetahabientes.
0.025
Observe que la muestra de tamaño 100 del inciso i) tiene el mismo nivel de confianza (99%), pero
tiene alrededor de 5 veces más error muestral que el permitido aquí al estimar la proporción
verdadera.
EJEMPLO 1.15
Suponga para el ejemplo 1.14 que la cadena de tiendas de departamentos cuenta con 10,000
poseedores de tarjetas de crédito.
i) Encuentre un intervalo de confianza del 95% para el total de tarjetahabientes que comprarían
los domingos.
pS ( 1 - pS ) N-n
Np S z/2 N
n N -1
n 100 N-n
Como = = 0.010 0.05 se puede omitir el factor
N 10000 N -1
0.60(0.40)
10,000 (0.60) 1.96 (10,000)
100
6000 1.96 (10,000) ( 0.049 )
6000 960.40 Li = 5039.60 y Ls = 6960.40
ii) Determine el tamaño de muestra necesario para estimar la proporción real de tarjetahabientes
que comprarían los domingos con un 95% de confianza de tener una tolerancia de 0.025.
2
no = p ( 1 – p ) z/2
E
Utilizando pS como una estimación de p y sustituyendo zα/2 y E por sus valores obtenemos
2
no = 0.60 (0.40 ) 1.96 = 0.24 (6146.56) = 1475.1744
0.025
1475.1744
Como n0
= = 0.1475 0.05 , n0 puede ser reducido a
N 10000
Consiste en dividir la población en subpoblaciones o estratos de manera de que cada estrato debe
presentar una pequeña variación en su interior con respecto a la característica de interés X que
estemos investigando, y entre los distintos estratos las diferencias sean las más grandes posibles.
Luego seleccionamos una submuestra de cada estrato utilizando muestreo aleatorio simple para
finalmente conformar la muestra aleatoria estratificada.
Los motivos principales para utilizar muestreo aleatorio estratificado en lugar de muestreo aleatorio
simple son los siguientes:
L
N = N.
i representa el tamaño de la población.
L
=
.
i representa el total poblacional
= representa la media poblacional.
N
L
n = n
.
i representa el tamaño de la muestra estratificada.
43
ni ni 2
Xij X ij Xi
1 1
Xi S
j 2 j
, i , N i Xi
ni ni - 1
que representan estimadores de i , i2 y i respectivamente.
POBLACION SUBMUESTRAS
N1 n1
N2 n2
. .
. .
. .
M.A.S Xi
Ni ni
Estrato i S i2
. . Ni Xi
. .
. .
NL nL
Fig. 1.10
1.4.1 ESTIMADOR DE Y
1 2 ... L
Como = =
N N
N1 X1 N 2 X 2 N L X L NX i i
1 L
X st =
N
= .
N
Luego Xst N i Xi
N .
L
l
N X st = N
N
N i Xi
.
L
NXst N i Xi
.
L
1
ˆ 2Xst 2 N i2 ˆ 2Xi
N .
1 L
Si2 n
σˆ Xst
N
Ni2
. ni
(1 i )
Ni
ni
Si la fracción muestral 0.05 para los estratos i = 1, 2, ... , L , podemos omitir el factor de
Ni
ni
correción (1 ) dentro del radical.
Ni
El error estándar estimado del total muestral estratificado N X st se denota y obtiene así.
1 L
Si2 n
σˆ NXst Nσˆ Xst o bien σ̂ NX st N
N
.
N i2
ni
(1 - i )
Ni
L
S i2 n
σˆ NX st .
N i2
ni
(1 - i )
Ni
1. Un estimador por intervalo de confianza del 95% para está dado por
E 2σˆ Xst
Si sustituimos X st y ̂ Xst por sus correspondientes fórmulas obtenemos otra manera equivalente de
expresar el intervalo
1 L 1 L
S i2 n
N .
N i Xi 2
N
N i2
ni
(1 - i )
Ni
donde el límite inferior (Li) es la diferencia señalada por las expresiones anteriores y el límite
superior (Ls) es la suma señalada por las mismas expresiones.
ni
Si la fracción muestral 0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
n
corrección (1 i ) dentro del radical.
Ni
2. Un estimador por intervalo de confianza del 95% para está dado así
E 2σˆ NXst
donde el límite inferior (Li) es la diferencia señalada por las expresiones anteriores y el límite
superior (Ls) es la suma señalada por las mismas expresiones.
ni
Si la fracción muestral 0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
n
corrección (1 i ) dentro del radical.
Ni
46
EJEMPLO 1.16
Una cadena de 3 almacenes está interesada en estimar el saldo promedio de sus cuentas por cobrar.
En los almacenes 1, 2, y 3 hay respectivamente 150, 200, y 250 cuentas por cobrar. Un
muestreo aleatorio estratificado con cada almacen como estrato le señala al gerente de la cadena que
debe tomar de los almacenes 1, 2, y 3 submuestras de tamaño 3, 4, y 5 respectivamente. Con
los resultados presentados en la siguiente tabla
Los elementos son las cuentas por cobrar, la característica de interés X representa el saldo y Xij es el
j-ésimo saldo observado en las cuentas correspondientes al almacen i. Teniendo presente esto
formemos la siguiente tabla
S i2
Almacen Ni ni Xi NXi S 2 N i2
i ni
1 150 3 4.5 675 1.0000 7500
2 200 4 7.5 1500 0.8333 8333
3 250 5 9.5 2375 5.3750 67187.5
600 4550 83020.5
1 L 4550
a) Xst N i Xi
N .
600
7.5833 (en miles de C$)
L
b) NXst N i Xi = 4550 (en miles de C$)
.
L
S i2 ni
c) E 2σˆ NXst = 2
.
N i2
ni
porque
Ni
0.05 para los estratos i = 1, 2, 3
EJEMPLO 1.17
Una empresa publicitaria esta interesada en estimar el número promedio de horas por semana que
los hogares de un determinado municipio dedican a ver la televisión.
El municipio comprende dos pueblos, pueblo A y pueblo B, y un área rural. En el pueblo A existen
155 hogares de los cuales la mayoría son de trabajadores fabriles con niños en edad escolar. El
pueblo B consta de 62 hogares con personas mayores que tienen pocos niños. En el área rural
existen 93 hogares. Suponga que la empresa decide realizar una encuesta por muestreo a 40
hogares, tomando 20 del pueblo A y 8 del pueblo B y 12 del área rural. Los resultados presentados
en la siguiente tabla corresponden a la media y la varianza de cada submuestra obtenida del pueblo
A, el pueblo B y el área rural.
ESTRATO Ni ni Xi Si2
(Pueblo A) 1 155 20 33.900 35.358
(Pueblo B) 2 62 8 25.125 232.411
(Area rural) 3 93 12 19.000 87.636
310 40
1.
a) Estime el número promedio de horas por semana que los hogares del municipio dedican a ver
televisión.
b) Estime el número total de horas por semana que los hogares del municipio dedican a ver
televisión.
c) Calcule el error muestral promedio para la estimación del inciso a) y b)
Los elementos son los hogares y X representa el número de horas por semana dedicados a ver T.V.
ni Si2 n
(1 ) N i2 (1 i )
ESTRATO Ni Xi Ni ni Ni
1 5254.50 0.871 36994.6776
2 1557.75 0.871 97267.6059
3 1767.00 0.871 55015.5365
8579.25 189,277.8200
1 L 1 L
a) Xst N i Xi = (8579.25) = 27.675 horas b) NXst N i Xi = 8579.25 horas
N . 310 .
1 L
Si2 n 1
c) σˆ X st
N
Ni2
. ni
(1 i ) =
Ni 310
189277.82 1.4034 horas
L
S i2 n
σˆ NX st
.
N i2
ni
(1 - i )
Ni
= 189277.82 = 435.0607 horas
48
2. Obtenga un intervalo de confianza del 95% para el número promedio de horas por semana
que los hogares del municipio dedican a ver televisión.
1 1
( 8579.2) 2 189277.82
310 310
27.675 2 ( 1.4034 )
Observe que cuando hay conocimiento de los valores de X st y ̂ Xst se puede llegar fácilmente al
resultado anterior mediante la sustitución directa de esos valores en la fórmula.
X st 2 ̂ Xst
3. Obtenga un intervalo de confianza del 95% para el número total de horas por semanas que
los hogares del municipio dedican a ver televisión.
Sustituyendo los resultados de la tabla anterior en la fórmula de un intervalo de confianza del 95%
para .
L L 2
2 Si n
i i
N X 2 i n ( 1 - Ni )
N
i i
8579.2 5 2 189277.82
8579.25 2 ( 435.0607 )
N X st 2 ̂ NX st
Continuando llegamos a que
8579.25 870.1214 Li = 7709.1286 horas y Ls = 9449.3714 horas.
Luego podemos decir con un 95% de confianza de que 7709.1286 9449.3714 horas.
49
Suponga que X st debe estar dentro de E unidades de la media poblacional con una probabilidad
aproximadamente igual a 0.95, esto es, que E represente el error máximo permitido.
Simbólicamente queremos
E2 1 L
Si2 n E2
Es decir que ̂ 2
Xst =
4
o bien
N2
N
ni
2
i (1 i )
Ni 4
De esta ecuación no podemos despejar n, a menos que sepamos algo acerca de la relación entre ni y
n. Hay muchas maneras para asignar un tamaño de muestra n a los diversos estratos.
donde ci representa el costo para obtener una observación individual del estrato i.
1 L
Si2 n E2
N2
N i2
ni
(1 i )
Ni 4
L L
N i S i / ci N S i ci
i
n
E
2 L
N 2 N i S i2
4
50
Asignación de Neyman.
En algunos problemas el costo por obtener información es el mismo para todos los estratos. Si los
costos son desconocidos, podríamos suponer que los costos por observación son iguales.
Si c1 = c2 = = cL = c, entonces los términos de costos en la fórmula de asignación de costo
mínimo se cancelan y queda así
N iSi
ni n L
N S i i
Observe también que la fórmula para el tamaño de muestra total n toma la forma
2
L
Ni Si
n
E 2
L
N 2 N i S i2
4
Asignación proporcional.
Además de encontrar costos iguales podemos suponer que las varianzas dentro de los estratos son
iguales, esto implica que, S12 = S22 = = S 2L = S2 En tal caso se cancelan las desviaciones
estándar en la fórmula de asignación Neyman y queda
Ni N
ni n n i
N
L
N i
También podemos comprobar que la fórmula para el tamaño de muestra total n toma la forma.
N S2
n donde S2 es la varianza común de cada estrato.
E2
N S2
4
51
EJEMPLO 1.18
La empresa publicitaria del ejemplo 1.17 encontró que cuesta más obtener una observación del área
rural que una del pueblo A o del pueblo B. El incremento es debido a los costos de traslado de un
hogar rural a otro. El costo por observación en cada pueblo se ha estimado en C$ 9 y los costos por
observación en el área rural se han estimado en C$ 16.
De una encuesta previa se estimó que las varianzas de las submuestras de los estratos 1, 2 y 3 son
S12 = 25, S 22 = 225 y S32 = 100 respectivamente.
ESTRATO Ni S i2 Si ci Ni Si / c i Ni Si ci Ni S i2
1 155 25 5 9 258.3333 2325 3875
2 62 225 15 9 310.0000 2790 13950
3 93 100 10 16 232.5000 3720 9300
310 800.8333 8,835 27,125
Como el costo de obtener una observación no es el mismo en todos los estratos y como las varianzas
tampoco son iguales tenemos que
3 3
N i Si / ci N i Si ci
E2
n donde N 2 310 2 (1) 96100
E2 3
4
N 2 NS i
2
i
4
porque N = 310 y E = 2
=
800.8333 ( 8835 )
(800.8333) (8835)
= 57.4182 58 hogares
96100 27125 123225
La asignación del tamaño de muestra a los tres estratos corresponderá a una asignación de costo
mínimo
N S / ci 258.3333
n1 n 3 1 1 = 58 =58(0.3226) = 18.7108 19 hogares
800.8333
N i Si / c i
310
n 2 58 = 58(0.3871) = 22.4518 22 hogares
800.8333
232.5
n 3 58 = 58(0.2903) = 16.8374 17 hogares
800.8333
52
EJEMPLO 1.19
Suponga que la firma publicitaria del ejemplo 1.18 decide utilizar entrevistas por teléfono en lugar
de entrevistas personales, porque todos los hogares en el municipio tienen teléfono y este método
reduce los costos. El costo de obtener una observación es entonces el mismo en los 3 estratos..
Las varianzas de las submuestras de los estratos 1, 2 y 3 son de nuevo aproximadas por S12 = 25,
S 22 = 225 y S32 = 100 respectivamente. Encuentre el tamaño de muestra n y los tamaños de
submuestras n1, n 2 y n 3 para los estratos 1, 2 y 3 respectivamente, que permiten a la empresa
estimar el tiempo promedio que se ve televisión con un error máximo permitido de 2 horas.
ESTRATO Ni S i2 Si Ni S i Ni S i2
1 155 25 5 775 3875
2 62 225 15 930 13950
3 93 100 10 930 9300
310 2635 27125
E2
Como N 310 2 (1) 96100
2
y el costo de obtener una observación es el mismo.
4
2
L
N i Si
2635 2 2635 2
n = = = 56.3459 57 hogares
E
2 L 96100 27125 123225
N
2
N i Si2
4
El tamaño de muesta obtenido en el inciso i) del ejemplo 1.18 es casi igual al de este ejemplo, pero
la asignación del tamaño de la muestra a los 3 estratos corresponde a una asignación de Neyman.
N 1S1 775
n1 n = 57 = 16.7647 17 hogares
2635
3
N S i i
930
n 2 57 = 20.1176 20 hogares
2635
930
n 3 57 = 20.1176 20 hogares
2635
Observe que para el área rural se toman ahora más hogares porque el costo se ha reducido.
53
EJEMPLO 1.20
La empresa publicitaria del ejemplo 1.18 considera ahora que las varianzas de los estratos son
iguales. El valor común S2 fue aproximado por 100 en un estudio preliminar. Se van a efectuar
entrevistas por teléfono, por lo que los costos serán iguales en todos los estratos.
La empresa desea estimar el número promedio de horas por semana que se ve la televisión en los
hogares del municipio, con un error máximo permitido de 2 horas. Encuentre el tamaño de muestra
y los tamaños de submuestras por estrato necesarios para lograr esta exactitud.
Como el costo de obtener una observación es el mismo en todos los estratos y las varianzas se
suponen iguales tenemos que
N S2 E2
n donde N 310(1) 310 porque N = 310, E = 2 y S2 = 100
E2 4
N S2
4
La asignación del tamaño de muestra a los tres estratos corresponderá a una asignación proporcional
N 155
n1 n 1 = 76 = 38 hogares
N 310
N 62
n2 n 2 = 76 = 15. 2 15 hogares
N 310
N 93
n3 n 3 = 76 = 22.8 23 hogares
N 310
54
1. A continuación se presenta una población de 5 cuentas por pagar de una empresa con sus
correspondientes montos en decena de miles de córdobas.
Cuenta Monto
C 3
D 3
E 7
F 10
G 14
2. Para la distribución muestral de X pedida por el inciso iii) del ejercicio 1, calcule X y X
y verifique que μ X μ
3. Para el ejercicio 1 tome todas las muestras posibles de tamaño 3 y construya la distribución
muestral de X representándola gráficamente.
5. Consideremos la población compuesta por 4 agentes de ventas con sus correspondientes gastos
de representación en cientos de córdobas de la semana pasada.
Representante Gasto
A 2
B 4
C 6
D 8
No. Cuenta 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
Monto
(en miles de C$) 1.5 2.3 1.0 1.8 1.9 2.0 3.5 1.5 2.4 1.2 1.8 4.5 3.0 2.1 3.5
1) Utilizando la fila 3 columna 4 como una entrada a la tabla de números aleatorios, seleccione
una muestra aleatoria de 4 cuentas señalándolas con un *
ii) Estime el monto promedio de las cuentas y el monto total de las cuentas utilizando la
muestra seleccionada en 1)
No. Super 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
Ventas diarias
(en miles de C$) 84 73 50 35 62 38 26 25 56 45 90 20 87 30 40
En el siguiente plano se presentan los módulos que componen el centro. Considere que cada
rectángulo es un módulo.
ii) Suponiendo que la encuesta reveló para el primer módulo seleccionado en el inciso i) la
existencia de 10 calculadoras, para el segundo módulo la existencia de 15 calculadoras, para el
tercer módulo 20 calculadoras y para el cuarto módulo 3 calculadoras.
9. Se desea investigar en un barrio la cantidad de niños en edad escolar con el fin de estudiar las
necesidades educativas a nivel primario (se piensa construir una escuela). Con tal fin se dispone del
siguiente mapa del barrio. Considere que cada rectángulo es una manzana y que en el parque, la
iglesia y el predio vacío no hay niños.
Parque
Iglesia
Predio
vacío
ii) Suponiendo que la encuesta reveló para la primera manzana seleccionada en el inciso i) la
existencia de 18 niños, para la segunda manzana la existencia de 21 niños, para la tercera
manzana la existencia de 27 niños y para la cuarta manzana la existencia de 10 niños.
10. Un auditor quiere investigar el total de páginas que tienen los documentos de una empresa.
En su poder hay 280 documentos numerados del 001 al 280.
ii) Suponiendo que los 20 documentos muestreados del inciso i) resultaron con un promedio
de13.4 páginas
Estime el número total de páginas en todos los documentos.
11. Suponga que los salarios mensuales de los trabajadores a destajo de una empresa tienen una
distribución normal y que además se sabe que la desviación estándar poblacional de los salarios es
de C$ 100. El jefe del departamento de personal selecciona al azar los expedientes de 16
trabajadores y encuentra que el salario mensual promedio es de C$ 2500
iii) Suponiendo que la empresa tiene 150 trabajadores a destajo, estime el salario mensual
promedio de los trabajadores de la empresa utilizando un intervalo de confianza del 90%.
12. Se desea estimar la venta promedio por cliente, en córdobas, de una tienda. Sobre la base de
datos de otras tiendas similares, se sabe que la desviación estándar poblacional de ese tipo de ventas
es de aproximadamente C$ 3200.
¿Qué tamaño de muestra se debe utilizar, como mínimo, si desea estimar la venta promedio con un
margen de error de C$ 1000 y una confianza del 99%?
13. Para una cadena de 250 tiendas suponga que se conoce por experiencias anteriores que la
desviación estándar poblacional de las ventas anuales por tienda para un producto determinado es de
200 miles de C$
Si una muestra aleatoria de 40 tiendas del año pasado nos informa que hubo una venta promedio de
C$ 3425 miles de C$
2) Si quiero estimar la venta promedio de las tiendas con un error de más o menos 30 mil C$
y con una confianza del 95%, ¿qué tamaño de muestra se requiere?
58
14. Se quiere estimar el consumo mensual promedio en córdobas de energía eléctrica por casa en el
mes de Diciembre. Con base en estudios efectuados en otras ciudades, se supone que la desviación
estándar poblacional de los consumos es de C$ 20. La estimación del consumo mensual promedio
se quiere hacer con una aproximación de C$ 3 del promedio real y con un 99% de confianza.
ii) Si la ciudad tuviera un total de 3000 casas, ¿qué tamaño de muestra se necesita?
15. Una empresa comercializadora de granos básicos está estudiando la posibilidad de comprar 1000
sacos de frijol. Con el fin de determinar el peso promedio de materias extrañas por saco y el peso
total de materias extrañas tomó una muestra aleatoria de 40 sacos obteniendo un promedio de 2.4 lbs
y una desviación estándar de 0.62 lbs de materias extrañas.
a) Obtenga un intervalo de confianza del 95% para el peso promedio de materias extrañas por
saco.
b) Obtenga un intervalo de confianza del 90% para el peso total de materias extrañas en los 1000
sacos.
c) Si se quiere estimar el peso promedio de las materias extrañas por saco con una confiabilidad
del 98% de que el error máximo permitido sea de 0.10 lbs, ¿Cuál debe ser el tamaño de la
muestra?
16. Una muestra aleatoria de 100 medidores de agua es controlada dentro de una comunidad para
estimar el consumo mensual promedio de agua por casa durante un período estacional seco. La
media muestral fue de 30.5 m3 y la desviación estándar muestral de 5m3. Si suponemos que hay
10,000 casas dentro de la comunidad.
i) Obtenga un intervalo de confianza del 98% para el consumo mensual promedio de agua por
casa.
ii) Estime el total de m3 de agua usado mensualmente durante el período seco, luego determine con
un 95% de confianza el error máximo permitido en esta estimación.
17. Como supervisor del proceso de empacado de café en sobres, suponga que se toma una muestra
aleatoria de 12 sobres de la planta empacadora, de la cual resulta un peso neto promedio por sobre
de 15.97 gramos y una desviación estándar del peso neto por sobre de 0.15 gramos. Suponiendo que
el peso neto del café por sobre tiene distribución normal:
i) Estime el peso neto promedio por sobre de café utilizando un intervalo de confianza del 95%.
ii) Identifique el valor del error máximo permitido con una confianza del 95% en la estimación del
peso neto promedio por sobre de café del inciso i)
ii) ¿Qué tamaño de muestra debo utilizar para tener una confianza del 95% de que el error máximo
tolerado sea de 0.04 gramos?
59
18. Para una muestra de 50 empresa tomadas de una industria determinada, se encuentra que el
número promedio de trabajadores por empresa es de 420.4, con una desviación estándar de 55.7.
Suponiendo que existe un total de 380 empresas en esa rama industrial.
i) Determine un intervalo de confianza del 90% para estimar el número total de trabajadores
empleados en esa industria.
ii) Identifique el valor del error muestral promedio en la estimación del número total de
trabajadores del inciso i)
19. Los ingresos del impuesto sobre ventas en una comunidad particular se recogen cada trimestre.
Los siguientes datos representan los ingresos (en miles de córdobas), cobrados durante el primer
trimestre en una muestra de 9 establecimientos de menudeo en la comunidad.
Suponiendo que los ingresos trimestrales del impuesto sobre ventas se distribuyen aproximadamente
normal.
a) Establezca un intervalo de confianza del 98% para el ingreso trimestral promedio del impuesto
sobre ventas de los establecimientos de menudeo.
c) Si quiero estimar el ingreso trimestral promedio del impuesto sobre ventas de los
establecimientos con una confianza del 95% de que el error máximo sea de C$ 1000.
¿ qué tamaño de muestra se requiere ?
20. Consideremos que cierta región del país cuenta con 500 establecimientos comerciales. Con el
fin de estimar el número promedio de empleados por establecimiento y el número total de
empleados, se seleccionó una muestra aleatoria simple de 20 establecimientos con los siguientes
números de empleados.
5 8 8 5 7 3 7 8 2 5
9 4 6 2 3 4 3 5 4 6
i) Encuentre un intervalo de confianza del 95% para el número promedio de empleados por
establecimiento.
ii) Encuentre un intervalo de confianza del 98% para el número total de empleados.
iii) Si quisiera estimar el número promedio de empleados por establecimiento con una confiabilidad
del 95% de que el error máximo permitido sea de 1 empleado, ¿cuál debe ser el tamaño de la
muestra?
60
21. Un auditor detecta que cierta empresa regularmente exagera las cantidades de dinero en dólares
de los inventarios, a causa de los retrasos en el registro de los retiros. El auditor quiere estimar la
cantidad total exagerada sobre 800 artículos listados, obteniendo las cantidades exactas (revisadas)
del inventario mediante una muestra aleatoria de 6 artículos, y comparando estas cifras exactas con
las cantidades registradas. Los datos en dólares para los artículos seleccionados se muestran en la
siguiente tabla.
Cantidad Cantidad
No. Artículo revisada registrada
1 175 210
2 295 305
3 68 91
4 74 82
5 128 140
6 241 250
22. Un auditor muestrea aleatoriamente 12 cuentas por cobrar de las 500 cuentas de una empresa.
El auditor lista el monto de cada cuenta y verifica si los documentos respectivos cumplen con los
procedimientos establecidos. Los datos son como sigue (cantidad en dólares, S = si, N = no ):
1 278 N
2 192 S
3 310 S
4 94 N
5 86 S
6 335 S
7 310 N
8 290 S
9 221 S
10 168 S
11 200 N
12 300 N
Suponiendo que los montos de las cuentas tienen una distribución aproximadamente normal.
1) Obtenga un intervalo de confianza del 95% para el monto total de las 500 cuentas de la empresa.
2) Obtenga un intervalo de confianza del 95% para la proporción de cuentas de la empresa que no
cumplen con los procedimientos establecidos.
61
23. Un auditor de una compañía mayorista de productos metálicos quiere estimar la proporción de
facturas para los clientes con errores en los precios. Una muestra aleatoria de 300 facturas de las
operaciones del mes anterior, indicó que 45 contenían errores en los precios.
i) Establezca un intervalo de confianza del 95% para la proporción real de facturas con errores en
los precios.
ii) Si en el mes anterior se expidieron 5000 facturas, establezcas un intervalo de confianza del 95%
para el total real de facturas con errores en los precios.
iii) Si el auditor desea un 95% de confianza de estar en lo correcto con aproximación de 2.5% del
porcentaje real de facturas con errores en los precios y si se supone según experiencia previa que el
porcentaje de facturas con errores es 10% ¿Qué tamaño de muestra necesita?
Establezca un intervalo de confianza del 99% para la proporción real de reclamaciones pagadas en
ese plazo de dos meses.
25. El gerente de una sucursal bancaria en una ciudad pequeña quiere determinar la proporción de
sus cuentahabientes a los cuales se les paga el interés por trimestre. Se selecciona una muestra
aleatoria de 100 cuentahabientes, en la cual 30 indican que se les paga por trimestre.
26. Una compañía de televisión por cable (Cablevisión) quiere estimar la proporción de sus
suscriptores que compararían su revista con la programación. La compañía quiere tener 95% de
confianza de que su estimación está correcta con aproximación de 0.05 de la proporción real. La
experiencia previa en otras áreas indica que el 30% de los suscriptores compararon la revista. ¿Qué
tamaño de muestra se necesita?
62
27. Una corporación desea estimar el número total de horas-hombre perdidas debido a accidentes de
los empleados en un mes determinado. Ya que los obreros, los técnicos y los administrativos tienen
diferentes tasas de accidentes, el investigador decide usar muestreo aleatorio estratificado con cada
grupo formando un estrato. Datos de años previos sugieren las varianzas, mostradas en la tabla
anexa, para el número de horas-hombre perdidas por empleado en los 3 grupos, y de datos actuales
se obtienen los tamaños de los estratos.
Estrato Ni Si2
Obreros 132 36
Técnicos 92 25
Administrativos 27 9
30
28. Una empresa desea estimar con la máxima precisión posible el monto promedio y total de sus
cuentas por cobrar, mediante una muestra aleatoria de 50 cuentas. Suponga por previa disposición
que las cuentas se van arreglando así: en el archivo 1 se guardan las cuentas que tienen un monto
inferior a 1000 dólares, en el archivo 2 las cuentas que tienen un monto entre 1000 y 2000 dólares,
en el archivo 3 se guardan las cuentas que tienen un monto superior a los 2000 dólares. El número
de cuentas guardadas en los archivos 1, 2 y 3 es respectivamente 250, 150 y 50.
1) Considerando por conveniencia administrativa que cada archivo es un estrato y que el costo del
muestreo es el mismo para los 3 archivos y que las desviaciones estándar de los montos de las
cuentas son iguales a 50 dólares para cada uno de los archivos, ¿cómo asignaría las 50 cuentas de la
muestra a los 3 archivos?
2) Suponiendo que para las submuestras de los archivos 1, 2 y 3 del inciso 1) se obtuvieron montos
promedios de 800, 1400 y 2600 dólares, establezca un intervalo de confianza del 95% para:
i) el monto promedio de las cuentas
ii) el monto total de las cuentas
63
29. Una región que comprende 800 granjas ganaderas se ha dividido en 5 estratos de acuerdo con el
área de cada una.
ESTRATOS No. granjas
1 300
2 200
3 160
4 100
5 40
800
1) Suponga que se planea seleccionar una muestra aleatoria estratificada de 40 granjas. Como no
tiene información previa respecto a las varianzas de los estratos, y como el costo del muestreo es el
mismo en cada estrato, decide aplicar asignación proporcional. ¿Qué tamaño tendrían las
submuestras de cada estrato?
2) Suponiendo que para las submuestras del inciso 1) se obtuvieron números promedios de
cabezas por granja en miles de 4, 6, 10, 13 y 15 para las submuestras de los estratos 1, 2, 3, 4 y 5
respectivamente y varianzas en miles2 de 1.20, 1.00, 0.90, 1.50 y 0.80 para las submuestras de los
estratos 1, 2, 3, 4 y 5 respectivamente.
i) Estime el número promedio de cabezas por granja en la región.
ii) Estime el total de cabezas en la región.
iii) Calcule el error muestral promedio para cada una de las estimaciónes de los incisos i) y ii)
iv) Establezca un intervalo de confianza del 95% para el total de cabezas en la región.
30. Un distribuidor de comestibles al mayoreo en una gran ciudad desea saber si la demanda es lo
bastante grande como para justificar la inclusión de un nuevo producto a sus existencias. Para tomar
la decisión, planea añadir este producto a una muestra de los almacenes a los que abastece para
estimar el promedio de las ventas mensuales. Él únicamente suministra a 4 grandes cadenas en la
ciudad. Así que, por conveniencia administrativa, decide usar muestreo aleatorio estratificado con
cada cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato 3
y 30 en el estrato 4. El distribuidor tiene suficiente tiempo y dinero para obtener datos sobre ventas
mensuales en 20 almacenes.
1) Dado que no tiene información previa respecto a las varianzas de los estratos, y como el costo
del muestreo es el mismo en cada estrato, decide aplicar la asignación proporcional. ¿Qué tamaño
tendrían las submuestras de cada estrato?
2) Suponga que el nuevo producto es introducido en cada submuestra del inciso 1) obteniendo
después de un mes ventas promedios en córdobas de 99, 100, 98 y 100 para las submuestras de los
estratos 1, 2, 3 y 4 respectivamente y varianzas en córdobas2 de 78.67, 55.60, 39.50 y 112.50 para
las submuestras de los estratos 1, 2, 3 y 4 respectivamente.
Obtenga un intervalo de confianza del 95% para la venta mensual promedio del nuevo producto.
3) Identifique el valor del error máximo permitido en la estimación de la venta mensual promedio
del nuevo producto del inciso 2)
64
31. Un investigador que desea estimar la venta anual promedio de 56 empresas ha decidido
estratificar la población según sus ventas anuales de la siguiente manera
Datos de años anteriores sugieren las varianzas, que muestra la tabla de arriba, para las ventas
anuales en miles de C$
1. Suponiendo que planea seleccionar una muestra aleatoria estratificada de 15 empresas, ¿qué
tamaño tendrán las submuestras de cada estrato al aplicar una asignación de Neyman?
2. Suponiendo que para las submuestras del inciso 1. se obtuvieron ventas promedios en miles de
C$ de 150, 300 y 400 para las submuestras de los estratos 1, 2 y 3 respectivamente.
i) Establezca un intervalo de confianza del 95% para la venta anual promedio de las empresas
ii) Estime la venta anual total de las empresas señalando el error máximo permitido en la
estimación.
iii) Si quiero estimar la venta anual promedio con un error máximo permitido de 1.1 miles de C$,
qué tamaño debe tener la muestra y las submuestras por estrato?
32. Un servicio forestal estatal está realizando un estudio de la gente que utiliza las instalaciones de
campamentos operados por el estado. El estado tiene 2 áreas para acampar, una localizada en las
montañas y otra localizada a lo largo de la costa. Las dos áreas para acampar forman
convenientemente 2 estratos, la localidad de la montaña como el estrato 1 tiene 120 sitios para
acampar y la localidad de la costa como el estrato 2 tiene 80 sitios para acampar.
Suponiendo que el servicio desea estimar el número promedio de personas por sitio dentro de los
campamentos con un error máximo tolerado de 1 persona y que los costos de muestreo son los
mismos en cada estrato, encuentre el tamaño de muestra y los tamaños de submuestras por estrato
necesarios considerando que:
33. Una corporación desea obtener información acerca de la efectividad de una máquina comercial.
Se va a entrevistar por teléfono a un número de jefes de división, para pedirles que califiquen la
maquinaria con base en una escala numérica. Las divisiones están localizadas en Norteamérica,
Europa y Asia, motivo por el cual, usaremos muestreo estratificado. La tabla siguiente proporciona
los costos en dólares por entrevista, varianzas aproximadas de las calificaciones y los tamaños de los
estratos que se han establecido.
Estrato Ni Si2 ci
Norteamérica 112 2.25 9
Europa 68 3.24 25
Asia 39 3.24 36
Si la corporación quiere estimar la calificación promedio con un error máximo permitido de 0.6325,
determine el tamaño de muestra requerido, y según la asignación apropiada, los tamaños de
submuestras por estrato.
66
OBJETIVOS
2.1. INTRODUCCION.
Se conoce como prueba de hipótesis a una rama de la Estadística inferencial que podría verse como
un procedimiento especial de toma de decisiones.
EJEMPLO 2.1.
Al juzgar a una persona por asesinato, se presume que el acusado es inocente, es decir no culpable,
hasta que se demuestre lo contrario, según la justicia conservadora.
La situación anterior implica que estamos en presencia de un problema de decisión a resolver que
tiene 2 hipótesis que definiremos así:
Inocente
Culpable
Dejarlo libre
Echarlo preso
Hipótesis estadística.
Le llamaremos hipótesis estadística a un supuesto que se hace acerca del valor de un parámetro de
una población o acerca de valores de parámetros que corresponden a distintas poblaciones.
67
EJEMPLO 2.2
Supongamos que cierta región del país cuenta con 200 plantaciones donde se cultiva maíz sin hacer
uso de ningún abono. Por muchos años el rendimiento promedio ha sido de 44 quintales por
manzana. El MAG está tratando de convencer a los agricultores de la aplicación de cierto
fertilizante, lo que significaría un mayor rendimiento promedio y por lo tanto un mejor beneficio
económico. A manera de prueba los agricultores usaron el fertilizante en 36 plantaciones
seleccionadas aleatoriamente, obteniéndose un rendimiento promedio de 47.30 quintales por
manzana y una desviación estándar de 6.60 quintales por manzana.
¿Debemos aplicar el fertilizante a un nivel de significación del 5%?
En este problema los elementos a estudiar son las plantaciones y la característica de interés X será
el rendimiento de las plantaciones en quintales por manzana. Estaremos interesados en suposiciones
que se hagan acerca de la media poblacional que representará el rendimiento promedio de las
plantaciones.
Observemos que estamos ante un problema de decisión con 2 hipótesis que definimos así:
= 44
44
No aplicar el fertilizante.
Aplicar el fertilizante.
Una prueba de hipótesis será un procedimiento en el cual una de las hipótesis que llamaremos nula
se probará contra otra hipótesis que llamaremos alterna, tomando como base la información
proporcionada por una muestra aleatoria, la cual nos permitirá poder rechazar o no rechazar la
hipótesis nula, con el fin de poder seleccionar la alternativa más adecuada.
Debido al gran parecido que tiene este procedimiento en la manera de razonar con el empleado en
un juicio, retomaremos el ejemplo 2.1 como una motivación al tema.
Inocente
Culpable
68
Naturalmente el error tipo I, motivo por el cual se quiere que la probabilidad de caer en este error I
sea mínima. Por tanto mantendremos la probabilidad de caer en este error I debajo de una frontera,
sin preocuparnos por la probabilidad de caer en el error II.
3. Antes de investigar al acusado las leyes tienen establecida la siguiente regla de decisión:
5. Finalmente con la evidencia ya valorada se aplica la regla de decisión que nos permitirá
seleccionar la alternativa más adecuada.
i) Si el jurado valora que hay suficiente evidencia para rechazar la hipótesis nula de inocencia
entonces estamos aceptando la hipótesis alterna de culpabilidad lo cual implica que debemos
seleccionar la alternativa de echarlo preso.
ii) Si el jurado valora que no hay suficiente evidencia para rechazar la hipótesis nula de inocencia
entonces “aceptamos” la hipótesis nula de inocencia, pero débilmente porque talvez la acusación fue
deficiente en la recolección de evidencias, lo cual implica seleccionar la alternativa de dejarlo
libre o bien no tomar ninguna alternativa y reanudar el jucio en otra ocación.
69
Para fines de estudio consideraremos la prueba de hipótesis dividida en los siguientes pasos:
Hipótesis nula.
La hipótesis nula será generalmente la que afirma en los problemas ausencia de efecto alguno para
determinadas acción o tratamiento y la denotaremos por Ho.
Como esta hipótesis es la que siempre debe especificarse en una forma más exacta, el signo =
siempre la acompañará.
Hipótesis alterna.
A cualquier hipótesis que diga lo contrario de la hipótesis nula, esto es que hay presencia del efecto
para la acción o tratamiento, la llamaremos hipótesis alterna y la denotaremos por H1.
Como esta hipótesis es generalmente especificada con menos exactitud, los signos , o la
acompañan.
Para el ejemplo 2.1 en que se juzga a una persona por asesinato, podemos ver el juzgar como la
acción y la culpabilidad como el efecto. Por tanto podemos escribir.
donde la hipótesis nula H0 está suponiendo ausencia de culpabilidad mientras que la hipótesis
alterna H1 supone presencia de culpabilidad.
Para el ejemplo 2.2 podemos ver la fertilización de las plantaciones como la acción y el aumento
de rendimiento promedio con respecto a 44 como el efecto. Por tanto podemos escribir.
H0 : = 44 A0 : No aplicar el fertilizante
H1 : 44 A1 : Aplicar el fertilizante
donde la hipótesis nula H0 está suponiendo que no hay aumento en el rendimiento promedio,
mientras que la hipótesis alterna H1 supone que hay aumento en el rendimiento promedio.
La aceptación de cada una de las hipótesis anteriores tendrá asociada una alternativa.
A la aceptación de H0 le corresponderá la alternativa A0 y a la aceptación de H1 le corresponderá la
alternativa A1
70
Tipos de pruebas.
De acuerdo a la forma en que pueden estructurarse las hipótesis tendremos:
1) Pruebas unilaterales.
Son aquellas en las cuales la presencia del efecto en la hipótesis alterna se traduce como un interés
por sólo las desviaciones hacia un lado con respecto a un valor supuesto 0 de
Note que la hipótesis nula puede también especificarse de una manera menos exacta como 0
o 0.
2) Pruebas bilaterales.
Son aquellas en las cuales la presencia del efecto en la hipótesis alterna se traduce como un interés
por las desviaciones tanto hacia la izquierda como hacia la derecha con respecto a un valor supuesto
0 de
H0 : = 0
H1 : 0
Para el ejemplo 2.2 observe que la prueba es de cola derecha porque sólo nos interesan los
aumentos en el rendimiento promedio con respecto a 44.
P ( error I )
71
P ( error II )
Cuando el tamaño de la muesta n es fijo, y varían inversamente, esto es, cuando nos alejamos
de un peligro aumentamos el otro. La prueba se llevará acabo controlando sin preocuparnos por .
Generalmente el error I es más grave que el error II, razón por la cual le daremos a un valor
pequeño, usualmente se toma
= 0.01 ó = 0.05 según el caso
En casos en que las consecuencias de cometer un error I son muy graves debemos tomar = 0.01
(ó un riesgo aún menor).
Si las consecuencias de cometer el error I no son tan graves podemos tomar = 0.05 ( ó un riesgo
aún mayor).
Altenativas Hipótesis
H0 : = 44 es V H1 : 44 es V
A0: No aplicar el fertilizante Correcta Error II
A1: Aplicar el fertilizante Error I Correcta
P ( error I ) 0.05
Como las hipótesis son suposiciones acerca de , el estadístico de prueba que utilizaremos será la
media muestral X pero estandarizada, esto es, la diferencia X - 0 expresada en unidades del error
estándar de X , lo cual expresamos así
X
X
que puede ser igual al estadístico Z o t según la tabla que presentamos abajo.
DISTRIBUCION DE LA POBLACION
Tamaño Normal No Normal
de
muestra n conocido desconocido conocido desconocido
n 30 Z t
n 30 Z Z Z Z
Esto significa que el valor del estadístico de prueba Z o t se obtendrá de una muestra de tamaño n y
representará en una prueba de hipótesis una diferencia que puede ser considerada
significativamente distinta de cero o no significativamente distinta de cero.
¿Pero cómo sabremos si esta diferencia Z o t es significativamente distinta de cero o no?
Por el momento diremos simplemente si Z o t está suficientemente alejada de cero.
Estableceremos un valor de referencia o valor crítico que dependerá del tipo de prueba y del nivel
de significación
Esto quiere decir que Z o t está suficientemente “alejado” de cero si cae a la derecha de z o t
según se observa en la figura de abajo
Z o t
0 z
t
NR R
Figura 2.2
Como decir que Z es significativamente distinto de cero es equivalente a decir que rechazamos H 0
Z z o t t
Z o t
-z 0
-t
R NR
Figura 2.1
74
Z - z o t - t
Para cada nivel de significación que nos fijemos en una prueba de una cola existirá un valor
crítico que dividirá el rango de Z o t en dos regiones disjuntas, una región de no rechazo o
“aceptación” y otra de rechazo.
α α
2 2 2
Z o t
- z/2 0 z/2
- t/2 t/2
R NR R
Fig. 2.3
Para cada nivel de significación que nos fijemos en una prueba de dos colas existirán 2 valores
críticos que dividirán el rango de Z o t en tres regiones disjuntas, una región de no rechazo o
“aceptación” y dos regiones de rechazo.
Reglas de decisión
Tipo de Estadístico Z Estadístico t
Prueba según H1 Rechazo H0 si Rechazo H0 si
Cola derecha 0 Z z t t
Cola izquierda 0 Z - z t - t
Dos colas 0 Z - z/2 o Z z/2 t - t /2 o t t /2
En caso contrario diremos que no podemos rechazamos H0 ,es decir, “aceptamos” H0.
Cuando H0 sea rechazada a un nivel = 0.01 diremos que el resultado fue altamente significativo.
76
X
Z =
ˆ X
Los valores más cercanos a 0.95 son 0.9495 y 0.9505. Tomaremos 0.9505 al cual le corresponde
z = 1.65
Es decir que Z es significativamente distinto de cero si cae a la derecha de 1.65 según se observa en
la figura de abajo
0.05
Z
0 1.65
NR R
Fig. 2.4
X
que puede ser igual a Z o t
X
X S N - n 6.60 200 - 36
Z = donde ̂ X = = = 0.9986
ˆ X n N -1 36 199
47.30 - 44 3.30
Así que Z = = = 3.3046
0.9986 0.9986
Ahora estamos listos para aplicar la regla de decisión que nos permitirá seleccionar la alternativa
más adecuada.
Si el valor del estadístico de prueba Z o t cae en la región de rechazo entonces diremos que
rechazamos H0 a un nivel , esto es, que aceptamos H1
Luego debemos seleccionar la alternativa correspondiente a la aceptación de H1 que es A1 con un
nivel de confianza del ( 1 - ) 100%.
EJEMPLO 2.3
Suponga que se tiene un proceso de producción de llenado de cajas de cereal del cual se supone que
el peso neto de cereal en las cajas tiene una distribución normal, y que además, proporciona un peso
neto promedio de cereal en las cajas de 2 libras.
Puesto que este proceso está sujeto a inspecciones periódicas por representantes de la Oficina local
de protección a los consumidores, quienes únicamente les interesa la “falta de peso” en los
productos, se tomó una muestra aleatoria de 6 cajas obteniendo los siguientes pesos netos en libras.
¿Existe evidencia suficiente para decir que el proceso no está funcionando correctamente a un nivel
de significación del 1%?
donde H0 : = 2 está suponiendo que no hay disminución del peso neto promedio con respecto a
las 2 lbs mientras que la hipótesis alterna H1 : 2 supone que hay disminución del peso neto
promedio con respecto a las 2 lbs.
Observe que la prueba es de cola izquierda porque sólo nos interesan las disminuciones en el peso
neto promedio con respecto a 2.
Altenativas Hipótesis
H0: = 2 es V H1: 2 es V
El proceso está funcionando correctamente. Correcto Error II
El proceso no está funcionando correctamente. Error I Correcto
donde el error I consiste en decir que el proceso no está funcionando correctamente cuando en
realidad el proceso está llenando las cajas con un peso neto promedio de 2 lbs.
Controlaremos el error I suponiendo que
X
t =
ˆ X
Es decir que t es significativamente distinto de cero si cae a la izquierda de - 3.365 según se observa
en la figura de abajo
0.01
- 3.365 0 t
R NR
Fig. 2.5
Xi Xi 2
1.85 3.4225
2.10 4.4100
1.95 3.8025
1.83 3.3489
2.18 4.7524
1.97 3.8809
11.88 23.6172
X
Xi
11.88
1.98 lbs.
n 6
Xi 2 11.88 2
Xi 2
-
n
23.6172 -
6
S2
n -1 5
0.0948
S2 0.01896 S 0.01896 0.1377 lbs
5
Como t cae en la región de no rechazo diremos que no hay suficiente evidencia para rechazar H0 :
= 2 , es decir, “aceptamos” H0 : = 2. Luego debemos seleccionar la alternativa que dice que
el proceso de producción está funcionando correctamente.
81
EJEMPLO 2.4.
Suponga que una empresa tiene una cantidad muy grande de cuentas por cobrar y que los saldos de
esas cuentas tienen aproximadamente una distribución normal.
En los libros de la empresa aparece registrado un saldo promedio para esas cuentas de C$ 25850.
Un auditor con el fin de reducir la cantidad de revisión detallada que necesita utiliza muestreo
estadístico para seleccionar una muestra de 100 cuentas, obteniendo un saldo promedio de C$
27,550 y una desviación estándar de los saldos de C$ 1200.
¿Deberá el auditor concluir que el saldo es distinto a C$ 25850 y que, por lo tanto, debe hacer un
asiento de ajuste al valor en libros a un nivel de significación del 2%?
En este problema los elementos a estudiar son las cuentas y la característica de interés X será el
saldo de las cuentas. Será de interés hacer suposiciones acerca de la media poblacional que
representará el saldo promedio de las cuentas.
Podemos ver la revisión de los saldos de las cuentas por cobrar como la acción y la diferencia del
saldo promedio con respecto a C$ 25850 como el efecto.
donde H0 : = 25850 está suponiendo que no hay diferencia en el saldo promedio con respecto a
C$ 25850 mientras que la hipótesis alterna H1 : 25850 supone que hay diferencia en el saldo
promedio con respecto a C$ 25850.
Observe que la prueba es de dos colas porque nos interesan tanto las diferencias del saldo promedio
hacia la izquierda de C$ 25850 como hacia la derecha de C$ 25850.
82
Altenativas Hipótesis
H0: = 25850 es V H1: 25850 es V
No hacer asiento de ajuste Correcta Error II
Hacer asiento de ajuste Error I Correcta
donde Error I se da cuando hacemos un asiento de ajuste en libros cuando en realidad el saldo
promedio de las cuentas es igual a C$ 25850.
X
Z =
ˆ X
Como la prueba es de dos colas quedará repartido en las dos colas así
= 0.02 = 0.01
Los valores críticos -z/2 y z/2 se determinan respectivamente de P( Z < -z/2 ) = = 0.01 y de
2
P( Z > z /2 ) = = 0.01 , pero como la tabla de la distribución de Z sólo proporciona valores de z
2
que tienen a su izquierda el área acumulada que señala dicha tabla, podemos determinar primero el
valor negativo -z/2 de P( Z < -z/2 ) = = 0.01, o bien podemos determinar primero el valor
2
positivo. Una vez determinado el primero, el segundo será, según la propiedad de simetría, el
opuesto.
Determinemos primero el valor negativo - z α 2 encontrando el área más cercana a 0.01, que es
0.0099, a la cual le corresponde - z α 2 = - 2.33. El otro valor crítico será el opuesto del anterior,
esto es, z α 2 = 2.33
83
0.01 0.01
Z
- 2.33 0 2.33
R NR R
Fig. 2.6
X = C$ 27550
S = C$ 1200
Como la población se considera muy grande el valor del estadístico de prueba es:
Como el valor de Z cae en la región de rechazo diremos que hay suficiente evidencia para rechazar
H0 : = 25850 a un nivel de significación = 0.02, lo cual implica que estamos aceptando H1 :
25850.
μY p y σY p (1 - p)
Como las hipótesis serán suposiciones acerca de p, el estadístico de prueba será naturalmente la
proporción muestral pS pero estandarizada, esto es, la diferencia pS - p0 expresada en unidades del
error estándar de pS
pS - p 0
, p0 es el valor supuesto de p
ˆ p S
ˆ Y p0 (1 - p0 )
donde ˆ pS = si la población es infinita
n n
ˆ Y N-n p0 (1 - p0 ) N-n
o ˆ pS = si la población es finita.
n N -1 n N -1
Esto significa que el valor del estadístico de prueba Z se obtendrá de una muestra de tamaño n y
representará también una diferencia que puede ser significativa o no significativa.
EJEMPLO 2.5.
¿Tiene suficiente evidencia el gerente para concluir a un nivel de significación del 5% que el nuevo
sistema es mejor que el anterior, esto es, que la proporción de envases defectuosos ha descendido?
85
En este problema los elementos a estudiar son los envases plásticos y la característica de interés Y es
la seguridad que ofrece el envase en cuanto a si cumple o no cumple los estándares de sellado.
Como estamos interesados en los envases defectuosos el éxito será que no cumplen.
Por tanto estamos en presencia de una población de Bernoulli de la cual nos interesan las
suposiciones acerca de la proporción p de envases que no cumplen los estándares de sellado.
Podemos ver el proceso de producción de llenado de los envases plásticos como la acción y el
descenso de la proporción de envases defectuosos con respecto a 0.04 como el efecto.
donde H0 : p 0.04 está suponiendo que no hay descenso en la proporción de envases que no
cumplen con respecto a 0.04 mientras que la hipótesis alterna H1 supone que hay descenso en la
proporción de envases que no cumplen.
Observe que la prueba es de cola izquierda porque sólo nos interesan los descensos de la
proporción de envases que no cumplen con respecto a 0.04.
Alternativas Hipótesis
H0: p 0.04 es V H1: p 0.04 es V
El nuevo sistema no es mejor Correcta Error II
El nuevo sistema es mejor Error I Correcta
donde el error I consiste en decir que el nuevo sistema es mejor cuando en realidad no hay
descenso en la proporción de envases que no cumplen.
pS - p 0
Z =
ˆ p S
Es decir que z es significativamente distinto de cero si cae a la izquierda de - 1.64 según se observa
en la figura de abajo
0.05
- 1.64 0 Z
R NR
Fig. 2.7
Por tanto la regla de decisión dirá lo siguiente:
X 10
pS = = = 0.025
n 400
EJEMPLO 2.6.
Una empresa tiene 1500 cuentas por cobrar.
En los libros de la empresa aparece registrado que sólo el 2% de los documentos no satisfacen los
requisitos establecidos.
Un auditor selecciona una muestra aleatoria de 300 y verifica que 12 no satisfacen los requisitos
establecidos.
¿Hay evidencia suficiente para que el auditor declare a un nivel de significación del 1% que más del
2% de las cuentas no satisfacen los requisitos establecidos por la institución?
1. FORMULACION DE LA HIPOTESIS.
Ahora los elementos a estudiar son las cuentas por cobrar y la característica de interés Y es la
verificación de las cuentas en cuanto a si satisfacen o no satisfacen los requisitos. Por lo tanto hay
una población de Bernoulli de la cual nos interesan las suposiciones acerca de la proporción p de
cuentas que no satisfacen los requisitos establecidos.
Podemos ver la verificación de las cuentas como la acción y son más del 2% la proporción de
cuentas que no satisfacen los requisitos como el efecto.
donde H0 : p = 0.02 está suponiendo que no son más del 2% la proporción de cuentas que no
satisfacen los requisitos, mientras que la hipótesis alterna H1 : p 0.02 supone que son más del 2%
la proporción de cuentas que no satisfacen los requisitos.
Observemos que la prueba es de cola derecha porque sólo nos interesa si son más del 2% la
proporción de cuentas que no satisfacen los requisitos.
Alternativas Hipótesis
H0: p = 0.02 es V H1: p 0.02 es V
El 2% de las cuentas no satisfacen. Correcta Error II
Más del 2% de las cuentas no satisfacen. Error I Correcta
donde Error I consiste en declarar que más del 2% de las cuentas no satisfacen los requisistos
cuando en realidad sólo el 2% de las cuentas no satisfacen los requisitos.
pS - p 0
Z =
ˆ p S
Es decir que Z es significativamente distinto de cero si cae a la derecha de 2.33 según se observa en
la figura de abajo
0.01
Z
0 2.33
NR R
Fig. 2.8
X 12
pS = = = 0.04
n 300
pS - p 0 pS - p 0
Z = =
ˆ p S
p0 (1- p0 ) N - n
n N -1
n 300
Porque la población es finita con = = 0.20 0.05
N 1500
Así que
Como Z cae en la región de rechazo diremos que hay suficiente evidencia para rechazar H0 : p =
0.02 a un nivel de significación = 0.01, lo cual implica que aceptamos H1 : p 0.02
Luego el auditor debe declarar que más del 2% de las cuentas no satisfacen los requisitos
institucionales.
90
17.4, 18.9, 39.6, 34.4, 19.6, 33.7, 37.2, 27.5, 41.7, 24.1
¿Ha disminuido la captura promedio de langosta por trampa a un nivel de significación del 1%?
2. El rendimiento promedio de maíz en las plantaciones hace un tiempo era de 50qq. por manzana
con una desviación estándar de 4qq. Se utilizó un nuevo fertilizante a un grupo de 52 plantaciones
seleccionadas al azar obteniendo un rendimiento promedio de 55qq. por manzana. Suponiendo que
la desviación estándar de los rendimientos con el nuevo fertilizante sigue siendo la misma, ¿ Se
puede afirmar que ha habido un incremento significativo en el rendimiento? Use un nivel de
significación del 5%.
3. Suponga que se tiene un proceso de producción de llenado de cajas de pasas del cual se supone
que el peso neto de las pasas en las cajas tiene una distribución aproximadamente normal, y que
además, proporciona un peso neto promedio de pasas por caja de 15 onzas.
Debido a que ha habido quejas de consumidores que dicen que las cajas contienen un peso neto
menor que el anunciado por la etiqueta del producto, se tomó una muestra aleatoria de 20 cajas para
aclarar el asunto obteniéndose un peso neto promedio de 13.5 onzas y una desviación estándar de 1
onza.
¿Podemos decir a un nivel de significación del 1% que el reclamo de los consumidores es justo ?
4. Un vendedor de neumáticos está interesado en comprar unidades cuya duración promedio sea
mayor de 15,000 millas. Una firma productora le informa que posee neumáticos que cumplen con
ese requisito. El vendedor selecciona una muestra aleatoria de 25 unidades y determine que:
5. Un fabricante vende ejes traseros de camiones. Los ejes han de soportar una capacidad
promedio de resistencia de 80,000 lbs por plg2 en las pruebas de esfuerzo, pero los ejes demasiados
fuertes elevan considerablemente los costos de producción. La experiencia indica que la desviación
estándar de los ejes es de 4,000 lbs por plg2. El fabricante selecciona una muestra de 100 ejes en la
última serie de producción, los somete a prueba y averigua que la capacidad promedio de resistencia
de la muestra es de 79,000 lbs por plg2.
¿Puede decir el fabricante que los ejes no cumplen los requisitos de esfuerzo a un nivel de
significación del 5%?
91
6. Un laboratorio lanza al mercado un nuevo producto logrado a base de hormonas afirmando que
al ser suministrado a las aves de corral el peso promedio de sus huevos será igual o mayor que 3
onzas. En una de nuestras granjas avícolas se aplicó el tratamiento masivamente y un día
determinado se tomaron de forma aleatoria 80 huevos, y se comprobó que el peso promedio de los
mismos era de 2.9 onzas, con una desviación estándar de 0.2 onzas. ¿Podría decir usted que la
afirmación del laboratorio no es cierta a un nivel de significación del 5%?
7. La biblioteca de una universidad sospecha que el número promedio de libros prestados a cada
alumno por visita ha cambiado en los últimos años. Anteriormente, un promedio de 3.4 litros se
prestaba a los alumnos. Sin embargo, una muestra reciente de 23 estudiantes dio un promedio de 4.3
libros por visita, con una desviación estándar de 1.5 libros.
Suponiendo que el número de libros prestados sigue una distribución normal
¿Ha cambiado el promedio de libros prestados? En un nivel de significación de 0.01.
8. Una tienda ha iniciado una promoción especial para su horno de gas propano y piensa que la
promoción deberá culminar en un cambio de precios. Sabe desde antes de comenzar la promoción
que el precio de menudeo de los hornos sigue una distribución normal y que el precio promedio de
menudeo de los hornos era de C$ 419.50, con una desviación estándar (conocida) de C$53.60. La
tienda muestrea 16 de sus detallistas una vez iniciada su promoción y descubre que el precio
promedio al menudeo de los hornos es de C$ 389.50. En un nivel de significación de 0.02. ¿ tiene
motivos para pensar que el precio promedio al menudeo ha disminuido?
9 Un proceso industrial usado por una fábrica durante algunos años da una producción promedio
de 100 unidades por hora con una desviación estándar de 8 unidades. Acaba de ponerse en el
mercado una nueva máquina para producir el mismo producto. Aunque es muy costosa comparada
con la que se usa actualmente, su adopción sería muy lucrativa , si su producción promedio fuera
mayor de 150 unidades por hora. La gerencia de la fábrica compra una de las nuevas máquinas
como un experimento y la prueba durante 35 horas encontrando una producción promedio de 160
unidades por hora.
Suponiendo que la desviación estándar de la producción para la nueva máquina es idéntica a la de
las antiguas, ¿ deberá ser adquirida la nueva máquina a un nivel de significación del 1% ?
10. Un nuevo sistema de enseñanza de cierto curso de Estadísticas asegura que proporciona un
rendimiento promedio de 75 puntos. En una muestra aleatoria de 10 estudiantes se comprobó que
sus calificaciones fueron:
70, 80, 75, 55, 65, 85, 90, 60, 75, 55.
Suponiendo que la distribución de las calificaciones es normal, ¿Podemos decir que el nuevo
sistema no alcanza el rendimiento promedio que asegura? Use un nivel de significación del 5%.
11. El gerente de una compañía financiera se queja de que el 7% de los pagos parciales de
préstamos hechos a consumidores no se cubren a tiempo. ¿Podríamos afirmar que esta cifra es
diferente, si 80 de 1500 pagos de préstamos no se hacen a tiempo? Utilice un nivel de significación
del 1%?
92
12. Un corredor de bolsas sostiene que puede predecir con un 85% de exactitud si una acción del
mercado bursátil cambiará de valor durante el próximo mes. A manera de prueba predice el
resultado de 60 acciones y acierta en 45 de sus pronósticos. ¿Ofrecen los datos evidencia
concluyente, cuando el nivel de significación es del 2%, de qué la exactitud de su predicción es
significativamente diferente al 85% afirmado por el corredor?.
13. ENEL utiliza decenas de miles de luminarias cada año. La marca que ha utilizado hasta ahora
tiene una vida promedio de 1,000 horas con una desviación estándar (conocida) de 90 horas. Se le
ofrece una nueva marca al director de ENEL a un precio mucho más bajo que el que ha estado
pagando. El director decide que se debiera comprar la nueva marca ahora a menos que tengan una
vida promedio menor de 1,000 horas en un nivel de significación de 0.05. Se prueba 100 luminarias
de la nueva marca, que dan promedio de 990 horas. Suponiendo que la desviación estándar para la
nueva marca es la misma que la vieja. ¿ Cuál sería la decisión del director de ENEL?.
14. Una empresa de camiones de carga sospecha que la duración promedio de 25,000 Kms que se le
adjudica a ciertos neumáticos es demasiado larga. Para demostrar la afirmación la empresa coloca
una muestra tomada al azar de 35 neumáticos en sus camiones y descubre después que su duración
promedio es de 24410 Kms y la desviación estándar es de 1348 Kms. ¿Se podría concluir a un nivel
de significación de 0.01 que la duración promedio no es tan larga como se afirma?
15. Una persona que planea abrir un restaurante cerca de una zona residencial de cierta ciudad,
informa al banco al que desea pedir el capital necesario, que por lo menos el 50% de los residentes
en ese distrito patrocinarán su restaurante esporádicamente cuando este abierto. Suponga que Ud. Es
el encargado de préstamos del banco y desea verificar si lo que dice la persona no es cierto con un
nivel de significación del 5%. Además suponga que de una muestra aleatoria de 50 residentes de
ese distrito solamente el 44% indicaron su intención de patrocinar el restaurante propuesto.
b) Suponga que la muestra ha sido de 200 en lugar de 50, y que la proporción muestral fuera aún
de 0.44, ¿ Sería diferente su conclusión ?
16. Un fabricante de salsa de tomate está a punto de decidir si producir una marca nueva de mucho
condimento. El departamento de investigación de la fabrica aplicó una encuesta telefónica a nivel
nacional a 6,000 familias y averiguó que la salsa sería comprada por 335 de ellas. Un estudio mucho
más exhaustivo hecho dos años antes reveló que el 5% de las familias comprarían la marca. En un
nivel de significación de 1% ¿ Debería la compañía concluir que hay un mayor interés en el sabor
tan condimentado?
17. La experiencia de un comerciante en aparatos y accesorios mostró que el 10% de clientes que
compran a plazos liquidan sus cuentas antes del vencimiento de la última mensualidad. Al sospechar
un incremento en este porcentaje, el comerciante muestreó 200 compradores a crédito para saber sus
intenciones, 33 de ellos afirmaron tener planeado pagar sus deudas antes de la última mensualidad.
¿Son los datos suficientes para indicar que el porcentaje de compradores a plazos que pagarán sus
deudas antes de la última mensualidad excede de 10% ?. Haga la prueba con un nivel de
significación de 0.02.
93
18. El departamento de personal de una empresa quiere estimar los gastos médicos promedios por
familia de sus empleados, a fin de determinar un plan de seguro médico. Una muestra aleatoria de
10 empleados mostró los gastos médicos familiares siguientes en un año:
Suponiendo que los gastos médicos por familia siguen una distribución normal
A un nivel de significación de 0.10. ¿ Podría concluir el gerente de personal que los gastos médicos
promedios por familia de todos los empleados es distinto a $200.
19. El departamento de servicio a cliente de una empresa local de servicios públicos telefónicos
quiere estimar el tiempo promedio entre la llegada de la solicitud de servicio y la conexión del
mismo. De los registros disponibles del año anterior se seleccionó una muestra aleatoria de 15 casos.
Los resultados en días fueron los siguientes:
20. Un fabricante de televisores anuncia que el 90% de sus aparatos no necesitan ninguna
reparación durante los dos primeros años de uso. La oficina de protección al consumidor selecciona
una muestra de 100 aparatos y encuentra que 14 necesitan alguna reparación durante los dos
primeros años de uso. A un nivel de significación de 0.05. ¿a qué conclusión puede llegar la oficina
de protección al consumidor?
21. El editor de una revista encontró basándose en su experiencia que el 60% de sus suscriptores
renuevan sus suscripciones. Como la compañía se encaminaba a una recesión en sus negocios,
decidió seleccionar una muestra de clientes para determinar si planeaban renovar sus suscripciones.
108 personas de una muestra de 200 indicadores que si pensaban renovarlas. ¿Proporcionan los
datos suficiente evidencia para detectar una reducción en la proporción de los suscriptores que si
renovarán? Realice la prueba usando un nivel de significación del 5%.
22. Aproximadamente uno de cada diez consumidores de una región determinada prefieren el
refresco de cola marca A. Después de una campaña de promoción en esa región, se seleccionó
aleatoriamente 200 consumidores de ese producto resultando que 26 expresaron su preferencia por
el refresco de cola marca A. ¿ Hubo aumento en la preferencia del refresco de cola marca A en la
región a un nivel de significación del 10% ?
23. Un fabricante de azúcar que la empaca en bolsas de plástico dice que cuando el proceso está
bajo control cada bolsa debe contener 10 onzas como promedio. Periódicamente se toma una
muestra de 9 bolsas para comprobar el proceso. Se acaba de tomar una muestra aleatoria de 9 bolsas
y se encontró que el peso promedio es de 10.3 onzas con una desviación estándar de 0.45 onzas.
Suponiendo que los pesos de las bolsas de azúcar siguen una distribución normal, ¿ podrá decirse
que el proceso está fuera de control a un nivel de significación del 2%?
94
3.1. INTRODUCCION
El propósito fundamental del análisis de regresión es estimar la relación que puede existir entre dos
o más variables, con el fin de que la media de una variable pueda ser estimada o predicha a partir de
valores conocidos o fijados de la otra u otras.
1. Un economista puede está interesado en estudiar la relación entre las siguientes variables.
En este tema sólo estudiaremos la relación entre 2 variables, motivo por el cual al análisis de
regresión se le llama simple.
95
Y Línea de regresión
Yi 4300 poblacional
e i 500
μ Yi 3800
e i 300
Yi 3500
0 x i 4000 X
Fig. 3.1
A la línea que pasa por las medias de Y la llamaremos línea de regresión poblacional
Por ejemplo, supongamos que las características de interés en las familias de una comunidad están
dadas por las siguientes variables:
X representa el ingreso mensual y Y representa el consumo mensual.
Si xi representa el i-ésimo valor que toma X y Yi la i-ésima observación de Y, entonces podemos
decir que para un nivel de ingreso xi = C$ 4000 hay una subpoblación en la cual podemos suponer
que Yi tiene una distribución normal con un consumo promedio dado por μ Yi | x i C$3800
Supongamos que para el nivel xi = C$ 4000 se selecciona al azar una familia y se registra la
observación Yi = C$ 4300
Supongamos ahora que para el nivel xi = C$ 4000 se selecciona al azar una familia y se registra la
observación Yi = C$ 3500
En la figura 3.1 pueden apreciarse estas observaciones y toda la población de observaciones con la
línea de regresión poblacional pasando sobre las medias de Yi.
96
Y Línea de regresión
poblacional
Yi
εi
β1
μY
i
1
β0
β 0 β 1x i
0 xi X
Fig. 3.2
o + 1 xi
ii) Un término aleatorio o error aleatorio, no explicado por X, que denotaremos por
ei
y que se verá como una variable aleatoria sustituta de todas las demás variables omitidas en el
modelo y que pueden estar relacionadas con Y.
Esta componente ei es la que le imparte aleatoriedad a Yi
Este supuesto implica que también Yi es una variable aleatoria con distribución normal.
Esto quiere decir que cada observación particular yi se considerará que proviene de una distribución
normal de Yi.
Su presencia simplificará la teoría del análisis de regresión cuando estemos utilizando
procedimientos de estimación y prueba más adelante.
Este supuesto plantea que para dos observaciones diferentes i y j los errores ei y ej , además de estar
distribuidos normalmente, no están correlacionados. La anterior implica que ei y ej son
independientes.
Como consecuencia de este supuesto podemos decir que también las observaciones Yi y Yj son
independientes, esto es, que cada observación es independiente de cualquier otra observación que se
haya dado.
μe i | x i 0 μ Yi | x i β 0 β1x i
Este supuesto plantea que aquellas variables que no están incluidas en el modelo, incorporadas, por
tanto, en ei , no afectan sistemáticamente la media de Yi.
En otras palabras, los valores positivos de ei se cancelan con los valores negativos de tal manera que
su efecto sobre la media de Yi es cero.
En las figuras 3.1 y 3.2 puede apreciarse una población de observaciones y una línea de regresión
poblacional neutralizando los errores aleatorios ei , esto es, pasando sobre las medias de Yi
98
Observe que las medias de Y están relacionados linealmente con los valores conocidos de X.
Al gráfico de esta función le llamaremos línea de regresión poblacional.
β0 Yi
μY 1
β1
i
0
X
xi
Fig.3.3
σe2i | x i σ2 σ 2Yi | x i σ 2
99
La expresión σe2i | x i se leerá, la varianza de ei cuando que X toma el valor xi y la expresión σ2Yi | x i
se leerá la varianza de Yi cuando que X toma el valor xi
En este supuesto observe que σ
2
no tiene el subíndice i, lo cual significa que σ e2i para cada xi es
una constante igual a σ , lo cual implica que σ Yi para cada xi es también una constante igual a σ .
2 2 2
Y σ
Línea de regresión poblacional
σ
0
β0
X
Fig 3.4
Y
Línea de regresión poblacional
0 X
Fig. 3.5
Finalmente todos los supuestos anteriores pueden resumirse diciendo que los xi son valores
constantes y que los Yi son variables aleatorias independientes distribuidas normalmente con
μ Yi | x i β 0 β1 x i y σ 2Yi | x i σ 2
100
xi Yi
x1 Y1
x2 Y2
. .
. .
. .
xn Yn
Cuando los pares ordenados (xi , Yi) de la muestra tomen sus propios valores los ubicaremos sobre
un plano cartesiano para obtener una nube de puntos que llamaremos diagrama de dispersión.
0 X
Fig. 3.6
La impresión visual de este diagrama nos va a sugerir si existe posiblemente una relación lineal
entre X , Y
101
bo será el estimador de o
b1 será el estimador de 1
Teniendo los estimadores b0 y b1 resulta natural definir la función de regresión muestral así
ˆ b 0 b1 X
Y
Ŷ es un estimador puntual insesgado de μ Y | X , razón por la cual se identificará como una media
estimada de Y para el nivel X.
ˆ i b 0 b1x i
Y
b1 es la pendiente estimada. Representa una estimación del cambio en el valor medio de Y por
cambio unitario de X.
ei = Yi - Ŷi
Cuando conocemos el intercepto y la pendiente de una línea decimos que dicha línea está claramente
especificada. La línea de regresión estimada quedará determinada cuando conozcamos las fórmulas
que definen a los estimadores bo y b1.
Un buen método para encontrar las fórmulas para bo y b1 es buscar una línea que mejor se ajuste a
la nube de puntos, esto es, que pase por ella minimizando la suma de los cuadrados de la resíduos,
según se muestra en la figura siguiente.
Yi
ei
b1
Ŷi
b0
b 0 b1x i
0 xi X
Fig. 3.7
n
Hagamos que Q e
.
2
i
Yi
n n
entonces Q Yi - b - b1 x i en donde n es el tamaño de la muestra.
2 2
- Ŷi 0
. .
Q = f ( bo , b1 )
103
Q n
bo
2 Yi - b o - b1 x i ( - 1 )
.
Q n
b1
2 Yi - bo - b1 xi ( - xi )
.
n n
1. Yi n bo b1 x i
. .
n n n
2. .
x i Yi bo x i b1 x i 2
. .
que son llamadas ecuaciones normales.
n n
n x Yi i n n
x i Yi - . .
n
Y - b1 x
i i
b1 .
2 y b0 . .
n n
xi
x i2 - .
n
. n
cuyo gráfico, según este método, podrá llamarse línea de ajuste o línea de los mínimos cuadrados.
e i 0
n n
x i Y i
EJEMPLO 3.1.
La gerente de una compañía desea estimar la relación entre los costos de materiales usados en un
proceso químico (Y) y las horas de operación (X). Con esta información ella espera ser capaz de
preparar un presupuesto más preciso y tener un mejor control sobre los costos.
Datos sobre los costos en centenas de dólares para varias horas de operación del proceso son
presentados abajo.
Horas Costos
50 6.5
20 4.0
30 4.5
50 6.0
40 5.5
30 5.0
30 5.5
10 3.5
40 6.0
20 4.5
Y 7
Línea de ajuste
6
0
0 10 20 30 40 50 X 60
Fig. 3.8
105
ii) Encuentre la función de regresión lineal muestral e interprete los coeficientes de regresión
estimados.
xi Yi xi2 xi Yi Y i2
50 6.5 2500 325 42.25
20 4.0 400 80 16.00
30 4.5 900 135 20.25
50 6.0 2500 300 36.00
40 5.5 1600 220 30.25
30 5.0 900 150 25.00
30 5.5 900 165 30.25
10 3.5 100 35 12.25
40 6.0 1600 240 36.00
20 4.5 400 90 20.25
320 51.0 11800 1740 268.50
n n
n x Y i i
x . . 320 ( 51 )
i Yi - 1740 -
n 10 1740 - 1632 108
b1 .
2 = 2
= 0.0692
n ( 320) 11800 - 10240 1560
xi 11800 -
10
x i2 - .
n
. n
n n
Yi - b1 x i
51 - 0.0692 ( 320 ) 51 - 22.1440 28.8560
b0 . .
= = 2.8856
n 10 10 10
Ŷ = 2.8856 + 0.0692 X
b1 se interpreta así: Por cada hora adicional de operación el costo promedio de materiales usados
en el proceso aumenta en 0.0692 (en centenas de $)
bo se puede interpretar como el costo promedio de materiales cuando X = 0, esto es cuando el
proceso no opere. Este costo se debe a gastos indirectos tales como: almacenaje y transporte del
producto, energía eléctrica, etc.
iii) Estime el costo promedio de materiales utilizados cuando el proceso opere 15 horas.
Yi - Y = ( Yˆ i - Y ) ( Yi Yˆ i )
La desviación explicada por X es la desviación del valor ajustado Ŷi con respecto Y
La desviación no explicada por X es la desviación de Yi con respecto al valor ajustado Ŷi , esto es,
el i-ésimo resíduo ei.
Y
Ŷ b0 b1X
Yi
Desviación no explicada por X
xi
X
Fig. 3.9
Para las n observaciones de Y la suma de los cuadrados de estas desviaciones puede demostrarse
que es
n n n
Y i - Y
2
Yˆ i - Y
2
Y i - Yˆ i
2
SST Será llamada suma de cuadrados total y representa una medida de variación de las
observaciones Yi alrededor de Y . Esta medida tendrá asociada n – 1 grados de libertad. Un
n
grado de libertad es perdido debido a la restricción ( Yi - Y) 0 que tienen sus desviaciones.
.
SSE Será llamada suma de cuadrados debida al error y representa una medida de variación de
Y no explicada por X alrededor de la línea de regresión estimada.
Esta medida tendrá asociada n - 2 grados de libertad. Dos grados de libertad son perdidos
debido a la estimación de los dos parámetros o y 1.
SSR Será llamada suma de cuadrados debida a la regresión y representa una medida de
variación de Y, explicada por X, y asociada con la línea de regresión estimada.
Esta medida tendrá asociada 1 grado de libertad.
Las fórmulas computacionales para SST, SSR y SSE puede demostrarse que son las siguientes.
2
n
Yi
n
SST 2
Yi -
n
n n n
SSE Yi
2
- b o Yi - b 1 x i Yi
Fuente de variación SS GL MS
Regresión SSR 1 MSR = SSR/1
Error SSE n-2 MSE = SSE/n -2
SST n-1
Una suma de cuadrados dividida por sus correspondientes grados de libertad la llamaremos media
cuadrática y la denotaremos por MS.
Estaremos interesados en la media cuadrática de regresión denotada y definida así:
SSR
MSR = = SSR
1
SSE
y la media cuadrática del error denotada y definida así: MSE =
n - 2
3.4.2 EL ESTIMADOR DE
Recordemos que 2 representa la varianza de Y alrededor de la línea de regresión poblacional y que
representa la desviación estándar de Y para cualquier nivel de X.
Puede demostrarse que MSE es un estimador insesgado de 2.
SSE
y la desviación estándar estimada de Y por σ̂ Y MSE
n-2
Observe que σ̂ Y es un estimador insesgado de que proporciona medidas expresadas en las mismas
unidades que los datos originales, logrando con esto una mejor apreciación de la variabilidad de Y
entorno a la línea de regresión.
n n n
Yi
2
- b o Yi - b 1 x i Yi
σ̂ Y
n-2
El estimador σ̂ Y , llamado también error estándar de la regresión nos será de gran utilidad para
hacer inferencias sobre 1.
109
EJEMPLO 3.2
Utilizando los resultados del ejemplo 3.1
i) construya la tabla de análisis de varianza
ii) obtenga un estimado de .
i) Sabemos que
n n n
n
x i 320 , xY
2
Yi = 51 , Yi = 268.5 , i i = 1740
2
n
Yi
(51) 2
n
SST Yi
2
-
n
= 268.5 -
10
= 268.5 - 260.1 = 8.4
n n n
SSE Yi
2
- b o Yi - b 1 x i Yi = 268.5 - 2.8856 (51) - 0.0692 (1740)
Arreglando estas sumas de cuadrados con sus correspondientes grados de libertad llegamos a la
siguiente tabla ANOVA.
Fuente de variación SS GL MS
Regresión 7.4736 1 7.4736
Error 0.9264 8 0.1158
8.4000 9
ii) Observe que MSE = 0.1158 y que por lo tanto σ̂ Y = MSE 0.1158 0.3403
n n n
Y - b o Yi - b 1 x i Yi
2
i
σ̂ Y
n-2
0.9264
= = 0.1158 0.3403
8
110
COEFICIENTE DE DETERMINACION.
Podríamos considerar que SST es una medida de variación total de las observaciones Yi que refleja
la incertidumbre en estimar o predecir Y cuando ninguna variable independiente X es tomada en
cuenta. Cuando un modelo de regresión que utilice la variable independiente X es utilizado SST se
dividirá en dos componentes SSE y SST tales que el cociente
SSE
SST
representará una medida de la proporción de la variación de Y no explicada por X que aún queda y
el complemento
SSE SST SSE SSR
r2 1 donde 0 r 2 1
SST SST SST
una medida de la proporción de la variación total de Y explicada por X que llamaremos coeficiente
de determinación muestral. Esta medida podrá verse también como una reducción proporcional
de la variación total de Y (incertidumbre) cuando la variable independiente X es introducida.
La relación entre X,Y es perfecta en los datos muestrales. Aquí toda variación en las observaciones
Yi es explicada por X. Este caso es mostrado en la siguiente figura.
Y Ŷ b 0 b1X
Yi
Fig. 3.10
111
n
2
2. r = 0 SSR = 0 (Ŷ i - Y) 2 0 Ŷi Y b1 = 0
No hay relación entre X , Y en los datos muestrales. Aquí la variación en las observaciones Yi no
son explicadas por X. X no ayuda a reducir la variación en las observaciones Yi
Este caso es mostrado en la siguiente figura.
En la práctica r2 toma valores entre 0 y 1. La cercanía de r2 a 1 implica un alto grado de asociación
entre X , Y.
Y
Ŷ Y
Fig. 3.11
EJEMPLO 3.3.
Para el ejemplo 3.1 determine el coeficiente de determinación e interprételo.
2 7.4736
r 0.8897
8.4000
El 88.97% de la variación en el costo de materiales se puede explicar por las horas de operación del
proceso.
La variación total en el costo de materiales es reducida en un 88.97% cuando las horas de operación
es considerada.
COEFICIENTE DE CORRELACION.
La raíz cuadrada de r2.
Interpretación de r
No tiene una interpretación tan clara como la de r2 , sin embargo podemos decir que a medida que
| r | se acerque a 1 mayor será el grado de relación entre X, Y, lo cual permitirá hacer inferencias
más precisas sobre Y a partir de X.
EJEMPLO 3.4
Para el ejemplo 3.1 determine el coeficiente de correlación.
r 0.8897 0.9432
La cercanía de r con 1 implica que posiblemente hay alto grado de relación entre X, Y
Como las observaciones Yi tienen distribución normal (según el supuesto 2) b1 tiene también una
distribución normal con
σ
σ b1
μ b1 β 1 y
n
n
xi
2
x.
2
i - .
n
ERROR ESTANDAR ESTIMADO DE b1
σ̂ Y
σ̂ b1
n
n
xi
2 donde σ̂ Y es el estimador de
x.
2
i - .
n
113
Podemos ver la verificación del valor que toma la pendiente 1 como la acción y la diferencia de 1
con respecto a cero como el efecto.
donde H 0 : β 1 0 esta suponiendo que no hay diferencia de 1 con respecto a cero, mientras que
la hipótesis alterna H1 : β1 0 supone que hay diferencia de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1 hacia la izquierda
de cero como hacia la derecha de cero.
Como las hipótesis son suposiciones acerca de 1 el estadístico de prueba será su estimador b1 pero
estandarizado, esto es,
b1 - 0
σ̂ b
1
b1
puede demostrarse que sigue una distribución t de Student con n – 2 grados de libertad.
σ̂ b
1
114
b1 Pendiente estimada σ̂ Y
t donde σ̂ b
σ̂ b El error estándar de b1 1 2
n
xi
1
-
n .
xi
2
. n
α α
2 2
- t / 2 t
0 t /2
R NR R
Figura 3.12
Si t cae en la región de no rechazo entonces diremos que no hay suficiente evidencia para
rechazar H 0 : β 1 0 , esto es, aceptamos H 0 : β 1 0 . Luego no hay relación lineal entre X , Y.
115
EJEMPLO 3.5.
Para el ejemplo 3.1 pruebe si hay una relación lineal significativa entre el número de horas de
operación del proceso y el costo de los materiales a un nivel de significación del 5%.
donde H 0 : β 1 0 está suponiendo que no hay diferencia de 1 con respecto a cero mientras que
la hipótesis alterna H1 : β1 0 supone que hay diferencia de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1 hacia la izquierda
de cero como hacia la derecha de cero.
Controlaremos el error I suponiendo que P (error I ) 0.05. Luego hemos elegido un nivel de
significación = 0.05.
-
n .
xi
2
. n
y la regla de decisión:
α α
0.025 0.025
2 2
t
- 2.306 0 2.306
R NR R
Figura 3.13
x
2
Sabemos del ejemplo 3.1 que b1 = 0.0692 , i 320 , x i 11800 .
Por tanto
σ̂ Y 0.3403
σ̂ b1
320 2
2
n x
n 2 . i 11800 -
xi - 10
. n
0.3403 0.3403 0.3403
0.0086
11800 - 10240 1560 39.4968
b1 0.0692
Luego t 8.0465
σ̂ b1 0.0086
n 2 . i
xi -
. n
El error estándar estimado del valor ajustado Ŷh se denota y obtiene así:
1 xh - x 2
σ̂ Ŷ σ̂ Y 2 donde σ̂ Y es el estimador de σ
n n x
h
n 2 . i
xi -
. n
Ŷh - μ Yh
Como sigue una distribución t de Student con n – 2 grados de libertad
σ̂ Ŷ
h
puede demostrarse que un estimador por intervalo de confianza del ( 1 - ) 100% para μ Yh esta
dado por
Ŷh t/2 σ̂ Ŷ h
μ Yh
xh X
Fig. 3.14
118
EJEMPLO 3.6
Para el ejemplo 3.1 construya un intervalo de confianza del 99% para el costo promedio de
materiales utilizados cuando el proceso opere 40 horas.
x i
320
Sabemos que σ̂Y 0.3403 y que x 32
n 10
Por tanto
1 xh - x 2
σ̂ Ŷ σ̂ Y 2
n n x
h
n 2 . i
xi -
. n
2
1 (40 - 32) 1 64
( 0.3403 ) 2
( 0.3403 ) ( 0.3403 ) 0.1410
10 (320) 10 1560
11800 -
10
0.3403 (0.3755 ) 0.1278
α
Para α 0.01 0.005 y n – 2 = 10 - 2 = 8 g.l. tenemos que t /2 3.355
2
Cantidad Utilidad
Año Invertida anual
2009 2 20
2010 3 25
2011 4 30
2012 5 34
2013 11 40
2014 5 31
a) Dibuje un diagrama de dispersión y comente las impresiones visuales que le ofrece la figura.
b) Obtenga la función de regresión muestral de Y sobre X e interprete la pendiente.
c) Prediga la utilidad anual para 2015 suponiendo una inversión de 8 millones de C$ en
investigación y desarrollo.
d) Trace sobre el diagrama del inciso a) la línea de ajuste.
2. El ministerio de Agricultura hizo un estudio para determinar la relación que existe entre la
producción de café (Y) y la cantidad de fertilizante utilizado (X) en una región determinada. Se
tomó una muestra aleatoria de 6 haciendas y se recopiló la siguiente información:
3. La demanda de un artículo en toneladas (Y) para diferentes precios en córdobas (X) se presenta
en la tabla de abajo.
X Y
20.5 4.5
21.0 4.0
21.0 4.7
21.5 3.5
21.5 3.0
21.5 4.0
22.0 3.5
22.0 2.5
22.5 2.0
23.0 1.8
a) Construya un diagrama de dispersión y comente las impresiones visuales que le ofrece la figura.
b) Determine la función de regresión muestral de Y sobre X e interprete la pendiente estimada.
c) Obtener la demanda esperada si el precio del bien fuese de C$ 22.40
d) Trace sobre el diagrama de dispersión del inciso a) la línea de los mínimos cuadrados.
4. Para probar en cierto tipo de fábricas el efecto de un filtro purificador que absorbe parte de la
emisión de gases residuales, se han medido los niveles de CO2 (dióxido de carbono) emitidos por 7
fábricas donde éste se ha instalado.
Hemos supuesto que X representa el número de días después de la instalación y Y representa la
emisión de CO2 en mg/dl para presentar los siguientes resultados.
X Y
5 5.2
10 4.8
15 4.6
20 4.5
25 4.3
30 4.0
35 3.8
5. El Banco Central quiere estimar la relación entre la cantidad de dinero circulante (X) y el
ingreso nacional (Y).
Suponga que dispone de los siguientes datos históricos en millones de dólares.
Cantidad Ingreso
Año Circulante Nacional
2009 3.3 7.2
2010 4.0 7.3
2011 4.2 8.4
2012 4.6 9.0
2013 4.8 9.7
2014 5.0 10.0
6. El gerente de personal de una empresa intuye que quizás haya relación entre el ausentismo en
días (Y) y la edad en años (X) por lo que quiere tomar la edad de un trabajador para desarrollar un
modelo de predicción de días de ausencia durante un año laboral. Se selecionó una muestra aleatoria
de 10 trabajadores con los resultados que se presentan a continuación:
X Y
27 15
61 06
37 10
23 18
46 09
58 07
29 14
36 11
64 05
40 08
7. Supóngase que una cadena de supermercados financia un estudio sobre los gastos anuales en
comestibles de familias de 4 miembros. La investigación se limitó a familias con ingresos netos
(después de los impuestos) que van de C$20000 a C$60000. Se obtuvo la siguiente ecuación de
regresión lineal:
Ŷ = - 200 + 0.10X
En la cual Y representa los gastos anuales estimados en comestibles y X representa los ingresos
netos anuales
Supóngase que la ecuación proporciona un ajuste razonablemente bueno, y que se obtuvieron
los datos por medio de métodos de muestreo aleatorio,
a) Estime los gastos de una familia de 4 miembros, con un ingreso anual de C$25000.
b) Uno de los vicepresidentes de la compañía se preocupa por el hecho de que la ecuación
aparentemente indica que una familia que tiene un ingreso de C$2000 no gastaría nada en alimentos.
¿ Cuál sería su respuesta?
c) Explique brevemente por qué no se podría usar la ecuación anterior en cada uno de los
siguientes casos:
8. Un asegurador de propiedades realizó un estudio para investigar el pago anual (Y) por concepto
de demandas por daños a propiedades (en miles de dólares) en la región norte de Nicaragua
como una función del número X de huracanes que azotan esa región durante el año. Un modelo
de regresión lineal, que se ajusta a los datos de un período de 10 años, produjo la siguiente
ecuación:
Ŷ = 22.4 + 15.8 X
a) ¿Proporcionan los datos evidencia suficiente para indicar que el número X de huracanes aportan
información para predecir la cantidad anual pagada por el asegurador por concepto de daños a
propiedades a un nivel de significación del 5%?
b) Encuentre un intervalo de confianza del 90% para el pago anual promedio si un huracán azota la
región en un año dado.
c) Obtenga un intervalo de confianza del 90% para el pago anual promedio si dos huracanes
azotan la región en un año dado.
123
9. Un estudio de mercado trata de cuantificar el efecto que sobre la demanda de un artículo tiene
una campaña publicitaria en televisión. Para ello se miden las cantidades demandadas, en miles de
unidades, antes de la campaña (X) y la cantidades demandadas, en miles de unidades, después de la
campaña (Y). Después de 3 semanas de emisión del anuncio en 10 regiones se obtuvo la siguiente
relación lineal estimada entre X, Y.
Ŷ = 65.5812 + 0.3547X
10. Un investigador esta interesado en conocer la relación entre los años de experiencia en ventas
(X) y el volumen de ventas en millones de córdobas (Y) de los vendedores de cierta compañía.
n = 5 , x i = 15 , x i2 = 55 , Yi = 23 ,
xY i i = 84.6 , Y i
2
= 130.98
Ŷ = - 0.08 + 1.56 X
Fuente SS G.L MS
Regresión 24.336 1 24.3360
Error 0.844 3 0.2813
25.180 4
i) Interprete la pendiente.
ii) ¿Qué proporción de la variación total del volumen de ventas puede ser explicada por los años de
experiencia?
iii) Estime la varianza de Y alrededor de la línea de regresión.
iv) ¿Existe relación lineal significativa entre los años de experiencia y el volumen de ventas a un
nivel de significación del 2%?
v) Determine un intervalo de confianza del 99% para el volumen esperado de ventas de un
vendedor que tiene 3.5 años de experiencia.
124
11. Un economista desea establecer la relación entre las exportaciones FOB (X) y las
importaciones FOB (Y). De los Indicadores Económicos publicados por el Banco Central de
Nicaragua para los años 2006 – 2014 resume la siguiente información. (no incluye importaciones ni
exportaciones de Zona Franca).
a) Suponiendo una relación lineal, use el método de mínimos cuadrados para encontrar los
coeficientes de regresión bo y b1.
b) Interprete el significado del intercepto bo y la pendiente b1.
c) Prediga el valor de las importaciones cuando las exportaciones asciendan a 500 millones de
dólares.
d) Calcule el coeficiente de determinación y el coeficiente de correlación e interprete sus
significados.
e) A un nivel de significación de 0.01 ¿Hay alguna relación lineal significativa entre las
exportaciones y las importaciones para los años mencionados?.
12. Una cadena de tiendas de repostería ha tenido grandes fluctuaciones en sus ingresos durante
los últimos años. Abundantes ofertas y técnicas de publicidad se han utilizado durante este tiempo,
por lo cual es difícil determinar cuáles de esos factores tienen la influencia más profunda en las
ventas. El departamento de mercadotecnia ha estudiado varias relaciones y piensa que los gastos
mensuales destinados a carteles pueden ser significativos.
Se muestreó 7 meses con los siguientes resultados:
x i 167 , Y 203
i , x Y 5427
i i , x 2
i 4703 , Y i
2
6527
Ŷ = 9.6185 + 0.8124X
13. Con los siguientes datos sobre el costo de construcción de residencias unifamiliares en miles
de dólares (Y) y el tamaño del lote en miles de pies cuadrados (X).
14. Una investigación del departamento de publicidad de una empresa en la que se buscaba la
relación entre las ventas en unidades (Y) y el número de comerciales televisados (X) dió los
siguientes resultados:
n = 7 , x i = 340 , Y = i 751 , x Y =
i i 41450
x 2
i = 19000 , Y i
2
= 90571
15. Un analista toma una muestra aleatoria de 10 embarques recientemente enviados por camión y
registra la distancia en kilómetros (X) y el tiempo de entrega en días (Y) para determinar si existe
relación entre ellos y obtiene los siguientes resultados:
Ŷ = 0.1181 + 0.0036X
16. El gerente de mercadotecnia de una cadena de supermercados quiere determinar el efecto del
espacio de las estanterías en pies (X) sobre la venta semanal de cosméticos en cientos de córdobas
(Y). Seleccionó una muestra aleatoria de 12 tiendas de igual tamaño obteniendo los resultados
siguientes:
Fuente SS G.L MS
Regresión 2.0535 1 2.0535
Error 1.0490 10 0.1049
3.1025 11
a) Interprete la pendiente.
b) Pruebe al nivel de significación de 0.05 si los resultados de la muestra permiten llegar a la
conclusión de que hay una relación lineal significativa entre el espacio en las estanterías y la venta
semanal de cosméticos.
c) Calcule los coeficientes de determinación y de correlación e interprételos.
d) Obtenga un intervalo de confianza del 90% de las ventas semanales promedio de una tienda con
8.6 pies de espacio en estantes destinados a cosméticos.
17. Los economistas a menudo quieren estimar las funciones consumo. Esto lo hacen obteniendo
la regresión del consumo Y sobre el ingreso X (en esta regresión, los economistas dan a la
pendiente el nombre de propension marginal al consumo). En una muestra de 15 familias, se
calculó una pendiente de 0.9 y un error estándar de la pendiente de regresión de 0.25.
A un nivel de significación = 0.05 ¿existe alguna relación lineal significativa entre el consumo y
el ingreso?
18. Con el propósito de determinar el efecto del precio del galón de diesel en el costo de la
canasta básica de 53 productos de la ciudad de Managua se extrajeron los datos que se presentan a
continuación:
Año 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
X 1.14 5.67 5.88 7.02 7.75 8.4 10.38 12.31 13.94 19.81
Y 517.27 718.01 730.02 887.00 970.61 1078.89 1225.59 1402.82 1552.64 1624.11
Múltiple R .95772
R Square .91723
Adjusted R Square .90689
Standard Error 114.32865
Analysis of Variance
Los resultados obtenidos que se relacionan con nuestro curso son los siguientes:
Ahora conteste:
a) Escriba la ecuación de la línea de mínimos cuadrados que nos permitirá predecir el costo
promedio de la canasta básica de la ciudad de Managua en términos del precio del diesel.
b) Interprete b1 .
c) Suponiendo que para el año 2014 el precio del diesel será de C$ 21.50, estime el costo
promedio de la canasta básica para ese año en la ciudad de Managua
d) Interprete el coeficiente de determinación y el coeficiente de correlación.
e) ¿Existe relación lineal significativa entre el precio del diesel y el costo de la canasta básica a un
nivel de significación del 5%?.
128
OBJETIVOS.
4.1. INTRODUCCION
Toda institución (la familia, la escuela, la empresa, el gobierno) tiene que hacer planes para el futuro
si ha de sobrevivir y progresar.
La Escuela: Sus planes tienen que ver con su desarrollo futuro para ofrecer servicios educativos
adecuados a la siempre creciente población.
La empresa: Sus planes tienen que ver con la demanda de sus productos, la producción, la
financiación, el personal, las ventas, las inversiones, el mercadeo.
El gobierno: Sus planes tienen que ver con los ingresos y gastos futuros para influir de esta manera
en la actividad comercial agregada de modo que el progreso económico del país no se vea demorado
por la inflación o la deflación.
La técnica más importante para hacer inferencias sobre el futuro con base en lo ocurrido en el
pasado es el análisis de las series de tiempo que se puede definir así:
Un conjunto de observaciones de una variable que se refieren a diferentes períodos sucesivos de
tiempo usualmente de la misma magnitud (años, trimestres, meses, etc).
La creencia de que el comportamiento pasado de una serie puede continuarse en el futuro constituye
una base racional para la predicción estadística.
Los movimientos de las series de tiempo son causados por una variedad de factores, algunos
económicos, algunos naturales y otros institucionales. Más aún, algunos de los factores tienden a
afectar los movimientos a largo plazo de las series, mientras que otros tienden a producir
fluctuaciones a corto plazo.
129
Una serie la consideraremos constituida por los siguientes componentes que son las que explican los
cambios observados en un período de tiempo.
i) La tendencia.
ii) Las variaciones estacionales.
iii) Las variaciones cíclicas.
iv) Las variaciones irregulares.
Para obtener una impresión visual de los movimientos de una serie de tiempo, se contruye sobre un
plano cartesiano una gráfica en la cual la variable de interés Y estará en el eje vertical y los períodos
sucesivos de tiempo en el eje horizontal.
Ejemplo. Los siguientes datos representan producciones trimestrales de cierto artículo en miles de
unidades de un país hipotético durante 2010 - 2014.
Y 11
10 tendencia lineal
9
8
7
6
5 datos originales
4 variaciones
3 variaciones cíclicas
estacionales
2
1
0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
3
1999 2000 2001 2002 2003 X
Figura 4.1
LA TENDENCIA
Es el movimiento suave y regular de una serie que refleja un crecimiento o una declinación en
un período de tiempo muy prolongado (al menos de 15 años) (debe incluir 2 ó más ciclos).
Observe que los movimientos de la serie de tiempo de la figura 4.1 tienden en promedio a
desplazarse continuamente hacia arriba a través del tiempo. Se representa mediante una recta a
través de la curva irregular.
Si estudiamos la serie de la figura 4.1 de año en año vemos que en el primer trimestre comienza
siendo baja, luego crece, después alcanza la mayor altura alrededor del tercer trimestre de cada año
y finalmente desciende nuevamente.
Las variaciones estacionales pueden definirse como los movimientos periódicos que vuelven
con cierta regularidad dentro de un período especificado (un año)
Factores que influyen en estas variaciones: las estaciones del año, condiciones climáticas,
costumbres sociales, festividades religiosas.
En condiciones climáticas y estaciones del año tenemos: la producción agrícola, los trabajos de
construcción, la explotación de bosques y aserraderos, el consumo energía eléctrica, etc.
En costumbres Sociales y festividades religiosas tenemos: la demanda de ciertos artículos para el
día de la madre, del padre, de los enamorados, por navidad, por semana santa, etc.
Observando la curva en forma de zig-zag sobre la serie irregular original encontramos fluctuaciones
pronunciadas que se desplazan hacia arriba y hacia abajo.
Las variaciones cíclicas pueden definirse como los movimientos recurrentes ascendentes y
descendentes con respecto a la tendencia que tienen por lo general una duración de 2 ó más
años.
Cada ciclo puede diferir de todo el resto en duración, amplitud y causas. Ello explica la existencia
de tantas teorías de los ciclos como casi números de ciclos registrados.
Prosperidad Recesión
Pico
Pico
bache bache
Figura 4.2
Las pequeñas irregularidades en forma de dientes de serrucho en la serie original es lo que se llama
variaciones irregulares.
Las variaciones irregulares pueden definirse como movimientos que son por lo general de
corta duración y que son causados por fuerzas aleatorias o por fuerzas esporádicas tales como:
huelgas, terremotos, inundaciones, cortes de energía, guerras, sequías y otras calamidades
naturales.
Observaciones: A veces las series contiene todas las componentes anteriores, otras veces contienen
solamente algunas de ellos. A veces hay tanto predominio de una componente que se le puede
reconocer a partir de los datos originales como:
La producción de fibras sintéticas y la producción de alimentos congelados que tienen una fuerte
tendencia ascendente.
Los bienes duraderos que sufren grandes cambios cíclicos.
Las ventas de tiendas que son predominantemente estacionales.
La componente que se estudia con más frecuencia en estas series de tiempo es la tendencia.
Estudiaremos la tendencia como una ayuda para hacer pronósticos a mediano y largo plazo.
Consiste en obtener la ecuación de una línea recta que me indique el comportamiento de la variable
de interés a través de los años.
Utilizaremos los métodos que exponemos a continuación tomando la mitad de cada año (1 de Julio)
como punto de representación de los datos de ese año.
Para una serie de datos con un número par de años el método dice que hagamos lo siguiente:
Le asignamos al primer año de la serie el código 0, convirtiendo de esta manera el primer año de la
serie en el año origen.
Después, a cada año sucesivo se le asignan los códigos 1, 2, 3, 4, ..., de modo que el último año en la
serie, el n-ésimo año, tenga el código n-1.
132
ii) Aplicar las mismas fórmulas que utilizamos para estimar la función de regresión poblacional.
n n
n x Y i i
x Yi i - . .
n
b1 .
2 Representa el cambio anual estimado del valor anual de Y.
n
xi
x i2 - .
n
. n
n n
Yi - b1 x i
b0 . .
Representa el valor anual estimado de Y para X 0.
n
Sustituir bo y b1 en la expresión:
Ŷ = bo + b1X
Origen: 1 de julio del año X = 0
X en años
EJEMPLO 1
Las ventas anuales de una empresa desde el año 2009 al 2014 se presentan a continuación en
decenas de miles de C$
Yi
AÑO xi Ventas xi Yi x i2
2009 0 78 0 0
2010 1 70 70 1
2011 2 65 130 4
2012 3 46 138 9
2013 4 46 184 16
2014 5 35 175 25
15 340 697 55
133
Y 90
80
70
60
50
40
30
20
10
0
1996 1997 1998 1999 2000 2001 2002 2003
0 1 2 3 4 5
X
Figura 4.3
(15) (340)
697 -
6 697 - 850 - 153
b1 - 8.7429
( 15) 2 55 - 37.5 17.5
55 -
6
La disminución anual estimada de las ventas anuales es 8.7429 en decenas de miles de C$.
La venta anual estimada para el año 09 es 78.5239 en decenas de miles de C$.
Para una serie de tiempo con un número impar de años el método dice que hagamos lo siguiente:
El esquema más eficiente de codificación que se puede seleccionar para facilitar los cálculos es
elegir el año central de la sucesión como origen y asignarle el código x = 0. Después, a todos los
años posteriores se les asignan códigos crecientes de enteros 1, 2, 3, 4, ... , mientras que a todos los
años anteriores se les asignan códigos decrecientes de enteros -1, -2, -3, -4, ... , de modo que
n
siempre ocurrirá que xi
.
0
ii) Aplicar las mismas fórmulas que utilizamos para estimar la función de regresión poblacional.
así:
n
x i Yi
b1 .
n Representa el cambio anual estimado del valor anual de Y
x
.
2
i
Y i
b0 .
Representa el valor anual estimado de Y para X 0.
n
Ŷ = bo + b1 X
Origen: 1 de Julio del año X = 0
X en años
135
EJEMPLO 2
Las ventas anuales de una empresa desde el año 2010 al 2014 se presentan a continuación en
decenas de miles de C$
Yi
AÑO xi Ventas xi Yi x i2
2010 -2 32 -64 4
2011 -1 46 -46 1
2012 0 50 0 0
2013 1 66 66 1
2014 2 68 136 4
0 262 92 10
Y 80
70
60
50
40
30
20
10
0
1998 1999 2000 2001 2002 2003 2004
-2 -1 0 1 2
X
Figura 4.4
92
b1 9.2 El incremento anual estimado de las ventas anuales es 9.2 en dec miles C$
10
262
bo 52.4 La venta anual estimada para el año 2012 es 52.4 en dec miles C$
5
La ecuación de tendencia lineal es
Ŷ = 52.4 + 9.2 X
Origen: 1 – Jul - 2012
X en años
136
Las observaciones de una variable de interés Y de una serie de tiempo pueden corresponder a
períodos más pequeños que los de un año tales como: trimestres, meses, semanas, días, etc.
Analicemos ahora las series de tiempo con datos trimestrales.
b1
donde representa el cambio trimestral estimado del valor trimestral de Y
16
b b
y 0 1 (0.5) representa el valor trimestral estimado de Y para X = 0 (el trimestre origen)
4 16
137
EJEMPLO 3
Los datos que aparecen a continuación son las importaciones trimestrales de materiales de
construcción en miles de dólares durante el período 2012 - 2014
Trimestre
AÑO 1 2 3 4
2012 90 104 113 100
2013 83 99 126 127
2014 125 170 165 144
Y 180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
1 2 3 4 1 2 3 4 1 2 3 4
Figura 4.5
n n
x i Yi
197 Y i
1446
b1 .
n
98.5 en miles de $, b0 .
482 en miles de $
x 2 2 n 3
i
.
138
Ŷ = 482 + 98.5 X
Origen: 1 – Jul - 2013
X en años
Para convertir la ecuación de tendencia anual anterior a una de tendencia trimestral cuyo origen sea
el 15 de Agosto de 2013 procedemos así.
482 98.5
Ŷ ( X 0.5 )
4 16
Ŷ = 120.5 + 6.1562 ( X + 0.5 ) = 120.5 + 3.0781 + 6.1562 X
Ŷ = 123.5781 + 6.1562 X
Origen: 15 – Ago - 2013
X en trimestres
La importación trimestral estimada para el tercer trimestre del año 2013 es 123.5781 en miles de
dólares.
Determinaremos los pares ordenados de dos puntos cualesquiera suficientemente alejados, digamos
los correspondientes al primer trimestre del año 2012 y al cuarto trimestre del año 2014.
Como X toma el valor 0 para el tercer trimestre del año 2013 (porque es el trimestre origen) , X
tomará el valor -6 para el primer trimestre del año 2012 y el valor 5 para el cuarto trimestre del año
2014.
1. Con qué componente de una serie de tiempo asociaría usted cada uno de los siguientes factores:
2. Supongamos que se dispone de datos sobre las ventas trimestrales de libros de texto en la librería
de la Universidad durante los últimos 10 años.
a) ¿Cree usted que estos datos acusarían una tendencia definida? Explicar por qué.
b) ¿Cree usted que estos datos trimestrales mostrarían un esquema estacional? ¿Si así fuera,
porqué?
c) ¿Qué factores podrían causar una variación cíclica en las ventas trimestrales?
d) ¿Qué factores tenderían a causar variaciones irregulares en los datos?
3. La producción en Nicaragua de cierto artículo en millones de unidades durante los años 1996-
2002 aparece en la siguiente tabla.
Año Producción
2008 10
2009 9
2010 8
2011 8
2012 5
2013 6
2014 3
4. Una compañía de productos alimenticios tiene los siguientes datos sobre el número de cajas de
cereal en miles que ha vendido en los últimos 6 años.
Año Producción
2009 21.0
2010 19.4
2011 22.6
2012 28.2
2013 30.4
2014 25.0
5. El total de ventas anuales de una compañía están dadas en millones de córdobas por la siguiente
tabla.
Año Ventas
2010 21
2011 24
2012 29
2013 29
2014 34
6. Dados los siguientes datos sobre producción de una compañía en millones de unidades.
Año Producción
2009 24
2010 17
2011 20
2012 18
2013 14
2014 15
Año Producción
2010 80
2011 82
2012 85
2013 84
2014 89
8. Dada la siguiente serie relativa a la existencia de ganado ovino y caprino en miles de cabezas en
una Empresa Agropecuaria..
Ŷ = 677.7 + 1.4 X
Origen: 1 - 7 - 2014
X en años
a) Interprete los elementos que intervienen en esta ecuación dentro del contexto del problema.
b) Pronostique la producción de azúcar para el 2° trimestre de 2015
10. La ecuación de tendencia para las producciones trimestrales de cierto artículo (en miles de
unidades) es:
Ŷ = 12.25 + 0.50 X
Origen:15 - 08 - 2012
X en trimestres
a) Interprete los elementos que intervienen en esta ecuación dentro del contexto del problema.
b) Prediga la producción para el 1er trimestre de 2015.
142
11. Los datos que aparecen a continuación son las ventas trimestrales en millones de una empresa
durante el período 2012-2014.
Trimestres
Año 1 2 3 4
2012 4.9 5.9 6.1 7.6
2013 5.0 6.3 6.6 8.3
2014 5.7 7.0 7.5 9.2
13. A continuación aparecen datos trimestrales de ventas (en miles de córdobas ) para una pequeña
empresa de materiales de construcción en 3 años recientes.
Trimestres
Año 1 2 3 4
1 50 35 25 40
2 45 35 20 30
3 35 20 15 25
a) Construya un gráfico de las ventas trimestrales y observe si hay un patrón estacional constante.
b) Determinar la ecuación de tendencia lineal de las ventas trimestrales. Trace sobre el gráfico
anterior la recta de tendencia e interprete la pendiente estimada.
143
14. Una compañía constructora ha reunido datos trimestrales sobre número de casas que ha iniciado
durante los últimos cuatro años.
Trimestres
Año 1 2 3 4
2011 7 9 6 4
2012 8 10 7 4
2013 8 11 7 5
2014 9 12 8 6
Fila 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 10480 15011 01536 02011 81647 91646 69179 14194 62590 36207 20969 99570 91291 90700
2 22368 46573 25595 85393 30995 89198 27982 53402 93965 34095 52666 19174 39615 99505
3 24130 48360 22527 97265 76393 64809 15179 24830 49340 32081 30680 19655 63348 58629
4 42167 93093 06243 61680 07856 16376 39440 53537 71341 57004 0084 9 74917 97758 16379
5 37570 39975 81837 16656 06121 91782 60468 81305 49684 60672 14110 06927 01263 54613
6 77921 06907 11008 42751 27756 53498 18602 70659 90655 15053 21916 81825 44394 42880
7 99562 72905 56420 69994 98472 31016 71194 18738 44013 48840 63213 21069 10634 12952
8 96301 91977 05463 07972 18876 20922 94595 56869 69014 60045 18425 84903 42508 32307
9 89579 14342 63661 10281 17453 18103 57740 84378 25331 12566 58678 44947 05585 56941
10 85475 36857 53342 53988 53060 59533 38867 62300 08158 17983 16439 11458 18593 64952
11 28918 69578 88231 33276 70997 79936 56865 05859 9010 6 31595 01547 85590 91610 78188
12 63553 40961 48235 03427 49626 69445 18663 72695 52180 20847 12234 90511 33703 90322
13 09429 93969 52636 92737 88974 33488 36320 17617 30015 08272 84115 27156 30613 74952
14 10356 61129 87529 85689 48237 52267 67689 93394 01511 26358 85104 20285 29975 89868
15 07119 97336 71048 08178 77233 13916 47564 81056 97735 85977 29372 74461 28551 90707
16 51085 12765 51821 51259 77452 16308 60756 92144 49442 53900 70960 63990 75601 40719
17 02368 21382 52404 60268 89368 19885 55322 44819 01188 65255 64835 44919 05944 55157
18 01011 54092 33362 94904 31273 04146 18594 29852 71585 85030 51132 01915 92747 64951
19 52162 53916 46369 58586 23216 14513 83149 98736 23495 64350 94738 17752 35156 35749
20 07056 97628 33787 09998 42698 06691 76988 13602 51851 46104 88916 19509 25625 58104
21 48663 91245 85828 14346 09172 30168 90229 04734 59193 22178 30421 61666 99904 32812
22 54164 58492 22421 74103 47070 25306 76468 26384 58151 06646 21524 15227 96909 44592
23 32639 32363 05597 24200 13363 38005 94342 28728 3580 6 06912 17012 64161 18296 22851
24 29334 27001 87637 87308 58731 00256 45834 15398 46557 41135 10367 07684 36188 18510
25 02488 33062 28834 07351 19731 92420 60952 61280 50001 67658 32586 86679 50720 94953
26 81525 72295 04839 96423 24878 82651 66566 14778 76797 14780 13300 87074 79666 95725
27 29676 20591 68086 26432 46901 20849 89768 81536 86645 12659 92259 57102 80428 25280
28 00742 57392 39064 66432 84673 40027 32832 61362 98947 96067 64760 64584 96096 98253
29 05366 04213 25669 26422 44407 44048 37937 63904 45766 66134 75470 66520 34693 90449
30 91921 26418 64117 94305 26766 25940 39972 22209 71500 64568 91402 42416 07844 69618
31 00582 04711 87917 77341 42206 35126 74087 99547 81817 42607 43808 76655 62028 76630
32 00725 69884 62797 56170 86324 88072 76222 36086 84637 93161 76038 65855 77919 88006
33 69011 65795 95876 55293 18988 27354 26575 08625 40801 59920 29841 80150 12777 18501
34 25976 57948 29888 88604 67917 48708 18912 82271 65424 69774 33611 54262 85963 03547
35 09763 83473 73577 12908 30883 18317 28290 35797 05998 41688 34952 37888 38917 88050
36 91567 42595 27958 30134 04024 86385 29880 99730 55536 84855 29080 09250 79656 73211
37 17955 56349 90999 49127 20044 59931 06115 20542 18059 02008 73708 83517 36103 42791
38 46503 18584 18845 49618 02304 51038 20655 58727 28168 15475 56942 53389 20562 87338
39 92157 89634 94824 78171 84610 82834 09922 25417 44137 48413 25555 21246 35509 20468
40 14577 62765 35605 81263 39667 47358 56873 56307 61607 49518 89656 2 0103 77490 18062
41 98427 07523 33362 64270 01638 92477 66969 98420 04880 45585 46565 04102 46880 45709
42 34914 63976 88720 82765 34476 17032 87589 40836 32427 70002 70663 88863 77775 69348
43 70060 28277 39475 46476 23219 53416 94970 25832 69975 94884 19661 72828 00102 66794
44 53976 54914 06990 67245 68350 82948 11398 42878 80287 88267 47363 46634 06541 97809
45 76072 29515 40980 07391 58745 25774 22987 80059 39911 96189 41151 14222 60697 59583
46 90725 52210 93974 29992 65831 38857 50490 83765 55657 14361 31720 57375 56228 41546
47 64364 67412 33339 31926 14883 24413 59744 92351 97473 89286 35931 04110 23726 51900
48 08962 00358 31662 25388 61642 34072 81249 35648 56891 69352 48373 45578 78547 81788
49 95012 68379 93526 70765 10592 04542 76463 54328 02349 17247 28865 14777 62730 92277
50 15664 10493 20492 38391 91132 21999 59516 81652 27195 48223 46751 22923 32261 85653
51 16408 81899 04153 53381 79401 21438 83035 92350 36693 31238 59649 91754 72772 02338
145
.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8079 .8106 .8133
.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9700 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9773 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3. .9987
146
BIBLIOGRAFIA
Elementos de Muestreo
Richard L. Scheaffer
William Mendenhall
Lyman Ott
Grupo Editorial Iberoamérica, 1986