Vous êtes sur la page 1sur 147

1

TEMA 1: MUESTREO Y ESTIMACION


OBJETIVOS
1. Explicar las razones por las cuales se hace uso del muestreo.
2. Comprender la necesidad de utilizar estimadores para los parámetros.
3. Resaltar la ayuda que presta el conocimiento de la distribución muestral de un estimador para la
determinación de la precisión de las estimaciones.
4. Identificar las propiedades deseables de un estimador para hacer las mejores inferencias sobre
los parámetros.
5. Conocer los principales métodos para seleccionar una muestra
6. Hacer estimaciones puntuales y por intervalo de parámetros en muestreo aleatorio simple y
estratificado.
7. Hacer determinaciones de tamaños de muestras requeridos para estimar la media poblacional en
muestreo aleatorio simple y estratificado.
8. Aplicar correctamente las fórmulas de los estimadores por intervalo y de tamaño de muestra en
la solución de problemas.

1.1 INTRODUCCION

Recordemos algunos conceptos de la Estadística que serán importantes en el desarrollo de este curso

POBLACIÓN
Es un conjunto de elementos de naturaleza cualquiera de los cuales estamos interesados en estudiar
al menos una característica común y observable de dichos elementos en un determinado lugar y en
un momento dado.
Observación: La población en estudios debe estar definida sin ambigüedad de manera que no de
lugar a confusiones. Los elementos consideramos que se encuentran localizados en un determinado
lugar o región geográfica y en un periodo de tiempo dado.
Ejemplo
El conjunto de todos los supermercados de Nicaragua en un momento dado
Elementos: Supermercados.
Características : ventas mensuales, N° empleados, nombre, atención, N° cajeras, etc.

VARIABLES
Utilizaremos variables como X, Y, Z, etc. para representar las características de los elementos
Para el ejemplo anterior podemos hacer que X represente las ventas mensuales

DATOS ESTADISTICOS
Los valores posibles de una característica X los denotaremos por x , mientras que los valores
realmente observados de esa característica X , los llamaremos datos y los denotaremos por x i donde
el valor del subíndice i nos indica que es la i-ésima observación de X.

Con frecuencia usaremos el término población para referirnos a la totalidad de datos que podrían
recopilarse en una situación dada.
x1 , x2 , … , xN
2

PARAMETROS
Es una medida que proviene de todos los datos de la población. Los parámetros son constantes que
representan por lo general características de la población. Generalmente se representan por letras
griegas.
Por ejemplo, la media poblacional es un parámetro que se denota y define como
N

x  x 2  ...  x N
x i
μ 1  .
N N

N
El total poblacional es otro parámetro que se denota y define como τ x i

Si para el ejemplo anterior X representa la venta mensual entonces  representa la venta mensual
promedio y  la venta mensual total

MUESTRA
Es una parte de la población que se espera sea representativa de ella.
Con frecuencia usaremos el término muestra para referirnos a los datos muestrales x1 , x2 , … , xn

Población tamaño N

X
x1 muestra tamaño n
x2
. x1, x2,….xn
.
xN datos muestrales

POR QUE SE MUESTREA

Tomar decisiones con base en información incompleta no es algo novedoso.


Por ejemplo, muchos compradores prueban un poco de queso antes de adquirirlo. De un pedazo
deducen el sabor de un trozo mayor.
En medicina, una muestra de sangre puede llevar a inferir que el paciente está anémico.
Como el interés primordial de la Estadística es conocer parámetros, facilitaremos la inferencia
acerca de los parámetros, utilizando la información de una muestra para estimar los parámetros.

Una muestra de familias de un barrio puede ser útil para estimar el número promedio de niños por
familia del barrio.

En la industria una muestra de artículos puede servirnos para estimar la proporción de artículos
defectuosos producidos en cierto momento.
3

VENTAJAS DEL MUESTREO.

1. Rapidez y bajo costo de la información requerida.

El muestreo es una técnica que utiliza recursos materiales, económicos y humanos disponibles, para
obtener en el menor tiempo, al menor costo y con cierta exactitud aceptable información necesaria
acerca de algunos parámetros.

2. Es un procedimiento práctico cuando la población es muy grande o infinita.

Decimos que una población es finita cuando sabemos cuántos elementos existen en ella, esto es,
cuando posee un tamaño que denotaremos por N.
Existen poblaciones finitas tan grandes que resulta imposible observar sus elementos en un período
de tiempo razonable, por ejemplo, todas las familias de una ciudad. Otras son tan inmensas que
muchos de sus elementos son inaccesibles y su tamaño puede ser desconocido, por ejemplo, todos
los pequeños agricultores de un país.
También existen poblaciones infinitamente grandes, esto es, con un número ilimitado de elementos,
razón por la cual le llamaremos poblaciones infinitas.
Podríamos considerar que los procesos contínuos de producción de algún bien generan poblaciones
infinitas porque, teóricamente, podría suponerse que estos procesos operan indefinidamente, por
ejemplo, el proceso de producción de chips de computadoras.

3. Evita la destrucción de toda la población.

Esta situación se da cuando la medición de la característica de interés destruye al mismo elemento.


Los catadores de vino pueden evaluarlo con unos cuántos sorbos sin necesidad de consumir toda la
producción.
En una compañía sólo se prueba la germinación de unas cuantas semillas antes de la temporada de
siembra.

Los censos, debido a la gran cantidad de recursos que requieren, se realizan en períodos retirados de
tiempo. Sin embargo su aplicación es ventajosa cuando la población es muy pequeña o se requiere
una exactitud completa.
4

1.2 METODOS DE MUESTREO

En todo muestreo lo deseable básicamente es obtener una muestra que sea una buena representación
de la población en miniatura y que además su costo sea el menor posible, ya que a mayor
representatividad de la muestra se espera mayor precisión en las estimaciones de los parámetros.

Existen dos métodos que tratan de obtener la muestra anterior: el muestreo no probabilístico y el
muestreo probabilístico.

1.2.1 MUESTREO NO PROBABILISTICO

- En este método no todos los elementos poblacionales tendrán posibilidad de integrar la muestra,
motivo por el cual se espera poca representatividad de la muestra.
- Se usan el conocimiento, la experiencia y la opinión personal para identificar los elementos de la
población que van a incluirse en la muestra.
El conocimiento y la experiencia ayudan a aumentar la precisión de las estimaciones y la opinión
personal para minimizar el costo.
- La precisión de sus resultados generalmente no se puede medir en forma objetiva porque no hay
ninguna ley del azar que permita medir su error de muestreo.
A pesar de esta falta de objetividad los métodos de muestreo no probabilísticos son importantes en
los negocios y la investigación económica.

1.2.2 MUESTREO PROBABILISTICO

- Es un método de muestreo en el cual cada elemento de la población tiene una probabilidad


conocida (no igual a cero) de ser incluido en la muestra.
- Las unidades muestrales se seleccionan conforme a las leyes del azar en vez del criterio personal.

- La precisión de sus resultados se puede medir objetivamente porque, según veremos más adelante,
los estimadores de parámetros seguirán las leyes del azar, esto es, una distribución de probabilidad
conocida de la cual podremos considerar su desviación estándar como un error de muestreo
esperado (promedio).

Aunque el error de muestreo es de naturaleza aleatoria podremos controlarlo, es decir hacerlo más
pequeño, seleccionando el tipo de muestreo más adecuado.

También controlaremos el costo del muestreo seleccionando un tipo de muestreo que logre reducir
sustancialmente ese costo.

1.2.3 TIPOS DE MUESTREOS PROBABILISTICOS.

Algunos tipos de muestreos probabilísticos son los siguientes: muestreo aleatorio simple,
muestreo aleatorio sistemático, muestreo aleatorio estratificado y muestreo aleatorio por
conglomerado.
5

1.3 MUESTREO ALEATORIO SIMPLE

En el muestreo aleatorio simple se seleccionan las muestras mediante métodos que permitan a cada
muestra posible tener igual probabilidad de ser seleccionada y a cada elemento de la población tener
igual probabilidad de quedar incluido en la muestra.

El muestreo aleatorio simple es un procedimiento práctico si:

i) La población tiene una desviación estandar  pequeña en comparación a la magnitud de los


datos y su tamaño no es muy grande.

ii) Es fácil y poco costoso llegar a los elementos poblacionales.

1.3.1 COMO SELECCIONAR LA MUESTRA ALEATORIA SIMPLE.

1. Construir el marco muestral.


El primer paso al seleccionar una muestra de una población es hacer lo que llamaremos un marco
muestral, esto es, una lista completa y actualizada de todos los elementos de la población.

2. Especificar si el muestreo será con o sin reposicion.


También debe especificarse si la muestra se va a obtener con reposición o sin reposición.
Cuando muestreamos con reposición de una población de tamaño N (el elemento seleccionado se
devuelve a la población y por tanto puede seguir siendo considerado en cualquier otra extracción) la
l
probabilidad de que cualquier elemento sea seleccionado es siempre la misma para cualquier
N
extracción.
El muestreo sin reposición es el más usual en la práctica, motivo por el cual le daremos mayor
atención.

Cuando muestreamos sin reposición de una población de tamaño N (el elemento seleccionado no se
devuelve a la población y por tanto no puede seguir siendo considerado para otra extracción) las
probabilidades de seleccionar los elementos restantes después de cada extracción van aumentando
porque el tamaño de la población se va reduciendo en uno tras cada extracción. De manera que la
l
probabilidad de seleccionar un elemento particular en la primera extracción es , la probabilidad
N
l
de seleccionar otro elemento particular en una segunda extracción consecutiva es y así
N -1
sucesivamente.
Al seleccionar sin reposición una muestra aleatoria simple de tamaño n de una población finita de
tamaño N puede demostrar que:
l
i) Cada muestra posible tiene una probabilidad de ser seleccionada.
N
 
n 
n
ii) Cada elemento de la población tiene una probabilidad de ser incluido en la muestra.
N
6

3. Utilizar una tabla de números aleatorios.


Una tabla de números aleatorios consiste en una serie de dígitos generados en forma aleatoria y en
listados en la secuencia en la que fueron generados. Del conjunto de dígitos  0, 1, 2, 3, 4, 5, 6, 7, 8,
9  se seleccionó con reposición y con el apoyo de una computadora los dígitos que componen la
l
tabla, de tal forma que cada dígito tuvo siempre la misma probabilidad de ser seleccionado.
10
Antes de aprender a utilizarla hay que observar cómo está construida. La tabla está compuesta de
números de 5 dígitos cada uno, arreglados en filas y columnas.

La utilización de la tabla constará de los siguientes pasos:

1. Asignar números de códigos a los elementos de la población utilizando cierto número de


dígitos.

El número de dígitos a utilizar dependerá del tamaño de la población N y será el mismo para cada
situación.
Ejemplo, si N = 140 sus elementos se codificarán así: 001, 002, ... ,139, 140
Si N = 10 sus elementos se codificarán así: 1, 2, .... , 9, 0 donde “0” debe leerse como 10.
Si N = 100 sus elementos se codificarán así: 01, 02, , 99, 00 donde “00” debe leerse como 100.
Si N = 1000, N = 10,000, etc, se utilizará el mismo criterio anterior parar asignar números de
códigos a los elementos poblacionales.

2. Escoja una entrada a la tabla.

La entrada se especificará dando un número de fila y un número de columna de manera arbitraria.


Un método satisfactorio consiste en cerrar los ojos y colocar la punta de un lápiz en la tabla, el
número señalado por la punta será la entrada a la tabla.

3. Escoja una dirección.

Por ejemplo: Descendente    , horizontal de izquierda a derecha    , etc.

Si el número a seleccionar es mayor que N (o fue seleccionado previamente en un muestreo sin


reposición) se descarta y se selecciona el siguiente.

Si al terminar la fila o columna en la dirección escogida, no se tienen aún los n números que
requiere la muestra, continue en la siguiente fila o columna.

4. Hágale corresponde a cada número seleccionado de código su elemento correspondiente.

EJEMPLO 1.1

Utilice la tabla de números aleatorios para obtener una muestra aleatoria de 5 estudiantes de esta
clase.
7

EJEMPLO 1.2

La población de supermercados de una ciudad se dan en la siguiente tabla.


* * * *
N° Super 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16

Ventas diarias 8.1 7.5 5.4 3.0 6.2 7.0 8.0 2.5 1.8 4.3 3.8 5..5 4.6 8.3 9.0 3.6
(en miles de C$)

Si X representan las ventas diarias.


i) Diga que representan  y  en el problema.

 representa la venta diaria promedio de los supermercados y  representa la venta diaria


total de los supermercados.

ii) Iniciando en la fila 26 y columna 4 de la tabla de números aleatorios y con una dirección
horizontal de izquierda a derecha, tome una muestra aleatoria simple de 4 supermercados.
Luego márquelos con un *.

Cada número de código tendrá dos dígitos porque la población es de tamaño N = 16. Observando,
para la fila 26 y columna 4, los dos primeros dígitos, obtenemos el número 96 que es rechazado
porque es mayor que 16.
Siguiendo en la dirección horizontal de izquierda a derecha, nos fijaremos ahora sólo en los menores
o iguales que 16 y que no se repitan porque el muestreo se está realizando sin reposición.
El resultado serán los números:
14, 13, 12 y 05

que corresponden a los supermercados 14, 13, 12 y 05 señalados con un *.


8

1.3.2 MUESTRA ALEATORIA DE UNA VARIABLE ALEATORIA

Recordemos algunos experimentos aleatorios:


- Registrar el número de personas que llegan a un supermercado en un día.
- Anotar el tiempo que tarda un bus en llegar a su destino.
- Registrar la precipitación pluvial anual en una región determinada.
- Seleccionar al azar un elemento de una población y observar la característica de interés.
Asociado a cada uno de los experimentos aleatorios anteriores existe una variable aleatoria que
representaremos por X. ¿Qué representa X en cada una de los experimentos aleatorios anteriores ?

Si repetimos un experimento aleatorio cualquiera n veces (independientemente uno de otro y bajo


las mismas condiciones) y hacemos que la variable aleatoria Xi represente la observación de X en la
i-ésima realización del experimento. Entonces diremos que las variables aleatorias X 1, X2,...,Xn
constituyen una muestra aleatoria de X.

Por ejemplo, seleccionemos una pieza electrónica de un proceso contínuo de producción de una
fábrica y hagamos que la variable aleatoria X representa la duración de la pieza.
La duración de la primera pieza seleccionada puede representarse por la variable aleatoria X 1, la
duración de la segunda pieza seleccionada por X2 y así sucesivamente hasta la duración de la n-
ésima pieza seleccionada por Xn. Para poder decir que X1, X2,...,Xn es una muestra aleatoria de X,
debemos asegurarnos de que las observaciones sean independientes y estén hechas bajo las mismas
condiciones normales de trabajo, esto es, que no se haya obtenido una observación en un momento
en que el proceso de producción estaba fallando.

Otro ejemplo, supongamos que la variable aleatoria X representa la precipitación pluvial anual de
cierta localidad. La precipitación pluvial anual durante el presente año podría representarse por la
variable aleatoria X1 . Durante los años siguientes las variables aleatorias X 2,...,Xn pueden definirse
análogamente. Podemos considerar X1, X2,...,Xn como una muesta aleatoria de tamaño n, obtenida
de la población de todas las precipitaciones pluviales anuales posibles en esa localidad y podría
suponerse que las Xi son variables aleatorias independientes e idénticamente distribuidas.

1.3.3 ESTADISTICOS
Sea X1, X2,...,Xn una muestra aleatoria de una variable aleatoria X. Sea h una función de las
variables aleatorias X1, X2,...,Xn . Definimos que Y = h(X1, X2,...,Xn) es un estadístico
Observación: Un estadístico es una variable aleatoria.

1.3.4 ESTIMADOR DE UN PARAMETRO


Sea X una variable aleatoria con una distribución de probabilidades que depende de un parámetro
desconocido  (theta). Sea X1, X2,...,Xn una muestra aleatoria de X. Sea g una función de las
variables aleatorias X1, X2,...,Xn. Se define que θ̂ = g(X1, X2,...,Xn) es un estimador de  , donde θ̂
se leerá theta con acento cincunflejo

Un estimador de un parámetro será entonces un procedimiento o fórmula que proporciona estimados


de ese parámetro a partir de los datos muestrales.
Observación: Un estimador es un estadístico, es decir una variable aleatoria.
9

Por ejemplo, sea X1, X2,...,Xn una muestra aleatoria de tamaño n de una variable aleatoria X cuya
distribución de probabilidad depende de la media poblacional desconocida . Entonces

n N

X i x i

X  será un estimador de la media poblacional μ  que llamaremos media muestral


n N

Para una población finita de tamaño N


N
NX será un estimador del total poblacional τ   x i que llamaremos total muestral

EJEMPLO 1.5
1) Con la muestra del inciso ii) del ejemplo 1.2

Estime  ,  y 

Las ventas diarias que corresponden a los supermercados 14, 13, 12 y 05 son presentadas en la
siguiente tabla.
No. Super Xi X i2

05 6.2 38.44
12 5.5 30.25
13 4.6 21.16
14 8.3 68.89

24.6 158.74

n
 Xi 24.6
X  .   6.15 ( en miles de C$) N X  16 ( 6.15 )  98.4 ( en miles C$)
n 4

n
( X ) 2
n i  24.62
 Xi - .
2
158.74 -
158.74 - 151.29
S2  . n  4 
n -1 4 1 3
7.45
  2.4833  S  2.4833  1.5758 (en miles de C$ )
3

2) Con la muestra del ejemplo 1.1, realice una encuesta dentro del aula de clase para estimar la
cantidad promedio de dinero que trajo hoy un estudiante. ¿Cómo estimaría la cantidad total de
dinero que trajeron hoy los estudiantes de esta clase.
10

1.3.5 PRECISION Y EXACTITUD DE UNA ESTIMACION.

Cuando hacemos una encuesta o una investigación estadística, los datos pueden ser recopilados a
través de un cuestionario escrito o una entrevista personal o telefónica, lo cual da lugar a que se
cometan dos tipos de errores.

1. Errores de muestreo.

Estos errores ocurren debido a que sólo se hace una observación parcial de la población.
El error de muestreo es la diferencia absoluta entre el resultado de la muestra y el parámetro.
Por ejemplo, si estamos estimando la media poblacional  entonces el error de muestreo de una
estimación se denota y define así

em  X - μ

Estos errores no son medibles porque los parámetros son desconocidos y aunque son aleatorios
pueden ser controlados.
De manera que a menor error de muestreo mayor precisión de la estimación.
Mas adelante miraremos que lo que realmente tratamos de medir es un error de muestreo esperado
(promedio) al utilizar un determinado estimador.

2. Errores ajenos al muestreo.

Estos errores no ocurren debido al muestreo en sí, sino a otras causas, motivo por el cual este tipo de
error puede ocurrir en un censo o muestreo.

Algunas causas de estos errores son:


i) Los intrumentos de medida (cuestionarios, entrevistas, etc.) no son precisos, esto es, no miden lo
que se pretende.
ii) Los entrevistados dan respuestas incorrectas.
iii) El entrevistador anota las respuestas en lugares inapropiados.

Estos errores no son medibles pero pueden ser controlados evitando la causa que los producen.

La exactitud de una estimación tiene que ver con lo que llamaremos el error total, esto es, un
resultado del error de muestreo y los errores ajenos del muestreo.

Una preocupación importante de toda encuesta o investigación estadística es hacer lo más pequeño
posible el error total, es decir tratar de maximizar la exactitud aunque no sea medible directamente.

Para el ejemplo 1.5 parte 1), obtenga el error de muestreo correspondiente a la estimación de 
N

x i
88.6
Como μ  =  5.5375 entonces em  x - μ = 6.15 – 5.5375 = 0.6125 (en miles C$)
N 16

Cómo obtendría para el ejemplo 1.5 parte 2), el error de muestreo de la estimación de 
11

1.3.6 DISTRIBUCION MUESTRAL DE UN ESTIMADOR

A partir de aquí utilizaremos la teoría de la probabilidad en la obtención de instrumentos que


facilitarán la inferencia de los parámetros.

Supongamos que tenemos un estimador cualquiera de un parámetro de cierta población


Consideremos todas las muestras posibles de tamaño n que pueden seleccionarse de esa población y
calculemos para cada muestra un estimado del parámetro. A partir de todos los estimados
podemos obtener una distribución de probabilidad del estimador, que será llamada la distribución
muestral del estimador.

Es precisamente la media y la varianza de la distribución muestral del estimador lo que nos ayudará
a conocer las propiedades deseables de un estimador para hacer las mejores inferencias sobre los
parámetros.

DISTRIBUCION MUESTRAL DE LA MEDIA

Para una población con característica de interés X y media poblacional , presentamos gráficamente
la idea anterior aplicable a la media muestral donde hemos supuesto que se pudieron seleccionar M
muestras de tamaño n de la población.

Poblacion muestras media muestral

1 x1 


2  Distribución de probabilid ad de X
x2 
   (Distribuc ión muestral de X )

M xM 

Fig. 1.1
12

EJEMPLO 1.6

Consideremos la población compuesta por 5 representantes de ventas y el número de seguros de


vida que vendieron el mes pasado.

Representante No. Seguros

A 8
B 6
C 4
D 10
E 6

Suponiendo que X representa el número de seguros vendidos.

i) Construya la distribución de la población de X representándola gráficamente.


Seleccionando todos los valores posibles de X y haciéndoles corresponder a cada uno su
probabilidad obtenemos.

xi f ( xi )

4 0.20
6 0.40
8 0.20
10 0.20

1.00

Tabla 1.1

f(X) 0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12
X

Fig. 1.2

ii) Considerando todas las muestras posibles de tamaño dos que pueden seleccionarse sin
reposición y sin orden de la población.
Construya la distribución muestral de X representándola gráficamente.
13

Seleccionando todas las muestras posibles de tamaño n = 2 de la población de tamaño N = 5 y


calculando para cada una su media muestral obtenemos.
.
Muestras xi

8, 6 7
8, 4 6
8, 10 9
8, 6 7
6, 4 5
6, 10 8
6, 6 6
4, 10 7
4, 6 5
10, 6 8

Verifique que hay   =   = 10 muestras posibles


N
n
5
2

Seleccionando todas las medias muestrales posibles y haciéndoles corresponder a cada una su
probabilidad obtenemos.

xi f (x i )

5 0.20
6 0.20
7 0.30
8 0.20
9 0.10

1.00
Tabla 1.2

f( X) 0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10

Fig. 1.3
14

1.3.7 PROPIEDADES DE UN ESTIMADOR


Podemos evaluar la calidad de un estimador de un parámetro analizando su distribución muestral,
esto es, tomando en cuenta su media y su varianza.
Supondremos que  (theta) representa un parámetro cualquiera de cierta población y que ̂ ( theta
con acento circunflejo ) representa su estimador correspondiente.

Un buen estimador de un parámetro debe cumplir básicamente las siguientes propiedades:


1. Insesgadura.
Un estimador ̂ de un parámetro  es insesgado si ̂ tiene una distribución muestral con media de ̂
igual a , lo cual denotaremos así
̂  

De otra manera, ̂ se llama sesgado y a la diferencia ̂   le llamaremos sesgo.

Esto quiere decir que si utilizamos un estimador insesgado para hacer una estimación particular de
un parámetro, ésta puede ser menor o mayor que el parámetro, pero si utilizamos muchas veces el
mismo estimador entonces tendríamos que el valor medio de todas las estimaciones sería igual al
parámetro.

Las distribuciones muestrales para un estimador insesgado y un estimador sesgado se ilustran en la


figura siguiente.

̂ 1 ̂ 2
   ˆ
 ˆ
Estimador insesgado Estimador sesgado

Fig. 1.4 Fig. 1.5

2. Eficiencia
Otra propiedad deseable de un estimador es que tenga distribución muestral con varianza lo más
pequeña posible. Esto asegura una probabilidad alta de que una estimación particular se encuentre
cerca del parámetro.
Si se tienen dos estimadores ̂ 1 y ̂ 2 de un mismo parámetro  y la varianza del estimador ̂ 1 es
menor que la varianza del estimador ̂ 2 , lo cual denotaremos así.
 2ˆ   2ˆ
1 2

Entonces el estimador ̂1 es más eficiente que el estimador ̂ 2


15

Las distribuciones muestrales de dos estimadores de un mismo parámetro se ilustran en la figura


siguiente.

 ̂1  ̂ 2
Fig. 1.6 Fig. 1.7

¿Qué estimador preferiría usted?

Naturalmente el estimador ̂1 porque proporciona estimados más cerca de  que el estimador ̂ 2 ,
esto es, porque  2ˆ   2ˆ
1 2

El mejor estimador posible es aquel que es insesgado y que posee una varianza menor que la de
cualquier otro estimador, motivo por el cual lo llamaremos estimador insesgado de mínima varianza.
Consideraremos la desviación estándar del estimador ̂ , denotada por  ˆ ,como un error de
muestreo esperado (promedio) que será llamado error estándar del estimador ̂ y que vendrá a
ser un indicador de la precisión del estimador.

EJEMPLO 1.7
i) Para la distribución poblacional del ejemplo 1.6 calcule  y 2

xi f ( xi ) xi fi ( xi - 6.8 )2 f(xi )

4 0.20 0.80 1.568


6 0.40 2.40 0.256
8 0.20 1.60 0.288
10 0.20 2.00 2.048

1.00 6.80 4.160

 =  x i f (x i )  6.8

2 =  (x i -  )2 f (x i )  4.16
2 = 4.16 seguros2
 σ  4.16  2.0396 seguros
16

ii) Para la distribución muestral de la media del ejemplo 1.6 calcule  X y  X2 y verifique que
μX  μ
2
xi f( xi ) xi f( xi ) (x i - 6.8 ) f (x i )

5 0.2 1.0 0.648


6 0.2 1.2 0.128
7 0.3 2.1 0.012
8 0.2 1.6 0.288
9 0.1 0.9 0.484

1.0 6.8 1.560

 X   xi f (xi )  6.8 Por tanto μX  μ y X 2 =  (xi - X )2 f (xi )  1.56

Puede demostrarse (no lo haremos aquí) que  X2 es menor que la de cualquier otro estimador de .
Como  X representa el error estándar de la media muestral X , será de interés saber que
 X  1.560  1.2490 seguros
Debido a que  X es considerado como un error de muestreo esperado (promedio) utilizaremos esta
medida para apreciar la precisión de X como estimador de .

1.3.8 MUESTREO EN POBLACIONES CON UNA DISTRIBUCION DE PROBABILIDAD

Puede demostrarse que si tenemos un población cuya variable de interés X tiene una distribución de
probabilidad con media  y desviación estándar  entonces X seguirá una distribución de
probabilidad con
σ
μX  μ y σX  para cualquier n
n

siempre que el muestro se haya realizado de una población infinita o bien muestreamos con
reposición de una población finita.

En símbolos tendríamos que


~ ~ σ
X (μ, σ)  X ( μX  μ, σX  )
n

Si el muestreo se hizo sin reposición de una población finita de tamaño N, se debe usar el factor de
corrección para población finita (F C P F) al expresar el error estándar de X así

σ N - n
σX 
n N - l
N - n
La introducción del F C P F hace que  X se vuelva más pequeño porque  l
N - l
17

Algunas observaciones importantes relacionadas con el  X son las siguientes:


i) X  
ii) A menor  menor  X
iii) A mayor tamaño de muestra n menor  X
iv) A menor  X mayor precisión del estimador X

EJEMPLO 1.8
Para la distribución muestral de la media del ejemplo 1.6 calculemos ahora μ X y  X basándonos
en la distribución poblacional, esto es, aplicando las fórmulas anteriores.

Sabemos que  = 6.8 seguros y que  = 2.0396 seguros


Por tanto μ X  μ = 6.8 seguros
Como las muestras de tamaño n = 2 se seleccionaron sin reposición de una población finita de
tamaño N tenemos que

 N - n
X 
n N - l
2.0396 5-2 2.0396
X =  0.75  2.0396 0.375  1.2490 seguros
2 5 -1 2

Comparando estos resultados con los del ejemplo 1.7 concluimos que son iguales.

Muestreo en poblaciones normales

Cuando la característica de interés X de los elementos de una población sigan una distribución
normal diremos que estamos ante una población normal.

Puede demostrarse que si tenemos una población normal con media  y desviación estándar 
entonces X seguirá también una distribución normal

En símbolos tendríamos que

~ Normal ~ Normal 
X (,  )  X ( X  , X  )
n

siempre que el muestro se haya realizado de una población infinita

Si el muestreo se hizo sin reposición de una población finita de tamaño N,

σ N - n
el error estándar de X se expresa así σX 
n N - l
18

Una representación gráfica de la idea anterior es la siguiente.

  X  X X

Fig. 1.8

Muestreo en poblaciones no normales

No es realista suponer siempre que la población es normal.


En muchos casos no se tiene nigún conocimiento de la distribución de la población.
Cuando se muestrea de una población no normal no sabemos qué distribución muestral seguirá X

Observemos la distribución muestral de X de la figura 1.3 del ejemplo 1.6 y preguntémonos qué
aspecto tomaría si el tamaño de la muestra hubiera sido más grande; probablemente la distribución
muestral de X sería más simétrica.

La pregunta anterior nos conduce al teorema más importante en la Estadística básica, el teorema del
límite central.

Teorema del límite central

Si muestreamos una población no normal, con media  y desviación estandar , utilizando un


tamaño de muestra suficientemente grande, esto es n  30, entonces X tendrá una distribución
aproximadamente normal.

En símbolos tendríamos que

~ No Normal ~ aprox. Normal σ


X ( μ , σ ) y n  30  X ( μX  μ, σX  )
n

siempre que el muestro se haya realizado de una población infinita

Si el muestreo se hizo sin reposición de una población finita de tamaño N,

σ N - n
el error estándar de X se expresa así σX 
n N - l

Este teorema es importante porque le permite al investigador hacer inferencias en cuanto a la media
poblacional  sin tener que conocer la forma específica de la distribución de la población.
19

1.3.9 ESTIMADOR PUNTUAL Y POR INTERVALO

Un estimador puntual de un parámetro es aquel que proporciona un único estimado de ese


parámetro al utilizar los datos muestrales.

Un estimador por intervalo de confianza de un parámetro es aquel que define un par de variables
aleatorias Li y Ls (que llamaremos límite inferior y límite superior del intervalo) entre los cuales
diremos que hay una probabilidad de 1 -  (que llamaremos nivel de confianza) de que el
parámetro se encuentre entre dichos límites; y también diremos que hay una probabilidad  (que
llamaremos riesgo) de que no se encuentre entre dichos límites.

Cada muestra particular proporcionará un intervalo conocido que llamaremos intervalo de confianza
del (1 - )100% para el parámetro.

En un muestreo repetido esperamos que un (1 - )100% de los intervalos particulares cubran el


parámetro y que un (  ) 100% no lo cubran.

Las fórmulas que presentaremos para los estimadores puntuales y por intervalo de cualquier
parámetro en un muestreo aleatorio simple serán aplicables también al muestreo aleatorio
sistemático.

1.3.10 ESTIMADOR PUNTUAL DE  Y 


N

x
n
i X i
 Un estimador puntual de la media poblacional μ  es la media muestral X 
N n

N
 Un estimador puntual del total poblacional τ   x i es el total muestral NX

ERROR ESTANDAR DE X Y NX

 El error estándar de la media muestral X se denota y define así

σ σ N - n
σX  si la población es infinita y σX  si la población es finita.
n n N - l

 El error estándar del total muestral NX se denota y define así

σ NX  Nσ X
20

1.3.11 ESTIMADOR POR INTERVALO PARA  y  CUANDO  ES CONOCIDA.

Puesto que X varía de una muestra a otra, se necesita contar con un estimador de  más aplicable a
la realidad, objetivo que se logra cuando tomamos en cuenta la distribución muestral de X , según
veremos a continuación.
Cuando la desviación estándar poblacional  sea conocida y utilicemos X como estimador de  ,
supondremos que tiene una distribución aproximadamente normal y que por tanto podemos expresar
el error de muestreo, X -  , en unidades del error estándar de X , es decir, podemos estandarizar la
variable aleatoria X así
X - 
 Z
X

Obteniendo otra variable aleatoria Z que tendrá distribución normal estándar.

Como P(  zα/2  Z  zα/2 )  1  α donde zα/2 es un valor de la normal estándar que tiene a su
derecha una área acumulada de  y a su izquierda un área acumulada de 1 - 
2 2

Podemos sustituir la expresión anterior de Z en esta desigualdad y obtener

 
P  - z α/2  X - μ  z α/2   1 - α
 σX 
 

Haciendo algunas manipulaciones algebraicas dentro de la desigualdad llegamos a que:

P  X - z α/2 σ x  μ  X  z α/2 σ x   1-α

El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que

X - z α/2 σ x  μ  X  z α/2 σ x

O de una manera más breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para  estará dado por
X  z/2 σ x

donde X - z/2  X será el límite inferior y X  z/2  x será el límite superior del intervalo.

Con un razonamiente similar podemos llegar a la conclusión de que un estimador por intervalo de
confianza del (1 - )100% para  está dado por

NX  z/2 σ NX donde σ NX  Nσ X

Si sustituimos X o  NX por su correspondiente fórmula según la población sea infinita o finita,


llegamos al siguiente resultado:
21

Si una población es normal, esto es, si su característica de interés X tiene una distribución normal
con desviación estándar  conocida, entonces:

1) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así:

i) Para una población infinita.


σ
X  z/2 para cualquier n
n
donde z α/2 es un valor de la normal estándar que tiene a su izquierda una área acumulada de 1 -  ,
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.

ii) Para una población finita.


σ N - n
X  z/2 para cualquier n
n N -1

donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.

2) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así:

σ N -n
N X  z α/2 N para cualquier n
n N -1

donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.

Notas:

 z α/2 es un valor que se obtiene de la expresión P( Z < z/2 ) = 1 -
2
 Si la fracción muestral n  0.05 podemos omitir el factor de corrección N - n
N N -1
N-n
 La introducción del factor en la fórmula reduce el error estándar del estimador.
N -1
n
 La proporción muestral representa la proporción de la población que se ha muestreado.
N
n N-n n
 Podemos utilizar 1- como una aproximación de donde 1 - representa la
N N -1 N
proporción de la población que no se ha incluido en la muestra.

 Si la población es no normal pero n  30 podemos aplicar el teorema del límite central


para garantizar la aplicación de las fórmulas anteriores a esas circunstancias.
22

1.3.12 DETERMINACION DEL TAMAÑO DE MUESTRA PARA 

La determinación del tamaño de muestra podemos decir que es un procedimiento sujeto a


restricciones de presupuesto, tiempo y facilidad de selección.

Tratemos ahora de obtener una fórmula para el tamaño de muestra.

Supongamos que X es un estimador de  y que queremos estimar  de tal forma X -μ  E

Esto es, que los errores de muestreo tengan un valor máximo E que llamaremos error máximo
permitido en la estimación de .

Si queremos tener una confianza del ( 1 -  ) 100% de que E sea el máximo error permitido,
escribiremos
P ( X - μ  E)  1 - α

Manipulando algebraicamente esta expresión llegamos a que

P X - E  μ  X  E   1-α

El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que

X - E  μ  X E

o de una manera más breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para  estará dado por
X  E

lo cual es otra manera equivalente de representar el estimador por intervalo de confianza del ( 1 -  )
100% para .

X  z/2  x

Comparando las dos expresiones equivalentes concluimos que el error máximo permitido en la
estimación de  es
E  z/2 σx

De manera similar podemos concluir también que el error máximo permitido en la estimación de 
es
E  z/2 σ N x

Si sustituimos  x por su correspondiente fórmula en E  z/2 σ x según la población sea infinita o


finita y luego solucionamos para n llegamos al siguiente resultado:
23

El tamaño de muestra requerido n para estimar  con error máximo permitido E y un nivel de
confianza de ( 1 -  ) 100% es

i) Para una población infinita

2
z σ
n   /2 
 E 

ii) Para una población finita

2
 z/2 σ 
no   
 E 

Si n o  0.05, n0 puede ser reducida a n 


no N
N no  ( N - 1 )

Por consiguiente para determinar el tamaño de la muestra, se tienen que conocer tres factores:

1. El nivel de confianza deseado, que determina el valor de z α/2


2. El error máximo permitido, E
3. La desviación estándar poblacional, 

Observe que el cuadrado del error máximo permitido es inversamente proporcional al tamaño de la
muestra.

Para el error de muestreo permitido se debe pensar qué tanto error se puede “aceptar” y con qué
nivel de confianza de manera que aún se puedan proporcionar conclusiones adecuadas.

Cuando no se conozca  utilizaremos su estimador S.

También, cuando estemos determinando el tamaño de la muestra, cualquier resultado decimal


siempre se redondeará hacia el entero inmediato superior.

Finalmente, si la población no es normal y el tamaño de muestra que se está calculando está por
debajo de 30 entonces debe incrementarse a 30, porque las fórmulas anteriores se basan en el uso de
la distribución normal.
24

EJEMPLO 1.9
Una máquina empaca azúcar en bolsas plásticas. Se quiere estimar el peso promedio de las bolsas
de azúcar sabiendo por estudios anteriores que la desviación estándar poblacional es de 0.10 lbs.
Del flujo de producción se toma una muestra aleatoria de 10 bolsas, obteniendo los siguientes pesos
en libras.

5.10, 4.90, 4.80, 5.15, 5.05, 4.95, 4.97, 4.85, 5.03, 5.00

Suponiendo que el peso de las bolsas de azúcar se distribuye normalmente:

i) Obtenga un intervalo de confianza del 80% para el peso promedio de las bolsas de azúcar.

Iniciaremos el planteo de este problema así:


Los elementos son las bolsas de azúcar. La población se considera infinita
X representa el peso de las bolsas de azúcar. La población es normal con  conocida
 representa el peso promedio de las bolsas de azúcar. n = 10 bolsas de azúcar.

La fórmula para esta situación es



X  z/2
n
n

X i
49.8 
donde X    4.98 lbs. y z α/2 lo determinamos de P( Z < z/2 ) = 1 - así
n 10 2

Como la tabla de la distribución Z sólo presenta áreas acumuladas a la izquierda, encontremos el



 1- 

valor de 1 - así: 1 -  = 0.80   = 0.20  = 0.10 = 0.90
2 2 2

Según la tabla de la distribución de Z el área más cercana a 0.90 es 0.8997. Trace a partir de esta
área una línea horizontal imaginaria hacia la izquierda (que señalará 1.2 ) y luego otra línea vertical
imaginaria hacia arriba (que señalará 8). Se dirá que al área 0.90 le corresponde zα/2 = 1.28

Sustituyendo X , zα/2 ,  y n por su valores co rrespondientes obtenemos

4.98  1.28  0.10 


 10 
4.98  1.28 ( 0.0316 )
4.98  0.0404  Li = 4.9396 lbs. y Ls = 5.0204 lbs.

Podemos decir con un 80% de confianza de que 4.9396    5.0204

y con un 20% de riesgo de que  no está comprendida entre esos límites.

ii) Identifique el error muestral promedio en la estimación por intervalo del inciso i)

σ x = 0.0316 lbs.
25

iii) Con la misma muestra anterior, obtenga otro intervalo de confianza para el peso promedio de
las bolsas de azúcar, pero con un nivel de confianza del 97%. Compare la longitud de este intervalo
con el obtenido en el inciso i) haciendo los comentarios pertinentes.


zα/2 lo determinamos de P( Z < z/2 ) = 1 - así
2

1 -  = 0.97   = 0.03   = 0.015  1-  = 0.985


2 2

Según la tabla de la distribución de Z, al área acumulada 0.985 le corresponde zα/2 = 2.17

Sustituyendo X , zα/2 ,  y n por su valores correspondientes obtenemos

4.98  2.17  0.10 


 10 
4.98  0.0686  Li = 4.9114 lbs. y Ls = 5.0486 lbs.

Podemos decir con un 97% de confianza de que

4.9114    5.0486

Observemos que la longitud de este intervalo es mayor que la longitud del intervalo del inciso i),
esto significa que entre más confiable sea nuestra estimación menos precisa será.

iv) Identifique el valor del error máximo permitido con una confianza del 80% en la estimación
del inciso i)

E = 0.0404 lbs

v) Si quiero estimar el peso promedio de las bolsas de azúcar con una confiabilidad del 90% de que
el error máximo permitido sea de 0.0313 lbs, ¿Cuál debe ser el tamaño de la muestra?

Como la población es infinita, la fórmula es

2
n =  z/2  
 E 
 

Sustituyendo zα/2 ,  y E por sus valores correspondientes obtenemos

2
= 
1.65 (0.10) 
n  
= 27.7894  28 bolsas
 0.0313 

Se necesita una muestra de tamaño n = 28 bolsas para tener una confiabilidad del 90% de que el
error máximo permitido sea de 0.0313 lbs.
26

EJEMPLO 1.10
Consideremos el conjunto de todas las pequeñas industrias de un determinado artículo. Se quiere
estimar la producción anual total de las industrias y se sabe, en base a estudios anteriores, que la
desviación estándar poblacional de las producciones anuales es igual a 2 en miles de unidades. Con
tal propósito se selecciona de un listado actualizado de 826 industrias una muestra aleatoria de 50
industrias, obteniendo una producción anual promedio de 5.52 en miles de unidades.

i) Encuentre un intervalo de confianza del 90% para la producción anual total de las industrias.

Los elementos son las pequeñas industrias. La población es finita de tamaño N = 826
X representa la producción anual por industria. La población se supone que no es normal y  es
conocido.  representa la producción anual promedio.  representa la producción anual total
n = 50 pequeñas industrias

Aunque la población no sea normal podemos aplicar, según el teorema del límite central, la
siguiente fórmula:
σ N-n porque n  30
NX  z/2 N
n N -1

n 50
Observe que  = 0.0605  0.05 y que por tanto no podemos omitir el factor de
N 826
corrección.

Sustituyendo X , zα/2 , , n y N por sus valores correspondientes obtenemos

2 826 - 50
826 (5.52)  1.65 (826)
50 826 - 1

4559.52  1.65 (826) (0.2828) (0.9698)

4559.52  373.7882  Li = 4185.7318 y Ls = 4933.3082

Podemos decir con un 90% de confianza de que

4185.7318    4933.3082 (en miles de unidades)

ii) Con una confianza del 95% calcule el valor del error máximo permitido en la estimación de la
producción anual total del inciso i)
E  z/2 σN X = 1.96 (226.5383) = 444.0151

iii) Si quiero estimar la producción anual promedio de las industrias con una confiabilidad del
80% de que el error máximo permitido sea de 300 unidades, ¿Cuál debe ser el tamaño de la
muestra?
Como la población es finita, la fórmula es
2
no =  z/2  
 E 
 
27

Compruebe que zα/2 = 1.28 y que E = 300 = 0.3 en miles de unidades.


1000

Sustituyendo zα/2 ,  y E por sus valores correspondientes obtenemos

2
 1.28 (2) 
no =   = 72.8178
 0.3 

Como = n o  72.8178 = 0.0882  0.05, podemos reducir no a


N 826

n0 N 72.8178 (826) 60147.5028


n =   = 66.9930  67 pequeñas industrias.
no  ( N - 1) 72.8178  825 897.8178

1.3.13 LA DISTRIBUCION t DE STUDENT

Cuando la desviación estándar poblacional  sea desconocida y X tenga una distribución normal o
aproximadamente normal, tendremos primero que estimar  para poder estimar  x .

ERROR ESTANDAR ESTIMADO DE X Y NX

 El error estándar estimado de la media muestral X se denota y define así.

 S
 n si se muestreó de una población infinita

σˆ X  
 S N-n
si se muestreó sin reposición de una población finita de tamaño N
 n N -1

donde S es un estimador insesgado de 

 El error estándar estimado del total muestral NX se denota y define así.

σˆ NX  Nσˆ X

De manera que la estandarización de X estará dada por la siguiente expresión

X -μ
 t
σ̂
x
la cual incluye una variable aleatoria en el denominador porque S es variable aleatoria, y por lo tanto
σ̂ X , también es una variable aleatoria.
28

Esto da como resultado que la estandarización de X ya no sea la variable aleatoria Z sino otra
variable aleatoria que representaremos por t y que tendrá una distribución de probabilidad conocida
con el nombre de distribución t de Student con n – 1 grados de libertad, ya que fue investigada
originalmente por William Gossett, quien publicó sus escritos con el seudónimo “Student”.
El hecho de tener que estimar el parámetro σ x con los mismos n datos que se utilizan para poder
calcular el valor del estadístico t, hace que t pierda un grado de libertad, esto es, que quede con n –
1 grados de libertad (g.l).

CARACTERISTICAS

1. Es una familia de distribuciones t de tal forma que cada vez que se especifiquen sus grados de
libertad n – 1, se produce una distribución t particular.

2. Es simétrica y de forma acampanada con

n
t  0 y   , n  2
t n - 2

3. Como  t es ligeramente superior a 1, la distribución t es aplastada en comparación a la normal


estándar, es decir, platicúrtica.

4. Cuando el número de grados de libertad tiende a infinito, la distribución t se convierte en


distribución Z.

La distribución t se considera muy parecida a la distribución Z cuando n  30

dist. Z

dist. t

0 t

Fig. 1.9
29

1.3.14 ESTIMADOR POR INTERVALO PARA  Y  CUANDO  ES DESCONOCIDA

Ahora que ya estudiamos la distribución t de student, podemos utilizar el mismo razonamiento que
se utilizó para la distribución Z para demostrar que las expresiones que definen los límites inferior y
superior de un intervalo de confianza para  y  son:

X  t/2 σˆ X y N X  t/2 σˆ NX respectivamente.

donde t α/2 es el valor de la distribución t con n – 1 grados de libertad que tiene a su derecha un área
acumulada de 
2
Si sustituimos σ̂ X o σ̂ N X por su correspondiente fórmula según la población sea infinita o finita,
llegamos al siguiente resultado:
Suponga que estamos ante una población normal y que S es una estimador de 

1) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así:

i) Para una población infinita

X  t/2
S
siempre que n  30
n


donde t α/2 es un valor de la distribución t de Student que tiene a su derecha una área de
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.

ii) Para una población finita

S N-n
X  t /2 siempre que n  30
n N -1

donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.

2) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así

S N-n siempre que n  30


N X  t/2 N
n N -1
Notas:

 t α/2 se obtiene de la expresión P(t  t /2 ) =
2
N-n
 Si n  0.05 podemos omitir el factor de corrección
N N -1
30

Observación 1.
Si la población es normal y n  30 entonces según la característica 4 de la distribución t,
podemos escribir en todas las fórmulas anteriores z como una aproximación de t
Observación 2.
Si la población es no normal, pero n  30 entonces según el teorema del límite central y la
característica 4 de la distribución t, también podemos escribir en todas las fórmulas anteriores z
como una aproximación de t.

Según la distribución poblacional y el tamaño de muestra se presentan en la tabla de abajo distintas


situaciones en las cuales los estadísticos Z o t pueden ser utilizados.

DISTRIBUCION DE LA POBLACION
Tamaño Normal No Normal
de
muestra n  conocido  desconocido  conocido  desconocido

n  30 Z t

n  30 Z Z Z Z

Con un razonamiento similar al realizado en la situación cuando  era conocido llegamos a que:

El error muestral máximo permitido en la estimación de  es E  t / 2σˆ X


El error muestral máximo permitido en la estimación de  es E  t/2σˆ N X

EJEMPLO 1.11
Un auditor quiere estimar el saldo promedio y el saldo total de una población de 1000 cuentas por
cobrar. Con tal propósito selecciona al azar una muestra aleatoria de 6 cuentas, obteniendo los
siguientes resultados en miles de córdobas.

2.6 , 3.0 , 3.5 , 2.4 , 2.0 1.5

Si suponemos que los saldos de las cuentas se distribuyen aproximadamente normal.

1) Determine un intervalo de confianza del 90% para:


i) el saldo promedio de las cuentas
ii) el saldo total de las cuentas

Los elementos son las cuentas por cobrar. La población es finita de tamaño N = 1000
X representa el saldo de la cuenta. Asumimos que la población es normal pero se desconoce 
 representa el saldo promedio.  representa el saldo total. n=6
31

i) La fórmula correspondiente para esta situación es

S N-n
X  t/2
n N -1

n 6 N-n
Como = = 0.006  0.05 podemos omitir el factor
N 1000 N -1

X y S lo determinamos a partir de la muestra de la siguiente manera:


2 n
Xi Xi
X i
15
X    2.5 (en miles de C$)
2.6 6.76 n 6
n
3.0 9.00 ( X i ) 2
n
 15 2
X 
2
3.5 12.25 i
.
40.02 -
n 6
2.4 5.76 S2  .

n 1 6 -1
2.0 4.00
1.5 2.25
40.02 - 37.5 2.52
15.0 40.02    0.5040
5 5
S  0.5040  0.7099 (en miles de C$)


El valor t /2 lo determinaremos de la expresión P(t  t /2 ) =
2
Como la tabla de la distribución t de Student sólo presenta áreas acumuladas a la derecha,
 
encontremos el área así: 1 -  = 0.90   = 0.10   0.05
2 2

Ahora tracemos dos líneas imaginarias, una horizontal que pase por n -1 = 6 – 1 = 5 y otra vertical
que pase por 0.05. En la intersección de las líneas anteriores encontraremos el valor t /2 = 2.015

Sustituyendo X , t /2 , S y n por sus valores correspondientes obtenemos.

0.7099
2.5  2.015
6

2.5  2.015 ( 0.2898 )

2.5  0.5839  Li = 1.9161 y Ls = 3.0839 (en miles de C$.)

Podemos decir con un 90% de confianza de que

1.9161    3.0839
32

ii) La fórmula correspondiente para esta situación es

S N-n
N X  t/2 N
n N -1

N-n
donde también se puede omitir el factor
N -1

Como t /2 no cambia, podemos sacar de factor común N

N  S 
 X  t /2 
 n 

1000 ( 2.5  0.5839 )  Li = 1916.1 y Ls = 3083.9 (en miles de C$.)

Luego podemos decir con un 90% de confianza de que

1916.1    3083.9 (en miles de C$.)

2) Con una confianza del 98% calcule el valor del error máximo permitido en la estimación del
saldo promedio de las cuentas del punto 1) inciso i)

E  t/2σˆ X = 3.365 (0.2898) = 0.9752 (en miles de C$.)

3) Si el auditor quiere estimar el saldo promedio de las cuentas con un error de más o menos C$
500 y con una confianza del 98%, ¿qué tamaño mínimo de muestra se requiere?

Como la población es finita y  es desconocida, la fórmula es

2
no =  z/2 S 
 E 
 

500
Compruebe que zα/2 = 2.33 y que E = = 0.50 (en miles de C$.)
1000

Sustituyendo zα/2 , s y E por sus valores correspondientes obtenemos

2
no =  2.33 ( 0.7099 )  = 10.9438
 0.5 

n0 10.9438
Como =  = 0.0109  0.05, no no puede ser reducida
N 1000

Luego n  11 cuentas por cobrar.


33

EJEMPLO 1.12
Suponga para el ejemplo 1.11 que ahora el auditor decide seleccionar una muestra aleatoria de 36
cuentas por cobrar, obteniendo los siguientes resultados en miles de córdobas.

X = 2.6 (en miles de C$)


S = 0.5 (en miles de C$)

i) Determine un intervalo de confianza del 95% para el saldo promedio de las cuentas.

Como la población es normal,  desconocida y n  30 podemos escribir z como una


aproximación de t en la fórmula del intervalo de confianza para  , quedando así

S N-n
X  z/2
n N -1

n 36 N-n
Como = = 0.036  0.05 podemos omitir el factor
N 1000 N -1

Sustituyendo X , zα/2 , S y n por sus valores correspondientes

0.5
2.6  1.96
36
2.6  1.96 ( 0.0833 )

2.6  0.1633  Li = 2.4367 y Ls = 2.7633 (en miles de C$)

Entonces podemos decir con un 95% de confianza de que

2.4367    2.7633 (en miles de C$)

ii) Identifique el valor del error muestral promedio en la estimación del saldo promedio de las
cuentas del inciso i)

σ̂ X = 0.0833 (en miles de C$)

EJEMPLO 1.13
Se va a vender un nuevo cereal para desayuno como prueba de mercados durante un mes en las
tiendas de una cadena de autoservicio. Los resultados de una muestra de 36 tiendas indicaron ventas
promedio de C$ 1200 con una desviación estándar de C$ 180.

i) Establezca un intervalo de confianza del 99% para las ventas promedios reales de este nuevo
cereal.
Los elementos son las tiendas. La población se considera muy grande o infinita
X representa las ventas por tienda. Se supone que la población no es normal y que  se desconoce
 representa las ventas promedios de las tiendas
n = 36 , X = 1200 y S = 180
34

La población no es normal, pero n  30, esto nos permite utilizar el teorema del límite central
y la característica 4 de la distribución t, para escribir z como una aproximación de t en la
fórmula del intervalo de confianza para , quedando así

S
X  z/2
n

Sustituyendo X , zα/2 , S y n por sus valores correspondientes

180
1200  2.58
36

1200  77.40  Li = C$ 1122.60 y Ls = C$ 1277.40

Podemos decir con un 99% de confianza de que

C$ 1122.60    C$ 1277.60

ii) Si la cadena tiene 200 tiendas, establezca un intervalo de confianza del 99% para las ventas
promedios reales de este producto.

Si N = 200 tiendas, la población es finita y la fórmula es

S N-n
X  z/2
n N -1

N-n
Como n
= 36 = 0.18  0.05, no podemos omitimos el factor
N 200 N -1

Sustituyendo X , zα/2 , S , n y N por sus valores correspondientes

180 200 - 36
1200  2.58
36 200 - 1

1200  77.40 (0.9078)

1200  70.2637  Li = C$1129.7363 y Ls = C$1270.2637

Podemos decir con un 99% de confianza de que

C$1129.7363    C$1270.2637

Al comparar este intervalo con el obtenido en el inciso i) notamos que tiene una longitud menor,
esto es, que proporciona mejor precisión al mismo nivel de confianza.
35

1.3.15 POBLACIONES CON DISTRIBUCIONES DE BERNOULLI

En estas poblaciones la característica de interés Y es una variable aleatoria que presenta solamente
dos resultados mutuamente excluyentes y exhaustivos que llamaremos éxito (E) y fracaso (F).

Estos resultados pueden ser cuantificados así

1 si se tiene un E
Y  
 0 si se tiene un F

Bajo las circunstancias anteriores diremos que Y tiene una distribución de Bernoulli dada por la
siguiente expresión.
 p si y 1
f ( y)  
 1 - p si y  0
Se demuestra fácilmente que Y = p y que Y = p (1- p )

En esta población será de nuestro interés la estimación de dos parámetros:

N

El total poblacional  =  yi y la media poblacional Y =
N
.
El total poblacional lo definiremos así

 = N° total de éxitos en la población

Debido al hecho de que Y = p , donde p es una probabilidad (un número entre 0 y 1 ), la media
poblacional será llamada proporción poblacional y la denotaremos y definiremos así

 N 0 total de éxitos en la población


p 
N Tamaño de la población

1.3.16 ESTIMADOR PUNTUAL DE p Y 


La selección de muestras aleatorias de poblaciones con distribuciones de Bernoulli, nos permitirán
la utilización de los siguientes estimadores.

 El estimador de p será la proporción muestral que denotaremos y definiremos así.

Y i
X No. total de éxitos en la muestra
pS  .
 
n n Tamaño de la muestra

 El estimador de  será el total muestral que denotaremos y definiremos así

N ps
36

1.3.17 DISTRIBUCION MUESTRAL DE pS

Cuando n sea suficientemente grande, es decir cuando n p  5 y n ( 1 – p )  5, entonces pS


por ser una media muestral tendrá según el teorema del límite central una distribución muestral
aproximadamente normal con

μ pS  μ Y  p y

 σY p(1  p) p (1  p)
   si la población es infinita
 n n n
σ pS 
 σY Nn p (1  p) N  n
  si la población es finita
 n N 1 n N 1

1.3.18 ERROR ESTANDAR ESTIMADO DE pS Y N pS

 El error estándar estimado de la proporción muestral pS se denota y define así.

 p S (1  p S )
 si la población es infinita
 n
σ
ˆ pS 
 p S (1  p S ) Nn
si la población es finita

 n N 1

donde pS es el estimador de p

 El error estándar estimado del total muestral NpS se denota y define así.

σˆ Np S  Nσˆ p S

1.3.19 ESTIMADOR POR INTERVALO PARA p Y 


37

Puede demostrarse que las expresiones que definen los limites inferior y superior de un intervalo de
confianza para p y  son:

pS  z σˆ p S y Np S  z α/2
σˆ NpS respectivamente.
α/2

Si sustituimos ̂ p S o ̂ NpS por su correspondiente fórmula, según la población sea infinita o finita,
llegamos al siguiente resultado:

Supongamos que estamos ante una población con distribución de Bernoulli y que hemos
seleccionado una muestra suficientemente grande, esto es, n p  5 y n ( 1 – p )  5

1) Un estimador por intervalo de confianza del ( 1 -  )100 % para p esta dado así

i) Para una población infinita

pS ( 1 - pS )
pS  z/2
n

donde zα/2 es un valor de la normal estándar que tiene a su derecha una área acumulad de
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite superior
( Ls ) es la suma señalada por las mismas expresiones.

ii) Para una población finita

pS ( 1 - pS ) N-n
pS  z/2
n N -1

donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.

N-n
Si n  0.05 , podemos omitir el factor de corrección
N N -1

2) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así

pS ( 1 - pS ) N-n
Np S  z/2 N
n N -1

donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
N-n
Si n  0.05 , podemos omitir el factor de corrección
N N -1

1.3.20 DETERMINACION DEL TAMAÑO DE MUESTRA PARA p


38

Haciendo un razonamiento similar al utilizado para el tamaño de muestra para  podemos concluir
que el error máximo permitido en la estimación de p es

E  z/2 σˆ p S

Si sustituimos ̂ p S por su correspondiente fórmula, según la población sea infinita o finita y luego
resolvemos para n llegamos al siguiente resultado:

El tamaño de muestra requerido n para estimar p con un error máximo permitido E y un nivel de
confianza de ( 1 -  ) 100% es

i) Para una población infinita

2
 z/2 
n  p(1  p)  donde p puede ser estimado con pS
 E 

ii) Para una población finita.

2
 z/2 
n 0  p(1  p)   donde p puede ser estimado con pS
 E 

no
Si  0.05, n0 puede ser reducida a
N
no N
n 
no  ( N - 1 )

Si no se cuenta con una estimación de p , utilizaremos en la fórmula anterior el valor de p que hace
máxima la expresión p ( 1 – p ), es decir tomaremos p = 0.50

EJEMPLO 1.14

El gerente de una cadena de tiendas de departamentos desea determinar la proporción de poseedores


de tarjetas de crédito que comprarían en las tiendas si estuvieran abiertos los domingos. Con tal
propósito decide selecciónar una muestra aleatoria de 100 tarjetahabientes, la cual informó que 60
comprarían los domingos.

i) Encuentre un intervalo de confianza del 99% para la proporción real de tarjetahabientes que
comprarían los domingos.

Iniciaremos el problema planteándolo así


Los elementos son los tarjetahabientes
La población se considera muy grande o infinita

Y representa la disposición de los tarjetahabientes en comprar o no comprar.


39

Como estamos interesados en los que están dispuestos a comprar, el éxito será “comprar”.esto es,

1 si compra
Y  
 0 si no compra

La población tiene una distribución de Bernoulli

p representa la proporción de tarjetahabientes que comprarían los domingos.

X 60
n = 100 tarjetahabientes, X = 60 tarjetahabientes y pS =  = 0.60
n 100

Como n pS = 100 (0.60) = 60  5 y n ( 1 - pS ) ) = 100 (0.40) = 40  5,

la fórmula es
pS ( 1 - pS )
pS  z α/2
n

donde zα/2 = 2.58

El gerente seleccionó un elevado nivel de confianza del 99% en la estimación de p porque quiere
sentirse seguro antes de tomar esta importante decisión de comercialización.

Sustituyendo pS , zα/2 y n por sus valores correspondiente obtenemos

0.60 (0.40))
0.60  2.58
100

0.60  2.58 (0.0490)

0.60  0.1264  Li = 0.4736 y Ls = 0.7264

Podemos decir con un 99% de confianza de que

0.4736  p  0.7264

ii) Identifique el valor del error máximo permitido en la estimación de la proporción real de
tarjetahabientes que comprarían los domingos del inciso i)

E = 0.1264
40

iii) Si el gerente quiere estimar la proporción real de tarjetahabientes que comprarían los
domingos con un 99% de confianza de tener una tolerancia de  0.025, ¿qué tamaño de muestra se
requiere?

Como la población es muy grande, la fórmula correspondiente es

2
n = p ( 1 – p )  z/2 

 E 

Utilizando pS como una estimación de p y sustituyendo zα/2 y E por sus valores correspondientes

2
n = 0.60 (0.40 )  2.58  = 0.24 (10650.24) = 2556.0576  2557 tarjetahabientes.
 0.025 

Observe que la muestra de tamaño 100 del inciso i) tiene el mismo nivel de confianza (99%), pero
tiene alrededor de 5 veces más error muestral que el permitido aquí al estimar la proporción
verdadera.

EJEMPLO 1.15
Suponga para el ejemplo 1.14 que la cadena de tiendas de departamentos cuenta con 10,000
poseedores de tarjetas de crédito.

i) Encuentre un intervalo de confianza del 95% para el total de tarjetahabientes que comprarían
los domingos.

 representa el total de tarjetahabientes que compraría los domingos.

Como la población es finita de tamaño N = 10,000 tarjetahabientes, la fórmula es

pS ( 1 - pS ) N-n
Np S  z/2 N
n N -1

n 100 N-n
Como = = 0.010  0.05 se puede omitir el factor
N 10000 N -1

Sustituyendo N , pS , zα/2 , y n por sus valores correspondientes

0.60(0.40)
10,000 (0.60)  1.96 (10,000)
100
6000  1.96 (10,000) ( 0.049 )
6000  960.40  Li = 5039.60 y Ls = 6960.40

Podemos decir con un 95% de confianza de que

5040    6960 tarjetahabientes.


41

ii) Determine el tamaño de muestra necesario para estimar la proporción real de tarjetahabientes
que comprarían los domingos con un 95% de confianza de tener una tolerancia de  0.025.

Como la población es finita, la fórmula es

2
no = p ( 1 – p )  z/2 

 E 

Utilizando pS como una estimación de p y sustituyendo zα/2 y E por sus valores obtenemos

2
no = 0.60 (0.40 )  1.96  = 0.24 (6146.56) = 1475.1744
 0.025 

1475.1744
Como n0
= = 0.1475  0.05 , n0 puede ser reducido a
N 10000

n = no N = 1475.1744 (10,000)  14,751744


no  ( N - 1) 1475.1744  9999 11474.1744

= 1285.6475  1286 tarjetahabientes.


42

1.4 MUESTREO ALEATORIO ESTRATIFICADO

Este muestreo exige tener un conocimiento previo de la población y es práctico utilizarlo en


poblaciones heterogéneas, esto es, en poblaciones donde la característica de interés X tenga una gran
variabilidad (  es grande en comparación a la magnitud de los datos).

Consiste en dividir la población en subpoblaciones o estratos de manera de que cada estrato debe
presentar una pequeña variación en su interior con respecto a la característica de interés X que
estemos investigando, y entre los distintos estratos las diferencias sean las más grandes posibles.
Luego seleccionamos una submuestra de cada estrato utilizando muestreo aleatorio simple para
finalmente conformar la muestra aleatoria estratificada.

Los motivos principales para utilizar muestreo aleatorio estratificado en lugar de muestreo aleatorio
simple son los siguientes:

1. Reducción del error máximo de estimación.


2. Reducción del costo por observación.
3. Se pueden obtener estimaciones de parámetros para las subpoblaciones.

Antes de presentar las fórmulas de estimación de los parámetros introduzcamos la siguiente


notación.

X representa la característica de interés de los elementos

L representa el número de estratos en que se divide la población.

Ni representa el número de unidades muestrales del estrato i o tamaño del estrato i.

i representa la media poblacional para el estrato i.

i2 representa la varianza poblacional para el estrato i.

i representa el total poblacional para el estrato i.

L
N = N.
i representa el tamaño de la población.
L
 = 
.
i representa el total poblacional


 = representa la media poblacional.
N

ni representa el tamaño de la submuestra del estrato i.

L
n = n
.
i representa el tamaño de la muestra estratificada.
43

Suponga que Xij es la j-ésima observación en los elementos del estrato i.


La media, la varianza y total de la submuestra del estrato i son dadas a continuación:

ni ni 2

 Xij  X ij  Xi 
1 1
Xi  S 
j 2 j
, i , N i Xi
ni ni - 1
que representan estimadores de i , i2 y i respectivamente.

Una ilustración gráfica del muestreo aleatorio estratificado es la siguiente.

POBLACION SUBMUESTRAS

N1 n1

N2 n2

. .
. .
. .
M.A.S Xi
Ni ni
Estrato i S i2
. . Ni Xi
. .
. .

NL nL

Fig. 1.10

1.4.1 ESTIMADOR DE  Y 

 1   2  ...   L
 Como  = =
N N

Un estimador insesgado de la media poblacional  se denota y obtiene así


L

N1 X1  N 2 X 2    N L X L  NX i i
1 L
X st =
N
= .

N
Luego Xst   N i Xi
N .

donde el subíndice st indica que se ha utilizado muestreo aleatorio estratificado. A X st se le


denomina media de la muestra aleatoria estratificada o simplemente media muestral estratificada.
44

 Un estimador insesgado del total poblacional  se denota y obtiene así

L
l
N X st = N
N
 N i Xi
.

L
NXst   N i Xi
.

que llamaremos total de la muestra aleatoria estratificada o simplemente total muestral


estratificado.

1.4.2 ERROR ESTANDAR ESTIMADO DE X st Y N X st


1 L
 Como X st =
N .
 Ni Xi , la varianza estimada de X st se denota y obtiene aplicando la
regla del producto de una constante por una variable.

L
1
ˆ 2Xst  2  N i2 ˆ 2Xi
N .

El error estándar estimado de la media muestral estratificada X st se denota y obtiene de la


siguiente manera:
1 L
S2 n
σ̂ X st 
N

.
N i2σ̂ 2X i donde σ̂ 2X i  i (1  i )
ni Ni

1 L
Si2 n
σˆ Xst 
N
 Ni2
. ni
(1  i )
Ni

ni
Si la fracción muestral  0.05 para los estratos i = 1, 2, ... , L , podemos omitir el factor de
Ni
ni
correción (1  ) dentro del radical.
Ni
 El error estándar estimado del total muestral estratificado N X st se denota y obtiene así.

1 L
Si2 n
σˆ NXst  Nσˆ Xst o bien σ̂ NX st  N
N

.
N i2
ni
(1 - i )
Ni

L
S i2 n
σˆ NX st  .
N i2
ni
(1 - i )
Ni

1.4.3 ESTIMADOR POR INTERVALO PARA  Y 


45

1. Un estimador por intervalo de confianza del 95% para  está dado por

X st  1.96 ̂ Xst o bien la aproximación Xst  2 σˆ Xst

El error máximo permitido en la estimación de  es

E  2σˆ Xst

Si sustituimos X st y ̂ Xst por sus correspondientes fórmulas obtenemos otra manera equivalente de
expresar el intervalo
1 L 1 L
S i2 n

N .
N i Xi  2
N
 N i2
ni
(1 - i )
Ni

donde el límite inferior (Li) es la diferencia señalada por las expresiones anteriores y el límite
superior (Ls) es la suma señalada por las mismas expresiones.
ni
Si la fracción muestral  0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
n
corrección (1  i ) dentro del radical.
Ni

2. Un estimador por intervalo de confianza del 95% para  está dado así

NXst  2 σˆ N Xst o N X st ± 2 N ̂ X st  N( Xst  2σ̂ Xst )

El error máximo permitido en la estimación de  es

E  2σˆ NXst

Si sustituimos N X st y ̂ NX st por sus correspondientes fórmulas obtenemos otra manera equivalente


de expresar el intervalo
L L
S i2 n
N
.
i Xi  2 N 2
i
ni
(1 - i )
Ni

donde el límite inferior (Li) es la diferencia señalada por las expresiones anteriores y el límite
superior (Ls) es la suma señalada por las mismas expresiones.
ni
Si la fracción muestral  0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
n
corrección (1  i ) dentro del radical.
Ni
46

EJEMPLO 1.16
Una cadena de 3 almacenes está interesada en estimar el saldo promedio de sus cuentas por cobrar.
En los almacenes 1, 2, y 3 hay respectivamente 150, 200, y 250 cuentas por cobrar. Un
muestreo aleatorio estratificado con cada almacen como estrato le señala al gerente de la cadena que
debe tomar de los almacenes 1, 2, y 3 submuestras de tamaño 3, 4, y 5 respectivamente. Con
los resultados presentados en la siguiente tabla

Almacen ni Xij ( Saldos de las cuentas en miles de C$ )

1 3 3.5, 4.5, 5.5


2 4 6.5, 7.0, 8.0, 8.5
3 5 6.5, 8.0, 10.5, 12.5, 10

a) Estime el saldo promedio de las cuentas por cobrar de la cadena.


b) Estime el saldo total de las cuentas por cobrar de la cadena
c) Calcule el error máximo permitido con una confianza del 95% en la estimación del inciso b)

Los elementos son las cuentas por cobrar, la característica de interés X representa el saldo y Xij es el
j-ésimo saldo observado en las cuentas correspondientes al almacen i. Teniendo presente esto
formemos la siguiente tabla

S i2
Almacen Ni ni Xi NXi S 2 N i2
i ni
1 150 3 4.5 675 1.0000 7500
2 200 4 7.5 1500 0.8333 8333
3 250 5 9.5 2375 5.3750 67187.5
600 4550 83020.5

Según las fórmulas correspondientes y los resultados anteriores tenemos que:

1 L 4550
a) Xst   N i Xi
N .

600
 7.5833 (en miles de C$)

L
b) NXst   N i Xi = 4550 (en miles de C$)
.
L
S i2 ni
c) E  2σˆ NXst = 2 
.
N i2
ni
porque
Ni
 0.05 para los estratos i = 1, 2, 3

= 2 83020.5 = 2(288.1328) = 576.2656 (en miles de C$)


47

EJEMPLO 1.17
Una empresa publicitaria esta interesada en estimar el número promedio de horas por semana que
los hogares de un determinado municipio dedican a ver la televisión.
El municipio comprende dos pueblos, pueblo A y pueblo B, y un área rural. En el pueblo A existen
155 hogares de los cuales la mayoría son de trabajadores fabriles con niños en edad escolar. El
pueblo B consta de 62 hogares con personas mayores que tienen pocos niños. En el área rural
existen 93 hogares. Suponga que la empresa decide realizar una encuesta por muestreo a 40
hogares, tomando 20 del pueblo A y 8 del pueblo B y 12 del área rural. Los resultados presentados
en la siguiente tabla corresponden a la media y la varianza de cada submuestra obtenida del pueblo
A, el pueblo B y el área rural.

ESTRATO Ni ni Xi Si2
(Pueblo A) 1 155 20 33.900 35.358
(Pueblo B) 2 62 8 25.125 232.411
(Area rural) 3 93 12 19.000 87.636
310 40

1.
a) Estime el número promedio de horas por semana que los hogares del municipio dedican a ver
televisión.
b) Estime el número total de horas por semana que los hogares del municipio dedican a ver
televisión.
c) Calcule el error muestral promedio para la estimación del inciso a) y b)

Los elementos son los hogares y X representa el número de horas por semana dedicados a ver T.V.

ni Si2 n
(1  ) N i2 (1  i )
ESTRATO Ni Xi Ni ni Ni
1 5254.50 0.871 36994.6776
2 1557.75 0.871 97267.6059
3 1767.00 0.871 55015.5365
8579.25 189,277.8200

Según las fórmulas correspondientes y los resultados anteriores tenemos que:

1 L 1 L
a) Xst   N i Xi = (8579.25) = 27.675 horas b) NXst   N i Xi = 8579.25 horas
N . 310 .

1 L
Si2 n 1
c) σˆ X st 
N
 Ni2
. ni
(1  i ) =
Ni 310
189277.82  1.4034 horas

L
S i2 n
σˆ NX st  
.
N i2
ni
(1 - i )
Ni
= 189277.82 = 435.0607 horas
48

2. Obtenga un intervalo de confianza del 95% para el número promedio de horas por semana
que los hogares del municipio dedican a ver televisión.

Sustituyendo los resultados de la tabla anterior anterior en la fórmula de un intervalo de confianza


del 95% para 
1 L
1 L
Si2 n
N
 Ni Xi  2
N
 N i2
ni
(1 - i )
Ni

1 1
( 8579.2)  2 189277.82
310 310

27.675  2 ( 1.4034 )

Observe que cuando hay conocimiento de los valores de X st y ̂ Xst se puede llegar fácilmente al
resultado anterior mediante la sustitución directa de esos valores en la fórmula.

X st  2 ̂ Xst

Continuando llegamos a que

27.675  2.8068  Li = 24.8682 horas y Ls = 30.4818 horas.

Luego podemos decir con un 95% de confianza de que 24.8682    30.4818

3. Obtenga un intervalo de confianza del 95% para el número total de horas por semanas que
los hogares del municipio dedican a ver televisión.

Sustituyendo los resultados de la tabla anterior en la fórmula de un intervalo de confianza del 95%
para .
L L 2
2 Si n
 i i
N X  2  i n ( 1 - Ni )
N
i i

8579.2 5  2 189277.82
8579.25  2 ( 435.0607 )

Observe que cuando hay conocimiento de los valores de N X st y ̂ NX st se puede llegar al


resultado anterior mediante la simple sustitución de esos valores en la fórmula.

N X st  2 ̂ NX st
Continuando llegamos a que
8579.25  870.1214  Li = 7709.1286 horas y Ls = 9449.3714 horas.

Luego podemos decir con un 95% de confianza de que 7709.1286    9449.3714 horas.
49

1.4.4 SELECCIÓN DEL TAMAÑO DE LA MUESTRA PARA ESTIMAR 

Suponga que X st debe estar dentro de E unidades de la media poblacional con una probabilidad
aproximadamente igual a 0.95, esto es, que E represente el error máximo permitido.
Simbólicamente queremos

E = 1.96 ̂ Xst o sea E = 2 ̂ Xst

E2 1 L
Si2 n E2
Es decir que ̂ 2
Xst =
4
o bien
N2
 N
ni
2
i (1  i ) 
Ni 4

De esta ecuación no podemos despejar n, a menos que sepamos algo acerca de la relación entre ni y
n. Hay muchas maneras para asignar un tamaño de muestra n a los diversos estratos.

El mejor esquema de asignación está influido por tres factores.

1. El número de elementos en cada estrato (Ni)


2. La variabilidad de las observaciones dentro de cada estrato (i)
3. El costo por obtener una observación de cada estrato (ci)

Asignación de costo mínimo y menor error de muestreo.


Aquí nuestro objetivo es usar una asignación que presente una cantidad especificada de información
a un costo mínimo.
N S / ci
ni  n L i i
 N iS i / ci

donde ci representa el costo para obtener una observación individual del estrato i.

El resultado anterior nos permite ahora poder despejar n de la ecuación

1 L
Si2 n E2
N2
 N i2
ni
(1  i ) 
Ni 4

y obtener la siguiente fórmula para el tamaño de muestra requerido.

 L   L 
  N i S i / ci   N S i ci 
   i

n     
E 
2 L
N 2    N i S i2
 4 
50

Asignación de Neyman.
En algunos problemas el costo por obtener información es el mismo para todos los estratos. Si los
costos son desconocidos, podríamos suponer que los costos por observación son iguales.
Si c1 = c2 =  = cL = c, entonces los términos de costos en la fórmula de asignación de costo
mínimo se cancelan y queda así

N iSi
ni  n L

N S i i

Este método para seleccionar los ni se denomina asignación de Neyman.

Observe también que la fórmula para el tamaño de muestra total n toma la forma

2
 L 
  Ni Si 
 
n   
 E 2
 L
N 2     N i S i2
 4 

Asignación proporcional.
Además de encontrar costos iguales podemos suponer que las varianzas dentro de los estratos son
iguales, esto implica que, S12 = S22 =  = S 2L = S2 En tal caso se cancelan las desviaciones
estándar en la fórmula de asignación Neyman y queda

Ni N 
ni  n  n  i 
N 
L

N i

Este método es llamado asignación proporcional porque los tamaños de submuestras n 1 , n 2 , , nL


son proporcionales a los tamaños de los estratos N 1 , N 2 , , N L respectivamente.

También podemos comprobar que la fórmula para el tamaño de muestra total n toma la forma.

N S2
n  donde S2 es la varianza común de cada estrato.
 E2 
N    S2
 4 
51

EJEMPLO 1.18
La empresa publicitaria del ejemplo 1.17 encontró que cuesta más obtener una observación del área
rural que una del pueblo A o del pueblo B. El incremento es debido a los costos de traslado de un
hogar rural a otro. El costo por observación en cada pueblo se ha estimado en C$ 9 y los costos por
observación en el área rural se han estimado en C$ 16.
De una encuesta previa se estimó que las varianzas de las submuestras de los estratos 1, 2 y 3 son
S12 = 25, S 22 = 225 y S32 = 100 respectivamente.

i) Encuentre el tamaño de muesta n y los tamaños de submuestras n 1 , n 2 y n 3 para los


estratos 1, 2, y 3 respectivamente que permiten a la empresa estimar, al mínimo costo, el tiempo
promedio que se ve televisión con un error máximo permitido de 2 horas.

ESTRATO Ni S i2 Si ci Ni Si / c i Ni Si ci Ni S i2
1 155 25 5 9 258.3333 2325 3875
2 62 225 15 9 310.0000 2790 13950
3 93 100 10 16 232.5000 3720 9300
310 800.8333 8,835 27,125

Como el costo de obtener una observación no es el mismo en todos los estratos y como las varianzas
tampoco son iguales tenemos que

 3   3 
  N i Si / ci    N i Si ci 
    E2 
n      donde N 2    310 2 (1)  96100

 E2  3
 4 
N 2    NS i
2
i
 4 
porque N = 310 y E = 2

=
 800.8333  ( 8835 ) 
(800.8333) (8835)
= 57.4182  58 hogares
96100  27125 123225

La asignación del tamaño de muestra a los tres estratos corresponderá a una asignación de costo
mínimo
N S / ci  258.3333 
n1  n 3 1 1 = 58   =58(0.3226) = 18.7108  19 hogares
 800.8333 
 N i Si / c i

 310 
n 2  58   = 58(0.3871) = 22.4518  22 hogares
 800.8333 

 232.5 
n 3  58   = 58(0.2903) = 16.8374  17 hogares
 800.8333 
52

EJEMPLO 1.19

Suponga que la firma publicitaria del ejemplo 1.18 decide utilizar entrevistas por teléfono en lugar
de entrevistas personales, porque todos los hogares en el municipio tienen teléfono y este método
reduce los costos. El costo de obtener una observación es entonces el mismo en los 3 estratos..
Las varianzas de las submuestras de los estratos 1, 2 y 3 son de nuevo aproximadas por S12 = 25,
S 22 = 225 y S32 = 100 respectivamente. Encuentre el tamaño de muestra n y los tamaños de
submuestras n1, n 2 y n 3 para los estratos 1, 2 y 3 respectivamente, que permiten a la empresa
estimar el tiempo promedio que se ve televisión con un error máximo permitido de 2 horas.

ESTRATO Ni S i2 Si Ni S i Ni S i2
1 155 25 5 775 3875
2 62 225 15 930 13950
3 93 100 10 930 9300
310 2635 27125

 E2 
Como N    310 2 (1)  96100
2
y el costo de obtener una observación es el mismo.
 4 

2
 L 
  N i Si 
   2635 2  2635 2
n    = = = 56.3459  57 hogares
 E 
2 L 96100  27125 123225
N 
2
   N i Si2
 4 

El tamaño de muesta obtenido en el inciso i) del ejemplo 1.18 es casi igual al de este ejemplo, pero
la asignación del tamaño de la muestra a los 3 estratos corresponde a una asignación de Neyman.

N 1S1  775 
n1  n = 57   = 16.7647  17 hogares
 2635 
3

N S i i

 930 
n 2  57   = 20.1176  20 hogares
 2635 

 930 
n 3  57   = 20.1176  20 hogares
 2635 

Observe que para el área rural se toman ahora más hogares porque el costo se ha reducido.
53

EJEMPLO 1.20

La empresa publicitaria del ejemplo 1.18 considera ahora que las varianzas de los estratos son
iguales. El valor común S2 fue aproximado por 100 en un estudio preliminar. Se van a efectuar
entrevistas por teléfono, por lo que los costos serán iguales en todos los estratos.
La empresa desea estimar el número promedio de horas por semana que se ve la televisión en los
hogares del municipio, con un error máximo permitido de 2 horas. Encuentre el tamaño de muestra
y los tamaños de submuestras por estrato necesarios para lograr esta exactitud.

Como el costo de obtener una observación es el mismo en todos los estratos y las varianzas se
suponen iguales tenemos que

N S2  E2 
n  donde N   310(1)  310 porque N = 310, E = 2 y S2 = 100
 E2   4 
N    S2
 4 

310  100  31000


= = = 75.6098  76 hogares
310  100 410

La asignación del tamaño de muestra a los tres estratos corresponderá a una asignación proporcional

 N   155 
n1  n  1  = 76   = 38 hogares
 N   310 

 N   62 
n2  n  2  = 76   = 15. 2  15 hogares
 N   310 

 N   93 
n3  n  3  = 76   = 22.8  23 hogares
 N   310 
54

EJERCICIOS PROPUESTOS DEL TEMA 1: MUESTREO Y ESTIMACIÓN

1. A continuación se presenta una población de 5 cuentas por pagar de una empresa con sus
correspondientes montos en decena de miles de córdobas.

Cuenta Monto

C 3
D 3
E 7
F 10
G 14

Suponiendo que X representa el monto de las cuentas.


i) Construya la distribución poblacional de X y represéntela gráficamente.
ii) Para la distribución poblacional del inciso i) calcule  y 
iii) Considerando todas las muestras posibles de tamaño 2 que pueden seleccionarse sin reposición
y sin orden, construya la distribución muestral de X y represéntela gráficamente.

2. Para la distribución muestral de X pedida por el inciso iii) del ejercicio 1, calcule  X y  X
y verifique que μ X  μ

3. Para el ejercicio 1 tome todas las muestras posibles de tamaño 3 y construya la distribución
muestral de X representándola gráficamente.

4. Para la distribución muestral de X pedida por el ejercicio 3, calcule  X y  X

5. Consideremos la población compuesta por 4 agentes de ventas con sus correspondientes gastos
de representación en cientos de córdobas de la semana pasada.

Representante Gasto

A 2
B 4
C 6
D 8

Suponiendo que X representa el gasto de representación.


i) Construya la distribución poblacional de X y represéntela gráficamente.
ii) Considerando todas las muestras posibles de tamaño 2 que pueden seleccionarse sin reposición y
sin orden. Construya la distribución muestral de X y represéntela gráficamente.
iii) Para la distribución muestral del inciso ii) calcule la media de X y el error estándar de X
iv) Con todas las muestras posibles de tamaño 3 que pueden seleccionarse sin reposición y sin
orden, construya la distribución muestral de X y represéntela gráficamente. Luego calcule  X y  X
55

6. Considere la siguiente población de cuentas por cobrar de una compañía.

No. Cuenta 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
Monto
(en miles de C$) 1.5 2.3 1.0 1.8 1.9 2.0 3.5 1.5 2.4 1.2 1.8 4.5 3.0 2.1 3.5

1) Utilizando la fila 3 columna 4 como una entrada a la tabla de números aleatorios, seleccione
una muestra aleatoria de 4 cuentas señalándolas con un *

2) Suponiendo que X representa el monto de las cuentas.

i) Diga que representa  y  según el problema.

ii) Estime el monto promedio de las cuentas y el monto total de las cuentas utilizando la
muestra seleccionada en 1)

3) Obtenga los errores de muestreo correspondientes a las estimaciones de  y  hechas en el


inciso ii) de la parte 2)

7. La población de supermercados de una ciudad se presenta en la siguiente tabla.

No. Super 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
Ventas diarias
(en miles de C$) 84 73 50 35 62 38 26 25 56 45 90 20 87 30 40

1) Tome una muestra aleatoria aleatoria de 3 Supermercados. Luego señalelos con un *

2) Suponiendo que X representa las ventas diarias.

i) Diga que representa  y  según el problema.

ii) Estime  ,  y  utilizando la muestra del inciso 1)

iii) Obtenga los errores de muestreo correspondientes a las estimaciones de  y 


hechas en el inciso ii)
56

8. Se quiere investigar el número total de calculadoras que hay en inventario en un centro


comercial.

En el siguiente plano se presentan los módulos que componen el centro. Considere que cada
rectángulo es un módulo.

i) Entrando en la fila 11 y columna 8 de la tabla de números aleatorios y con una dirección


descendente (  ) , seleccione una muestra aleatoria de 4 módulos, señalándolos con un *

ii) Suponiendo que la encuesta reveló para el primer módulo seleccionado en el inciso i) la
existencia de 10 calculadoras, para el segundo módulo la existencia de 15 calculadoras, para el
tercer módulo 20 calculadoras y para el cuarto módulo 3 calculadoras.

Estime el número promedio de calculadoras por módulo y el número total de calculadoras en el


centro.

9. Se desea investigar en un barrio la cantidad de niños en edad escolar con el fin de estudiar las
necesidades educativas a nivel primario (se piensa construir una escuela). Con tal fin se dispone del
siguiente mapa del barrio. Considere que cada rectángulo es una manzana y que en el parque, la
iglesia y el predio vacío no hay niños.

Parque

Iglesia
Predio
vacío

i) Seleccione una muestra aleatoria de 4 manzanas. Luego ubíquelas poniéndoles un *

ii) Suponiendo que la encuesta reveló para la primera manzana seleccionada en el inciso i) la
existencia de 18 niños, para la segunda manzana la existencia de 21 niños, para la tercera
manzana la existencia de 27 niños y para la cuarta manzana la existencia de 10 niños.

Estime el número promedio de niños por manzana y el total de niños en el barrio.


57

10. Un auditor quiere investigar el total de páginas que tienen los documentos de una empresa.
En su poder hay 280 documentos numerados del 001 al 280.

i) Entrando en la fila 1 y columna 4 de la tabla de números aleatorios, seleccione una muestra


de 20 documentos, escribiendo el número de documento de cada uno.

ii) Suponiendo que los 20 documentos muestreados del inciso i) resultaron con un promedio
de13.4 páginas
Estime el número total de páginas en todos los documentos.

11. Suponga que los salarios mensuales de los trabajadores a destajo de una empresa tienen una
distribución normal y que además se sabe que la desviación estándar poblacional de los salarios es
de C$ 100. El jefe del departamento de personal selecciona al azar los expedientes de 16
trabajadores y encuentra que el salario mensual promedio es de C$ 2500

i) Suponiendo que el número de trabajadores a destajo es muy grande, estime el salario


mensual promedio de los trabajadores de la empresa utilizando un intervalo de confianza del
80%.
ii) Identifique el valor del error muestral promedio en la estimación del salario mensual
promedio de los trabajadores de la empresa del inciso i)

iii) Suponiendo que la empresa tiene 150 trabajadores a destajo, estime el salario mensual
promedio de los trabajadores de la empresa utilizando un intervalo de confianza del 90%.

12. Se desea estimar la venta promedio por cliente, en córdobas, de una tienda. Sobre la base de
datos de otras tiendas similares, se sabe que la desviación estándar poblacional de ese tipo de ventas
es de aproximadamente C$ 3200.
¿Qué tamaño de muestra se debe utilizar, como mínimo, si desea estimar la venta promedio con un
margen de error de C$ 1000 y una confianza del 99%?

13. Para una cadena de 250 tiendas suponga que se conoce por experiencias anteriores que la
desviación estándar poblacional de las ventas anuales por tienda para un producto determinado es de
200 miles de C$
Si una muestra aleatoria de 40 tiendas del año pasado nos informa que hubo una venta promedio de
C$ 3425 miles de C$

1) Determine un intervalo de confianza del 98% para:

i) la venta promedio por tienda durante el año pasado.


ii) la venta total de todas las tiendas durante el año pasado.

2) Si quiero estimar la venta promedio de las tiendas con un error de más o menos 30 mil C$
y con una confianza del 95%, ¿qué tamaño de muestra se requiere?
58

14. Se quiere estimar el consumo mensual promedio en córdobas de energía eléctrica por casa en el
mes de Diciembre. Con base en estudios efectuados en otras ciudades, se supone que la desviación
estándar poblacional de los consumos es de C$ 20. La estimación del consumo mensual promedio
se quiere hacer con una aproximación de  C$ 3 del promedio real y con un 99% de confianza.

i) Si la ciudad se considera muy grande, ¿qué tamaño de muestra se necesita?

ii) Si la ciudad tuviera un total de 3000 casas, ¿qué tamaño de muestra se necesita?

15. Una empresa comercializadora de granos básicos está estudiando la posibilidad de comprar 1000
sacos de frijol. Con el fin de determinar el peso promedio de materias extrañas por saco y el peso
total de materias extrañas tomó una muestra aleatoria de 40 sacos obteniendo un promedio de 2.4 lbs
y una desviación estándar de 0.62 lbs de materias extrañas.

a) Obtenga un intervalo de confianza del 95% para el peso promedio de materias extrañas por
saco.

b) Obtenga un intervalo de confianza del 90% para el peso total de materias extrañas en los 1000
sacos.

c) Si se quiere estimar el peso promedio de las materias extrañas por saco con una confiabilidad
del 98% de que el error máximo permitido sea de  0.10 lbs, ¿Cuál debe ser el tamaño de la
muestra?

16. Una muestra aleatoria de 100 medidores de agua es controlada dentro de una comunidad para
estimar el consumo mensual promedio de agua por casa durante un período estacional seco. La
media muestral fue de 30.5 m3 y la desviación estándar muestral de 5m3. Si suponemos que hay
10,000 casas dentro de la comunidad.

i) Obtenga un intervalo de confianza del 98% para el consumo mensual promedio de agua por
casa.
ii) Estime el total de m3 de agua usado mensualmente durante el período seco, luego determine con
un 95% de confianza el error máximo permitido en esta estimación.

17. Como supervisor del proceso de empacado de café en sobres, suponga que se toma una muestra
aleatoria de 12 sobres de la planta empacadora, de la cual resulta un peso neto promedio por sobre
de 15.97 gramos y una desviación estándar del peso neto por sobre de 0.15 gramos. Suponiendo que
el peso neto del café por sobre tiene distribución normal:

i) Estime el peso neto promedio por sobre de café utilizando un intervalo de confianza del 95%.
ii) Identifique el valor del error máximo permitido con una confianza del 95% en la estimación del
peso neto promedio por sobre de café del inciso i)
ii) ¿Qué tamaño de muestra debo utilizar para tener una confianza del 95% de que el error máximo
tolerado sea de 0.04 gramos?
59

18. Para una muestra de 50 empresa tomadas de una industria determinada, se encuentra que el
número promedio de trabajadores por empresa es de 420.4, con una desviación estándar de 55.7.
Suponiendo que existe un total de 380 empresas en esa rama industrial.

i) Determine un intervalo de confianza del 90% para estimar el número total de trabajadores
empleados en esa industria.
ii) Identifique el valor del error muestral promedio en la estimación del número total de
trabajadores del inciso i)

19. Los ingresos del impuesto sobre ventas en una comunidad particular se recogen cada trimestre.
Los siguientes datos representan los ingresos (en miles de córdobas), cobrados durante el primer
trimestre en una muestra de 9 establecimientos de menudeo en la comunidad.

16, 18, 11, 17 13, 10, 22, 15, 16

Suponiendo que los ingresos trimestrales del impuesto sobre ventas se distribuyen aproximadamente
normal.

a) Establezca un intervalo de confianza del 98% para el ingreso trimestral promedio del impuesto
sobre ventas de los establecimientos de menudeo.

b) Si hay un total de 300 establecimientos de menudeo en esta comunidad, establezca un intervalo


de confianza del 95% de los ingresos totales por impuestos sobre ventas que se lograrán este
trimestre.

c) Si quiero estimar el ingreso trimestral promedio del impuesto sobre ventas de los
establecimientos con una confianza del 95% de que el error máximo sea de C$ 1000.
¿ qué tamaño de muestra se requiere ?

20. Consideremos que cierta región del país cuenta con 500 establecimientos comerciales. Con el
fin de estimar el número promedio de empleados por establecimiento y el número total de
empleados, se seleccionó una muestra aleatoria simple de 20 establecimientos con los siguientes
números de empleados.

5 8 8 5 7 3 7 8 2 5
9 4 6 2 3 4 3 5 4 6

Suponiendo que el número de empleados por establecimiento se distribuye normalmente.

i) Encuentre un intervalo de confianza del 95% para el número promedio de empleados por
establecimiento.

ii) Encuentre un intervalo de confianza del 98% para el número total de empleados.

iii) Si quisiera estimar el número promedio de empleados por establecimiento con una confiabilidad
del 95% de que el error máximo permitido sea de 1 empleado, ¿cuál debe ser el tamaño de la
muestra?
60

21. Un auditor detecta que cierta empresa regularmente exagera las cantidades de dinero en dólares
de los inventarios, a causa de los retrasos en el registro de los retiros. El auditor quiere estimar la
cantidad total exagerada sobre 800 artículos listados, obteniendo las cantidades exactas (revisadas)
del inventario mediante una muestra aleatoria de 6 artículos, y comparando estas cifras exactas con
las cantidades registradas. Los datos en dólares para los artículos seleccionados se muestran en la
siguiente tabla.
Cantidad Cantidad
No. Artículo revisada registrada

1 175 210
2 295 305
3 68 91
4 74 82
5 128 140
6 241 250

Suponiendo para las cantidades exageradas una distribución aproximadamente normal


i) Estime la cantidad total exagerada sobre los 800 artículos.
ii) Con una confianza del 95% establezca el error máximo permitido en la estimación del inciso i
iii) Si quiero estimar la cantidad promedio exagerada por artículo con una confianza del 99% de que
el error máximo sea de 10 dólares, ¿Qué tamaño de muestra se requiere?

22. Un auditor muestrea aleatoriamente 12 cuentas por cobrar de las 500 cuentas de una empresa.
El auditor lista el monto de cada cuenta y verifica si los documentos respectivos cumplen con los
procedimientos establecidos. Los datos son como sigue (cantidad en dólares, S = si, N = no ):

No. cuenta Monto Verificación

1 278 N
2 192 S
3 310 S
4 94 N
5 86 S
6 335 S
7 310 N
8 290 S
9 221 S
10 168 S
11 200 N
12 300 N

Suponiendo que los montos de las cuentas tienen una distribución aproximadamente normal.
1) Obtenga un intervalo de confianza del 95% para el monto total de las 500 cuentas de la empresa.

2) Obtenga un intervalo de confianza del 95% para la proporción de cuentas de la empresa que no
cumplen con los procedimientos establecidos.
61

23. Un auditor de una compañía mayorista de productos metálicos quiere estimar la proporción de
facturas para los clientes con errores en los precios. Una muestra aleatoria de 300 facturas de las
operaciones del mes anterior, indicó que 45 contenían errores en los precios.

i) Establezca un intervalo de confianza del 95% para la proporción real de facturas con errores en
los precios.

ii) Si en el mes anterior se expidieron 5000 facturas, establezcas un intervalo de confianza del 95%
para el total real de facturas con errores en los precios.

iii) Si el auditor desea un 95% de confianza de estar en lo correcto con aproximación de  2.5% del
porcentaje real de facturas con errores en los precios y si se supone según experiencia previa que el
porcentaje de facturas con errores es 10% ¿Qué tamaño de muestra necesita?

24. Un auditor de una dependencia gubernamental de protección al consumidor quiere determinar la


proporción de reclamaciones sobre pólizas de enfermedades que paga la compañía de seguros en un
plazo de dos meses de haber recibido la reclamación. Se selecciona una muestra de 200
reclamaciones y se determina que 80 fueron pagadas en un plazo de dos meses después de recibirlas.

Establezca un intervalo de confianza del 99% para la proporción real de reclamaciones pagadas en
ese plazo de dos meses.

25. El gerente de una sucursal bancaria en una ciudad pequeña quiere determinar la proporción de
sus cuentahabientes a los cuales se les paga el interés por trimestre. Se selecciona una muestra
aleatoria de 100 cuentahabientes, en la cual 30 indican que se les paga por trimestre.

i) Establezca un intervalo de confianza del 90% para la proporción real de cuentahabientes a


quienes se les paga por trimestre.
ii) Con un 96% de confianza calcule el error máximo permitido en la estimación de la proporción
real de cuentahabiente del inciso i)
iii) Si el banco tiene 1000 cuentahabientes, establezca un intervalo de confianza del 90% para el
total real de cuentahabientes a quienes se les paga por trimestre.
iv) Si el gerente quiere tener 90% de confianza de que está en lo correcto con aproximación de 
0.05 de la proporción de sus cuentahabientes a quienes se les paga por trimestre, ¿qué tamaño de
muestra necesita?

26. Una compañía de televisión por cable (Cablevisión) quiere estimar la proporción de sus
suscriptores que compararían su revista con la programación. La compañía quiere tener 95% de
confianza de que su estimación está correcta con aproximación de  0.05 de la proporción real. La
experiencia previa en otras áreas indica que el 30% de los suscriptores compararon la revista. ¿Qué
tamaño de muestra se necesita?
62

27. Una corporación desea estimar el número total de horas-hombre perdidas debido a accidentes de
los empleados en un mes determinado. Ya que los obreros, los técnicos y los administrativos tienen
diferentes tasas de accidentes, el investigador decide usar muestreo aleatorio estratificado con cada
grupo formando un estrato. Datos de años previos sugieren las varianzas, mostradas en la tabla
anexa, para el número de horas-hombre perdidas por empleado en los 3 grupos, y de datos actuales
se obtienen los tamaños de los estratos.
Estrato Ni Si2
Obreros 132 36
Técnicos 92 25
Administrativos 27 9

1) Determine la asignación de Neyman para una muestra de 30 empleados.

2) Estime el número total de horas-hombre perdidas durante el mes indicado y establezca el


máximo error muestral para esa estimación. Use los datos de la tabla siguiente, obtenida de una
muestra de 18 obreros, 10 técnicos y 2 administrativos.

Estrato ni Número de horas-hombres perdidas

Obreros 18 8, 24, 0, 0, 16, 32, 6, 0, 16, 7, 4, 4, 9, 5, 8,18, 2, 0


Técnicos 10 4, 5, 0, 24, 8, 12, 3, 2, 1, 8
Administrativos 2 1, 8

30

28. Una empresa desea estimar con la máxima precisión posible el monto promedio y total de sus
cuentas por cobrar, mediante una muestra aleatoria de 50 cuentas. Suponga por previa disposición
que las cuentas se van arreglando así: en el archivo 1 se guardan las cuentas que tienen un monto
inferior a 1000 dólares, en el archivo 2 las cuentas que tienen un monto entre 1000 y 2000 dólares,
en el archivo 3 se guardan las cuentas que tienen un monto superior a los 2000 dólares. El número
de cuentas guardadas en los archivos 1, 2 y 3 es respectivamente 250, 150 y 50.

1) Considerando por conveniencia administrativa que cada archivo es un estrato y que el costo del
muestreo es el mismo para los 3 archivos y que las desviaciones estándar de los montos de las
cuentas son iguales a 50 dólares para cada uno de los archivos, ¿cómo asignaría las 50 cuentas de la
muestra a los 3 archivos?

2) Suponiendo que para las submuestras de los archivos 1, 2 y 3 del inciso 1) se obtuvieron montos
promedios de 800, 1400 y 2600 dólares, establezca un intervalo de confianza del 95% para:
i) el monto promedio de las cuentas
ii) el monto total de las cuentas
63

29. Una región que comprende 800 granjas ganaderas se ha dividido en 5 estratos de acuerdo con el
área de cada una.
ESTRATOS No. granjas

1 300
2 200
3 160
4 100
5 40

800

1) Suponga que se planea seleccionar una muestra aleatoria estratificada de 40 granjas. Como no
tiene información previa respecto a las varianzas de los estratos, y como el costo del muestreo es el
mismo en cada estrato, decide aplicar asignación proporcional. ¿Qué tamaño tendrían las
submuestras de cada estrato?

2) Suponiendo que para las submuestras del inciso 1) se obtuvieron números promedios de
cabezas por granja en miles de 4, 6, 10, 13 y 15 para las submuestras de los estratos 1, 2, 3, 4 y 5
respectivamente y varianzas en miles2 de 1.20, 1.00, 0.90, 1.50 y 0.80 para las submuestras de los
estratos 1, 2, 3, 4 y 5 respectivamente.
i) Estime el número promedio de cabezas por granja en la región.
ii) Estime el total de cabezas en la región.
iii) Calcule el error muestral promedio para cada una de las estimaciónes de los incisos i) y ii)
iv) Establezca un intervalo de confianza del 95% para el total de cabezas en la región.

30. Un distribuidor de comestibles al mayoreo en una gran ciudad desea saber si la demanda es lo
bastante grande como para justificar la inclusión de un nuevo producto a sus existencias. Para tomar
la decisión, planea añadir este producto a una muestra de los almacenes a los que abastece para
estimar el promedio de las ventas mensuales. Él únicamente suministra a 4 grandes cadenas en la
ciudad. Así que, por conveniencia administrativa, decide usar muestreo aleatorio estratificado con
cada cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato 3
y 30 en el estrato 4. El distribuidor tiene suficiente tiempo y dinero para obtener datos sobre ventas
mensuales en 20 almacenes.

1) Dado que no tiene información previa respecto a las varianzas de los estratos, y como el costo
del muestreo es el mismo en cada estrato, decide aplicar la asignación proporcional. ¿Qué tamaño
tendrían las submuestras de cada estrato?

2) Suponga que el nuevo producto es introducido en cada submuestra del inciso 1) obteniendo
después de un mes ventas promedios en córdobas de 99, 100, 98 y 100 para las submuestras de los
estratos 1, 2, 3 y 4 respectivamente y varianzas en córdobas2 de 78.67, 55.60, 39.50 y 112.50 para
las submuestras de los estratos 1, 2, 3 y 4 respectivamente.
Obtenga un intervalo de confianza del 95% para la venta mensual promedio del nuevo producto.

3) Identifique el valor del error máximo permitido en la estimación de la venta mensual promedio
del nuevo producto del inciso 2)
64

31. Un investigador que desea estimar la venta anual promedio de 56 empresas ha decidido
estratificar la población según sus ventas anuales de la siguiente manera

(en miles de C$)


Estrato Venta Nº empresas Si2
1 100 - 200 25 16
2 200 - 350 18 9
3 350 - 500 13 4
56

Datos de años anteriores sugieren las varianzas, que muestra la tabla de arriba, para las ventas
anuales en miles de C$

1. Suponiendo que planea seleccionar una muestra aleatoria estratificada de 15 empresas, ¿qué
tamaño tendrán las submuestras de cada estrato al aplicar una asignación de Neyman?

2. Suponiendo que para las submuestras del inciso 1. se obtuvieron ventas promedios en miles de
C$ de 150, 300 y 400 para las submuestras de los estratos 1, 2 y 3 respectivamente.
i) Establezca un intervalo de confianza del 95% para la venta anual promedio de las empresas
ii) Estime la venta anual total de las empresas señalando el error máximo permitido en la
estimación.
iii) Si quiero estimar la venta anual promedio con un error máximo permitido de 1.1 miles de C$,
qué tamaño debe tener la muestra y las submuestras por estrato?

32. Un servicio forestal estatal está realizando un estudio de la gente que utiliza las instalaciones de
campamentos operados por el estado. El estado tiene 2 áreas para acampar, una localizada en las
montañas y otra localizada a lo largo de la costa. Las dos áreas para acampar forman
convenientemente 2 estratos, la localidad de la montaña como el estrato 1 tiene 120 sitios para
acampar y la localidad de la costa como el estrato 2 tiene 80 sitios para acampar.
Suponiendo que el servicio desea estimar el número promedio de personas por sitio dentro de los
campamentos con un error máximo tolerado de 1 persona y que los costos de muestreo son los
mismos en cada estrato, encuentre el tamaño de muestra y los tamaños de submuestras por estrato
necesarios considerando que:

i) las varianzas de los estratos 1 y 2 son aproximadas por 4 y 9 respectivamente.


ii) las varianzas de cada estrato son iguales con un valor común aproximado de 4.
65

33. Una corporación desea obtener información acerca de la efectividad de una máquina comercial.
Se va a entrevistar por teléfono a un número de jefes de división, para pedirles que califiquen la
maquinaria con base en una escala numérica. Las divisiones están localizadas en Norteamérica,
Europa y Asia, motivo por el cual, usaremos muestreo estratificado. La tabla siguiente proporciona
los costos en dólares por entrevista, varianzas aproximadas de las calificaciones y los tamaños de los
estratos que se han establecido.

Estrato Ni Si2 ci
Norteamérica 112 2.25 9
Europa 68 3.24 25
Asia 39 3.24 36

Si la corporación quiere estimar la calificación promedio con un error máximo permitido de 0.6325,
determine el tamaño de muestra requerido, y según la asignación apropiada, los tamaños de
submuestras por estrato.
66

TEMA 2: PRUEBA DE HIPOTESIS

OBJETIVOS

1. Definir que es una hipótesis y una prueba de hipótesis.


2. Describir el procedimiento de la prueba de hipótesis.
3. Identificar si la prueba es unilateral o bilateral.
4. Realizar pruebas de hipótesis respecto a una media poblacional.
5. Realizar pruebas de hipótesis respecto a una proporción poblacional.

2.1. INTRODUCCION.
Se conoce como prueba de hipótesis a una rama de la Estadística inferencial que podría verse como
un procedimiento especial de toma de decisiones.

LA PRUEBA DE HIPOTESIS COMO UN PROBLEMA DE DECISION.


El problema de decisión a estudiar tendrá:

i) 2 estados de la naturaleza mutuamente excluyentes y exhaustivos (Hipótesis). Cualquiera de las


hipótesis será una negación de la otra.

ii) 2 cursos de acción (Alternativas).

EJEMPLO 2.1.

Al juzgar a una persona por asesinato, se presume que el acusado es inocente, es decir no culpable,
hasta que se demuestre lo contrario, según la justicia conservadora.

La situación anterior implica que estamos en presencia de un problema de decisión a resolver que
tiene 2 hipótesis que definiremos así:

Inocente
Culpable

y 2 alternativas que definiremos así

Dejarlo libre
Echarlo preso

Hipótesis estadística.
Le llamaremos hipótesis estadística a un supuesto que se hace acerca del valor de un parámetro de
una población o acerca de valores de parámetros que corresponden a distintas poblaciones.
67

EJEMPLO 2.2

Supongamos que cierta región del país cuenta con 200 plantaciones donde se cultiva maíz sin hacer
uso de ningún abono. Por muchos años el rendimiento promedio ha sido de 44 quintales por
manzana. El MAG está tratando de convencer a los agricultores de la aplicación de cierto
fertilizante, lo que significaría un mayor rendimiento promedio y por lo tanto un mejor beneficio
económico. A manera de prueba los agricultores usaron el fertilizante en 36 plantaciones
seleccionadas aleatoriamente, obteniéndose un rendimiento promedio de 47.30 quintales por
manzana y una desviación estándar de 6.60 quintales por manzana.
¿Debemos aplicar el fertilizante a un nivel de significación del 5%?

En este problema los elementos a estudiar son las plantaciones y la característica de interés X será
el rendimiento de las plantaciones en quintales por manzana. Estaremos interesados en suposiciones
que se hagan acerca de la media poblacional  que representará el rendimiento promedio de las
plantaciones.

Observemos que estamos ante un problema de decisión con 2 hipótesis que definimos así:

 = 44
  44

y 2 alternativas que definimos así:

No aplicar el fertilizante.
Aplicar el fertilizante.

Ahora trataremos de desarrollar un procedimiento general de la prueba porque, en principio, todas


las pruebas estadísticas son similares a las que vamos a estudiar en este tema.

PROCEDIMIENTO DE LA PRUEBA DE HIPOTESIS

Una prueba de hipótesis será un procedimiento en el cual una de las hipótesis que llamaremos nula
se probará contra otra hipótesis que llamaremos alterna, tomando como base la información
proporcionada por una muestra aleatoria, la cual nos permitirá poder rechazar o no rechazar la
hipótesis nula, con el fin de poder seleccionar la alternativa más adecuada.

Debido al gran parecido que tiene este procedimiento en la manera de razonar con el empleado en
un juicio, retomaremos el ejemplo 2.1 como una motivación al tema.

1. Supongamos que la presunción de inocencia es la hipótesis nula y que la culpabilidad es la


hipótesis alterna. Esto es probaremos las hipótesis:

Inocente
Culpable
68

2. El juicio presenta 4 situaciones presentadas abajo

Altenativas Estados de la naturaleza


Inocente es V Culpable es V
Dejarlo libre Correcta Error II
Echarlo preso Error I Correcta

donde pueden cometerse dos tipos de errores:

Error I: Echarlo preso cuando en realidad es inocente.


Error II: Dejarlo libre cuando en realidad es culpable.

¿Cuál de los dos tipos de error se considera más grave?

Naturalmente el error tipo I, motivo por el cual se quiere que la probabilidad de caer en este error I
sea mínima. Por tanto mantendremos la probabilidad de caer en este error I debajo de una frontera,
sin preocuparnos por la probabilidad de caer en el error II.

3. Antes de investigar al acusado las leyes tienen establecida la siguiente regla de decisión:

i) Si rechazamos la hipótesis nula de inocencia entonces estamos aceptando la hipótesis alterna de


culpabilidad.
ii) Si no podemos rechazar la hipótesis nula de inocencia, entonces “aceptamos” la hipótesis nula
de inocencia.

4. Ahora la acusación trata de recoger y presentar suficiente evidencia (documentos, testigos


oculares, huellas dactilares, retratos hablados, etc) para que sea valorada por el jurado.

5. Finalmente con la evidencia ya valorada se aplica la regla de decisión que nos permitirá
seleccionar la alternativa más adecuada.

i) Si el jurado valora que hay suficiente evidencia para rechazar la hipótesis nula de inocencia
entonces estamos aceptando la hipótesis alterna de culpabilidad lo cual implica que debemos
seleccionar la alternativa de echarlo preso.

ii) Si el jurado valora que no hay suficiente evidencia para rechazar la hipótesis nula de inocencia
entonces “aceptamos” la hipótesis nula de inocencia, pero débilmente porque talvez la acusación fue
deficiente en la recolección de evidencias, lo cual implica seleccionar la alternativa de dejarlo
libre o bien no tomar ninguna alternativa y reanudar el jucio en otra ocación.
69

2.2 PROCEDIMIENTO DE LA PRUEBA ACERCA DE .

Para fines de estudio consideraremos la prueba de hipótesis dividida en los siguientes pasos:

1. FORMULACION DE LAS HIPOTESIS.


Consiste en especificar las hipótesis e indentificar a una de ellas como la hipótesis nula y a la otra
como las hipótesis alterna.

 Hipótesis nula.
La hipótesis nula será generalmente la que afirma en los problemas ausencia de efecto alguno para
determinadas acción o tratamiento y la denotaremos por Ho.

Como esta hipótesis es la que siempre debe especificarse en una forma más exacta, el signo =
siempre la acompañará.

 Hipótesis alterna.
A cualquier hipótesis que diga lo contrario de la hipótesis nula, esto es que hay presencia del efecto
para la acción o tratamiento, la llamaremos hipótesis alterna y la denotaremos por H1.

Como esta hipótesis es generalmente especificada con menos exactitud, los signos  ,  o  la
acompañan.

Para el ejemplo 2.1 en que se juzga a una persona por asesinato, podemos ver el juzgar como la
acción y la culpabilidad como el efecto. Por tanto podemos escribir.

H0 : Inocente o no es culpable A0 : Dejarlo libre


H1 : Culpable A1 : Echarlo preso

donde la hipótesis nula H0 está suponiendo ausencia de culpabilidad mientras que la hipótesis
alterna H1 supone presencia de culpabilidad.

Para el ejemplo 2.2 podemos ver la fertilización de las plantaciones como la acción y el aumento
de rendimiento promedio con respecto a 44 como el efecto. Por tanto podemos escribir.

H0 :  = 44 A0 : No aplicar el fertilizante
H1 :   44 A1 : Aplicar el fertilizante

donde la hipótesis nula H0 está suponiendo que no hay aumento en el rendimiento promedio,
mientras que la hipótesis alterna H1 supone que hay aumento en el rendimiento promedio.

La aceptación de cada una de las hipótesis anteriores tendrá asociada una alternativa.
A la aceptación de H0 le corresponderá la alternativa A0 y a la aceptación de H1 le corresponderá la
alternativa A1
70

 Tipos de pruebas.
De acuerdo a la forma en que pueden estructurarse las hipótesis tendremos:

1) Pruebas unilaterales.
Son aquellas en las cuales la presencia del efecto en la hipótesis alterna se traduce como un interés
por sólo las desviaciones hacia un lado con respecto a un valor supuesto 0 de 

i) Pruebas de cola izquierda ii) Pruebas de cola derecha


H0 :  = 0 (   0 ) H0 :  = 0 (   0 )
H1 :   0 H1 :   0

Note que la hipótesis nula puede también especificarse de una manera menos exacta como   0
o   0.

2) Pruebas bilaterales.
Son aquellas en las cuales la presencia del efecto en la hipótesis alterna se traduce como un interés
por las desviaciones tanto hacia la izquierda como hacia la derecha con respecto a un valor supuesto
0 de 

H0 :  = 0
H1 :   0

Para el ejemplo 2.2 observe que la prueba es de cola derecha porque sólo nos interesan los
aumentos en el rendimiento promedio con respecto a 44.

2. ELEGIR UN NIVEL DE SIGNIFICACION

En el procedimiento de la prueba pueden presentarse 4 situaciones indicadas por la siguiente tabla.

Altenativas Estados de la naturaleza


H0 es V H1 es V
Seleccionar A0 Correcta Error II
Seleccionar A1 Error I Correcta

donde puede observarse que se pueden cometer dos tipos de errores.

Error I : Seleccionar A1 cuando H0 es V


Error II : Seleccionar A0 cuando H1 es V

A la probabilidad máxima de cometer el error I le llamaremos nivel de significación de la prueba y


la denotaremos por . Esto es

P ( error I )  
71

La probabilidad máxima de cometer un error II, la denotaremos por . Esto es

P ( error II )  

 y  representan los riesgos máximos asociados con alternativas incorrectas.

Los valores  y  son probabilidades condicionales que están estrechamente relacianadas.

Cuando el tamaño de la muesta n es fijo,  y  varían inversamente, esto es, cuando nos alejamos
de un peligro aumentamos el otro. La prueba se llevará acabo controlando  sin preocuparnos por .

¿Cómo se hará la elección de ?

Generalmente el error I es más grave que el error II, razón por la cual le daremos a  un valor
pequeño, usualmente se toma
 = 0.01 ó  = 0.05 según el caso

En casos en que las consecuencias de cometer un error I son muy graves debemos tomar  = 0.01
(ó un riesgo aún menor).
Si las consecuencias de cometer el error I no son tan graves podemos tomar  = 0.05 ( ó un riesgo
aún mayor).

Para el ejemplo 2.2

Observemos que el procedimiento de la prueba presenta 4 situaciones indicadas abajo.

Altenativas Hipótesis
H0 :  = 44 es V H1 :   44 es V
A0: No aplicar el fertilizante Correcta Error II
A1: Aplicar el fertilizante Error I Correcta

donde podemos observar que:

Error I : Aplicar el fertilizante cuando en realidad no aumenta el rendimiento promedio de maíz.


Error II : No aplicar el fertilizante cuando en realidad aumenta el rendimiento promedio de maíz.

Restringiremos el error I suponiendo que

P ( error I )  0.05

Así que hemos elegido un nivel de significación  = 0.05


72

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISIÓN.
Si observamos el ejemplo 2.2 notamos que hay una diferencia entre la media muestral X y el valor
supuesto μ 0 , esto es, existe una diferencia que expresamos así X - 0 = 47.30 – 44 = 3.30 quintales
por manzana.
La hipótesis nula H0 como representa ausencia de efecto de una acción determinada mantendrá que
la diferencia X - 0 no es significativa.
La hipótesis alterna H1 como representa presencia de efecto de la acción mantendrá que la diferencia
X - 0 es significativa.

¿Cómo saber si esta diferencia X - 0 es significativa o no es significativa ?

Como las hipótesis son suposiciones acerca de  , el estadístico de prueba que utilizaremos será la
media muestral X pero estandarizada, esto es, la diferencia X - 0 expresada en unidades del error
estándar de X , lo cual expresamos así
X  
X

que puede ser igual al estadístico Z o t según la tabla que presentamos abajo.

DISTRIBUCION DE LA POBLACION
Tamaño Normal No Normal
de
muestra n  conocido  desconocido  conocido  desconocido

n  30 Z t

n  30 Z Z Z Z

Esto significa que el valor del estadístico de prueba Z o t se obtendrá de una muestra de tamaño n y
representará en una prueba de hipótesis una diferencia que puede ser considerada
significativamente distinta de cero o no significativamente distinta de cero.
¿Pero cómo sabremos si esta diferencia Z o t es significativamente distinta de cero o no?
Por el momento diremos simplemente si Z o t está suficientemente alejada de cero.
Estableceremos un valor de referencia o valor crítico que dependerá del tipo de prueba y del nivel
de significación 

 Prueba de cola derecha


La diferencia Z es considerada significativamente distinta de cero si existe un valor crítico z  tal
que Z  z donde z se determina de P( Z  z ) =  utilizando la tabla Z y su propiedad de
simetría, o bien la diferencia t es considerada significativamente distinta de cero si existe un valor
crítico t tal que t  t donde t se determina de P( t  t ) =  utilzando la tabla t.
73

Esto quiere decir que Z o t está suficientemente “alejado” de cero si cae a la derecha de z o t
según se observa en la figura de abajo

Z o t
0 z
t
NR R

Figura 2.2

Como decir que Z es significativamente distinto de cero es equivalente a decir que rechazamos H 0

La regla de decisión dirá: Rechazamos H0 a un nivel de significación  si

Z  z o t  t

En caso contrario no rechazaremos H0, es decir, "aceptamos" H0

 Prueba de cola izquierda


La diferencia Z es considerada significativamente distinta de cero si existe un valor crítico
-z tal que Z < - z donde -z se determina de P( Z < -z ) =  utilizando la tabla Z,
o bien la diferencia t es considerada significativamente distinta de cero si existe un valor crítico -t
tal que t < -t donde -t se determina de P( t < -t) =  utilizando la tabla t y su propiedad de
simetría.
Esto quiere decir que Z o t está suficientemente “alejado” de cero si cae a la izquierda de -z o -t
según se observa en la figura de abajo

Z o t
-z 0
-t
R NR

Figura 2.1
74

Por tanto la regla de decisión dirá: Rechazamos H0 a un nivel de significación  si

Z  - z o t  - t

En caso contrario no rechazaremos H0 , es decir, "aceptamos" H0

Para cada nivel de significación  que nos fijemos en una prueba de una cola existirá un valor
crítico que dividirá el rango de Z o t en dos regiones disjuntas, una región de no rechazo o
“aceptación” y otra de rechazo.

 Prueba de dos colas


La diferencia Z es considerada significativamente distinta de cero si existen dos valores críticos
-z/2 y z/2 tales que Z  -z/2 o Z  z/2 donde -z/2 o z/2 se determinan respectivamente
 
partiendo de P( Z < -z/2 ) = o P(Z  z/2 ) = , utilizando la tabla Z y su propiedad de
2 2
simetría, o bien la diferencia t es considerada significativamente distinta de cero si existen dos
valores críticos -t/2 y t /2 tales que t  -t/2 o t  t /2 donde -t/2 y t /2 se determinan de P(t 

t /2 ) = utilizando la tabla t y su propiedad de simetría.
2
Esto quiere decir que Z o t está suficientemente “alejado” de cero si cae a la izquierda de -z/2 o a la
derecha de z/2 ( a la izquierda de -t/2 o a la derecha de t /2 ) según se observa en la figura de abajo

α  α
2 2 2

Z o t
- z/2 0 z/2
- t/2 t/2
R NR R

Fig. 2.3

Por tanto la regla de decisión dirá: Rechazamos H0 a un nivel de significación  si

Z  -z/2 o Z  z/2 o bien t  -t/2 o t  t /2

En caso contrario no rechazaremos H0, es decir, "aceptamos" H0


75

Para cada nivel de significación  que nos fijemos en una prueba de dos colas existirán 2 valores
críticos que dividirán el rango de Z o t en tres regiones disjuntas, una región de no rechazo o
“aceptación” y dos regiones de rechazo.

Las reglas de decisión para probar H0 :  = 0 (   0 ,   0 ) contra H1 , pueden resumirse en


la siguiente tabla.

Reglas de decisión
Tipo de Estadístico Z Estadístico t
Prueba según H1 Rechazo H0 si Rechazo H0 si
Cola derecha   0 Z  z t  t
Cola izquierda   0 Z  - z t  - t
Dos colas   0 Z  - z/2 o Z  z/2 t  - t /2 o t  t /2

En caso contrario diremos que no podemos rechazamos H0 ,es decir, “aceptamos” H0.

Cuando a partir de la información muestral H0 sea rechazada con un nivel de significación  =


0.05, diremos que el resultado de la prueba fue significativo, esto es, que si hicieramos un muestro
repetido podríamos esperar que sólo en 5 ocaciones de 100 cometeriamos el error I, en otras
palabras se tendría un 95% de confianza de que se tomó la alternativa adecuada.

Cuando H0 sea rechazada a un nivel  = 0.01 diremos que el resultado fue altamente significativo.
76

Para ejemplo 2.2


Para una población no normal con  desconocido y n  30 le corresponde una casilla con Z en la
tabla, por tanto el estadístico de prueba será:

X  
Z =
ˆ X

Como la prueba es de cola derecha y el nivel de significación es  = 0.05


El valor crítico z se determina de P( Z  z ) =  = 0.05, pero como la tabla de la distribución de
Z sólo proporciona valores de z que tiene a su izquierda el área acumulada que señala dicha tabla,
determinemos el valor z de P( Z < z) = 1 -  = 0.95 así

Los valores más cercanos a 0.95 son 0.9495 y 0.9505. Tomaremos 0.9505 al cual le corresponde

z = 1.65

Es decir que Z es significativamente distinto de cero si cae a la derecha de 1.65 según se observa en
la figura de abajo

0.05

Z
0 1.65
NR R

Fig. 2.4

Por tanto la regla de decisión dirá:

Rechazo H0 :  = 44 a un nivel de significación  = 0.05 si Z  z = 1.65


En caso contrario no rechazo H0 :  = 44 . “Acepto” H0 :  = 44.
77

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.
Es importante destacar que la muestra se selecciona después de haber establecido la regla de
decisión. Con la información muestral vamos a valorar el estadístico de prueba

X  
que puede ser igual a Z o t
X

Para el ejemplo 2.2.


De una muestra aleatoria de tamaño n = 36 plantaciones se obtuvo un rendimiento promedio y una
desviación estándar dados por
X = 47.30 qq/mz
S = 6.60 qq/mz

Como la población es finita de tamaño N = 200 plantaciones.


El valor del estadístico de prueba es

X   S N - n 6.60 200 - 36
Z = donde ̂ X = = = 0.9986
ˆ X n N -1 36 199

47.30 - 44 3.30
Así que Z = = = 3.3046
0.9986 0.9986

5. SELECCIONAR UNA ALTERNATIVA.

Ahora estamos listos para aplicar la regla de decisión que nos permitirá seleccionar la alternativa
más adecuada.

 Si el valor del estadístico de prueba Z o t cae en la región de rechazo entonces diremos que
rechazamos H0 a un nivel , esto es, que aceptamos H1
Luego debemos seleccionar la alternativa correspondiente a la aceptación de H1 que es A1 con un
nivel de confianza del ( 1 -  ) 100%.

 Si el valor del estadístico de prueba Z o t cae en la región de no rechazo o “aceptación” entonces


diremos que no hay suficiente evidencia para rechazar H0, esto es, “ aceptamos “ H0 , pero
débilmente.
Luego podemos seleccionar la alternativa correspondiente a la aceptación de H0 que es A0

Para el ejemplo 2.2

Como Z = 3.3046, cae en la región de rechazo

Rechazamos H0 :  = 44 a un nivel  = 0.05 ,esto es, aceptamos H1 :   44.

Luego debemos seleccionar la alternativa A1 de aplicar el fertilizante con un nivel de confianza de


95%.
78

EJEMPLO 2.3
Suponga que se tiene un proceso de producción de llenado de cajas de cereal del cual se supone que
el peso neto de cereal en las cajas tiene una distribución normal, y que además, proporciona un peso
neto promedio de cereal en las cajas de 2 libras.
Puesto que este proceso está sujeto a inspecciones periódicas por representantes de la Oficina local
de protección a los consumidores, quienes únicamente les interesa la “falta de peso” en los
productos, se tomó una muestra aleatoria de 6 cajas obteniendo los siguientes pesos netos en libras.

1.85 , 2.10 , 1.95 , 1.83 , 2.18 , 1.97

¿Existe evidencia suficiente para decir que el proceso no está funcionando correctamente a un nivel
de significación del 1%?

1. FORMULACION DE LAS HIPOTESIS


En este problema los elementos a estudiar son las cajas de cereal y la característica de interés X será
el peso neto de cereal en las cajas. Estaremos interesados en suposiciones que se hagan acerca de la
media poblacional  que representará el peso neto promedio de las cajas.
Podemos ver el proceso de producción de llenado de las cajas como la acción y la disminución de
peso neto promedio de los productos con respecto a las 2 lbs como el efecto.

Por tanto podemos escribir.

H0 :  = 2 El proceso está funcionando correctamente

H1 :   2 El proceso no está funcionando correctamente

donde H0 :  = 2 está suponiendo que no hay disminución del peso neto promedio con respecto a
las 2 lbs mientras que la hipótesis alterna H1 :   2 supone que hay disminución del peso neto
promedio con respecto a las 2 lbs.

Observe que la prueba es de cola izquierda porque sólo nos interesan las disminuciones en el peso
neto promedio con respecto a 2.

2. ELEGIR UN NIVEL DE SIGNIFICACION.

La prueba presenta 4 situaciones indicadas abajo.

Altenativas Hipótesis
H0:  = 2 es V H1:   2 es V
El proceso está funcionando correctamente. Correcto Error II
El proceso no está funcionando correctamente. Error I Correcto

donde el error I consiste en decir que el proceso no está funcionando correctamente cuando en
realidad el proceso está llenando las cajas con un peso neto promedio de 2 lbs.
Controlaremos el error I suponiendo que

P ( error I )  0.01 Así que hemos elegido un nivel de significación  = 0.01


79

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.

Para una población normal con  desconocida y n  30 le corresponde el estadístico de prueba t


dado por

X  
t =
ˆ X

Como la prueba es de cola izquierda y  = 0.01


El valor crítico -t  se determina de P( t < -t ) =  = 0.01, pero como la tabla de la distribución
de t sólo proporciona valores de t que tiene a su derecha el área acumulada que señala arriba dicha
tabla, apliquemos su propiedad de simetría para determinar el valor positivo t  de P( t > t  ) = 
= 0.01 así

Para  = 0.01 y n - 1 = 6 - 1 = 5 g.l.

t  = 3.365 y su opuesto será - t  = - 3.365

Es decir que t es significativamente distinto de cero si cae a la izquierda de - 3.365 según se observa
en la figura de abajo

0.01

- 3.365 0 t

R NR

Fig. 2.5

Por tanto la regla de decisión dirá:

Rechazo H0 :  = 2 a un nivel de significación  = 0.01 si t  - t  = - 3.365


En caso contrario no rechazo H0 :  = 2, es decir “acepto” H0 :  = 2
80

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.

El análisis de la información muestral proporcionada por n = 6 cajas se da a continuación.

Xi Xi 2

1.85 3.4225
2.10 4.4100
1.95 3.8025
1.83 3.3489
2.18 4.7524
1.97 3.8809
11.88 23.6172

X 
 Xi 
11.88
 1.98 lbs.
n 6

  Xi 2  11.88 2
 Xi 2
-
n
23.6172 -
6
S2  
n -1 5

0.0948
S2   0.01896  S  0.01896  0.1377 lbs
5

Como la población se considera infinita el valor del estadístico de prueba es:

X   X -  1.98 - 2.00 - 0.02


t = = = = = - 0.3559
ˆ X S/ n 0.1377 / 6 0.0562

5. SELECCIONAR UNA ALTERNATIVA.

Como t cae en la región de no rechazo diremos que no hay suficiente evidencia para rechazar H0 :
 = 2 , es decir, “aceptamos” H0 :  = 2. Luego debemos seleccionar la alternativa que dice que
el proceso de producción está funcionando correctamente.
81

EJEMPLO 2.4.

Suponga que una empresa tiene una cantidad muy grande de cuentas por cobrar y que los saldos de
esas cuentas tienen aproximadamente una distribución normal.

En los libros de la empresa aparece registrado un saldo promedio para esas cuentas de C$ 25850.

Un auditor con el fin de reducir la cantidad de revisión detallada que necesita utiliza muestreo
estadístico para seleccionar una muestra de 100 cuentas, obteniendo un saldo promedio de C$
27,550 y una desviación estándar de los saldos de C$ 1200.

¿Deberá el auditor concluir que el saldo es distinto a C$ 25850 y que, por lo tanto, debe hacer un
asiento de ajuste al valor en libros a un nivel de significación del 2%?

1. FORMULACION DE LAS HIPOTESIS

En este problema los elementos a estudiar son las cuentas y la característica de interés X será el
saldo de las cuentas. Será de interés hacer suposiciones acerca de la media poblacional  que
representará el saldo promedio de las cuentas.

Podemos ver la revisión de los saldos de las cuentas por cobrar como la acción y la diferencia del
saldo promedio con respecto a C$ 25850 como el efecto.

Por tanto podemos escribir las hipótesis así

H0 :  = 25850 No hacer un asiento de ajuste al valor en libros

H1 :   25850 Hacer un asiento de ajuste al valor en libros.

donde H0 :  = 25850 está suponiendo que no hay diferencia en el saldo promedio con respecto a
C$ 25850 mientras que la hipótesis alterna H1 :   25850 supone que hay diferencia en el saldo
promedio con respecto a C$ 25850.

Observe que la prueba es de dos colas porque nos interesan tanto las diferencias del saldo promedio
hacia la izquierda de C$ 25850 como hacia la derecha de C$ 25850.
82

2. ELEGIR UN NIVEL DE SIGNIFICACION.

La prueba presenta 4 situaciones indicadas abajo.

Altenativas Hipótesis
H0:  = 25850 es V H1:   25850 es V
No hacer asiento de ajuste Correcta Error II
Hacer asiento de ajuste Error I Correcta

donde Error I se da cuando hacemos un asiento de ajuste en libros cuando en realidad el saldo
promedio de las cuentas es igual a C$ 25850.

Controlaremos el error I suponiendo que

P ( error I )  0.02 De esta manera hemos elegido un nivel de significación  = 0.02

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.
Para una población normal con  desconocida y n  30 le corresponde el estadístico de prueba Z,
como una aproximación de t , dado por

X  
Z =
ˆ X

Como la prueba es de dos colas  quedará repartido en las dos colas así


 = 0.02  = 0.01


Los valores críticos -z/2 y z/2 se determinan respectivamente de P( Z < -z/2 ) = = 0.01 y de
2

P( Z > z /2 ) = = 0.01 , pero como la tabla de la distribución de Z sólo proporciona valores de z
2
que tienen a su izquierda el área acumulada que señala dicha tabla, podemos determinar primero el

valor negativo -z/2 de P( Z < -z/2 ) = = 0.01, o bien podemos determinar primero el valor
2
positivo. Una vez determinado el primero, el segundo será, según la propiedad de simetría, el
opuesto.

Determinemos primero el valor negativo - z α 2 encontrando el área más cercana a 0.01, que es
0.0099, a la cual le corresponde - z α 2 = - 2.33. El otro valor crítico será el opuesto del anterior,
esto es, z α 2 = 2.33
83

Es decir que Z es significativamente distinto de cero si cae a la izquierda de -2.33 o a la derecha de


2.33 según se observa en la figura de abajo

0.01 0.01

Z
- 2.33 0 2.33
R NR R

Fig. 2.6

Por tanto la regla de decisión dirá:

Rechazo H0 :  = 25850 a un nivel  = 0.02 si Z  - z = - 2.33 o Z  z = 2.33


En caso contrario no rechazo H0 :  = 25850. “Acepto” H0 :  = 25850.

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.

De una muestra aleatoria de tamaño n = 100 cuentas se obtuvo la siguiente información.

X = C$ 27550
S = C$ 1200

Como la población se considera muy grande el valor del estadístico de prueba es:

X   X -  27550 - 25850 1700


Z = = = = = 14.1667
ˆ X S/ n 1200/ 100 120

5. SELECCIONAR UNA ALTERNATIVA.

Como el valor de Z cae en la región de rechazo diremos que hay suficiente evidencia para rechazar
H0 :  = 25850 a un nivel de significación  = 0.02, lo cual implica que estamos aceptando H1 : 
 25850.

Luego debemos hacer un asiento de ajuste al valor en libros.


84

2.3 PROCEDIMIENTO DE LA PUEBA ACERCA DE p


Del tema anterior recordemos que cuando la característica de interés Y de los elementos
poblacionales siguen una distribución de Bernoulli, se demuestra fácilmente que:

μY  p y σY  p (1 - p)

Motivo por el cual a la media poblacional de Y le llamamos proporción poblacional y la denotamos


por p.
Ahora como la proporción poblacional es una media poblacional, el procedimiento para probar
hipótesis acerca de p será el mismo que se utilizó para .

Como las hipótesis serán suposiciones acerca de p, el estadístico de prueba será naturalmente la
proporción muestral pS pero estandarizada, esto es, la diferencia pS - p0 expresada en unidades del
error estándar de pS

pS - p 0
, p0 es el valor supuesto de p
ˆ p S

ˆ Y p0 (1 - p0 )
donde ˆ pS  = si la población es infinita
n n
ˆ Y N-n p0 (1 - p0 ) N-n
o ˆ pS  = si la población es finita.
n N -1 n N -1

Esta expresión puede ser aproximadamente igual al estadístico Z si n es suficientemente


grande, esto es, si
np0  5 y n (1 – p0)  5

Esto significa que el valor del estadístico de prueba Z se obtendrá de una muestra de tamaño n y
representará también una diferencia que puede ser significativa o no significativa.

EJEMPLO 2.5.

Suponga que se tiene un proceso de producción de llenado de envases plásticos de café.


Con base en la experiencia acumulada se sabe que por lo menos el 4% de los envases no cumplen
con los estándares de sellado y tienen que ser reprocesados.
Después de haber desarrollado un nuevo sistema de envase el gerente de control de calidad decide
tomar una muestra aleatoria de 400 envases la cual señala que es necesario reprocesar 10.

¿Tiene suficiente evidencia el gerente para concluir a un nivel de significación del 5% que el nuevo
sistema es mejor que el anterior, esto es, que la proporción de envases defectuosos ha descendido?
85

1. FORMULACION DE LAS HIPOTESIS.

En este problema los elementos a estudiar son los envases plásticos y la característica de interés Y es
la seguridad que ofrece el envase en cuanto a si cumple o no cumple los estándares de sellado.
Como estamos interesados en los envases defectuosos el éxito será que no cumplen.
Por tanto estamos en presencia de una población de Bernoulli de la cual nos interesan las
suposiciones acerca de la proporción p de envases que no cumplen los estándares de sellado.
Podemos ver el proceso de producción de llenado de los envases plásticos como la acción y el
descenso de la proporción de envases defectuosos con respecto a 0.04 como el efecto.

Así que las hipótesis serán:

H0 : p  0.04 El nuevo sistema no es mejor


H1 : p  0.04 El nuevo sistema es mejor

donde H0 : p  0.04 está suponiendo que no hay descenso en la proporción de envases que no
cumplen con respecto a 0.04 mientras que la hipótesis alterna H1 supone que hay descenso en la
proporción de envases que no cumplen.

Observe que la prueba es de cola izquierda porque sólo nos interesan los descensos de la
proporción de envases que no cumplen con respecto a 0.04.

2. ELEGIR UN NIVEL DE SIGNIFICACION.

La prueba presenta las 4 situaciones indicadas abajo.

Alternativas Hipótesis
H0: p  0.04 es V H1: p  0.04 es V
El nuevo sistema no es mejor Correcta Error II
El nuevo sistema es mejor Error I Correcta

donde el error I consiste en decir que el nuevo sistema es mejor cuando en realidad no hay
descenso en la proporción de envases que no cumplen.

Controlaremos el error I suponiendo que P (error I)  0.05

De esta manera hemos elegido un nivel de significación  = 0.05

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.
Como la población tiene una distribución de Bernoulli, el estadístico de prueba es

pS - p 0
Z =
ˆ p S

Porque np0 = 400 (0.04) = 16  5 y n ( 1 – p0 ) = 400 (0.96) = 384  5


86

Como la prueba es de cola izquierda y  = 0.05, el valor crítico -z  se determina de


P( z < -z) =  = 0.05, como la tabla de la distribución de Z sólo proporciona valores de z que tiene
a su izquierda el área acumulada que señala dicha tabla, determinemos el valor negativo -z  así

El área más cercana a 0.05 es 0.0505 ó 0.0495

Tomemos 0.0505 a la cual le corresponde - z = - 1.64

Es decir que z es significativamente distinto de cero si cae a la izquierda de - 1.64 según se observa
en la figura de abajo

0.05

- 1.64 0 Z
R NR

Fig. 2.7
Por tanto la regla de decisión dirá lo siguiente:

Rechazo H0 : p  0.04 a un nivel de significación  = 0.05 si Z  - z = - 1.64


En caso contrario no rechazo H0 : p  0.04 , esto es “acepto” H0 : p  0.04

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.
De la muestra aleatoria de tamaño n = 400 envases se puede obtener la siguiente información

X 10
pS = = = 0.025
n 400

Como la población se considera infinita el valor del estadístico de prueba es

pS - p 0 pS - p 0 0.025 - 0.04 - 0.015


Z = = = = = -1.5306
ˆ p S
p0 (1  p0 ) 0.04 (0.96) 0.0098
n 400

5. SELECCIONAR UNA ALTERNATIVA


Como el valor de Z cae en la región de no rechazo diremos que no hay suficiente evidencia para
rechazar H0 : p  0.04 , es decir, “aceptamos” H0 : p  0.04.
Luego el nuevo sistema no es mejor que el anterior.
87

EJEMPLO 2.6.
Una empresa tiene 1500 cuentas por cobrar.
En los libros de la empresa aparece registrado que sólo el 2% de los documentos no satisfacen los
requisitos establecidos.
Un auditor selecciona una muestra aleatoria de 300 y verifica que 12 no satisfacen los requisitos
establecidos.
¿Hay evidencia suficiente para que el auditor declare a un nivel de significación del 1% que más del
2% de las cuentas no satisfacen los requisitos establecidos por la institución?

1. FORMULACION DE LA HIPOTESIS.

Ahora los elementos a estudiar son las cuentas por cobrar y la característica de interés Y es la
verificación de las cuentas en cuanto a si satisfacen o no satisfacen los requisitos. Por lo tanto hay
una población de Bernoulli de la cual nos interesan las suposiciones acerca de la proporción p de
cuentas que no satisfacen los requisitos establecidos.

Podemos ver la verificación de las cuentas como la acción y son más del 2% la proporción de
cuentas que no satisfacen los requisitos como el efecto.

La hipótesis quedan formuladas así:

H0 : p = 0.02 Declarar que el 2% de las cuentas no satisfacen los requisitos


H1 : p  0.02 Declarar que más del 2% de las cuentas no satisfacen los requisitos

donde H0 : p = 0.02 está suponiendo que no son más del 2% la proporción de cuentas que no
satisfacen los requisitos, mientras que la hipótesis alterna H1 : p  0.02 supone que son más del 2%
la proporción de cuentas que no satisfacen los requisitos.

Observemos que la prueba es de cola derecha porque sólo nos interesa si son más del 2% la
proporción de cuentas que no satisfacen los requisitos.

2. ELEGIR UN NIVEL DE SIGNIFICACION

La prueba presenta las 4 situaciones indicadas abajo.

Alternativas Hipótesis
H0: p = 0.02 es V H1: p  0.02 es V
El 2% de las cuentas no satisfacen. Correcta Error II
Más del 2% de las cuentas no satisfacen. Error I Correcta

donde Error I consiste en declarar que más del 2% de las cuentas no satisfacen los requisistos
cuando en realidad sólo el 2% de las cuentas no satisfacen los requisitos.

Controlaremos el error I suponiendo que

P ( error I )  0.01 Así que hemos elegido un nivel de significación  = 0.01


88

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.

Como la población tiene una distribución de Bernoulli el estadístico de prueba será:

pS - p 0
Z =
ˆ p S

Porque np0 = 300 (0.02) = 6  5 y n (1 – p0 ) = 300 (0.98) = 294  5

Como la prueba es de cola derecha y el nivel de significación es  = 0.01


El valor crítico z se determina de P( Z  z) =  = 0.01, pero como la tabla de la distribución de
Z sólo proporciona valores de z que tiene a su izquierda el área acumulada que señala dicha tabla,
determinemos el valor z de P( Z < z ) = 1 -  = 0.99 así
El área más cercana a 0.99 es 0.9901 a la cual le corresponde z  = 2.33

Es decir que Z es significativamente distinto de cero si cae a la derecha de 2.33 según se observa en
la figura de abajo

0.01

Z
0 2.33
NR R

Fig. 2.8

Por tanto la regla de decisión dirá:

Rechazo H0 : p = 0.02 a un nivel de significación  = 0.01 si Z  z = 2.33


En caso contrario no rechazo H0 : p = 0.02. “Acepto” H0 : p = 0.02
89

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.

De la muestra de tamaño n = 300 cuentas se obtiene la siguiente información.

X 12
pS = = = 0.04
n 300

El valor del estadístico de prueba es

pS - p 0 pS - p 0
Z = =
ˆ p S
p0 (1- p0 ) N - n
n N -1

n 300
Porque la población es finita con = = 0.20  0.05
N 1500

Así que

0.04 - 0.02 0.02


Z = = = = 2.7597
0.02 (0.98) 1200 (0.0081) (0.8947)
300 1499

5. SELECCIONAR UNA ALTERNATIVA

Como Z cae en la región de rechazo diremos que hay suficiente evidencia para rechazar H0 : p =
0.02 a un nivel de significación  = 0.01, lo cual implica que aceptamos H1 : p  0.02

Luego el auditor debe declarar que más del 2% de las cuentas no satisfacen los requisitos
institucionales.
90

EJERCICIOS PROPUESTOS DEL TEMA 2: PRUEBA DE HIPOTESIS

1. Suponga, según registros históricos de la industria de la langosta en Nicaragua, que la captura


de langosta por trampa tiene una distribución normal y que además la captura promedio de langostas
ha sido de 30.31 libras. Hace unos años el gobierno de un país vecino declaró que se prohibía a los
pescadores nicaragüenses operar en la parte de su plataforma continental, razón por la cual se cree la
captura promedio de langosta en libras por trampa ha disminuido notablemente.
Una muestra aleatoria de 10 trampas para langostas, desde que la restricción entró en vigor,
proporcionó los siguientes resultados:

17.4, 18.9, 39.6, 34.4, 19.6, 33.7, 37.2, 27.5, 41.7, 24.1

¿Ha disminuido la captura promedio de langosta por trampa a un nivel de significación del 1%?

2. El rendimiento promedio de maíz en las plantaciones hace un tiempo era de 50qq. por manzana
con una desviación estándar de 4qq. Se utilizó un nuevo fertilizante a un grupo de 52 plantaciones
seleccionadas al azar obteniendo un rendimiento promedio de 55qq. por manzana. Suponiendo que
la desviación estándar de los rendimientos con el nuevo fertilizante sigue siendo la misma, ¿ Se
puede afirmar que ha habido un incremento significativo en el rendimiento? Use un nivel de
significación del 5%.

3. Suponga que se tiene un proceso de producción de llenado de cajas de pasas del cual se supone
que el peso neto de las pasas en las cajas tiene una distribución aproximadamente normal, y que
además, proporciona un peso neto promedio de pasas por caja de 15 onzas.
Debido a que ha habido quejas de consumidores que dicen que las cajas contienen un peso neto
menor que el anunciado por la etiqueta del producto, se tomó una muestra aleatoria de 20 cajas para
aclarar el asunto obteniéndose un peso neto promedio de 13.5 onzas y una desviación estándar de 1
onza.
¿Podemos decir a un nivel de significación del 1% que el reclamo de los consumidores es justo ?

4. Un vendedor de neumáticos está interesado en comprar unidades cuya duración promedio sea
mayor de 15,000 millas. Una firma productora le informa que posee neumáticos que cumplen con
ese requisito. El vendedor selecciona una muestra aleatoria de 25 unidades y determine que:

X  25,000 millas y S2 = 625,000 millas2

Suponiendo que la duración de los neumáticos sigue una distribución normal.


¿Habrá acuerdo entre la firma productora y el vendedor a un nivel de significación del 10%?

5. Un fabricante vende ejes traseros de camiones. Los ejes han de soportar una capacidad
promedio de resistencia de 80,000 lbs por plg2 en las pruebas de esfuerzo, pero los ejes demasiados
fuertes elevan considerablemente los costos de producción. La experiencia indica que la desviación
estándar de los ejes es de 4,000 lbs por plg2. El fabricante selecciona una muestra de 100 ejes en la
última serie de producción, los somete a prueba y averigua que la capacidad promedio de resistencia
de la muestra es de 79,000 lbs por plg2.
¿Puede decir el fabricante que los ejes no cumplen los requisitos de esfuerzo a un nivel de
significación del 5%?
91

6. Un laboratorio lanza al mercado un nuevo producto logrado a base de hormonas afirmando que
al ser suministrado a las aves de corral el peso promedio de sus huevos será igual o mayor que 3
onzas. En una de nuestras granjas avícolas se aplicó el tratamiento masivamente y un día
determinado se tomaron de forma aleatoria 80 huevos, y se comprobó que el peso promedio de los
mismos era de 2.9 onzas, con una desviación estándar de 0.2 onzas. ¿Podría decir usted que la
afirmación del laboratorio no es cierta a un nivel de significación del 5%?

7. La biblioteca de una universidad sospecha que el número promedio de libros prestados a cada
alumno por visita ha cambiado en los últimos años. Anteriormente, un promedio de 3.4 litros se
prestaba a los alumnos. Sin embargo, una muestra reciente de 23 estudiantes dio un promedio de 4.3
libros por visita, con una desviación estándar de 1.5 libros.
Suponiendo que el número de libros prestados sigue una distribución normal
¿Ha cambiado el promedio de libros prestados? En un nivel de significación de 0.01.

8. Una tienda ha iniciado una promoción especial para su horno de gas propano y piensa que la
promoción deberá culminar en un cambio de precios. Sabe desde antes de comenzar la promoción
que el precio de menudeo de los hornos sigue una distribución normal y que el precio promedio de
menudeo de los hornos era de C$ 419.50, con una desviación estándar (conocida) de C$53.60. La
tienda muestrea 16 de sus detallistas una vez iniciada su promoción y descubre que el precio
promedio al menudeo de los hornos es de C$ 389.50. En un nivel de significación de 0.02. ¿ tiene
motivos para pensar que el precio promedio al menudeo ha disminuido?

9 Un proceso industrial usado por una fábrica durante algunos años da una producción promedio
de 100 unidades por hora con una desviación estándar de 8 unidades. Acaba de ponerse en el
mercado una nueva máquina para producir el mismo producto. Aunque es muy costosa comparada
con la que se usa actualmente, su adopción sería muy lucrativa , si su producción promedio fuera
mayor de 150 unidades por hora. La gerencia de la fábrica compra una de las nuevas máquinas
como un experimento y la prueba durante 35 horas encontrando una producción promedio de 160
unidades por hora.
Suponiendo que la desviación estándar de la producción para la nueva máquina es idéntica a la de
las antiguas, ¿ deberá ser adquirida la nueva máquina a un nivel de significación del 1% ?

10. Un nuevo sistema de enseñanza de cierto curso de Estadísticas asegura que proporciona un
rendimiento promedio de 75 puntos. En una muestra aleatoria de 10 estudiantes se comprobó que
sus calificaciones fueron:
70, 80, 75, 55, 65, 85, 90, 60, 75, 55.

Suponiendo que la distribución de las calificaciones es normal, ¿Podemos decir que el nuevo
sistema no alcanza el rendimiento promedio que asegura? Use un nivel de significación del 5%.

11. El gerente de una compañía financiera se queja de que el 7% de los pagos parciales de
préstamos hechos a consumidores no se cubren a tiempo. ¿Podríamos afirmar que esta cifra es
diferente, si 80 de 1500 pagos de préstamos no se hacen a tiempo? Utilice un nivel de significación
del 1%?
92

12. Un corredor de bolsas sostiene que puede predecir con un 85% de exactitud si una acción del
mercado bursátil cambiará de valor durante el próximo mes. A manera de prueba predice el
resultado de 60 acciones y acierta en 45 de sus pronósticos. ¿Ofrecen los datos evidencia
concluyente, cuando el nivel de significación es del 2%, de qué la exactitud de su predicción es
significativamente diferente al 85% afirmado por el corredor?.

13. ENEL utiliza decenas de miles de luminarias cada año. La marca que ha utilizado hasta ahora
tiene una vida promedio de 1,000 horas con una desviación estándar (conocida) de 90 horas. Se le
ofrece una nueva marca al director de ENEL a un precio mucho más bajo que el que ha estado
pagando. El director decide que se debiera comprar la nueva marca ahora a menos que tengan una
vida promedio menor de 1,000 horas en un nivel de significación de 0.05. Se prueba 100 luminarias
de la nueva marca, que dan promedio de 990 horas. Suponiendo que la desviación estándar para la
nueva marca es la misma que la vieja. ¿ Cuál sería la decisión del director de ENEL?.

14. Una empresa de camiones de carga sospecha que la duración promedio de 25,000 Kms que se le
adjudica a ciertos neumáticos es demasiado larga. Para demostrar la afirmación la empresa coloca
una muestra tomada al azar de 35 neumáticos en sus camiones y descubre después que su duración
promedio es de 24410 Kms y la desviación estándar es de 1348 Kms. ¿Se podría concluir a un nivel
de significación de 0.01 que la duración promedio no es tan larga como se afirma?

15. Una persona que planea abrir un restaurante cerca de una zona residencial de cierta ciudad,
informa al banco al que desea pedir el capital necesario, que por lo menos el 50% de los residentes
en ese distrito patrocinarán su restaurante esporádicamente cuando este abierto. Suponga que Ud. Es
el encargado de préstamos del banco y desea verificar si lo que dice la persona no es cierto con un
nivel de significación del 5%. Además suponga que de una muestra aleatoria de 50 residentes de
ese distrito solamente el 44% indicaron su intención de patrocinar el restaurante propuesto.

a) ¿ No debo autorizarle el préstamo ?.

b) Suponga que la muestra ha sido de 200 en lugar de 50, y que la proporción muestral fuera aún
de 0.44, ¿ Sería diferente su conclusión ?

16. Un fabricante de salsa de tomate está a punto de decidir si producir una marca nueva de mucho
condimento. El departamento de investigación de la fabrica aplicó una encuesta telefónica a nivel
nacional a 6,000 familias y averiguó que la salsa sería comprada por 335 de ellas. Un estudio mucho
más exhaustivo hecho dos años antes reveló que el 5% de las familias comprarían la marca. En un
nivel de significación de 1% ¿ Debería la compañía concluir que hay un mayor interés en el sabor
tan condimentado?

17. La experiencia de un comerciante en aparatos y accesorios mostró que el 10% de clientes que
compran a plazos liquidan sus cuentas antes del vencimiento de la última mensualidad. Al sospechar
un incremento en este porcentaje, el comerciante muestreó 200 compradores a crédito para saber sus
intenciones, 33 de ellos afirmaron tener planeado pagar sus deudas antes de la última mensualidad.
¿Son los datos suficientes para indicar que el porcentaje de compradores a plazos que pagarán sus
deudas antes de la última mensualidad excede de 10% ?. Haga la prueba con un nivel de
significación de 0.02.
93

18. El departamento de personal de una empresa quiere estimar los gastos médicos promedios por
familia de sus empleados, a fin de determinar un plan de seguro médico. Una muestra aleatoria de
10 empleados mostró los gastos médicos familiares siguientes en un año:

$110 , 362 , 246 , 85 , 510 , 208 , 173 , 425 , 316 , 179 .

Suponiendo que los gastos médicos por familia siguen una distribución normal
A un nivel de significación de 0.10. ¿ Podría concluir el gerente de personal que los gastos médicos
promedios por familia de todos los empleados es distinto a $200.

19. El departamento de servicio a cliente de una empresa local de servicios públicos telefónicos
quiere estimar el tiempo promedio entre la llegada de la solicitud de servicio y la conexión del
mismo. De los registros disponibles del año anterior se seleccionó una muestra aleatoria de 15 casos.
Los resultados en días fueron los siguientes:

114 , 78 , 96 , 137 , 78 , 103 , 117 , 126 , 86 , 99 , 114 , 72 , 104 , 73 , 86 .

Suponiendo que la distribución de los tiempos entre la llegada de la solicitud y la conexión es


normal. Aun nivel de significación de 0.01. ¿es posible que el tiempo promedio de espera en el año
anterior haya sido mayor de 90 dias?.

20. Un fabricante de televisores anuncia que el 90% de sus aparatos no necesitan ninguna
reparación durante los dos primeros años de uso. La oficina de protección al consumidor selecciona
una muestra de 100 aparatos y encuentra que 14 necesitan alguna reparación durante los dos
primeros años de uso. A un nivel de significación de 0.05. ¿a qué conclusión puede llegar la oficina
de protección al consumidor?

21. El editor de una revista encontró basándose en su experiencia que el 60% de sus suscriptores
renuevan sus suscripciones. Como la compañía se encaminaba a una recesión en sus negocios,
decidió seleccionar una muestra de clientes para determinar si planeaban renovar sus suscripciones.
108 personas de una muestra de 200 indicadores que si pensaban renovarlas. ¿Proporcionan los
datos suficiente evidencia para detectar una reducción en la proporción de los suscriptores que si
renovarán? Realice la prueba usando un nivel de significación del 5%.

22. Aproximadamente uno de cada diez consumidores de una región determinada prefieren el
refresco de cola marca A. Después de una campaña de promoción en esa región, se seleccionó
aleatoriamente 200 consumidores de ese producto resultando que 26 expresaron su preferencia por
el refresco de cola marca A. ¿ Hubo aumento en la preferencia del refresco de cola marca A en la
región a un nivel de significación del 10% ?

23. Un fabricante de azúcar que la empaca en bolsas de plástico dice que cuando el proceso está
bajo control cada bolsa debe contener 10 onzas como promedio. Periódicamente se toma una
muestra de 9 bolsas para comprobar el proceso. Se acaba de tomar una muestra aleatoria de 9 bolsas
y se encontró que el peso promedio es de 10.3 onzas con una desviación estándar de 0.45 onzas.
Suponiendo que los pesos de las bolsas de azúcar siguen una distribución normal, ¿ podrá decirse
que el proceso está fuera de control a un nivel de significación del 2%?
94

TEMA 3. ANALISIS DE REGRESION LINEAL SIMPLE


OBJETIVOS
1. Conocer el establecimiento formal del modelo de regresión lineal normal con dos variables.
2. Estimar la función de regresión poblacional e interpretar sus coeficientes obtenidos.
3. Trazar la línea de regresión estimada sobre el diagrama de dispersión y conocer algunas
propiedades de ella.
4. Hacer un análisis de varianza cuando se ajusta una línea de regresión a los datos determinando
medidas de asociación entre las dos variables e interpretando sus valores
5. Probar si existe relación lineal significativa entre las dos variables.
6. Utilizar el modelo de regresión lineal simple en la estimación o predicción (puntual o por
intervalo) de variables económicas.

3.1. INTRODUCCION

El propósito fundamental del análisis de regresión es estimar la relación que puede existir entre dos
o más variables, con el fin de que la media de una variable pueda ser estimada o predicha a partir de
valores conocidos o fijados de la otra u otras.

La variable que va a ser estimada o predicha la denotaremos por Y y la llamaremos variable


explicada, predicha o dependiente. Las otras variables generalmente se denotan por Xi y las
llamaremos variables explicativas, predictoras o independientes.

Algunas situaciones ilustrativas son las siguientes:

1. Un economista puede está interesado en estudiar la relación entre las siguientes variables.

Y : Consumo familiar mensual.


X1 : Ingreso familiar mensual.
X2 : No de hijos.

2. En contabilidad de costos, un contador o un administrador de una empresa puede estar


interesado en estudiar la relación entre las siguientes variables:

Y : Costo de mano de obra directa de una orden de producción.


X1 : No horas máquinas utilizadas.
X2 : No artículos producidos.

3. En agricultura, un economista agrícola o un ingeniero agrónomo puede estar interesado en


estudiar la relación entre las siguientes variables:

Y : Rendimiento en qq/mz de una plantación de maíz.


X1 : Cantidad de fertilizante utilizado en lbs/mz.
X2 : Cantidad de insecticida utilizado.
X3 : Cantidad de lluvia.

En este tema sólo estudiaremos la relación entre 2 variables, motivo por el cual al análisis de
regresión se le llama simple.
95

3.2 EL MODELO DE REGRESION LINEAL NORMAL CON DOS VARIABLES.


Este modelo considera solamente la relación entre las variables X, Y, en cuya población de
observaciones suponemos que:

1. Para cada valor que tome X hay una distribución normal de Y.


2. Las medias de las distribuciones de Y varían linealmente con X.

Una representación gráfica de este modelo es la siguiente:

Y Línea de regresión
Yi  4300 poblacional

e i  500

μ Yi  3800
e i   300

Yi  3500

0 x i  4000 X

Fig. 3.1

A la línea que pasa por las medias de Y la llamaremos línea de regresión poblacional

Por ejemplo, supongamos que las características de interés en las familias de una comunidad están
dadas por las siguientes variables:
X representa el ingreso mensual y Y representa el consumo mensual.
Si xi representa el i-ésimo valor que toma X y Yi la i-ésima observación de Y, entonces podemos
decir que para un nivel de ingreso xi = C$ 4000 hay una subpoblación en la cual podemos suponer
que Yi tiene una distribución normal con un consumo promedio dado por μ Yi | x i  C$3800

Supongamos que para el nivel xi = C$ 4000 se selecciona al azar una familia y se registra la
observación Yi = C$ 4300

Supongamos ahora que para el nivel xi = C$ 4000 se selecciona al azar una familia y se registra la
observación Yi = C$ 3500

En la figura 3.1 pueden apreciarse estas observaciones y toda la población de observaciones con la
línea de regresión poblacional pasando sobre las medias de Yi.
96

3.2.1 ESTABLECIMIENTO FORMAL DE MODELO.


Supongamos que xi representa el i-ésimo valor que toma X y Yi la i-ésima observación de Y
Para cada xi existe una subpoblación de observaciones de Y que pueden apreciarse en la figura 3.2 y
que consideramos provienen de una variable aleatoria Yi que será vista como la suma de 2
componentes:

Y Línea de regresión
poblacional

Yi
εi
β1
μY
i
1

β0
β 0  β 1x i

0 xi X

Fig. 3.2

i) Un término constante explicado linealmente por X y que denotaremos por

o + 1 xi

donde o y 1 son los parámetros de regresión que llamaremos respectivamente intercepto y


pendiente de la línea de regresión.

ii) Un término aleatorio o error aleatorio, no explicado por X, que denotaremos por
ei
y que se verá como una variable aleatoria sustituta de todas las demás variables omitidas en el
modelo y que pueden estar relacionadas con Y.
Esta componente ei es la que le imparte aleatoriedad a Yi

Por lo tanto el modelo queda establecido con la expresión

Yi = o + 1 xi + ei y los siguientes supuestos:

Supuesto 1. X no es variable aleatoria.


Este supuesto plantea que X toma valores xi fijados por el investigador y éstos se mantienen
constantes en muestreos repetidos.
Si X toma valores al azar, pero con una distribución de probabilidad independiente de los ei,
entonces para cualquier fin práctico podemos continuar trabajando como si X fuera no aleatoria.
97

Supuesto 2. Los ei son variables aleatorias distribuidas normalmente.

Este supuesto implica que también Yi es una variable aleatoria con distribución normal.
Esto quiere decir que cada observación particular yi se considerará que proviene de una distribución
normal de Yi.
Su presencia simplificará la teoría del análisis de regresión cuando estemos utilizando
procedimientos de estimación y prueba más adelante.

Supuesto 3. Los ei son variables aleatorias independientes

Este supuesto plantea que para dos observaciones diferentes i y j los errores ei y ej , además de estar
distribuidos normalmente, no están correlacionados. La anterior implica que ei y ej son
independientes.
Como consecuencia de este supuesto podemos decir que también las observaciones Yi y Yj son
independientes, esto es, que cada observación es independiente de cualquier otra observación que se
haya dado.

Supuesto 4. La media de los ei es cero ( Neutralización de los ei )

μe i | x i  0  μ Yi | x i  β 0  β1x i

donde la expresión μ e i | x i se leerá, la media de ei cuando que X toma el valor xi , y la expresión


μ Yi | x i se leerá la media de Yi cuando que X toma el valor xi

Sustituyendo o + 1 xi por μ Yi | x i en el modelo obtenemos Yi = μ Yi | x i + ei donde podemos observar


que el error aleatorio puede expresarse así:
ei = Yi - μ Yi | x i
Además ei es positivo si Yi está encima de μ Yi | x i , y negativo si Yi está debajo de μ Yi | x i
Por ejemplo, suponiendo que las familias de la comunidad con un nivel de ingreso de xi = C$4000
tienen siempre un consumo promedio dado por μ Yi | x i  C$3800 entonces los errores aleatorios para
los consumos de las familias seleccionadas al azar anteriormente estarían determinadas así:

ei = Yi - μ Yi | x i = 4300 – 3800 = C$500 y ei = Yi - μ Yi | x i = 3500 – 3800 = C$ -300

y pueden apreciarse en la figura 3.1

Este supuesto plantea que aquellas variables que no están incluidas en el modelo, incorporadas, por
tanto, en ei , no afectan sistemáticamente la media de Yi.
En otras palabras, los valores positivos de ei se cancelan con los valores negativos de tal manera que
su efecto sobre la media de Yi es cero.

En las figuras 3.1 y 3.2 puede apreciarse una población de observaciones y una línea de regresión
poblacional neutralizando los errores aleatorios ei , esto es, pasando sobre las medias de Yi
98

Le llamaremos función de regresión poblacional de Y sobre X a la expresión.

μ Y | X  β 0  β1 X para cualquier valor X dentro del alcance del modelo.

Observe que las medias de Y están relacionados linealmente con los valores conocidos de X.
Al gráfico de esta función le llamaremos línea de regresión poblacional.

Los parámetros de regresión o y  1 serán interpretados así:

1 es la pendiente de la línea de regresión. Representa el cambio en la media de Y por cambio


unitario en X.
El valor de  1 puede ser positivo o negativo.
Si  1 es positiva diremos que hay una relación lineal positiva entre X , Y ; lo cual significa que si X
aumenta, μ Y| X también aumenta. En las figuras 3.1 y 3.2 pueden apreciarse una relación lineal
positiva.
Si 1 es negativa diremos que hay una relación lineal negativa entre X , Y; lo cual significa que si X
aumenta, μ Y| X disminuye. En la figura 3.3. puede apreciarse una relación lineal negativa.

Línea de regresión poblacional


Y

β0 Yi

μY 1
β1
i

0
X
xi

Fig.3.3

o es el intercepto de la línea de regresión. Representa la media de Y en X = 0


Si el alcance del modelo no incluye X = 0, o no tiene ningún significado a menos que el contexto
del problema lo sugiera, esto es, cuando se considera que X = 0 no se aleja mucha del alcance del
modelo.
El valor de o puede ser positivo o negativo. En las figuras 3.1, 3.2 y 3.3 se aprecia un o positivo,
mientras que en la figura 3.4 se aprecia un  o negativo.

Supuesto 5. Homoscedasticidad o igual varianza de los ei

σe2i | x i  σ2  σ 2Yi | x i  σ 2
99

La expresión σe2i | x i se leerá, la varianza de ei cuando que X toma el valor xi y la expresión σ2Yi | x i
se leerá la varianza de Yi cuando que X toma el valor xi
En este supuesto observe que σ
2
no tiene el subíndice i, lo cual significa que σ e2i para cada xi es
una constante igual a σ , lo cual implica que σ Yi para cada xi es también una constante igual a σ .
2 2 2

En otras palabras las distribuciónes de probabilidad de Yi tienen siempre la misma varianza


independientemente del valor que tome X.
En las figuras 3.4 y 3.5 pueden apreciarse dos líneas punteadas trazadas a una distancia  de la línea
de regresión poblacional y paralelas a esa misma línea de regresión, que nos señala que
posiblemente la mayor parte de las observaciones quedan dentro de esos límites.
La magnitud de  me indicará qué tanto se alejan o se acercan las observaciones Yi de las medias de
Yi que están sobre la línea de regresión poblacional.
Al comparar la figura 3.4 con la figura 3.5 pueden apreciarse distintos valores para . En qué figura
las observaciones están más alejadas de su línea de regresión?

Y σ
Línea de regresión poblacional
σ

0
β0
X

Fig 3.4

Y
Línea de regresión poblacional

0 X

Fig. 3.5

Finalmente todos los supuestos anteriores pueden resumirse diciendo que los xi son valores
constantes y que los Yi son variables aleatorias independientes distribuidas normalmente con
μ Yi | x i  β 0  β1 x i y σ 2Yi | x i  σ 2
100

3.3 ESTIMACION DE LA FUNCION DE REGRESION POBLACIONAl.

Como en la función de regresión poblacional μ Y | X  β 0  β1 X los parámetros de regresión o y  1


no son conocidos necesitamos estimarlos a partir de una muestra.
Antes de establecer cómo estimar los parámetros, digamos algo acerca del significado de una
muestra aleatoria en el contexto presente.
Denotemos el i-ésimo experimento por el par ordenado (xi , Yi) donde xi se considera una constante
y Yi una variable aleatoria
Por ejemplo, el primer experimento se considera que es la primera familia seleccionada al azar de
la comunidad con el primer ingreso mensual fijado x1 por el investigador y con el primer consumo
mensual observado Y1, el segundo experimento se considera que es la segunda familia seleccionada
al azar de la comunidad con el segundo ingreso mensual fijado x2 por el investigador y con el
segundo consumo mensual observado Y2 ,y así sucesivamente.
Si consideramos n experimentos entonces al conjunto de pares ordenados ( x1 , Y1 ) , ( x2 , Y2 ) , . . .
, ( xn , Yn ) le llamaremos muestra aleatoria de tamaño n , y la presentaremos así

xi Yi
x1 Y1
x2 Y2
. .
. .
. .
xn Yn

Cuando los pares ordenados (xi , Yi) de la muestra tomen sus propios valores los ubicaremos sobre
un plano cartesiano para obtener una nube de puntos que llamaremos diagrama de dispersión.

0 X
Fig. 3.6

La impresión visual de este diagrama nos va a sugerir si existe posiblemente una relación lineal
entre X , Y
101

Para estimar los parámetros de regresión  o y  1 necesitaremos estimadores insesgados que


denotaremos así

bo será el estimador de o
b1 será el estimador de 1

Teniendo los estimadores b0 y b1 resulta natural definir la función de regresión muestral así

ˆ  b 0  b1 X
Y

donde Ŷ ( lea Y sombrero ) es el valor de la función de regresión muestral para el nivel X.

Ŷ es un estimador puntual insesgado de μ Y | X , razón por la cual se identificará como una media
estimada de Y para el nivel X.

Al gráfico de esta función le llamaremos línea de ajuste o línea de regresión estimada.

Para un valor particular xi de X

ˆ i  b 0  b1x i
Y

será llamado valor ajustado de Y para el nivel xi

Los estimados bo y b1 se llamarán y se interpretarán así:

b1 es la pendiente estimada. Representa una estimación del cambio en el valor medio de Y por
cambio unitario de X.

bo es el intercepto estimado. Representa una estimación del valor medio de Y en X = 0.


102

3.3.1. METODO DE LOS MINIMOS CUADRADOS.

Supongamos que a un valor particular xi de X le corresponde una observación Yi


Denotaremos y definiremos el i-ésimo resíduo de una observación Yi como

ei = Yi - Ŷi

Esto es la diferencia entre el valor observado Yi y el valor ajustado Ŷi

Cuando conocemos el intercepto y la pendiente de una línea decimos que dicha línea está claramente
especificada. La línea de regresión estimada quedará determinada cuando conozcamos las fórmulas
que definen a los estimadores bo y b1.

Un buen método para encontrar las fórmulas para bo y b1 es buscar una línea que mejor se ajuste a
la nube de puntos, esto es, que pase por ella minimizando la suma de los cuadrados de la resíduos,
según se muestra en la figura siguiente.

Y Línea de regresión estimada

Yi
ei
b1
Ŷi

b0
b 0  b1x i

0 xi X

Fig. 3.7

n
Hagamos que Q  e
.
2
i

  Yi 
n n
entonces Q     Yi - b - b1 x i  en donde n es el tamaño de la muestra.
2 2
- Ŷi 0
. .

Sabemos que Q es una función que depende de bo y b1 , esto es,

Q = f ( bo , b1 )
103

Minimicemos Q aplicando el calculo diferencial así

Q n

 bo
 2   Yi - b o - b1 x i  ( - 1 )
.

Q n

 b1
 2   Yi - bo - b1 xi  ( - xi )
.

igualando a cero ambas ecuaciones y arreglando términos nos queda.

n n
1.  Yi  n bo  b1  x i
. .

n n n
2. .
x i Yi  bo  x i  b1  x i 2
. .
que son llamadas ecuaciones normales.

Despejando bo y b1 de este sistema de ecuaciones se tiene

n n

n x Yi i n n

x i Yi - . .

n
 Y - b1  x
i i
b1  .
2 y b0  . .

 n  n
  xi 
x i2 -  . 
n

 . n

Una vez calculado los valores b0 y b1 procedemos a sustituirlos en la función de regresión


muestral
ˆ  b 0  b1 X
Y

cuyo gráfico, según este método, podrá llamarse línea de ajuste o línea de los mínimos cuadrados.

3.3.2 PROPIEDADES PRINCIPALES DE LA LINEA DE AJUSTE

1. La suma de los resíduos es cero.


n

e i 0

n n

x i Y i

2.. Siempre pasa por el punto ( x, Y ) donde x  y Y


n n
104

EJEMPLO 3.1.

La gerente de una compañía desea estimar la relación entre los costos de materiales usados en un
proceso químico (Y) y las horas de operación (X). Con esta información ella espera ser capaz de
preparar un presupuesto más preciso y tener un mejor control sobre los costos.

Datos sobre los costos en centenas de dólares para varias horas de operación del proceso son
presentados abajo.

Horas Costos
50 6.5
20 4.0
30 4.5
50 6.0
40 5.5
30 5.0
30 5.5
10 3.5
40 6.0
20 4.5

i) Construya un diagrama de dispersión.

Y 7
Línea de ajuste
6

0
0 10 20 30 40 50 X 60

Fig. 3.8
105

ii) Encuentre la función de regresión lineal muestral e interprete los coeficientes de regresión
estimados.

xi Yi xi2 xi Yi Y i2
50 6.5 2500 325 42.25
20 4.0 400 80 16.00
30 4.5 900 135 20.25
50 6.0 2500 300 36.00
40 5.5 1600 220 30.25
30 5.0 900 150 25.00
30 5.5 900 165 30.25
10 3.5 100 35 12.25
40 6.0 1600 240 36.00
20 4.5 400 90 20.25
320 51.0 11800 1740 268.50

n n

n x Y i i

x . . 320 ( 51 )
i Yi - 1740 -
n 10 1740 - 1632 108
b1  .
2 = 2
=   0.0692
 n  ( 320) 11800 - 10240 1560
  xi  11800 -
10
x i2 -  . 
n

 . n

n n

 Yi - b1 x i
51 - 0.0692 ( 320 ) 51 - 22.1440 28.8560
b0  . .
= =   2.8856
n 10 10 10

Ŷ = 2.8856 + 0.0692 X

b1 se interpreta así: Por cada hora adicional de operación el costo promedio de materiales usados
en el proceso aumenta en 0.0692 (en centenas de $)
bo se puede interpretar como el costo promedio de materiales cuando X = 0, esto es cuando el
proceso no opere. Este costo se debe a gastos indirectos tales como: almacenaje y transporte del
producto, energía eléctrica, etc.
iii) Estime el costo promedio de materiales utilizados cuando el proceso opere 15 horas.

Ŷ = 2.8856 + 0.0692 (15) = 2.8856 + 1.038 = 3.9236 (en centenas de $)


iv) Trace sobre el diagrama de dispersión anterior la línea de ajuste

Determinaremos los pares ordenados de dos puntos cualesquiera:


Para X = 45 , Ŷ = 2.8856 + 0.0692 (45) = 2.8856 + 3.114 = 5.9996 (en centenas de $)

Para X = 15 , Ŷ = 3.9236 (en centenas de $)

En la figura 3.8 se han unido estos puntos con una recta.


106

3.4. ANALISIS DE VARIANZA DE Y


Para cualquier nivel xi , la diferencia Yi - Y cuando no se ha ajustado ninguna línea de regresión
se llama desviación total.
Al ajustar la línea de regresión Yi - Y puede ser descompuestos en dos partes:

Para la i-ésima observación de Y.

Yi - Y = ( Yˆ i - Y )  ( Yi  Yˆ i )

Desviación total = Desviación explicada por X + Desviación no explicada por X.

La desviación explicada por X es la desviación del valor ajustado Ŷi con respecto Y
La desviación no explicada por X es la desviación de Yi con respecto al valor ajustado Ŷi , esto es,
el i-ésimo resíduo ei.

La siguiente figura muestra la descomposición de Yi - Y

Y
Ŷ  b0  b1X
Yi
Desviación no explicada por X

Ŷi Desviación total


Desviación explicada por X

xi
X

Fig. 3.9

Para las n observaciones de Y la suma de los cuadrados de estas desviaciones puede demostrarse
que es

n n n

 Y i - Y
2
  Yˆ i - Y 
2
 Y i - Yˆ i 
2

que denotaremos así

SST = SSR + SSE donde


107

 SST Será llamada suma de cuadrados total y representa una medida de variación de las
observaciones Yi alrededor de Y . Esta medida tendrá asociada n – 1 grados de libertad. Un
n
grado de libertad es perdido debido a la restricción  ( Yi - Y)  0 que tienen sus desviaciones.
.

 SSE Será llamada suma de cuadrados debida al error y representa una medida de variación de
Y no explicada por X alrededor de la línea de regresión estimada.
Esta medida tendrá asociada n - 2 grados de libertad. Dos grados de libertad son perdidos
debido a la estimación de los dos parámetros  o y  1.

 SSR Será llamada suma de cuadrados debida a la regresión y representa una medida de
variación de Y, explicada por X, y asociada con la línea de regresión estimada.
Esta medida tendrá asociada 1 grado de libertad.

Las fórmulas computacionales para SST, SSR y SSE puede demostrarse que son las siguientes.

2
 n 
  Yi 
 
 
n
SST  2
Yi -
n

n n n
SSE   Yi
2
- b o  Yi - b 1  x i Yi

SSR = SST - SSE


108

3.4.1 TABLA DE ANALISIS DE VARIANZA DE Y


Las sumas de cuadrados anteriores y sus grados de libertad correspondientes son presentados en lo
que llamaremos una tabla de análisis de varianza o simplemente tabla ANOVA.

Fuente de variación SS GL MS
Regresión SSR 1 MSR = SSR/1
Error SSE n-2 MSE = SSE/n -2
SST n-1

Una suma de cuadrados dividida por sus correspondientes grados de libertad la llamaremos media
cuadrática y la denotaremos por MS.
Estaremos interesados en la media cuadrática de regresión denotada y definida así:
SSR
MSR = = SSR
1
SSE
y la media cuadrática del error denotada y definida así: MSE =
n - 2

3.4.2 EL ESTIMADOR DE 
Recordemos que 2 representa la varianza de Y alrededor de la línea de regresión poblacional y que
 representa la desviación estándar de Y para cualquier nivel de X.
Puede demostrarse que MSE es un estimador insesgado de 2.

En otras palabras que la varianza estimada de Y alrededor de la línea de regresión podemos


denotarla y obtenerla así:
σ̂ Y2  MSE

SSE
y la desviación estándar estimada de Y por σ̂ Y  MSE 
n-2

Observe que σ̂ Y es un estimador insesgado de  que proporciona medidas expresadas en las mismas
unidades que los datos originales, logrando con esto una mejor apreciación de la variabilidad de Y
entorno a la línea de regresión.

Una fórmula alternativa para calcular la desviación estándar estimada de Y es la siguiente:

n n n

 Yi
2
- b o  Yi - b 1  x i Yi
σ̂ Y 
n-2

El estimador σ̂ Y , llamado también error estándar de la regresión nos será de gran utilidad para
hacer inferencias sobre 1.
109

EJEMPLO 3.2
Utilizando los resultados del ejemplo 3.1
i) construya la tabla de análisis de varianza
ii) obtenga un estimado de .

i) Sabemos que
n n n

  
n
x i  320 , xY
2
Yi = 51 , Yi = 268.5 , i i = 1740

y que Ŷ = 2.8856 + 0.0692 X

2
 n 
  Yi 
 
  (51) 2
n
SST   Yi
2
-
n
= 268.5 -
10
= 268.5 - 260.1 = 8.4

n n n
SSE   Yi
2
- b o  Yi - b 1  x i Yi = 268.5 - 2.8856 (51) - 0.0692 (1740)

= 268.5 - 147.1656 - 120.408 = 0.9264

SSR = SST - SSE = 8.4 - 0.9264 = 7.4736

Arreglando estas sumas de cuadrados con sus correspondientes grados de libertad llegamos a la
siguiente tabla ANOVA.

Fuente de variación SS GL MS
Regresión 7.4736 1 7.4736
Error 0.9264 8 0.1158
8.4000 9

ii) Observe que MSE = 0.1158 y que por lo tanto σ̂ Y = MSE  0.1158  0.3403

Con la fórmula alternativa tenemos que

n n n

Y - b o  Yi - b 1  x i Yi
2
i

σ̂ Y 
n-2

0.9264
= = 0.1158  0.3403
8
110

3.4.3 MEDIDAS DE ASOCIACION ENTRE X,Y


Dos medidas de asociación son frecuentemente usadas en la práctica para describir el grado de
relación entre X, Y.

COEFICIENTE DE DETERMINACION.
Podríamos considerar que SST es una medida de variación total de las observaciones Yi que refleja
la incertidumbre en estimar o predecir Y cuando ninguna variable independiente X es tomada en
cuenta. Cuando un modelo de regresión que utilice la variable independiente X es utilizado SST se
dividirá en dos componentes SSE y SST tales que el cociente
SSE
SST
representará una medida de la proporción de la variación de Y no explicada por X que aún queda y
el complemento
SSE SST  SSE SSR
r2  1    donde 0  r 2  1
SST SST SST

una medida de la proporción de la variación total de Y explicada por X que llamaremos coeficiente
de determinación muestral. Esta medida podrá verse también como una reducción proporcional
de la variación total de Y (incertidumbre) cuando la variable independiente X es introducida.

De manera que r2 podrá interpretarse así:


 Es la proporción de la variación total de Y que es explicada por X.
 Es la reducción proporcional de la variación total de Y cuando la variable independiente X es
introducida.

Límites de los valores de r2


n
2
1. r = 1  SSE = 0   (Y i  Ŷi ) 2  0  Yi  Ŷi

La relación entre X,Y es perfecta en los datos muestrales. Aquí toda variación en las observaciones
Yi es explicada por X. Este caso es mostrado en la siguiente figura.

Y Ŷ  b 0  b1X

Yi

Fig. 3.10
111

n
2
2. r = 0  SSR = 0   (Ŷ i - Y) 2  0  Ŷi  Y  b1 = 0

No hay relación entre X , Y en los datos muestrales. Aquí la variación en las observaciones Yi no
son explicadas por X. X no ayuda a reducir la variación en las observaciones Yi
Este caso es mostrado en la siguiente figura.
En la práctica r2 toma valores entre 0 y 1. La cercanía de r2 a 1 implica un alto grado de asociación
entre X , Y.

Y
Ŷ  Y

Fig. 3.11

EJEMPLO 3.3.
Para el ejemplo 3.1 determine el coeficiente de determinación e interprételo.

Utilizando la tabla ANOVA del ejemplo 3.2 llegamos a que:

2 7.4736
r   0.8897
8.4000

El 88.97% de la variación en el costo de materiales se puede explicar por las horas de operación del
proceso.
La variación total en el costo de materiales es reducida en un 88.97% cuando las horas de operación
es considerada.

COEFICIENTE DE CORRELACION.
La raíz cuadrada de r2.

r   r2 , -1  r  1 , r tiene el mismo signo que b1

es llamada coeficiente de correlación.


Observe que r2 < | r | o sea que r puede dar la impresión de una relación “más fuerte” entre X , Y
que la correspondiente. Por ejemplo r2 = 0.10 indica que la variación total en Y es reducida en sólo
un 10% cuando X es introducida, y | r | = 0.3162 puede dar la impresión de una mayor asociación
entre X , Y.
112

Interpretación de r
No tiene una interpretación tan clara como la de r2 , sin embargo podemos decir que a medida que
| r | se acerque a 1 mayor será el grado de relación entre X, Y, lo cual permitirá hacer inferencias
más precisas sobre Y a partir de X.

EJEMPLO 3.4
Para el ejemplo 3.1 determine el coeficiente de correlación.

Como la pendiente b1 = 0.0692 es positiva

r  0.8897  0.9432

La cercanía de r con 1 implica que posiblemente hay alto grado de relación entre X, Y

3.5 INFERENCIAS SOBRE  1

Frecuentemente estaremos interesados en hacer inferencias sobre la pendiente de la línea de


regresión poblacional.
Por ejemplo será de interés saber si hay una relación lineal significativa entre X , Y para la cual
haremos una prueba de hipótesis sobre 1.
También puede ser que queramos obtener un intervalo de confianza para 1.
Antes de considerar inferencias sobre 1 necesitamos considerar la distribución muestral de b1.

3.5.1 DISTRIBUCION MUESTRAL DE b1


Puede demostrarse que el estimador b1 es una combinación lineal de las observación Yi . Esto es,

b1 = k i Yi donde los ki son constantes.

Como las observaciones Yi tienen distribución normal (según el supuesto 2) b1 tiene también una
distribución normal con
σ
σ b1 
μ b1  β 1 y
n  
n
 xi
2

x.
2
i - .
n
ERROR ESTANDAR ESTIMADO DE b1

El error estándar estimado de la pendiente b1 se denota y obtiene así

σ̂ Y
σ̂ b1 
n  
n
 xi
2 donde σ̂ Y es el estimador de 

x.
2
i - .

n
113

3.5.2 PRUEBA DE SIGNIFICACION SOBRE 1

Recordemos que la función de regresión poblacional estaba dada por μ Y | X  β 0  β1 X


Si suponemos β 1  0 en la expresión anterior nos queda que
μ Y|X  β 0
Es decir no habría relación entre X, Y
Por tanto para que haya relación entre X, Y debemos suponer que β 1  0

El procedimiento de la prueba será el siguiente:

1. FORMULACION DE LAS HIPOTESIS.

Podemos ver la verificación del valor que toma la pendiente  1 como la acción y la diferencia de 1
con respecto a cero como el efecto.

Por tanto podemos escribir las hipótesis así

H 0 : β1  0 No hay relación entre X , Y


H1 : β 1  0 Hay relación entre X , Y

donde H 0 : β 1  0 esta suponiendo que no hay diferencia de 1 con respecto a cero, mientras que
la hipótesis alterna H1 : β1  0 supone que hay diferencia de 1 con respecto a cero.

Observe que la prueba es bilateral porque nos interesan tanto las diferencias de  1 hacia la izquierda
de cero como hacia la derecha de cero.

2. ELEGIR UN NIVEL DE SIGNIFICACION.


El error I consiste en decir que hay relación entre X , Y cuando en realidad no hay.

Controlaremos el error I suponiendo que P (error I )  

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.

Como las hipótesis son suposiciones acerca de 1 el estadístico de prueba será su estimador b1 pero
estandarizado, esto es,
b1 - 0
σ̂ b
1

b1
puede demostrarse que sigue una distribución t de Student con n – 2 grados de libertad.
σ̂ b
1
114

Por tanto el estadístico de prueba será

b1 Pendiente estimada σ̂ Y
t   donde σ̂ b 
σ̂ b El error estándar de b1 1 2
n 
 xi 
1

-  
n .
 xi
2
. n

La regla de decisión será

Rechazo H 0 : β 1  0 a un nivel de significación  si t  - t /2 o t  t /2


En caso contrario no podemos rechazar H 0 : β 1  0 , es decir, “aceptamos” H 0 : β 1  0

Una ilustración gráfica de la regla se muestra abajo.

α α
2 2

- t / 2 t
0 t /2

R NR R

Figura 3.12

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.
Con la información muestral calculemos primero b1 y σ̂ b1 para obtener el valor de t

5. SELECCIONAR UNA ALTERNATIVA

Si t cae en la región de rechazo entonces diremos que rechazamos H 0 : β 1  0 a un nivel  ,


esto es, que aceptamos H1 : β1  0 . Luego hay relación lineal entre X , Y.

Si t cae en la región de no rechazo entonces diremos que no hay suficiente evidencia para
rechazar H 0 : β 1  0 , esto es, aceptamos H 0 : β 1  0 . Luego no hay relación lineal entre X , Y.
115

EJEMPLO 3.5.
Para el ejemplo 3.1 pruebe si hay una relación lineal significativa entre el número de horas de
operación del proceso y el costo de los materiales a un nivel de significación del 5%.

1. FORMULACION DE LAS HIPOTESIS.


Las hipótesis se escribirán así

H 0 : β1  0 No hay relación entre X , Y


H1 : β 1  0 Hay relación entre X , Y

donde H 0 : β 1  0 está suponiendo que no hay diferencia de  1 con respecto a cero mientras que
la hipótesis alterna H1 : β1  0 supone que hay diferencia de 1 con respecto a cero.

Observe que la prueba es bilateral porque nos interesan tanto las diferencias de  1 hacia la izquierda
de cero como hacia la derecha de cero.

2. ELEGIR UN NIVEL DE SIGNIFICACION.


El error I consiste en decir que hay relación entre el número de horas de operación del proceso y el
costo de materiales cuando en realidad no hay.

Controlaremos el error I suponiendo que P (error I )  0.05. Luego hemos elegido un nivel de
significación  = 0.05.

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.

El estadístico de prueba será


b σ̂ Y
t  1 donde σ̂ b1 
σ̂ b 2
n 
 xi 
1

-  
n .
 xi
2
. n
y la regla de decisión:

Rechazo H 0 : β 1  0 a un nivel  = 0.05 si t  - t /2  - 2.306 o t  t /2  2.306


En caso contrario no podemos rechazar H 0 : β 1  0 , esto es, "aceptamos" H 0 : β 1  0

Los valores críticos - t  / 2 y t  / 2 se determinaron con la tabla de la distribución t de Student así


α
α  0.05   0.025 y n - 2  10 - 2  8 g.l. Luego t/2  2.306 y - t /2  - 2.306
2
116

Una ilustración gráfica de esta regla se presenta debajo.

α α
 0.025  0.025
2 2

t
- 2.306 0 2.306

R NR R

Figura 3.13

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.

Con la información muestral calculemos primero b1 y σ̂ b


1

x
2
Sabemos del ejemplo 3.1 que b1 = 0.0692 , i  320 ,  x i  11800 .

Además sabemos del ejemplo 3.2 que σ̂ Y  0.3403

Por tanto
σ̂ Y 0.3403
σ̂ b1  
 320 2
2
 n x 
n 2 . i 11800 -
 xi - 10
. n
0.3403 0.3403 0.3403
    0.0086
11800 - 10240 1560 39.4968

b1 0.0692
Luego t    8.0465
σ̂ b1 0.0086

5. SELECCIONAR UNA ALTERNATIVA.


Como t cae en la región de rechazo diremos que hay suficiente evidencia para
rechazar H 0 : β 1  0 a un nivel  = 0.05, lo cual implica que aceptamos H1 : β1  0 .
Luego hay relación entre el número de horas de operación y el costo de materiales del proceso.
117

3.5.3 ESTIMADOR POR INTERVALO DE CONFIANZA PARA μ Y


h
Si x h es un valor dentro del alcance modelo y μ Yh es la media de la distribución de Y cuando
X = x h entonces el valor ajustado de Y para el nivel x h que denotamos así Ŷh  b 0  b1 x h es un
estimador puntual e insesgado de μ Yh
Puede demostrarse que Ŷh es una combinación lineal de las observaciones Yi
Como las observaciones Yi siguen una distribución normal, Ŷh sigue también una distribución
normal con
1 xh - x 2
σ Ŷ  σ Y 
μ Ŷh  μ Yh y 2
n  n x 
h

n 2 . i
 xi -
. n

El error estándar estimado del valor ajustado Ŷh se denota y obtiene así:

1 xh - x 2
σ̂ Ŷ  σ̂ Y  2 donde σ̂ Y es el estimador de σ
n  n x 
h

n 2 . i
 xi -
. n
Ŷh - μ Yh
Como sigue una distribución t de Student con n – 2 grados de libertad
σ̂ Ŷ
h

puede demostrarse que un estimador por intervalo de confianza del ( 1 -  ) 100% para μ Yh esta
dado por
Ŷh  t/2 σ̂ Ŷ h

Y Línea de regresión poblacional

μ Yh

xh X

Fig. 3.14
118

Observe el efecto del término (x h  x) 2 en σ̂


Ŷh

A medida que x h se aleja de x mayor es σ̂ y a medida que x h se acerque a x menor será σ̂ .


Ŷ h
Ŷ h

La mayor precisión de la estimación se obtiene cuando x h  x porque σ̂ toma su valor mínimo.


Ŷh

EJEMPLO 3.6

Para el ejemplo 3.1 construya un intervalo de confianza del 99% para el costo promedio de
materiales utilizados cuando el proceso opere 40 horas.

Para x h  40 horas , Ŷh = 2.8856 + 0.0692(40) = 2.8856 + 2.768 = 5.6536 ( en centenas de $ ),


n

x i
320
Sabemos que σ̂Y  0.3403 y que x    32
n 10
Por tanto

1 xh - x 2
σ̂ Ŷ  σ̂ Y  2
n  n x 
h

n 2 . i
 xi -
. n

2
1 (40 - 32) 1 64
 ( 0.3403 )  2
 ( 0.3403 )   ( 0.3403 ) 0.1410
10 (320) 10 1560
11800 -
10
 0.3403 (0.3755 )  0.1278

α
Para α  0.01   0.005 y n – 2 = 10 - 2 = 8 g.l. tenemos que t /2  3.355
2

Sustituyendo estos valores en la fórmula del intervalo de confianza.

5.6536  3.355 (0.1278)


5.6536  0.4288

Luego podemos decir con un 99% de confianza de que

5.2248  μ Yh  6.0824 (en centenas de $)


119

EJERCICIOS PROPUESTO DEL TEMA 3: ANALISIS DE REGRESION LINEAL.

1. El Vicepresidente de investigación y desarrollo de una empresa de productos químicos piensa


que las utilidades anuales (Y) dependen de la cantidad que invierta (X) en investigación y
desarrollo. Suponga que se dispone de los siguientes datos históricos en millones de C$

Cantidad Utilidad
Año Invertida anual
2009 2 20
2010 3 25
2011 4 30
2012 5 34
2013 11 40
2014 5 31

a) Dibuje un diagrama de dispersión y comente las impresiones visuales que le ofrece la figura.
b) Obtenga la función de regresión muestral de Y sobre X e interprete la pendiente.
c) Prediga la utilidad anual para 2015 suponiendo una inversión de 8 millones de C$ en
investigación y desarrollo.
d) Trace sobre el diagrama del inciso a) la línea de ajuste.

2. El ministerio de Agricultura hizo un estudio para determinar la relación que existe entre la
producción de café (Y) y la cantidad de fertilizante utilizado (X) en una región determinada. Se
tomó una muestra aleatoria de 6 haciendas y se recopiló la siguiente información:

(en qq) (miles de qq)


Cantidad Producción
Hac. fertilizante de Café
1 34 15
2 40 18
3 48 19
4 49 15
5 51 20
6 51 22

a) Construya un diagrama de dispersión.


b) Obtenga la función de regresión muestral de Y sobre X e interprete los coeficientes de regresión
estimados.
c) Estime la producción promedio de café cuando se utilicen 45 qq de fertilizante.
d) Trace sobre el diagrama del a) la línea de regresión estimada.
120

3. La demanda de un artículo en toneladas (Y) para diferentes precios en córdobas (X) se presenta
en la tabla de abajo.

X Y
20.5 4.5
21.0 4.0
21.0 4.7
21.5 3.5
21.5 3.0
21.5 4.0
22.0 3.5
22.0 2.5
22.5 2.0
23.0 1.8

a) Construya un diagrama de dispersión y comente las impresiones visuales que le ofrece la figura.
b) Determine la función de regresión muestral de Y sobre X e interprete la pendiente estimada.
c) Obtener la demanda esperada si el precio del bien fuese de C$ 22.40
d) Trace sobre el diagrama de dispersión del inciso a) la línea de los mínimos cuadrados.

4. Para probar en cierto tipo de fábricas el efecto de un filtro purificador que absorbe parte de la
emisión de gases residuales, se han medido los niveles de CO2 (dióxido de carbono) emitidos por 7
fábricas donde éste se ha instalado.
Hemos supuesto que X representa el número de días después de la instalación y Y representa la
emisión de CO2 en mg/dl para presentar los siguientes resultados.

X Y
5 5.2
10 4.8
15 4.6
20 4.5
25 4.3
30 4.0
35 3.8

a) Construya un diagrama de dispersión.


b) Determine la ecuación de regresión lineal que mejor exprese la variación de la contaminación
en función de los días transcurridos después de la instalación del filtro. Interprete la pendiente
estimada
c) Si una fabrica tiene 30 días de tener instalado el filtro, ¿qué emisión de CO 2 espera tener?
d) Trace sobre el diagrama de dispersión del inciso a) la línea de ajuste.
e) ¿En qué porcentaje la variación de la emisión de CO2 es explicada por el número de días
transcurridos desde la instalación del filtro?
121

5. El Banco Central quiere estimar la relación entre la cantidad de dinero circulante (X) y el
ingreso nacional (Y).
Suponga que dispone de los siguientes datos históricos en millones de dólares.

Cantidad Ingreso
Año Circulante Nacional
2009 3.3 7.2
2010 4.0 7.3
2011 4.2 8.4
2012 4.6 9.0
2013 4.8 9.7
2014 5.0 10.0

a) Construya un diagrama de dispersión.


b) Obtenga la función de regresión muestral de Y sobre X e interprete la pendiente estimada.
c) Prediga para 2015 el Ingreso nacional correspondiente a un circulante de 5.6 millones de
dólares.
d) Trace sobre el diagrama de dispersión anterior la línea de ajuste.

6. El gerente de personal de una empresa intuye que quizás haya relación entre el ausentismo en
días (Y) y la edad en años (X) por lo que quiere tomar la edad de un trabajador para desarrollar un
modelo de predicción de días de ausencia durante un año laboral. Se selecionó una muestra aleatoria
de 10 trabajadores con los resultados que se presentan a continuación:

X Y
27 15
61 06
37 10
23 18
46 09
58 07
29 14
36 11
64 05
40 08

a) Construya un diagrama de dispersión y comente las impresiones visuales que le ofrece la


figura..
b) Obtenga la función de regresión muestral de Y sobre X e interprete la pendiente
c) ¿Cuántos días espero que un trabajador de 45 años se ausente durante el año?
d) Trace sobre el diagrama de dispersión anterior la línea de mínimos cuadrados.
122

7. Supóngase que una cadena de supermercados financia un estudio sobre los gastos anuales en
comestibles de familias de 4 miembros. La investigación se limitó a familias con ingresos netos
(después de los impuestos) que van de C$20000 a C$60000. Se obtuvo la siguiente ecuación de
regresión lineal:

Ŷ = - 200 + 0.10X

En la cual Y representa los gastos anuales estimados en comestibles y X representa los ingresos
netos anuales
Supóngase que la ecuación proporciona un ajuste razonablemente bueno, y que se obtuvieron
los datos por medio de métodos de muestreo aleatorio,

a) Estime los gastos de una familia de 4 miembros, con un ingreso anual de C$25000.
b) Uno de los vicepresidentes de la compañía se preocupa por el hecho de que la ecuación
aparentemente indica que una familia que tiene un ingreso de C$2000 no gastaría nada en alimentos.
¿ Cuál sería su respuesta?
c) Explique brevemente por qué no se podría usar la ecuación anterior en cada uno de los
siguientes casos:

c.1 Estimación de los gastos en comestibles de familias de cinco miembros.


c.2 Estimación de los gastos en comestibles de familias que tengan ingresos netos de más de 60000
córdobas anuales.

8. Un asegurador de propiedades realizó un estudio para investigar el pago anual (Y) por concepto
de demandas por daños a propiedades (en miles de dólares) en la región norte de Nicaragua
como una función del número X de huracanes que azotan esa región durante el año. Un modelo
de regresión lineal, que se ajusta a los datos de un período de 10 años, produjo la siguiente
ecuación:

Ŷ = 22.4 + 15.8 X

con x i  15 ,  x i2 = 27.45 , σ̂ Y = 41.2


2

a) ¿Proporcionan los datos evidencia suficiente para indicar que el número X de huracanes aportan
información para predecir la cantidad anual pagada por el asegurador por concepto de daños a
propiedades a un nivel de significación del 5%?
b) Encuentre un intervalo de confianza del 90% para el pago anual promedio si un huracán azota la
región en un año dado.
c) Obtenga un intervalo de confianza del 90% para el pago anual promedio si dos huracanes
azotan la región en un año dado.
123

9. Un estudio de mercado trata de cuantificar el efecto que sobre la demanda de un artículo tiene
una campaña publicitaria en televisión. Para ello se miden las cantidades demandadas, en miles de
unidades, antes de la campaña (X) y la cantidades demandadas, en miles de unidades, después de la
campaña (Y). Después de 3 semanas de emisión del anuncio en 10 regiones se obtuvo la siguiente
relación lineal estimada entre X, Y.

Ŷ = 65.5812 + 0.3547X

con un error estándar de su pendiente de 0.1826

¿Existe relación lineal significativa entre X, Y a un nivel de significación  = 0.02 ?

10. Un investigador esta interesado en conocer la relación entre los años de experiencia en ventas
(X) y el volumen de ventas en millones de córdobas (Y) de los vendedores de cierta compañía.

Los datos muestrales resumidos para tal fin, se dan a continuación.

n = 5 , x i = 15 ,  x i2 = 55 ,  Yi = 23 ,

xY i i = 84.6 , Y i
2
= 130.98

Si con la información anterior se obtuvo la siguiente relación lineal estimada.

Ŷ = - 0.08 + 1.56 X

y la tabla de análisis de varianza que aparece abajo

Fuente SS G.L MS
Regresión 24.336 1 24.3360
Error 0.844 3 0.2813
25.180 4

i) Interprete la pendiente.
ii) ¿Qué proporción de la variación total del volumen de ventas puede ser explicada por los años de
experiencia?
iii) Estime la varianza de Y alrededor de la línea de regresión.
iv) ¿Existe relación lineal significativa entre los años de experiencia y el volumen de ventas a un
nivel de significación del 2%?
v) Determine un intervalo de confianza del 99% para el volumen esperado de ventas de un
vendedor que tiene 3.5 años de experiencia.
124

11. Un economista desea establecer la relación entre las exportaciones FOB (X) y las
importaciones FOB (Y). De los Indicadores Económicos publicados por el Banco Central de
Nicaragua para los años 2006 – 2014 resume la siguiente información. (no incluye importaciones ni
exportaciones de Zona Franca).

n=9 , x i = 3791.1 ,  Y = 7705.2 ,  x Y =


i i i 3548993.65
x 2
i = 1846729.93 ,  Y = 7072151.74
i
2

donde X representa las Exportaciones FOB (en millones de dólares)


Y representa las Importaciones FOB (en millones de dólares)

a) Suponiendo una relación lineal, use el método de mínimos cuadrados para encontrar los
coeficientes de regresión bo y b1.
b) Interprete el significado del intercepto bo y la pendiente b1.
c) Prediga el valor de las importaciones cuando las exportaciones asciendan a 500 millones de
dólares.
d) Calcule el coeficiente de determinación y el coeficiente de correlación e interprete sus
significados.
e) A un nivel de significación de 0.01 ¿Hay alguna relación lineal significativa entre las
exportaciones y las importaciones para los años mencionados?.

12. Una cadena de tiendas de repostería ha tenido grandes fluctuaciones en sus ingresos durante
los últimos años. Abundantes ofertas y técnicas de publicidad se han utilizado durante este tiempo,
por lo cual es difícil determinar cuáles de esos factores tienen la influencia más profunda en las
ventas. El departamento de mercadotecnia ha estudiado varias relaciones y piensa que los gastos
mensuales destinados a carteles pueden ser significativos.
Se muestreó 7 meses con los siguientes resultados:

x i  167 ,  Y  203
i ,  x Y  5427
i i , x 2
i  4703 , Y i
2
 6527

donde X representa el gasto mensual en carteles (en centenas de C$)


y Y representa el ingreso mensual por ventas (en decenas de miles de C$).

Si con la información anterior se obtuvo la siguiente relación lineal estimada

Ŷ = 9.6185 + 0.8124X

a) Interprete el intercepto y la pendiente.


b) Obtenga la tabla de análisis de varianza.
c) ¿Existe relación lineal significativa entre el ingreso mensual por ventas y los gastos mensuales
destinados a carteles a un nivel de significación del 1%?
d) Encuentre los coeficientes de determinación y correlación. Luego interprételos.
e) Para un mes con un gasto de C$2800 en carteles, desarrolle un intervalo de confianza del 90%
para las ventas mensuales esperadas en ese mes.
125

13. Con los siguientes datos sobre el costo de construcción de residencias unifamiliares en miles
de dólares (Y) y el tamaño del lote en miles de pies cuadrados (X).

n = 12 , x i = 198 , Y = i 625.5 , x Y =i i 11840.1


x 2
i = 4396 , Y i
2
= 34878.58

a) Encontrar la función de regresión muestral de X sobre Y e interprete la pendiente.


b) ¿Cuál debería ser el costo promedio de construcción de casas que se van a construir en un lote de
15000 pies cuadrados?

14. Una investigación del departamento de publicidad de una empresa en la que se buscaba la
relación entre las ventas en unidades (Y) y el número de comerciales televisados (X) dió los
siguientes resultados:

n = 7 , x i = 340 , Y = i 751 , x Y =
i i 41450
x 2
i = 19000 , Y i
2
= 90571

a) Encontrar la función de regresión muestral de Y sobre X e interprete el intercepto y la pendiente.


b) Obtenga la tabla de análisis de la varianza.
c) ¿Existe relación lineal significativa entre el número de comerciales televisados y las ventas a un
nivel de significación del 5%?
d) Calcule el coeficiente de determinación e interprételo.
e) Obtenga un intervalo de confianza del 90% para el numero promedio de unidades vendidas si el
número de comerciales televisados es de 30.

15. Un analista toma una muestra aleatoria de 10 embarques recientemente enviados por camión y
registra la distancia en kilómetros (X) y el tiempo de entrega en días (Y) para determinar si existe
relación entre ellos y obtiene los siguientes resultados:

x i = 7620 , Y = i 28.5 , x Y i i = 26370 , x 2


i = 7104300 , Y
i
2
= 99.75

Si con la información anterior se obtuvo la siguiente relación lineal estimada:

Ŷ = 0.1181 + 0.0036X

a) ¿Existe relación lineal significativa entre X y Y a un nivel del 1%?


b) Obtenga un intervalo de confianza del tiempo promedio de entrega para una distancia de 350
km y una confiabilidad del 90%.
f) Encuentre el coeficiente de determinación e interprételo.
126

16. El gerente de mercadotecnia de una cadena de supermercados quiere determinar el efecto del
espacio de las estanterías en pies (X) sobre la venta semanal de cosméticos en cientos de córdobas
(Y). Seleccionó una muestra aleatoria de 12 tiendas de igual tamaño obteniendo los resultados
siguientes:

x i = 150 , Y =i 28.5 , x Y = i i 384 , x 2


i = 2250 , Yi
2
= 70.79

Encontró la ecuación de regresión: Ŷ = 1.45 + 0.074X

y construyó la tabla de análisis de varianza:

Fuente SS G.L MS
Regresión 2.0535 1 2.0535
Error 1.0490 10 0.1049
3.1025 11

a) Interprete la pendiente.
b) Pruebe al nivel de significación de 0.05 si los resultados de la muestra permiten llegar a la
conclusión de que hay una relación lineal significativa entre el espacio en las estanterías y la venta
semanal de cosméticos.
c) Calcule los coeficientes de determinación y de correlación e interprételos.
d) Obtenga un intervalo de confianza del 90% de las ventas semanales promedio de una tienda con
8.6 pies de espacio en estantes destinados a cosméticos.

17. Los economistas a menudo quieren estimar las funciones consumo. Esto lo hacen obteniendo
la regresión del consumo Y sobre el ingreso X (en esta regresión, los economistas dan a la
pendiente el nombre de propension marginal al consumo). En una muestra de 15 familias, se
calculó una pendiente de 0.9 y un error estándar de la pendiente de regresión de 0.25.
A un nivel de significación  = 0.05 ¿existe alguna relación lineal significativa entre el consumo y
el ingreso?

18. Con el propósito de determinar el efecto del precio del galón de diesel en el costo de la
canasta básica de 53 productos de la ciudad de Managua se extrajeron los datos que se presentan a
continuación:

Año 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013

X 1.14 5.67 5.88 7.02 7.75 8.4 10.38 12.31 13.94 19.81
Y 517.27 718.01 730.02 887.00 970.61 1078.89 1225.59 1402.82 1552.64 1624.11

Fuente: Banco Central de Nicaragua. Gerencia de Estudios Económicos.

X representa el precio promedio del diesel (en córdobas por galón).


Y representa el costo de la canasta básica (en córdobas)
127

Al utilizar el paquete estadístico denominado SPSS, se obtuvo los siguientes resultados:

Múltiple R .95772
R Square .91723
Adjusted R Square .90689
Standard Error 114.32865

Analysis of Variance

DF Sum of Squares Mean Square


Regression 1 1158823.72109 1158823.72109
Residual 8 104568.31455 13071.03932

F= 88.65582 Signif F = .0000

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

X 69.193900 7.348762 .957722 9.416 .0000


(Constant) 432.036306 76.862781 5.621 .0005

Los resultados obtenidos que se relacionan con nuestro curso son los siguientes:

Coeficiente de correlación, r = 0.95772


Coeficiente de determinación, r2 = 0.91723
SSR = 1158823.72109; SSE = 104568.31455; SSE/(n-2) = 13071.03932
b0 = 432.036306; b1 = 69.193900; Error estándar del estimador b1 = 7.348762
tn-2 = 9.416.

Ahora conteste:
a) Escriba la ecuación de la línea de mínimos cuadrados que nos permitirá predecir el costo
promedio de la canasta básica de la ciudad de Managua en términos del precio del diesel.
b) Interprete b1 .
c) Suponiendo que para el año 2014 el precio del diesel será de C$ 21.50, estime el costo
promedio de la canasta básica para ese año en la ciudad de Managua
d) Interprete el coeficiente de determinación y el coeficiente de correlación.
e) ¿Existe relación lineal significativa entre el precio del diesel y el costo de la canasta básica a un
nivel de significación del 5%?.
128

TEMA 4: SERIES DE TIEMPO

OBJETIVOS.

1. Saber que es una serie de tiempo y que utilidad tiene su estudio.


2. Explicar la naturaleza de cada componente de una serie de tiempo.
3. Determinar la ecuación de tendencia lineal utilizando el método de los mínimos cuadrados.
4. Saber convertir una ecuación de tendencia anual a una de tendencia trimestral.
5. Hacer predicciones de una variable en base a lo que ha ocurrido en el pasado.

4.1. INTRODUCCION

Toda institución (la familia, la escuela, la empresa, el gobierno) tiene que hacer planes para el futuro
si ha de sobrevivir y progresar.

La familia: Sus planes tienen que ver con el ingreso, el consumo.

La Escuela: Sus planes tienen que ver con su desarrollo futuro para ofrecer servicios educativos
adecuados a la siempre creciente población.

La empresa: Sus planes tienen que ver con la demanda de sus productos, la producción, la
financiación, el personal, las ventas, las inversiones, el mercadeo.

El gobierno: Sus planes tienen que ver con los ingresos y gastos futuros para influir de esta manera
en la actividad comercial agregada de modo que el progreso económico del país no se vea demorado
por la inflación o la deflación.

La técnica más importante para hacer inferencias sobre el futuro con base en lo ocurrido en el
pasado es el análisis de las series de tiempo que se puede definir así:
Un conjunto de observaciones de una variable que se refieren a diferentes períodos sucesivos de
tiempo usualmente de la misma magnitud (años, trimestres, meses, etc).

Ejemplos de series de tiempo:

 Los ingresos totales anuales por ventas de una firma determinada.


 Los informes trimestrales del Producto Nacional Bruto (PNB).
 La publicación mensual del Indice de Precios al Consumidor.
 Los cambios semanales en porcentajes de ventas de un supermercado.

La creencia de que el comportamiento pasado de una serie puede continuarse en el futuro constituye
una base racional para la predicción estadística.

Los movimientos de las series de tiempo son causados por una variedad de factores, algunos
económicos, algunos naturales y otros institucionales. Más aún, algunos de los factores tienden a
afectar los movimientos a largo plazo de las series, mientras que otros tienden a producir
fluctuaciones a corto plazo.
129

4.2. COMPONENTES DE UNA SERIE DE TIEMPO

Una serie la consideraremos constituida por los siguientes componentes que son las que explican los
cambios observados en un período de tiempo.

i) La tendencia.
ii) Las variaciones estacionales.
iii) Las variaciones cíclicas.
iv) Las variaciones irregulares.

Para obtener una impresión visual de los movimientos de una serie de tiempo, se contruye sobre un
plano cartesiano una gráfica en la cual la variable de interés Y estará en el eje vertical y los períodos
sucesivos de tiempo en el eje horizontal.

Ejemplo. Los siguientes datos representan producciones trimestrales de cierto artículo en miles de
unidades de un país hipotético durante 2010 - 2014.

Y 11
10 tendencia lineal
9
8
7
6
5 datos originales
4 variaciones
3 variaciones cíclicas
estacionales
2
1
0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
3
1999 2000 2001 2002 2003 X

Figura 4.1

LA TENDENCIA

Es el movimiento suave y regular de una serie que refleja un crecimiento o una declinación en
un período de tiempo muy prolongado (al menos de 15 años) (debe incluir 2 ó más ciclos).

Observe que los movimientos de la serie de tiempo de la figura 4.1 tienden en promedio a
desplazarse continuamente hacia arriba a través del tiempo. Se representa mediante una recta a
través de la curva irregular.

La tendencia mide el cambio de la variable de interés por unidad de tiempo.


130

LAS VARIACIONES ESTACIONALES

Si estudiamos la serie de la figura 4.1 de año en año vemos que en el primer trimestre comienza
siendo baja, luego crece, después alcanza la mayor altura alrededor del tercer trimestre de cada año
y finalmente desciende nuevamente.
Las variaciones estacionales pueden definirse como los movimientos periódicos que vuelven
con cierta regularidad dentro de un período especificado (un año)

Factores que influyen en estas variaciones: las estaciones del año, condiciones climáticas,
costumbres sociales, festividades religiosas.

En condiciones climáticas y estaciones del año tenemos: la producción agrícola, los trabajos de
construcción, la explotación de bosques y aserraderos, el consumo energía eléctrica, etc.
En costumbres Sociales y festividades religiosas tenemos: la demanda de ciertos artículos para el
día de la madre, del padre, de los enamorados, por navidad, por semana santa, etc.

LAS VARIACIONES CICLICAS

Observando la curva en forma de zig-zag sobre la serie irregular original encontramos fluctuaciones
pronunciadas que se desplazan hacia arriba y hacia abajo.

Las variaciones cíclicas pueden definirse como los movimientos recurrentes ascendentes y
descendentes con respecto a la tendencia que tienen por lo general una duración de 2 ó más
años.

Cada ciclo puede diferir de todo el resto en duración, amplitud y causas. Ello explica la existencia
de tantas teorías de los ciclos como casi números de ciclos registrados.

En general son de naturaleza económica y reflejan el estado de las actividades comerciales.


A continuación se ilustra gráficamente un ciclo.

Prosperidad Recesión
Pico
Pico

Recuperación depresión Línea de tendencia

bache bache

Figura 4.2

Un ciclo se mide de bache a bache o de pico a pico.


131

LAS VARIACIONES IRREGULARES

Las pequeñas irregularidades en forma de dientes de serrucho en la serie original es lo que se llama
variaciones irregulares.

Las variaciones irregulares pueden definirse como movimientos que son por lo general de
corta duración y que son causados por fuerzas aleatorias o por fuerzas esporádicas tales como:
huelgas, terremotos, inundaciones, cortes de energía, guerras, sequías y otras calamidades
naturales.

Observaciones: A veces las series contiene todas las componentes anteriores, otras veces contienen
solamente algunas de ellos. A veces hay tanto predominio de una componente que se le puede
reconocer a partir de los datos originales como:
La producción de fibras sintéticas y la producción de alimentos congelados que tienen una fuerte
tendencia ascendente.
Los bienes duraderos que sufren grandes cambios cíclicos.
Las ventas de tiendas que son predominantemente estacionales.

4.3. ANALISIS DE LAS SERIES DE TIEMPO CON DATOS ANUALES

La componente que se estudia con más frecuencia en estas series de tiempo es la tendencia.
Estudiaremos la tendencia como una ayuda para hacer pronósticos a mediano y largo plazo.

4.3.1 CALCULO DE LA TENDENCIA LINEAL.

Consiste en obtener la ecuación de una línea recta que me indique el comportamiento de la variable
de interés a través de los años.

Utilizaremos los métodos que exponemos a continuación tomando la mitad de cada año (1 de Julio)
como punto de representación de los datos de ese año.

METODO DE LOS MINIMOS CUADRADOS PARA UN NUMERO PAR DE AÑOS

Para una serie de datos con un número par de años el método dice que hagamos lo siguiente:

i) Codificación del tiempo.

Le asignamos al primer año de la serie el código 0, convirtiendo de esta manera el primer año de la
serie en el año origen.

Después, a cada año sucesivo se le asignan los códigos 1, 2, 3, 4, ..., de modo que el último año en la
serie, el n-ésimo año, tenga el código n-1.
132

ii) Aplicar las mismas fórmulas que utilizamos para estimar la función de regresión poblacional.

n n

n x Y i i

 x Yi i - . .

n
b1  .
2 Representa el cambio anual estimado del valor anual de Y.
 n 
  xi 
x i2 -  . 
n

 . n

n n

 Yi - b1 x i
b0  . .
Representa el valor anual estimado de Y para X  0.
n

iii) Obtener la ecuación de tendencia lineal

Sustituir bo y b1 en la expresión:

Ŷ = bo + b1X
Origen: 1 de julio del año X = 0
X en años

EJEMPLO 1

Las ventas anuales de una empresa desde el año 2009 al 2014 se presentan a continuación en
decenas de miles de C$

Yi
AÑO xi Ventas xi Yi x i2
2009 0 78 0 0
2010 1 70 70 1
2011 2 65 130 4
2012 3 46 138 9
2013 4 46 184 16
2014 5 35 175 25
15 340 697 55
133

a) Construya el gráfico de la serie

Y 90
80
70
60
50
40
30
20
10
0
1996 1997 1998 1999 2000 2001 2002 2003
0 1 2 3 4 5
X

Figura 4.3

b) Encuentre la ecuación de tendencia lineal e interprete bo y b1

(15) (340)
697 -
6 697 - 850 - 153
b1     - 8.7429
( 15) 2 55 - 37.5 17.5
55 -
6

340  8.7429 (15) 340  131.1435 471.1435


bo     78.5239
6 6 6

La ecuación de tendencia lineal es


Ŷ = 78.5239 - 8.7429 X
Origen: 1- Jul - 09
X en años

La disminución anual estimada de las ventas anuales es 8.7429 en decenas de miles de C$.
La venta anual estimada para el año 09 es 78.5239 en decenas de miles de C$.

c) Trace la línea de tendencia sobre el gráfico de la serie


Determinaremos los pares ordenados de dos puntos cualesquiera suficientemente alejados, digamos
Para x = 0, Ŷ = 78.5239 en decenas de miles de C$
Para x = 5, Ŷ = 78.5239 - 8.7429 (5) = 78.5239 - 43.7145 = 34.8094 en dec. miles C$
En la figura 4.3 se han unido estos puntos con una recta
d) Prediga las ventas anuales para el año 2015
Para x = 6, Ŷ = 78.5239 - 8.7429 (6) = 78.5239 - 52.4574 = 26.0665 en dec. de miles de C$
134

METODO DE LOS MINIMOS CUADRADOS PARA UN NUMERO IMPAR DE AÑOS

Para una serie de tiempo con un número impar de años el método dice que hagamos lo siguiente:

i) Codificación del tiempo.

El esquema más eficiente de codificación que se puede seleccionar para facilitar los cálculos es
elegir el año central de la sucesión como origen y asignarle el código x = 0. Después, a todos los
años posteriores se les asignan códigos crecientes de enteros 1, 2, 3, 4, ... , mientras que a todos los
años anteriores se les asignan códigos decrecientes de enteros -1, -2, -3, -4, ... , de modo que
n
siempre ocurrirá que  xi 
.
0

ii) Aplicar las mismas fórmulas que utilizamos para estimar la función de regresión poblacional.

El esfuerzo de los cálculos se reduce haciendo  xi 


.
0 en dichas fórmulas, con lo cual quedan

así:
n

x i Yi
b1  .
n Representa el cambio anual estimado del valor anual de Y
x
.
2
i

Y i
b0  .
Representa el valor anual estimado de Y para X  0.
n

iii) Obtener la ecuación de tendencia lineal

Sustituir los valores bo y b1 en la expresión

Ŷ = bo + b1 X
Origen: 1 de Julio del año X = 0
X en años
135

EJEMPLO 2

Las ventas anuales de una empresa desde el año 2010 al 2014 se presentan a continuación en
decenas de miles de C$
Yi
AÑO xi Ventas xi Yi x i2
2010 -2 32 -64 4
2011 -1 46 -46 1
2012 0 50 0 0
2013 1 66 66 1
2014 2 68 136 4
0 262 92 10

a) Haga el gráfico de la serie

Y 80
70
60
50
40
30
20
10
0
1998 1999 2000 2001 2002 2003 2004
-2 -1 0 1 2
X

Figura 4.4

b) Encuentre la ecuación de tendencia lineal e interprete bo y b1

92
b1   9.2 El incremento anual estimado de las ventas anuales es 9.2 en dec miles C$
10

262
bo   52.4 La venta anual estimada para el año 2012 es 52.4 en dec miles C$
5
La ecuación de tendencia lineal es

Ŷ = 52.4 + 9.2 X
Origen: 1 – Jul - 2012
X en años
136

c) Trace la línea de tendencia sobre el gráfico de la serie


Para x = -2, Ŷ = 52.4 + 9.2 (-2) = 34
Para x = 2, Ŷ = 52.4 + 9.2 (2) = 70.8

d) Prediga las ventas para el año 2015


Para x = 3, Ŷ = 52.4 + 9.2 (3) = 80 en dec. miles C$

4.4 ANALISIS DE LAS SERIES DE TIEMPO CON DATOS TRIMESTRALES

Las observaciones de una variable de interés Y de una serie de tiempo pueden corresponder a
períodos más pequeños que los de un año tales como: trimestres, meses, semanas, días, etc.
Analicemos ahora las series de tiempo con datos trimestrales.

4.4.1 CALCULO DE LA TENDENCIA


Cuando se trabaja con una serie de tiempo con datos trimestrales y queremos obtener su tendencia
lineal, se ahorrará mucho esfuerzo sin demasiada pérdida de exactitud si se forman los totales
anuales (la suma de los valores trimestrales de cada año) y se ajusta una línea de tendencia de
mínimos cuadrados a los datos anuales.

La expresión resultante, en términos anuales, se puede convertir con facilidad a términos


trimestrales al dividir el intercepto entre 4 y la pendiente entre 16. Luego se hace el desplazamiento
del origen de la serie desde el 1 de Julio hasta el centro del siguiente trimestre formado por Julio,
Agosto y Septiembre (15 de Agosto), sumando la mitad del valor de la pendiente en la ecuación de
tendencia trimestral anterior.

La idea anterior queda reflejada así:

Ecuación de tendencia lineal anual Ecuación de tendencia lineal trimestral


b b
Ŷ  0  1 ( X  0.5 )
Ŷ  b 0  b1X 4 16
Origen : 1 de Julio del año X  0  Origen :15 de Agosto del año X  0
X en años X en trimest res

b1
donde representa el cambio trimestral estimado del valor trimestral de Y
16
b b
y 0  1 (0.5) representa el valor trimestral estimado de Y para X = 0 (el trimestre origen)
4 16
137

EJEMPLO 3

Los datos que aparecen a continuación son las importaciones trimestrales de materiales de
construcción en miles de dólares durante el período 2012 - 2014

Trimestre
AÑO 1 2 3 4
2012 90 104 113 100
2013 83 99 126 127
2014 125 170 165 144

a) Construir un gráfico de las importaciones trimestrales.

Y 180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
1 2 3 4 1 2 3 4 1 2 3 4

2000 2001 2002 X

Figura 4.5

b) Determinar la ecuación de tendencia lineal de las importaciones trimestrales e interprete el


intercepto y la pendiente estimada.
Yi
AÑO xi Imp xi Yi x i2
2012 -1 407 -407 1
2013 0 435 0 0
2014 1 604 604 1
0 1446 197 2

n n

 x i Yi
197 Y i
1446
b1  .
n
  98.5 en miles de $, b0  .
  482 en miles de $
x 2 2 n 3
i
.
138

La ecuación de tendencia lineal de los totales anuales es

Ŷ = 482 + 98.5 X
Origen: 1 – Jul - 2013
X en años

Para convertir la ecuación de tendencia anual anterior a una de tendencia trimestral cuyo origen sea
el 15 de Agosto de 2013 procedemos así.

482 98.5
Ŷ   ( X  0.5 )
4 16
Ŷ = 120.5 + 6.1562 ( X + 0.5 ) = 120.5 + 3.0781 + 6.1562 X

Ŷ = 123.5781 + 6.1562 X
Origen: 15 – Ago - 2013
X en trimestres

Interpretación de la pendiente y el intercepto:

El aumento trimestral estimado de las importaciones trimestrales es 6.1562 en miles de dólares.

La importación trimestral estimada para el tercer trimestre del año 2013 es 123.5781 en miles de
dólares.

c) Trace sobre el gráfico anterior la recta de tendencia

Determinaremos los pares ordenados de dos puntos cualesquiera suficientemente alejados, digamos
los correspondientes al primer trimestre del año 2012 y al cuarto trimestre del año 2014.
Como X toma el valor 0 para el tercer trimestre del año 2013 (porque es el trimestre origen) , X
tomará el valor -6 para el primer trimestre del año 2012 y el valor 5 para el cuarto trimestre del año
2014.

Para X = -6, Ŷ = 123.5781 + 6.1562 (-6 ) = 123.5781 - 36.9372 = 86.6409


Para X = 5, Ŷ = 123.5781 + 6.1562 (5 ) = 123.5781 + 30.781 = 154.3591
En la figura 4.5 se han unido estos puntos con una recta

d) Prediga las importaciones trimestrales para el primer trimestre de 2015

Para X = 6, Ŷ = 123.5781 + 6.1562 (6) = 123.5781 + 36.9372 = 160.5153 en miles de dólares


139

EJERCICIOS PROPUESTOS DEL TEMA 4: SERIES DE TIEMPO.

1. Con qué componente de una serie de tiempo asociaría usted cada uno de los siguientes factores:

a) Un aumento en las ventas de televisores en el mes de Diciembre.


b) Una declinación durante dos años en la construcción de viviendas.
c) Una huelga de trabajadores de la industria automotriz
d) Un aumento de las ventas de helados en un trimestre de verano.
e) Un descenso de la mortalidad infantil en el período 2000 – 2014.
f) Una caída súbita en la producción tabacalera debido a una plaga (moho azul).
g) Un aumento de la producción de papas en el período de marzo y abril.
h) Una declinación en las ventas de helados en el mes de Diciembre a causa del frío.
i) Un aumento en el rendimiento de arroz debido al desarrollo de nuevas variedades de este cereal.
j) La repetición sistemática de la crisis en la economía capital.
k) Un aumento del Producto Nacional Bruto (PNB) durante 3 años.

2. Supongamos que se dispone de datos sobre las ventas trimestrales de libros de texto en la librería
de la Universidad durante los últimos 10 años.

a) ¿Cree usted que estos datos acusarían una tendencia definida? Explicar por qué.
b) ¿Cree usted que estos datos trimestrales mostrarían un esquema estacional? ¿Si así fuera,
porqué?
c) ¿Qué factores podrían causar una variación cíclica en las ventas trimestrales?
d) ¿Qué factores tenderían a causar variaciones irregulares en los datos?

3. La producción en Nicaragua de cierto artículo en millones de unidades durante los años 1996-
2002 aparece en la siguiente tabla.

Año Producción
2008 10
2009 9
2010 8
2011 8
2012 5
2013 6
2014 3

a) Haga el gráfico de la serie.


b) Encuentre la ecuación de tendencia lineal e interprete el intercepto y la pendiente.
c) Pronostique la producción para el año 2015.
d) Trace la línea de tendencia sobre el gráfico de la serie.
140

4. Una compañía de productos alimenticios tiene los siguientes datos sobre el número de cajas de
cereal en miles que ha vendido en los últimos 6 años.

Año Producción
2009 21.0
2010 19.4
2011 22.6
2012 28.2
2013 30.4
2014 25.0

a) Construya el gráfico de la serie.


b) Determine la ecuación de tendencia lineal que mejor se ajuste a los datos anteriores e interprete
la pendiente y el intercepto.
c) Prediga la venta del número de cajas de cereal para 2015
d) Trace la línea de tendencia sobre el gráfico del inciso a).

5. El total de ventas anuales de una compañía están dadas en millones de córdobas por la siguiente
tabla.

Año Ventas
2010 21
2011 24
2012 29
2013 29
2014 34

a) Encontrar la ecuación de la recta de tendencia por el método de mínimos cuadrados. Interprete


la pendiente.
b) ¿Cuál sería la venta estimada para 2015?
c) Encontrar la ecuación de la recta de tendencia de las ventas trimestrales de la compañía con
origen en el 15-08-2012

6. Dados los siguientes datos sobre producción de una compañía en millones de unidades.

Año Producción
2009 24
2010 17
2011 20
2012 18
2013 14
2014 15

a) Calcule la ecuación de la recta de tendencia por el método de los mínimos cuadrados.


b) Pronostique la producción para los años 2015 y 2016 ¿Cuál de estos pronósticos sería más
seguro? Argumente su respuesta.
c) Convierta la ecuación calculada en a) a una ecuación de tendencia de producciones trimestrales
con origen en el 15-8-2009.
141

7. Dados los siguientes datos sobre producción de café

Año Producción
2010 80
2011 82
2012 85
2013 84
2014 89

Pronostique la producción trimestral de café para el 2° trimestre de 2015.

8. Dada la siguiente serie relativa a la existencia de ganado ovino y caprino en miles de cabezas en
una Empresa Agropecuaria..

Año Ovino caprino Total


2011 56 24 80
2012 63 20 83
2013 81 17 98
2014 90 15 105

a) Determine la ecuación de tendencia lineal de la existencia total de ganado. Interprete la


pendiente y el intercepto.
b) Determine la ecuación de tendencia lineal de la existencia de ganado caprino. Interprete la
pendiente.
c) Pronostique la existencia de ganado ovino para 2015.

9. Suponga que la siguiente ecuación nos expresa la estimación de tendencia de la producción


anual de azúcar refinada en miles de toneladas métricas.

Ŷ = 677.7 + 1.4 X
Origen: 1 - 7 - 2014
X en años

a) Interprete los elementos que intervienen en esta ecuación dentro del contexto del problema.
b) Pronostique la producción de azúcar para el 2° trimestre de 2015

10. La ecuación de tendencia para las producciones trimestrales de cierto artículo (en miles de
unidades) es:
Ŷ = 12.25 + 0.50 X
Origen:15 - 08 - 2012
X en trimestres

a) Interprete los elementos que intervienen en esta ecuación dentro del contexto del problema.
b) Prediga la producción para el 1er trimestre de 2015.
142

11. Los datos que aparecen a continuación son las ventas trimestrales en millones de una empresa
durante el período 2012-2014.
Trimestres
Año 1 2 3 4
2012 4.9 5.9 6.1 7.6
2013 5.0 6.3 6.6 8.3
2014 5.7 7.0 7.5 9.2

a) Construir un gráfico de las ventas trimestrales.


b) Determinar la ecuación de tendencia lineal de las ventas trimestrales. Trace sobre el gráfico
anterior la recta de tendencia e interprete la pendiente estimada.

12. La siguiente tabla muestra la producción trimestral de mantequilla en millones de libras de un


cierto país hipotético durante los años 2011 - 2014.
Trimestres
Año 1 2 3 4
2011 3.8 4.7 3.3 2.7
2012 3.3 4.4 3.5 2.9
2013 2.5 4.0 3.2 2.6
2014 2.6 3.8 3.4 2.2

a) Construir un gráfico de las producciones trimestrales.


b) Determinar la ecuación de tendencia lineal de las producciones trimestrales. Trace sobre el
gráfico anterior la recta de tendencia.
c) Pronostique las producciones trimestrales para el 3 er trimestre de 2015 utilizando la ecuación de
tendencia.

13. A continuación aparecen datos trimestrales de ventas (en miles de córdobas ) para una pequeña
empresa de materiales de construcción en 3 años recientes.
Trimestres
Año 1 2 3 4

1 50 35 25 40
2 45 35 20 30
3 35 20 15 25

a) Construya un gráfico de las ventas trimestrales y observe si hay un patrón estacional constante.
b) Determinar la ecuación de tendencia lineal de las ventas trimestrales. Trace sobre el gráfico
anterior la recta de tendencia e interprete la pendiente estimada.
143

14. Una compañía constructora ha reunido datos trimestrales sobre número de casas que ha iniciado
durante los últimos cuatro años.
Trimestres
Año 1 2 3 4

2011 7 9 6 4
2012 8 10 7 4
2013 8 11 7 5
2014 9 12 8 6

a) Construir un gráfico del número de casas que ha iniciado trimestralmente.


b) Determinar la ecuación de tendencia lineal del número de casas iniciadas trimestralmente.
Trace sobre el gráfico anterior la recta de tendencia e interprete la pendiente estimada.
d) Pronostique el número de casas que se iniciarán para el 2° trimestre de 2015 utilizando la
ecuación de tendencia.
144

Tabla 1 Tabla de números aleatorios


Columna

Fila 1 2 3 4 5 6 7 8 9 10 11 12 13 14

1 10480 15011 01536 02011 81647 91646 69179 14194 62590 36207 20969 99570 91291 90700
2 22368 46573 25595 85393 30995 89198 27982 53402 93965 34095 52666 19174 39615 99505
3 24130 48360 22527 97265 76393 64809 15179 24830 49340 32081 30680 19655 63348 58629
4 42167 93093 06243 61680 07856 16376 39440 53537 71341 57004 0084 9 74917 97758 16379
5 37570 39975 81837 16656 06121 91782 60468 81305 49684 60672 14110 06927 01263 54613

6 77921 06907 11008 42751 27756 53498 18602 70659 90655 15053 21916 81825 44394 42880
7 99562 72905 56420 69994 98472 31016 71194 18738 44013 48840 63213 21069 10634 12952
8 96301 91977 05463 07972 18876 20922 94595 56869 69014 60045 18425 84903 42508 32307
9 89579 14342 63661 10281 17453 18103 57740 84378 25331 12566 58678 44947 05585 56941
10 85475 36857 53342 53988 53060 59533 38867 62300 08158 17983 16439 11458 18593 64952

11 28918 69578 88231 33276 70997 79936 56865 05859 9010 6 31595 01547 85590 91610 78188
12 63553 40961 48235 03427 49626 69445 18663 72695 52180 20847 12234 90511 33703 90322
13 09429 93969 52636 92737 88974 33488 36320 17617 30015 08272 84115 27156 30613 74952
14 10356 61129 87529 85689 48237 52267 67689 93394 01511 26358 85104 20285 29975 89868
15 07119 97336 71048 08178 77233 13916 47564 81056 97735 85977 29372 74461 28551 90707

16 51085 12765 51821 51259 77452 16308 60756 92144 49442 53900 70960 63990 75601 40719
17 02368 21382 52404 60268 89368 19885 55322 44819 01188 65255 64835 44919 05944 55157
18 01011 54092 33362 94904 31273 04146 18594 29852 71585 85030 51132 01915 92747 64951
19 52162 53916 46369 58586 23216 14513 83149 98736 23495 64350 94738 17752 35156 35749
20 07056 97628 33787 09998 42698 06691 76988 13602 51851 46104 88916 19509 25625 58104

21 48663 91245 85828 14346 09172 30168 90229 04734 59193 22178 30421 61666 99904 32812
22 54164 58492 22421 74103 47070 25306 76468 26384 58151 06646 21524 15227 96909 44592
23 32639 32363 05597 24200 13363 38005 94342 28728 3580 6 06912 17012 64161 18296 22851
24 29334 27001 87637 87308 58731 00256 45834 15398 46557 41135 10367 07684 36188 18510
25 02488 33062 28834 07351 19731 92420 60952 61280 50001 67658 32586 86679 50720 94953

26 81525 72295 04839 96423 24878 82651 66566 14778 76797 14780 13300 87074 79666 95725
27 29676 20591 68086 26432 46901 20849 89768 81536 86645 12659 92259 57102 80428 25280
28 00742 57392 39064 66432 84673 40027 32832 61362 98947 96067 64760 64584 96096 98253
29 05366 04213 25669 26422 44407 44048 37937 63904 45766 66134 75470 66520 34693 90449
30 91921 26418 64117 94305 26766 25940 39972 22209 71500 64568 91402 42416 07844 69618

31 00582 04711 87917 77341 42206 35126 74087 99547 81817 42607 43808 76655 62028 76630
32 00725 69884 62797 56170 86324 88072 76222 36086 84637 93161 76038 65855 77919 88006
33 69011 65795 95876 55293 18988 27354 26575 08625 40801 59920 29841 80150 12777 18501
34 25976 57948 29888 88604 67917 48708 18912 82271 65424 69774 33611 54262 85963 03547
35 09763 83473 73577 12908 30883 18317 28290 35797 05998 41688 34952 37888 38917 88050

36 91567 42595 27958 30134 04024 86385 29880 99730 55536 84855 29080 09250 79656 73211
37 17955 56349 90999 49127 20044 59931 06115 20542 18059 02008 73708 83517 36103 42791
38 46503 18584 18845 49618 02304 51038 20655 58727 28168 15475 56942 53389 20562 87338
39 92157 89634 94824 78171 84610 82834 09922 25417 44137 48413 25555 21246 35509 20468
40 14577 62765 35605 81263 39667 47358 56873 56307 61607 49518 89656 2 0103 77490 18062

41 98427 07523 33362 64270 01638 92477 66969 98420 04880 45585 46565 04102 46880 45709
42 34914 63976 88720 82765 34476 17032 87589 40836 32427 70002 70663 88863 77775 69348
43 70060 28277 39475 46476 23219 53416 94970 25832 69975 94884 19661 72828 00102 66794
44 53976 54914 06990 67245 68350 82948 11398 42878 80287 88267 47363 46634 06541 97809
45 76072 29515 40980 07391 58745 25774 22987 80059 39911 96189 41151 14222 60697 59583

46 90725 52210 93974 29992 65831 38857 50490 83765 55657 14361 31720 57375 56228 41546
47 64364 67412 33339 31926 14883 24413 59744 92351 97473 89286 35931 04110 23726 51900
48 08962 00358 31662 25388 61642 34072 81249 35648 56891 69352 48373 45578 78547 81788
49 95012 68379 93526 70765 10592 04542 76463 54328 02349 17247 28865 14777 62730 92277
50 15664 10493 20492 38391 91132 21999 59516 81652 27195 48223 46751 22923 32261 85653

51 16408 81899 04153 53381 79401 21438 83035 92350 36693 31238 59649 91754 72772 02338
145

Tabla 2 Función de distribución acumulada de Z (Areas a la izquierda de z)


z 0 1 2 3 4 5 6 7 8 9
-3. .0013
-2.9 .0019 .0018 .0017 .0017 .0016 .0016 .0015 .0015 .0014 .0014
-2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
-2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
-2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
-2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
-2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
-2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
-2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
-2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
-2.0 .0227 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
-1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
-1.8 .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0300 .0294
-1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
-1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
-1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559
-1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681
-1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
-1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
-1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
-1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
-.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
-.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1921 .1894 .1867
-.7 .2420 .2389 .2358 .2326 .2297 .2266 .2236 .2206 .2177 .2148
-.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
-.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
-.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
-.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
-.2 .4407 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
-.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
-.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641

.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8079 .8106 .8133
.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9700 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9773 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3. .9987
146

Tabla 3 Distribución t de Student


(Areas acumuladas a la derecha de t)

G.L. 0.10 0.05 0.025 0.01 0.005 0.0005

1 3.078 6.314 12.706 31.821 63.657 636.619


2 1.886 2.920 4.303 6.965 9.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.859

6 1.440 1.943 2.447 3.143 3.707 5.959


7 1.415 1.895 2.365 2.998 3.499 5.405
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587

11 1.363 1.796 2.201 2.718 3.106 4.437


12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.012 4.221
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1.341 1.753 2.131 2.602 2.947 4.073

16 1.337 1.746 2.120 2.583 2.921 4.015


17 1.333 1.740 2.110 2.567 2.898 3.965
18 1.330 1.734 2.101 2.552 2.878 3.922
19 1.328 1.729 2.093 2.539 2.861 3.883
20 1.325 1.725 2.086 2.528 2.845 3.850

21 1.323 1.721 2.080 2.518 2.831 3.819


22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725

26 1.315 1.706 2.056 2.479 2.779 3.707


27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674
29 1.311 1.699 2.045 2.462 2.756 3.659
30 1.310 1.697 2.042 2.457 2.750 3.646

40 1.303 1.684 2.021 2.423 2.704 3.551


60 1.296 1.671 2.000 2.390 2.660 3.460
120 1.289 1.658 1.980 2.358 2.617 3.373
 1.282 1.645 1.960 2.326 2.576 3.291
147

BIBLIOGRAFIA

 Elementos de Muestreo
Richard L. Scheaffer
William Mendenhall
Lyman Ott
Grupo Editorial Iberoamérica, 1986

 Elementos básicos de Estadística Ecónomica y Empresarial


A. M. Montiel Torres
F. Rius Díaz
F. J Barón López
Prentice Hall, España, 1997

 Serie Schaum, Estadística aplicada a la Administración y a la Economía


Leonard J. Kasmier.
Mc Graw – Hill, Mexico, 1988

 Estadística Básica en Administración.


Mark L. Berenson
David M Levine
Mexico, Cuarta edición, Prentice Hall 1992

 Estadística para Administradores


Richard I. Levine
Prentice – Hall Hispanoamericana, S. A.
Mexico, segunda edición, 1988

 Applied Linear Statistical Models


John Neter
William Wasserman
Richard D. Irwin, INC, 1974

 Introduction to Mathematical Statistics


Robert V. Hagg
Allen T. Craig
USA, Fourth Edition, Mcmillan Publishing, 1978

Vous aimerez peut-être aussi