Vous êtes sur la page 1sur 213

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD

ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA


CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
1



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERA
UNIDAD DE CIENCIAS BSICAS





AUTOR

JORGE ELIECER RONDON DURAN

DANIS BRITO ROSADO



100403 INFERENCIA ESTADSTICA



DANIS BRITO ROSADO
(Director Nacional)


LIDA ANGELICA VEGA
Acreditador










BOGOT D.C.
MAYO 2008




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
2






COMITE DIRECTIVO

Jaime Alberto Leal Afanador
Rector



Gloria Herrera
Vicerrectora Acadmica



Roberto Salazar ramos
Vicerrector de Medios y mediaciones Pedaggicos



Maribel Crdoba Guerrero
Secretaria General






Inferencia Estadstica

Primera Versin

Copyright
Universidad Nacional Abierta y a Distancia



ISBN



2008

Unidad de Ciencias Bsicas UNAD




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
3

CAMPOS DE FORMACIN Bsica CRDITOS: 2 TRABAJO INDEPENDIENTE: 72 Horas
TIPO DE CURSO Terico CDIGO:100403 ACOMPAAMIENTO TUTORIAL: 24 Horas


OBJETIVO GENERAL:

Que el estudiante comprenda, aplique y desarrolle la teora y las tcnicas de la
inferencia estadstica en diversos campos de su saber formativo, y que dicha
aplicacin se convierta en una herramienta de uso matemtico para la toma de
decisiones sobre hiptesis cuantitativas de datos, basado en la informacin
extrada de una muestra.


OBJETIVOS ESPECFICOS:

- Que el estudiante identifique las tcnicas y procedimientos que se deben
emplear para que las muestras sean representativas de la poblacin que se
pretende estudiar, de forma que los errores en la determinacin de los
parmetros de la poblacin objeto de estudio sean mnimos.

- Que el estudiante comprenda el comportamiento de una poblacin a partir
del anlisis metdico de una muestra aleatoria de la misma, y que entienda
que la inferencia inductiva de los parmetros estadsticos que estime sobre
dicha muestra, conlleva un error, el cual es posible de ser cuantificado.

- Conocer los criterios tcnicos que hay que tener en cuenta antes de
seleccionar un tamao de muestra.

- Identificar el tipo de muestreo de acuerdo a los objetivos del estudio.

- Diferenciar y analizar las ventajas y desventajas de la estimacin por
intervalos de confianza y las pruebas de hiptesis.

- Determinar la prueba o tcnica apropiada a aplicar en las diferentes pruebas
de hiptesis paramtricas y No paramtricas.

COMPETENCIA GENERAL DE APRENDIZAJE:

Identificar un procedimiento adecuado para seleccionar de una poblacin una
parte de ella, con el fin de obtener resultados confiables y poder generalizar los
resultados obtenidos a toda la poblacin.

Determinar los estadsticos necesarios para el anlisis y solucin de situaciones
que implican conjuntos de datos de su disciplina de formacin, por medio del
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
4

conocimiento de la teora elemental del muestreo y de las distribuciones
muestrales.

Plantear y desarrollar el proceso de la inferencia estadstica para resolver
problemas concretos de investigacin en el mbito de otras disciplinas.

Aplicar apropiadamente los resultados tericos y metodolgicos de la inferencia
estadstica de estimacin y prueba de hiptesis en el marco de la modelacin.

Habilidad para planear una investigacin, diseo de instrumentos, definicin de
variables, recoleccin de la informacin, resumen y presentacin de los datos.


































UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
5

UNIDADES DIDCTICAS:




UNIDAD UNO: MUESTREO, DISTRIBUCION MUESTRAL E
INTERVALOS DE CONFIANZA
8


CAPTULO 1. TEOREMA GENERAL DE MUESTREO 9
Leccin 1: Conceptos Csicos 10
Leccin 2: Clases de muestreo 15
Leccin 3: Tipos de seleccin de muestras 26
Leccin 4: Mtodos de Inferencia: Paramtrico y No paramtrico 28
Leccin 5: Estimadores y propiedades de los estimadores 29
Ejercicios 31

CAPTULO 2: DISTRIBUCIN MUESTRAL: 34
Leccin 6: Distribucin muestral de la media y de la Proporcin 34
Leccin 7: Distribucin muestral de la diferencias de medias y de
proporciones
40
Leccin 8: Teorema Central del Lmite 44
Leccin 9: Tamao de la muestra para estimar la media (), la Proporcin y
el total de la Poblacin
50
Leccin 10: Tamao de la muestra para estimar la diferencia de medias y
la diferencia de Proporciones
57
Ejercicios 59

CAPTULO 3. INTERVALOS DE CONFIANZA PARA UNA Y DOS
POBLACINES
61
Leccin 11: Nociones Fundamentales 63
Leccin 12: Intervalos de confianza para la media y la diferencia de medias
y muestras grandes
74
Leccin 13: Intervalos de confianza para la proporcin y la diferencia de
proporciones
81
Leccin 14: Intervalos de confianza para medias y diferencia de medias y
muestras pequeas
84
Leccin 15: Intervalos de confianza para la varianza 89
Ejercicios 91
Autoevaluacin 94

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
6












UNIDAD DOS: PRUEBAS DE HIPTESIS, ANLISIS DE VARIANZA Y
ESTADSTICA NO PARAMTRICA
98


CAPTULO 4. PRUEBAS DE HIPOTESIS 99
Leccin 16: Nociones fundamentales 100
Leccin 17: Pruebas para la media y la diferencia de medias y muestras
grandes
102
Leccin 18: Pruebas para la proporcin y la diferencia de proporciones 112
Leccin 19: Pruebas para la media y la diferencia de medias y muestras
pequeas
120
Leccin 20: Pruebas para la varianza 129
Ejercicios 131

CAPTULO 5. ANLISIS DE VARIANZA 144
Leccin 21: Generalidades 145
Leccin 22: Anlisis de varianza de un factor 151
Leccin 23: Comparacin mltiple de medias maestrales 156
Leccin 24: Anlisis de varianza con dos factores 156
Leccin 25: Anlisis de varianza de dos factores con interaccin 162
Ejercicios 178


CAPTULO 6. ESTADSTICA NO PARAMTRICA 200
Leccin 26: Generalidades 201
Leccin 27: Prueba de la Bondad de Ajuste 2 202
Leccin 28: Prueba bondad de ajuste Kolmogorov- Smirnov 202
Leccin 29: Prueba de Rango Con signos: Wilcoxon 203
Leccin 30: Prueba U de Man Whitney 204
Leccin 31: Prueba de Kruskal Wallis. 204
Ejercicios 205
Autoevaluacin 206
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
7



INTRODUCCIN


El presente modulo esta dirigido a estudiantes de programas de pregrado que
oferta la UNAD, bajo la modalidad de educacin superior a distancia.

El material esta estructurado en dos unidades que son las temticas macro del
curso acadmico.

El contenido de cada una de las partes fue seleccionado, teniendo en cuenta los
saberes mnimos que se esperara debe alcanzar un estudiante de la
Universidad Nacional Abierta y a Distancia en el campo de la Inferencia
estadstica.

La propuesta permite que los estudiantes reconozcan los conocimientos
mnimos del curso en mencin, que le permita resolver situaciones propias del
mismo y adems, abordar posteriores temticas que requieran de stos
conocimientos.

Para el mejor aprovechamiento de este material, se recomienda que el
estudiante posea como conocimientos previos: de estadstica descriptiva y de la
teora de probabilidad.

El modulo se caracteriza porque en cada leccin se presentan ejemplos
modelos del tema en estudio, al final de cada capitulo se exponen ejercicios con
respuesta, que permite a los estudiantes contextualizarse en diversas reas del
conocimiento, con el fin de fortalecer las temticas propias del curso.

Al final de cada unidad se presenta una Autoevaluacin de un nivel medio-alto,
las cuales permiten verificar los alcances de los estudiantes en las temticas
analizadas y detectar las debilidades y as centrarse en stas, con el fin de
alcanzar las metas propuestas.

Finalmente, el Material pretende servir como gua de aprendizaje autnomo, se
recomienda apoyar este proceso por medio de lecturas especializadas, ayudas
audiovisuales, visitas a sitios Web y prcticas de laboratorio; entre otros, as
lograr una efectiva comprensin, interiorizacin y aplicacin de las temticas
estudiadas.




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
8










UNIDAD UNO

MUESTREO, DISTRIBUCIN MUESTRAL E
INTERVALOS DE CONFIANZA
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
9

CAPITULO UNO: PRINCIPIOS DE MUESTREO


Introduccin

En los estudios de investigacin lo primero que se define es el fenmeno a
analizar, luego la poblacin objeto de estudio, la cual puede ser finita cuando se
conocen todos los elementos, o infinita cuando no se conocen todos los
elementos de la misma. Desde estos puntos de vista analizar la poblacin no
es prctico, por tiempo y costos, lo que induce a seleccionar una muestra,
cuya importancia radica en el proceso de consecucin de datos que
proporcionan la informacin suficiente y necesaria a cerca de la poblacin,
adems que con la muestra se estn utilizando menos recursos, debido a que
slo una parte de la poblacin se encuentra bajo observacin, lo que resulta
significativamente beneficioso sobre todo cuando se trata de poblaciones
grandes y dispersa.

Otro aspecto que justifica la decisin de tomar una muestra es en casos donde se
debe destruir los elementos de sta, por ejemplo cuando se desea identificar
el grado de vaco de un producto enlatado, la resistencia de un material y otros.

En las encuestas de opinin sobre la preferencia de un producto se nota ms
claramente la utilidad de una muestra en contraste con la poblacin, para
conocer las preferencias de los consumidores y poder acomodar rpidamente el
sistema de produccin a dichos cambios.

Objetivo general

Que los estudiantes identifiquen los principios sobre poblacin y muestra,
mtodos de muestreo, distribucin de muestreo para medias, el teorema
central del lmite, aplicados al clculo de tamaos de muestras pertinentes.

Objetivos especficos

- Comprender los conceptos de poblacin y muestra.
- Identificar los diferentes diseos de muestreo y su utilidad en diferentes
campos del saber.
- Conceptuar una distribucin muestra y calcular las estimaciones requeridas, la
varianza y el error de estimacin para los mismos.
- Conocer y comprender los elementos del teorema central de lmite y
su utilidad.
- Determinar un tamao de muestra representativo tanto para medias como
para proporciones.
- Realizar aplicaciones en Excel y SPSS.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
10

Leccin No 1: Conceptos Bsicos

Dentro de la inferencia estadstica, el proceso de muestreo permite que a
partir de los resultados obtenidos al analizar una muestra, se pueda obtener
conclusiones en cuanto a una o varias de las caractersticas o parmetros de una
poblacin. Esta rea de la Estadstica, ayuda a determinar la confiabilidad de la
inferencia de que los fenmenos observados en la muestra ocurrirn tambin
en la poblacin de donde se selecciona la muestra. Es decir, sirve para
estimar la eficacia del razonamiento inductivo con el cual se infiere que lo
observado en una parte ser equivalente a lo observado en la poblacin.

Las tcnicas de muestreo son importantes en la medida que se utilice en forma
adecuada para la situacin que se requiera. De las tcnicas ms conocidas y
utilizadas se tienen el Muestro Aleatorio Simple (M.A.S), Muestreo Aleatorio
Estratificado (M.A.E), Muestro Sistemtico (M.S) y Muestreo por
Conglomerados (M.C). Se tratara de analizar estas tcnicas, especialmente
el M.A.S y M.A.E.

El xito en el desarrollo del curso en mencin est en los buenos
conocimientos previos en Estadstica Descriptiva, Probabilidad y, algebra,
Trigonometra y Geometra analtica. Lo anterior debido a que se debe predecir
resultados o tomar decisiones que tienen un grado de incertidumbre o un grado
de error que se debe definir de antemano.


Poblacin y muestra

Existe una serie de trminos estadsticos bsicos, que son muy utilizados y se
requiere sean comprendidos para avanzar en otros temas o unidades, en
esta seccin se trataron los conceptos de poblacin y muestra.


Figura 2.1 Poblacin y muestra


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
11

POBLACIN O UNIVERSO

Se considera a todo aquello sobre el que se desea hacer un estudio
estadstico. Segn el nmero de unidades, elementos o casos que la
constituyen, la poblacin puede ser finita o infinita.

Cuando el nmero de unidades que integra una poblacin es muy grande, se
puede considerar a sta como una poblacin infinita. La poblacin finita es
aquella conformada por un determinado o limitado nmero de elementos. El
investigador define la poblacin objeto de estudio en trminos de espacio y
tiempo, ya que de esta manera los resultados sern sobre la poblacin definida
en el espacio demarcado y en el tiempo definido. Por ejemplo que
podemos decir de las siguientes poblaciones:

- Estudiantes del Programa de Ingeniera de Sistemas
- Estudiantes del programa de ingeniera de sistemas de la UNAD
- Estudiantes del programa de Ingeniera de sistemas en la UNAD de los aos
2.005, 2.006 y 2.007

Cul de esas poblaciones estarn mejor definida? Analcelo con su grupo
colaborativo y realicen las observaciones al respecto.

El fin fundamental de la Inferencia Estadstica es analizar algunas
caractersticas de la poblacin denominados parmetros. Entre los ms
importantes tenemos:

N = Tamao total de la poblacin
= Promedio Poblacional
o
2
= Varianza Poblacional
o = Desviacin estndar Poblacional
t = Total Poblacional
p = Proporcin Poblacional

MUESTRA

Se considera una muestra al subconjunto representativo de la poblacin,
que ha sido seleccionada de manera tcnica mediante un procedimiento
denominado diseo de muestreo, para garantizar que dicha muestra es
representativa de la poblacin, es decir, que las unidades seleccionadas en la
muestra mediante un proceso aleatorio, hayan tenido igual probabilidad de
haber sido seleccionadas para el anlisis.

Entre los motivos que inducen a tomar una muestra aleatoria estn:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
12

1. Naturaleza Destructiva: Existen casos donde se requiere destruir los
elementos de la muestra para medir la caracterstica, como es el caso de
medir la resistencia de un material, el vaco de un producto enlatado, otros.

2. Imposibilidad Fsica de Medir Todos los Elementos de la Poblacin: Se
sabe que existen poblaciones muy grandes, consideradas infinitas y es casi
imposible conocer todos los elementos de la misma.

3. Costos: Estudiar todos los elementos de la poblacin es muy costoso, tanto en
tiempo como en dinero, por lo que es ms rentable hacer un estudio Muestra.

4. Confiabilidad del Estudio Muestra: Esta demostrado con soporte matemtico
que una muestra representativa arroja resultados que permiten inferir sobre
la poblacin con una confiabilidad muy alta.

El objetivo fundamental del muestreo es Estimar los parmetros de la poblacin
a partir de algunos elementos cuyas mediciones se conocen como
Estadsticos.

Los estadsticos ms utilizados por su importancia son:

n = Tamao de la muestra
X = Promedio de muestra
S
2
= Varianza Muestra
S = Desviacin estndar Muestra
t = Total Estimado
p = Proporcin Muestra

UNIDAD DE OBSERVACION:

Son los elementos que se miden; es decir, sobre los que se toman los datos de
las variables a medir. En el caso de los hogares, la unidad de observacin sern
las personas y en el caso de las llantas del automvil, cada una sern las
unidades de observacin.

MARCO DE MUESTREO:

El marco de muestreo se considera el referente para identificar las unidades de
observacin, ste NO incluye todos los elementos de la poblacin. Ejemplos
de marcos de muestreo tenemos el directorio telefnico de una ciudad, como
potenciales votantes, el registro de ventas de los ltimos 5 aos en una
compaa comercializadora y muchos otros.


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
13

ERROR DE MUESTREO:

En estadstica se sabe que existen diferencias entre lo que se obtuvo en el
estudio y lo que se esperaba. En el proceso de estimacin es poco probable que
la media Muestra sea idntica a la media poblacional, igual para la varianza y la
desviacin estndar. El error de muestreo es la diferencia entre el estadstico y el
parmetro.


c = u u



u Es el parmetro y u

es el estadstico.

ERROR TOLERABLE:

Se considera el error tolerable al error mximo que se est dispuesto a
aceptar y an considerar que el muestreo ha alcanzado su objetivo. En todo
estudio estadstico siempre se considera un error tolerable, partiendo del principio
que a menor error tolerable, mayor ser el tamao de la muestra. Si u es el
parmetro y u

es el estadstico, el error tolerable est determinado por B,
donde:

error =

u u

< B

ERROR ESTANDAR

La desviacin estndar de una distribucin, en el muestreo de un
estadstico, es frecuentemente llamada el error estndar del estadstico. Por
ejemplo, la desviacin estndar de las medias de todas las muestras posibles del
mismo tamao, extradas de una poblacin, es llamada el error estndar de la
media. De la misma manera, la desviacin estndar de las proporciones de
todas las muestras posibles del mismo tamao, extradas de una poblacin, es
llamada el error estndar de la proporcin. La diferencia entre los trminos
desviacin estndar y error de estndar es que la primera se refiere a los
valores originales, mientras que la segunda est relacionada con valores
calculados.




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
14

ESTADSTICO

Un estadstico es una medida usada para describir alguna caracterstica de una
muestra, tal como una media aritmtica, una mediana o una desviacin estndar
de una muestra.

PARAMETRO

Una parmetro es una medida usada para describir alguna caracterstica de una
poblacin, tal como una media aritmtica, una mediana o una desviacin estndar
de una poblacin.

Cuando los dos nuevos trminos de arriba son usados, por ejemplo, el proceso
de estimacin en inferencia estadstica puede ser descrito como el proceso de
estimar un parmetro a partir del estadstico correspondiente, tal como usar una
media muestra (un estadstico) para estimar la media de la poblacin (un
parmetro).

ETAPAS EN LA SELECCION DE LA MUESTRA

El todo estudio de muestreo se debe definir las etapas que permiten su desarrollo.

Definicin del Objeto de Estudio: Comprende la identificacin del
problema y el establecimiento de las metas que busca el estudio.

Marco de Muestreo: Establecimiento de una metodologa para identificar los
elementos que estarn en el muestreo, sus caractersticas y el modelo que los
identifica.

Identificacin de Variables: Es pertinente identificar las variables de estudio,
para as definir la forma de medicin que se hara.


Tamao de la Muestra: Por medio del modelo de muestreo pertinente
seleccionar la muestra representativa, sobre la que se realizarn las mediciones.

Unidad de Muestreo: Se debe extraer las unidades de muestreo segn el modelo
definido que determinan las n unidades maestrales de la poblacin N.

Trabajo de Campo: Son todas las acciones necesarias para obtener la
informacin, definiendo los costos, desplazamientos, herramientas fsica y
logsticas para su realizacin.

Anlisis de Informacin: La informacin obtenida, requiere de un proceso
estadstico, el cual puede ser descriptivo o inferencia, para el curso que nos
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
15

ocupa se deben hacer los dos.

Resultados: Con el proceso desarrollado sobre los datos obtenidos, se procede a
la emisin de los resultados y la confrontacin con las metas propuestas para
verificar el grado de eficiencia del trabajo realizado. Es pertinente saber
presentar los resultados, ya que un buen trabajo que no se presente de la mejor
manera, quedara oscuro en su informacin.


Leccin No 2: Clases de muestreo

Con los conceptos previos que se han analizado, ahora corresponde estudiar
las clases de muestreo. Los dos grandes grupos estn enmarcados en las
siguientes clases:

- Muestreo probabilstico.
- Muestreo no probabilstico.

Muestreo No Probabilstico.

Son aquellos muestreos donde los elementos de la muestra se toman al azar,
siendo imposible determinar el grado de representatividad de la muestra.
Para el caso de una poblacin homognea, la representatividad de tal muestra
puede considerarse satisfactoria.

Por otra parte, en problemas comerciales diarios y en la toma de decisiones
que a falta de tiempo no permiten disecar mtodos de muestreo probabilstico
hay que recurrir a este tipo de muestreo, donde el investigador conoce la
poblacin.

Dentro del muestreo no probabilstico se conoce varios tipos:

- Muestreo por conveniencia.
- Muestreo por juicio
- Muestreo Causa / Efecto
- Muestreo por Cuotas
- Muestreo de Poblaciones Mviles


MUESTREO POR CONVENIENCIA

La muestra se determina por conveniencia, incorporando elemento en la
muestra sin probabilidades especificadas o conocida de seleccin. Por
ejemplo un profesor que se encuentra investigando una causa universitaria,
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
16

puede usar alumnos voluntarios para formar la muestra, tan solo porque dispone
fcilmente de ellos y participan como elementos a un costo pequeo o nulo.
Tiene la ventaja de ser de fcil seleccin y recoleccin de sus datos. Tiene la
desventaja de no poderse evaluar en su bondad de la muestra en
funcin de la representatividad de la poblacin, motivo por el cual se hace
imposible inferir a cerca de la poblacin correspondiente.

MUESTREO POR JUICIO

En este mtodo la persona por experiencia y capacidad selecciona a los
individuos u otros elementos de la poblacin, que supone son los ms
representativos de esa poblacin. Por ejemplo un reportero puede muestrear
uno o dos senadores, por considerar que ellos reflejan la opinin general de todos.

MUESTREO CAUSA / EFECTO

Se realiza cuando no hay una poblacin definida y se requiere tomar elementos
para el estudio en cuestin, caso por el cual se toman los elementos disponibles.

MUESTREO POR CUOTAS:

Cuando es necesario obtener una cantidad dada de elementos que constituyen
una muestra proporcional a la poblacin, se toman elementos hasta cubrir dicha
cuota. El caso de tomar una cantidad de carros en una esquina para hacer un
estudio sobre accidentalidad en dicho sitio.


MUESTREO DE POBLACIONES MVILES:

Mtodo propio de poblaciones mviles como en estudios de migracin ocurridos
en un sitio determinado. El caso tpico es con animales que migran, donde se
hace captura-marca- recaptura.


Muestreo probabilstico

El muestreo aleatorio o muestreo probabilstico, es aquel en que cada uno de
los elementos de la poblacin objeto de estudio, tienen una probabilidad
matemtica conocida, y frecuentemente igual, para ser elegido en la muestra.

Dentro del muestreo probabilstico o aleatorio existen cuatro mtodos:

1. Muestreo aleatorio simple
2. Muestreo estratificado
3. Muestreo sistemtico
4. Muestreo por conglomerados
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
17

Una muestra se considera probabilstica si cumple con las siguientes condiciones:

a) Se pueda definir un conjunto de muestras M
1
, M
2
, M
3
, posibles derivados
del proceso de seleccin propuesta. As se puede identificar que unidades
de muestreo pertenecen a la muestra M
1
, M
2
,
b) A cada muestra posible le debe corresponder una probabilidad de seleccin
conocida P(S).

c) El proceso de seleccin garantiza que todos los elementos de la poblacin
tienen una probabilidad P(y
i
)>0 de ser elegido en alguna muestra.

d) La seleccin es un proceso aleatorio que garantiza que cada muestra
S tenga una probabilidad P(S) de ser elegida.


Muestreo aleatorio simple


El M A S es la forma ms sencilla de muestreo probabilstico y es la base de
tcnicas ms complejas. La muestra se puede tomar de una poblacin finita
o infinita, la cantidad de muestras posibles depende del tipo de diseo y la
forma de tomar las muestras. Este tipo de muestreo se utiliza cuando se
considera que la poblacin es ms o menos homognea. Como ya sabemos el
muestreo puede ser con y sin reemplazamiento.

El marco de muestreo corresponde a la lista codificada de todas las
observaciones que hacen parte de la poblacin. La muestra se elige de tal
manera que cada observacin tiene la misma probabilidad de ser elegida, la
eleccin de una observacin NO tiene influencia sobre la eleccin de otra. Es
de aclarar que en el M. A. S. La unidad de muestreo es igual a la unidad de
observacin.

Para seleccionar los elementos de la muestra se puede utilizar varias tcnicas:

a) Tabla de nmeros aleatorios: (Ver tabla siguiente). Se enumeran las
unidades que conforman la poblacin objetivo de estudio, partiendo desde 01
hasta 99, desde 001 hasta 999, y as sucesivamente, dependiendo del
tamao poblacional. Luego se define el tamao de la nuestra y como los
elementos de la poblacin estn listados y codificados, entonces se
establece un punto de partida: Columna Fila y se van leyendo ya
sea horizontal o verticalmente los nmeros de la tabla hasta completar el
tamao de la muestra.




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
18

Ejemplo 1:

Se desea obtener una muestra aleatoria de tamao n = 10, los elementos de la
poblacin estn codificados de 1 a 200.

Solucin:

Seleccionemos la fila 06 y columna 12345, como punto de inicio y la lectura
la hacemos vertical. Se debe escoger los primeros tres dgitos que estn entre 1
y 200, hasta completar el tamao de la muestra. La lectura ser de los tres
primeros dgitos de la tabla.

Veamos: El primer nmero es 884, no se incluye, el segundo es 100, se incluye,
el tercero es 007, se incluye, as sucesivamente. Por consiguiente la muestra
ser:

n = 100, 007, 141, 151, 142, 128, 146, 042, 156, 134

Ejemplo 2:

Obtengamos una muestra aleatoria de 6 elementos de una poblacin cuyos
elementos estn codificados de 01 a 50.

Solucin:

Elegimos el punto de inicio de la fila 08 y columna 67890. Lectura del primer
dgito y lectura vertical.

n = 9, 5, 1, 3, 7, 8






UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
19


Fuente: Web

Este mtodo de seleccin permite que todos los elementos que constituyen la
poblacin tengan la misma posibilidad de ser incluidos en la muestra. Los
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
20



elementos se escogen en forma individual y aleatoriamente de la totalidad de
la poblacin. Esta seleccin puede ser sin reemplazamiento, similar a la que
se realiza en la extraccin aleatoria de nmeros en el juego denominado baloto.
Cada elemento que constituye la muestra se selecciona una sola vez,
denominndose extracciones sin reposicin.

En otras ocasiones, cada elemento puede ser elegido ms de una vez en la
misma muestra, como por ejemplo, cuando se selecciona aleatoriamente el
nmero ganador de una lotera, que puede ocurrir ser el mismo nmero; en
estos casos se dice que las extracciones son realizadas con reposicin.

Programa de Computador: Utilizando el programa Excel que es el ms comn
se puede desarrollar nmeros aleatorios de la siguiente manera:

Si la poblacin es de N = 1.000 observaciones y se desea una muestra de 20,
entonces: Sobre una celda se escribe =ALEATORIO ()*N y se da clic, el
sistema genera el primer nmero aleatorio, se despliega en la parte inferior
derecha de la celda del nmero hasta el tamao de la muestra definida.




















Al dar clic se genera el primer numero aleatorio y desplegando se obtiene los que
se desea.





Sintaxis para
obtener nmeros
aleatorios de
una poblacin
de 1.000
observaciones
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
21




















De esta manera se obtiene los nmeros aleatorios que se requieren para
tomar la muestra aleatoria de la poblacin objeto de estudio. Si se vuelve a
hacer el proceso, se obtendrn nuevos nmeros y cada que se realice un nuevo
proceso, se generarn diferentes nmeros; esto por lo de Aleatorio.

b) Mtodo de Fan Muller: Se definen los nmeros aleatorios
1
,
2
,
3
,
independientes bajo la distribucin uniforme u (0,1). Si
k=1
< n / N. (Siendo
N el tamao de la poblacin y n el tamao de la muestra), entonces k = 1 es
seleccionado para la muestra, en otro caso no. Para los siguientes
nmeros k = 2, 3, 4,, n
k
los seleccionados deben cumplir

k
= <


el proceso termina cuando n
k
= n. N k + 1 es el marco muestral;
es decir, el tamao disponible. Los
k
son generados bajo la distribucin
uniforme y se comparan con (n n
k
) / (N k + 1).


c) Coordinado Negativo: El proceso general es de la siguiente manera:

- Se adiciona una variable aleatoria U con distribucin uniforme U (0, 1)
- Se ordena el marco muestral segn la distribucin U.
- La muestra se forma de los n primeros elementos del marco ordenado

Muestreo Aleatorio Estratificado
En el diseo de muestreo probabilstico, es pertinente identificar la poblacin
Primer numero
aleatorio.
Se despliega desde
la parte inferior
derecha hasta
completar
20 elementos

n n
N k + 1
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
22

objeto de estudio, ya que no siempre la variable de anlisis es ms o menos
homognea. Si se desea analizar la variable peso; por lo general los hombres
pesan ms que las mujeres, en estratos altos se paga ms arriendo que en
estratos bajos. En estos y otros muchos casos el M. A. S. no es adecuado. En
casos donde la poblacin es muy heterognea respecto a la variable de
estudio el muestreo estratificado es mejor que el muestreo aleatorio simple. La
palabra estratificar hace referencia a formar Capias.











Obtenidos los estratos, en cada uno se obtiene la muestra por M. A. S. para el
estudio de la variable de inters.

La justificacin de seleccionar una muestra por muestreo aleatorio estratificado
ms que por muestreo aleatorio simple son entre otras.

1. Evitar la obtencin de muestras errneas, tal es el caso de escoger
elementos que podran sesgar el muestreo, por consiguiente se puede
perder representatividad de la poblacin.

2. Obtener informacin precisa de ciertos subgrupos para hacer comparaciones

3. Producir un lmite de error de estimacin (B) ms pequeo, comparado con el
obtenido en el M.A.S. para un mismo tamao de muestra.

4. Los costos por observacin en las encuestas son ms reducidos ya que
se evitan desplazamientos extremos.

5. Las estimaciones se obtienen por subgrupos as los estratos se hacen
identificables.

Como los elementos de los estratos son disyuntos, entonces cada unidad
de muestreo pertenece solo a un estrato. Las muestras seleccionadas
en los estratos deben ser independientes; es decir, la elegida en un estrato no
debe afectar la eleccin de otra muestra en otro estrato.
La esencia de la estratificacin es que sta saca provecho de la homogeneidad
conocida de las su poblaciones, de tal forma slo se requieran muestras
relativamente pequeas para estimar las caractersticas de cada sub-poblacin,
estas estimaciones individuales pueden entonces ser fcilmente combinadas
para producir una estimacin de toda la poblacin; adems, la economa
en el tamao de la muestra, un valioso sub-producto del esquema de
DEFINICIN: Una muestra aleatoria estratificada se obtiene
mediante la separacin de los elementos de la poblacin en
subgrupos llamados ESTRATOS, los cuales son disyuntos.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
23

muestreo estratificado es que las estimaciones obtenidas para diferentes
partes de la poblacin se pueden usar posteriormente para hacer
comparaciones.

Para una descripcin general del muestreo aleatorio estratificado y los mtodos
de inferencia asociados con este procedimiento, suponemos que la
poblacin est dividida en h su poblaciones o estratos de tamaos conocidos
N
1
, N
2
,...,N
h
tal que las unidades en cada estrato sean homogneas respecto
a la caracterstica en cuestin.

Partiendo de la poblacin o universo U cuyo tamao es N, se definen N
L
estratos.











La media poblacional del estrato, la varianza poblacional del estrato, el total
poblacional del estrato y el total poblacional, se obtiene de la siguiente manera:



i
= o
1
= t
i
= t

=



p
l
=




N = N
1
+ N
2
++ N
L

N
l
= Tamao del estrato l.
x
l j
= Valor de la observacin j en el Estrato l.

l
= Media poblacional en el estrato l.

2
l
= Varianza poblacional en el estrato l.

l
= Total poblacional en el estrato l.
p
l
= Proporcin poblacional en el estrato l.
1
N
l

E
N
l

j=l
X
y

(x
iy -

i
)
N
l
- 1
N
l

J=l
E
N
l

X
y

j=l
E
t
l

j=l
E
N
1

N


j=l
X
li

E
1
N
l

Donde x
li
son los elementos j del estrato l que tiene la caracterstica
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
24



s
l
l

En cada estrato se obtiene una muestra aleatoria por M.A.S. Si tenemos el
estrato l, se puede hacer el siguiente anlisis.


n
l
= Tamao de la muestra en le estrato l

x
l
= Promedio muestral en el estrato l
2
= Varianza muestral en el estrato l
p

= Proporcin estimada del estrato l



=


s
l
=



p
l
=


Muestreo Sistemtico


Es utilizado por algunos contadores para revisar sumas, cuentas, inventarios,
etc., por ser un mtodo directo y econmico. Consiste en seleccionar uno a
uno, los elementos de la muestra en un orden determinado, dando un inicio
aleatorio. La fraccin de muestreo se establece por medio de la siguiente
relacin:





Ejemplo 1

De una poblacin de 1.000 observaciones, se desea tomar una muestra de 10,
cuales seran las observaciones que haran parte de la muestra sistemtica.




1
N
l

N
l

j=l
X
lj

E
Donde lj son los elementos j del estrato l
E
N
l

j=l
(x
ij - i
)
2

N
l
- 1
N


j=l
X
li

E
1
N
l

= Elementos j del estrato l que tiene la caracterstica
Donde:
N = Tamao de la poblacin
N = Tamao de la muestra
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
25

Solucin:

La fraccin de muestreo es:



El primer elemento se selecciona aleatoriamente en el intervalo cero a
cien, por ejemplo seleccionando el nmero 25, el segundo elemento que se
selecciona es 125 (25+100), luego el 225 (125+100) y as sucesivamente, hasta
completar la muestra de diez.

Un problema especfico del muestreo sistemtico es la existencia de cualquier
factor peridico o cclico en la lista de la poblacin que pudiera conducir a
un error sistemtico en los resultados muestrales.

Ejemplo: Si en un hospital hay un universo de quince mil cien historias
clnicas que estn numeradas interrumpidamente y se desea tener una
muestra equivalente al 10%, o sea, mil quinientas diez historias, ello significa
que ha de tomarse una de cada 10, ya que (15.100 1.510 = 10). La primera
historia puede seleccionarse del primer grupo de 10. Si la primera historia
seleccionada es la nmero 8 en la poblacin, teniendo en cuenta que el
ocho es un nmero cualquiera tomado aleatoriamente; la segunda ser la 18=
(8+10) la tercera ser la 28 = (18 + 10), la cuarta ser la 38 = (28 + 10), y as
sucesivamente.

La estimacin y tamao de muestra tiene un anlisis similar al muestreo
aleatorio simple M.A.S.


Muestreo Conglomerados

Este es un mtodo de muestreo aleatorio en el que los elementos de la
poblacin se dividen en forma natural en subgrupos, de tal forma que dentro de
ellos sean lo ms heterogneo posible y entre ellos sean homogneos, caso
contrario al muestreo estratificado.

Este tipo de muestreo se usa en particular cuando no se dispone de una
lista detallada y enumerada de cada una de las unidades que conforman el
universo y resulta muy complejo elaborarla. Se le denomina as debido a
que en la seleccin de la muestra en lugar de escogerse cada unidad se
procede a tomar los subgrupos o conjuntos de unidades, a los que se llama
"conglomerados". Aunque quiz por ello se tienda a creer que es lo
mismo que el estratificado, ambos se diferencian en que en los
conglomerados los subconjuntos se dan en la vida real o ya estn
agrupados de esa manera; por ejemplo: Escuelas, tipos de Industrias,
bloques de casas y otros. En el estratificado el investigador decide las
agrupaciones que utilizar segn la posible variabilidad de los fenmenos a
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
26

estudiar; otra diferencia es que en este el investigador conoce la distribucin
de la variable, todo lo contrario que en el muestreo por conglomerado.

El proceso se indica definiendo los conglomerados, despus se seleccionan los
subconjuntos a estudiar (o sea, que se realiza un muestreo de
conglomerados); de estos seleccionados se procede a hacer el listado de las
unidades que componen cada conglomerado, continuando posteriormente con
la seleccin de las unidades que integrarn la muestra, siguiendo algunos de
los mtodos aleatorios indicados.

Si se desea hacer un estudio en las escuelas de educacin primaria sobre
un determinado fenmeno, inicialmente se seleccionan las escuelas que
se estudiarn, de esas escuelas seleccionadas se determinan los grados o
clases que deben incluir y posteriormente se escogen los alumnos, que sern
las unidades de observacin, utilizando uno de los mtodos aleatorios. Se
estima que las inferencias que se hacen en una muestra conglomerada no son
tan confiables como las que se obtienen de un estudio hecho por muestreo
aleatorio.

Ejemplo:

Si un analista de la Secretara de Salud necesita hacer un estudio de los
servicios mdico-asistenciales que reciben los trabajadores del rea
metropolitana, sera difcil obtener una lista de todos los trabajadores de la
poblacin objetivo. Sin embargo podra obtenerse una lista de las empresas y
fbricas del rea. Con esta lista, el analista puede tomar una muestra aleatoria
de las empresas o fbricas, que representan conglomerados de
trabajadores, y obtener la informacin de los servicios mdicos que se les
estn prestando.



Leccin No 3: Tipos de Seleccin de Muestras

En el diseo Muestra hacemos referencia a la probabilidad de seleccin, la
cual consiste en definir el valor de probabilidad de que una muestra dada
sea seleccionada. En teora de probabilidad existen dos tipos de seleccin:

Seleccin con Reemplazamiento: Consiste en que los elementos
seleccionados una vez medidos vuelven a la muestra, lo que hace que el
espacio Muestra permanezca constante. Por lo anterior la ocurrencia de un
evento no afecta la ocurrencia de otro, por lo que los eventos se consideran
independientes.


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
27

Ejemplo:

Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual ser la
probabilidad que al seleccionar dos bolas stas sean blancas.

Solucin:

La probabilidad de que la primera sea negra es:



La probabilidad de que la segunda sea negra es:




Seleccin sin Reemplazamiento: Los elementos elegidos una vez la
medicin, estos NO vuelven a la muestra, lo que hace que el espacio muestral
cambie a medida que se van tomado elementos de la muestra.

Ejemplo:

Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual ser la
probabilidad que al seleccionar dos bolas estas sean blancas, la seleccin es
sin reemplazamiento

Solucin:

La probabilidad de que la primera sea negra es: 4/9
La probabilidad de que la segunda sea negra es: 3/8

Recordemos que una vez elegida la primera, sta vuelve a la muestra.

Ejemplo:

Suponga que tenemos N = 4 unidades 1, 2, 3 y 5 en una poblacin
hipottica y desea seleccionar muestras con reemplazamiento y sin
reemplazamiento de tamao n=2

Solucin:

Para los propsitos de esta seleccin, los valores podran ser el nmero de
las personas que viven en cada una de cuatro unidades habitacionales que
constituyen una poblacin. Se realizar una comparacin entre el muestreo
aleatorio con y sin reemplazamiento para una muestra de tamao n=2.
Primero se listan todas las posibles muestras no ordenadas de tamao n= 2.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
28

Leccin No 4: Mtodos de Inferencias: Paramtricos y No Paramtricos
Los procedimientos de inferencia permiten establecer conclusiones acerca de
una poblacin, a partir de las propiedades estudiadas en una muestra de ella.
Adems, como dichas conclusiones dependen de sucesos aleatorios, se les
asociar un nivel de confianza o de verosimilitud.
Respecto de los objetivos que resuelven las tcnicas de inferencia estadstica
se clasifican en:
Mtodos Paramtrico
Resuelve objetivos relacionados con parmetros de una poblacin, tales como
media, varianza, proporcin etc. Estos modelos se apoyan en el conocimiento
de la distribucin de probabilidad asociada a dicha poblacin aunque se
desconozca algn parmetro de dicho modelo. Por ejemplo podemos suponer
que el nmero de clientes atendidos por hora en una entidad bancaria sigue un
modelo de Poisson pero de parmetro desconocido.
Para resolver un problema de inferencia paramtrico se utilizan dos tipos de
procedimientos:
Estimacin: Puntual cuando obtenemos valores aproximados del parmetro
desconocido y una medida de error asociado; por Intervalos cuando obtenemos
un rango de valores, que contiene el verdadero valor del parmetro con una
probabilidad o confiabilidad prefijada.
Test de Hiptesis: Cuando aceptamos o rechazamos una hiptesis relacionada
con uno o varios parmetros de una poblacin desconocidos, con un cierto nivel
de error prefijado.
Mtodos no paramtrico
Los mtodos no paramtricos se refieren a menudo como distribucin
libremente mtodos pues no confan encendido asunciones que los datos estn
dibujados del dado distribucin de la probabilidad. Resuelven situaciones
relacionadas con el tipo de distribucin de probabilidad asociada a la poblacin
de estudio u otros objetivos no relacionados directamente con parmetros.
Lo deseable en estos casos ser buscar la inferencia en contrastes que sean
vlidos bajo un amplio rango de distribuciones de la poblacin. Tales contrastes
se denominan no paramtricos.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
29

El trmino no paramtrico no se significa implicar que tales modelos carecen
totalmente parmetros, sino que el nmero y la naturaleza de los parmetros
son flexibles y no fijados por adelantado.
Ventajas y Desventajas
Las pruebas no paramtricas no necesitan suposiciones respecto a la
composicin de los datos poblacionales. Las pruebas no paramtricas son de
uso comn:
1. Cuando no se cumplen las suposiciones requeridas por otras tcnicas
usadas, por lo general llamadas pruebas paramtricas.
2. Cuando es necesario usar un tamao de muestra pequeo y no es posible
verificar que se cumplan ciertas suposiciones clave.
3. Cuando se necesita convertir datos cualitativos a informacin til para la
toma de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala
nominal u ordinal. Muchas aplicaciones de negocios involucran opiniones o
sentimientos y esos datos se usan de manera cualitativa.
Las pruebas no paramtricas tienen varias ventajas sobre las pruebas
paramtricas:
1. Por lo general, son fciles de usar y entender.
2. Eliminan la necesidad de suposiciones restrictivas de las pruebas
paramtricas.
3. Se pueden usar con muestras pequeas.
4. Se pueden usar con datos cualitativos.
Tambin las pruebas no paramtricas tienen desventajas:
1. A veces, ignoran, desperdician o pierden informacin.
2. No son tan eficientes como las paramtricas.

Leccin No 5: Estimadores y propiedades de los estimadores
El proceso de estimacin conlleva a obtener un estimador que tenga
ciertas condiciones deseables para hacer inferencia sobre el modelo de
probabilidad que ha generado los datos. Entre los mtodos de estimacin de
la estadstica paramtrica, se tiene: Momentos, mnimos cuadrados y mxima
verosimilitud. En temticas posteriores se analizar lo referente a la
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
30

estimacin

Propiedades de un estimador:

El concepto de estimacin de parmetros mediante la especificacin de las
propiedades que deben cumplir los estimadores y el desarrollo de tcnicas
apropiadas para implementar el proceso de estimacin. Se utilizar el punto
de vista prctico de la teora del muestreo, que considera un parmetro como
una cantidad fija pero desconocida.

Para evaluar la calidad de un estadgrafo como un estimador este debe
cumplir las siguientes propiedades:

1. Insesgado:

El trmino in sesgado se refiere al hecho de que una media muestra es
igual a un estimador no sesgado de la media de una poblacin, porque la
media de la distribucin muestra de las medias mustrales tomada de esa
misma poblacin es igual a la media de la poblacin. Se puede decir que un
estadgrafo es un estimador no sesgado, si en promedio tiende a asumir
valores por encima de los valores que se estn estimando, tan frecuentes como
tienda a asumir valores que estn por debajo del parmetro de la poblacin
que se estima.

2. Eficiencia:

La eficiencia se refiere al tamao del error estndar del estadgrafo de la
muestra. Si se comparan dos estadgrafos de una muestra del mismo tamao
y se desea decidir cual de los dos es el estimador ms eficiente, se escoger
el estadgrafo que tenga el menor error estndar o desviacin de la
distribucin muestra. Supngase que se escoge una muestra de un tamao
dado y se decide cuando usar la media muestra o la mediana muestra para
estimar la media de la poblacin. Si se calcula el error estndar de la media
muestra y se encuentra que es igual a 2.15 y luego se calcula el error
estndar de la mediana muestra y se encuentra que es de 2.6, se podr
decir que la media muestra es un estimador ms eficiente de la media de la
poblacin porque su error estndar es menor o con menos variacin, tendr
una mayor oportunidad de producir un estimador ms cercano al parmetro de
la poblacin bajo estudio.

3. Consistencia:

Un estadgrafo es un estimador consistente de un parmetro de la poblacin
si en la medida en que el tamao de la muestra aumenta se est seguro de
que el valor del estadgrafo se acerca al valor del parmetro de la poblacin.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
31

Cuando un estimador es consistente, se vuelve ms confiable tomando
muestras grandes. De esta manera, cuando usted se preocupa por
aumentar el tamao de la muestra para obtener ms informacin acerca de
un parmetro de la poblacin, debe primero encontrar si su estadgrafo es
un estimador consistente, si no es as, usted desperdiciar dinero y tiempo
al tomar muestras grandes.

Ejercicios: 1

1. En un estudio por muestreo a un lote de envases para un medicamento, con
una poblacin de 8000 unidades, Se desea determinar la media de la capacidad
de los envases en centmetros cbicos. Se ha estimado que la desviacin
estndar es de 2 centmetros cbicos. Si queremos tener una precisin de 0.25
centmetros cbicos, Y un nivel de significacin del 5%, equivalente a un nivel
de confianza de 1.96. De que tamao debe ser la muestra:

R/ta: 238 frascos

2. En cierta cadena de centros comerciales trabajan 150 personas en el
departamento de personal, 450 en el departamento de ventas, 200 en el de
contabilidad y 100 en el de servicios al cliente. Con el objeto de realizar una
encuesta laboral, se quiere seleccionar una muestra de 180 trabajadores. Qu
nmero de trabajadores tendramos que seleccionar en cada departamento
atendiendo a un criterio de proporcionalidad

R/ta: 30, 90, 40, 20

3. Suponga que se quiere estimar el nmero de das-hombre perdidos debido a
accidentes de trabajo en un mes particular. Adems se sabe que la mayor parte
de dichos accidentes se presentan en los niveles operativo, tcnico y
administrativo. Cual de los siguientes diseos de muestreo es el ms
aconsejable?:

R/ta: Estratificado, identificando como estrato los niveles de trabajo

4. Supongamos que en la ciudad T hay 200 barrios. Si elegimos al azar dos de
estos barrios, de manera que la muestra est compuesta por todos los
individuos de esos dos barrios. Se trata de de:

T/ta: Por conglomerados

5. Se ha proyectado realizar una encuesta sobre el consumo de leche en las
familias. El nmero de familias de la poblacin es 6000 y el tamao de la
muestra 840, con la siguiente clasificacin de profesin u oficio:
Profesionales: 100 Comerciantes: 200
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
32

Operarios: 2000 Agricultores: 600
Servicios Generales: 1900 Empleados: 1200
Cuantas familias de agricultores deben estar representados en la muestra.

R/ta: 84

6. Supongamos que en la ciudad T hay 200 barrios. Si elegimos al azar dos de
estos barrios, de manera que la muestra est compuesta por todos los
individuos de esos dos barrios. Se trata de de:
R/ta: Muestreo por conglomerados

7. Con un nivel de confianza del 95% y un error de muestreo del 3%, se quiere
estimar el verdadero promedio de consumo de agua diario y la verdadera
proporcin de familias compuestas por ms de 3 miembros por unidad familiar,
de una ciudad con 10.000 unidades familiares, durante un periodo estacional
seco. S se sabe que en el mismo periodo del ao anterior en un estudio
realizado a travs de un muestreo, el consumo promedio diario fue de 42, 5
metros cbicos, con una variancia de 12,5. El tamao de muestra necesario es:

R/ta: 965

8. Se quiere obtener una muestra sistemtica que seleccione estudiantes de un
programa y CEAD de la UNAD que tiene 800 de ellos. La variable clave del
estudio es dicotmica y se aduce que la proporcin es del 20%, adems, se
quiere un error del 4% y una confiabilidad del 95%.

R/ta: 2; 5; 8; 11; 14; 17;.

9. Se realiza un estudio para estimar el porcentaje de ciudadanos del Bajo
Cauca que estn a favor de que su agua se trate con flor. Qu tan grande debe
ser una muestra si se desea tener una confianza de al menos 95% de que la
estimacin estar dentro del 2% del porcentaje real? Realice las
consideraciones necesarias para calcular n

R/ta: 2400 habitantes

10.En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de
actividades de ocio que gustan ms a sus habitantes. Para ello van a ser
encuestados 100 individuos elegidos al azar.
-Explicar qu procedimiento de seleccin sera ms adecuado utilizar: muestreo
con o sin reposicin. Por qu? R/ta: Sin reemplazamiento para que sea
representativa.
-Como los gustos cambian con la edad y se sabe que en el barrio viven 2.500
nios, 7.000 adultos y 500 ancianos, posteriormente se decide elegir la muestra
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
33

anterior utilizando un muestreo estratificado. Determinar el tamao muestral
correspondiente a cada estrato.

R/ta: 25 nios, 70 adultos y 5 ancianos.

11. En cierta cadena de centros comerciales trabajan 150 personas en el
departamento de personal, 450 en el departamento de ventas, 200 en el
departamento de contabilidad y 100 en el departamento de atencin al cliente.
Con objeto de realizar una encuesta laboral, se quiere seleccionar una muestra
de 180 trabajadores.
-Qu tipo de muestreo deberamos utilizar para la seleccin de la muestra si
queremos que incluya a trabajadores de los cuatro departamentos
mencionados?
R/ta: Utilizaremos un muestreo aleatorio estratificado, ya que queremos que
haya representantes de cada uno de los departamentos.
-Qu nmero de trabajadores tendramos que seleccionar en cada
departamento atendiendo a un criterio de proporcionalidad?

R/ta: (30,90, 40, 20)

12. Se desea hacer una encuesta para determinar la proporcin de familias que
carecen de medios econmicos para atender los problemas de salud. Existe la
impresin de que esta proporcin est prxima a 035. Se desea determinar un
intervalo de confianza del 95% con un error de estimacin de 005. De qu
tamao debe tomarse la muestra?

R/ta: n=350.


















UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
34

CAPITULO DOS: DISTRIBUCIONES MUESTRALES

Como se ha sealado anteriormente, el propsito del muestreo es averiguar las
caractersticas de la poblacin en estudio, y cuando se disea una muestra por
uno de los modelos dados. Una distribucin muestra es una distribucin de
probabilidad de un estadstico, calculado a partir de una muestra aleatoria de
tamao n, elegida de manera aleatoria de una poblacin determinada, es decir,
se est interesado en conocer una o ms de las siguientes caractersticas:

La forma funcional.
La media
La desviacin estndar



Leccin No 6: Distribucin Muestral de la Media y de la Proporcin:

Los estadsticos obtenidos en una muestra son variables aleatorias, por lo cual
deben tener una distribucin de probabilidad, as que la media muestral tiene
una distribucin.

Supongamos que se tiene una muestra aleatoria de tamao n observaciones,
tomada de una poblacin normal ) , (
2
o N cada observacin X
1
= 1, 2, 3, , n
tendr la misma distribucin que la poblacin de donde fue tomada la muestra.


Teorema:
-------------------------------------------------------------------------------------------------------
Sea
n
X X X
X
n
+ + +
=
...
2 1
la media de la muestra aleatoria de tamao n,
proveniente de una poblacin infinita con media y varianza
2
o .
Entonces:




---------------------------------------------------------------------------------------------------------

Comentario:

Valor esperado de la media muestral es la media poblacional.

= ) (X E
= ) (X E
n
X V
2
) (
o
=
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
35

La varianza del estimador es igual a la varianza poblacional
dividida por el tamao de la muestra.


El caso anterior es dado para cuando la poblacin es infinita, pero se pueden
presentar los casos donde se conoce la poblacin; es decir, es finita. En estos
casos se tiene el siguiente teorema.

Teorema:
-------------------------------------------------------------------------------------------------------
Sea
n
X X X
X
n
+ + +
=
...
2 1
la media de la muestra aleatoria de tamao n,
proveniente de una poblacin finita de tamao N con media y varianza
2
o .

y Entonces:

---------------------------------------------------------------------------------------------------------

Comentario:

1

N
n N
Se conoce como el factor de correccin para poblaciones finitas. Cuando

N es muy grande comparado con n, la diferencia se hace despreciable lo que
origina que para poblaciones infinitas dicho factor de correccin se hace uno.

Ejemplo:

Un Colegio tiene siete profesores, la retribucin por hora ctedra es la que se
muestra a continuacin:


Salario profesores

Profesor Salario $
1
2
3
4
5
6
7
7.000
7.000
8.000
8.000
7.000
8.000
9.000
Cuadro 2.3

n
X V
2
) (
o
=
= ) (X E
1
* ) (
2

=
N
n N
n
X V
o
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
36

Cul es la media de la poblacin?

Solucin:

Se sabe por los conocimientos de estadstica descriptiva que:

=
=
N
i
i
x
N
1
1
Para i = 1, 2, , 7

Entonces:


3 . 714 . 7 $
7
54000
7
9000 8000 7000 8000 8000 7000 7000
= =
+ + + + + +
=


Cual ser la varianza de dicha poblacin.

Solucin:

Al igual que el caso anterior, la varianza poblacional esta dada por:

=
=
N
i
i
x
N
1
2 2
) (
1
o
Entonces:
85 , 699 ) 3 . 7714 9000 ( ... ) 3 . 7714 7000 (
7
1
1
2 2 2
= + + =

=
N
i
o

Cul es la distribucin muestral de las medias para muestras de tamao
dos?

Solucin:

Para determinar la distribucin muestral de las medias, se seleccionaron todas
las muestras posibles de tamao 2, sabiendo que son sin reemplazamiento y
que no interesa el orden de seleccin en la poblacin. Se calculan las medias de
cada muestra y se calcula la media de las medias maestrales.

Para saber cuantas muestras posibles se pueden tomar, se utiliza la
combinatoria, por los preceptos tomados: Sin repeticin y no importa el orden.


( )
21
2
42
2 ! 5
! 5 6 7
! 2 ! 5
! 7
! 2 ! 2 7
! 7
7
2
= = =

=
x
x x
x
C

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
37

El valor de 21, es el nmero de muestras tamao 2 que se pueden formar de
una poblacin de 7 elementos. A continuacin se indican las 21 muestras
posibles y el valor de la media para cada una de las muestras:


Muestreo sin reemplazamiento y las medias
Muestra Prof. Salario Media Muestra Prof. Salario Media
1 1 y 2 7000-7000 7000 12 3 y 4 8000-8000 8000
2 1 y 3 7000-8000 7500 13 3 y 5 8000-7000 7500
3 1 y 4 7000-8000 7500 14 3 y 6 8000-8000 8000
4 1 y 5 7000-7000 7000 15 3 y 7 8000-9000 8500
5 1 y 6 7000-8000 7500 16 4 y 5 8000-7000 7500
6 1 y 7 7000-9000 8000 17 4 y 6 8000-8000 8000
7 2 y 3 7000-8000 7500 18 4 y 7 8000-9000 8500
8 2 y 4 7000-8000 7500 19 5 y 6 7000-8000 7500
9 2 y 5 7000-7000 7000 20 5 y 7 7000-9000 8000
10 2 y 6 7000-8000 7500 21 6 y 7 8000-9000 8500
11 2 y 7 7000-9000 8000
Suma Total 162.000
Cuadro 2.4

En el cuadro siguiente se indica la distribucin de probabilidad para el muestreo
de medias, donde la sumatoria de todas las probabilidades es igual a uno:


Distribucin de probabilidad
Media muestral Nmero de medias Probabilidad
7000 3 0.1429
7500 9 0.4285
8000 6 0.2857
8500 3 0.1429
Suma 21 1.0000
Cuadro 2.5

Cul es la media de la distribucin Muestral?

Solucin:

La media de la distribucin muestral de medias, se determina sumando las
diferentes medias muestrales y dividiendo la suma entre el nmero de muestras.
La media de todas las medias muestrales en general se expresa:


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
38

muestras de total Nmero
muestrales medias de Suma 1
1
= =

=
N
i
i
X
x
N



A partir de los datos:


30 . 714 . 7 $
21
000 . 162
= =
X



Segn lo obtenido podemos concluir: La media de la poblacin es igual a la
media de las medias muestrales. =
X


Estas caractersticas se analizan en el siguiente apartado.

Distribucin Muestral de Medias: Poblaciones Finitas:

Las poblaciones finitas, tiene la caracterstica de que N es conocido, al hacer la
distribucin muestral de las medias y muestreo sin reemplazamiento, se obtiene
una grfica de la distribucin que presenta forma aproximadamente
acampanada, lo cual se puede observar en la siguiente grfica.



Distribucin muestral

Figura 2.3



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
39

Distribucin Muestral de Medias: Poblaciones No Finitas:

La grfica de la distribucin muestras de medias para poblaciones no finitas y
muestreo con reemplazamiento tiene una distribucin normal, tal como se puede
observar a continuacin:


Distribucin muestral de medias














Figura 2.4


La tercera propiedad del teorema central del lmite se expresa: No importa que
distribucin tenga la poblacin, pero la distribucin muestral de medias a partir
de esa poblacin, tiene una distribucin normal.
Ejemplo:
La altura media de 400 alumnos de un plantel de secundaria es de 1,50 mts. Y
su desviacin tpica es de 0,25 mts. Determinar la probabilidad de que en una
muestra de 36 alumnos, la media sea superior a 1,60 mts.
Solucin: P( X > 1,60) = ?
40 , 2
25 , 0
60 , 0
6
25 , 0
10 , 0
36
25 , 0
50 , 1 60 , 1
= = =

= Z
( ) 4918 , 0 40 , 2 A Z =
P = 0,5000 0,4918 = 0,0082 = 82%
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
40

Distribucin muestral de proporciones
En el anlisis de una caracterstica cualitativa o atributo, se emplea la
proporcin de xitos y no el nmero de xitos como en la distribucin binomial.
Ahora, en vez de expresar la variable en trminos de xitos (X) nos referiremos,
al nmero de atributos en la muestra (a) y lo dividimos por el tamao de la
muestra n:
n
a
p
i

=
NP A A
i
= = Total de elementos que presentan la caracterstica en la
Poblacin


P P
p
= =
N
A
N
A
P
i

= = Proporcin de elementos que presenta la


caracterstica en la poblacin

P
N
A N
Q =

= 1 Proporcin de elementos que no presenta la caracterstica


1 = +Q P
PQ
P
=
2
o Varianza de la proporcin en la poblacin
PQ
p
= o Desviacin estndar
n
PQ
n
p
p
= =
o
o Error estndar de la proporcin
En muchos casos podemos utilizar la distribucin normal para evaluar la
distribucin muestral de proporciones, siendo:
p
p
p
n
PQ
P p
Z
o

=

=

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
41

Ejemplo:
Cuarenta y seis por ciento de los sindicatos del pas estn en contra de
comerciar con la China Continental; Cul es la probabilidad de que en una
encuesta a 100 sindicatos muestre que ms del 52% tengan la misma posicin?
Solucin: P = 0,46 p = 0,52 n = 100 P(p>0,52) = ?
( )( )
21 , 1
100
2484 , 0
06 , 0
100
54 , 0 46 , 0
46 , 0 52 , 0
= =

=
n
PQ
P p
Z
( ) 1131 , 0 3869 , 0 21 , 1 = = A Z
p P( > % 31 , 11 ) 52 , 0 =

Leccin No 7: Distribucin Muestral de Diferencias de medias y
de proporciones
Distribucin muestral de diferencias de dos medias
Se tienen dos poblaciones independientes identificadas la primera por X y la
segunda por Y, de tamao

, cuyas medias se simbolizan por

, y
sus desviaciones tpicas son

. Se obtiene un nmero (M) de pares de


muestras. Las medias mustrales de la primera poblacin se identifican por

. Y las muestras de la segunda variable por

.
Ahora, si consideramos las diferencias para cada par, la media aritmtica de
dichas diferencias se simbolizar por

, donde:


Se puede demostrar que la media de la diferencia de todos los pares de medias
mustrales posibles, es igual a la diferencia entre las medias poblacionales


La desviacin tpica de las diferencias entre los pares de medias mustrales se
simboliza por:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
42


Se puede considerar que la desviacin tpica de las diferencias entre los pares
de medias mustrales, denominado como error estndar de las diferencias entre
las medias mustrales, es igual a:
siendo:


Suponiendo que la distribucin de diferencias entre las medias mustrales tenga
un comportamiento similar a la distribucin normal, la variante estadstica estar
dada por la frmula:
( ) ( ) ( )
2
2
1
2
n n
y x y x
Z
y
x
y x
y x
y x
o
o

o

+

=

=


Se puede aplicar esta distribucin cuando no se conocen las varianzas
poblacionales
2
x
o y
2
y
o , las cuales pueden ser sustituidas por varianzas
mustrales
2
x
s y
2
y
s siempre y cuando que
1
n y
2
n sean mayores que 30.

Ejemplo:
El rendimiento de los autos de la marca A es de 20 kilmetros por galn de
gasolina, con una desviacin estndar de 6 k.p.g. las cifras comparables para
los autos B son de 25 y 5,5 k.p.g. se supone que el rendimiento de cada una de
ambas marcas est normalmente distribuido. cul es la probabilidad de que en
un concurso, el rendimiento medio para 10 autos de la marca A sea mayor que
el de 9 autos de la marca B?
Solucin:
x
= 20
y
= 25
x
o = 6
y
o = 5,5
1
n = 10
2
n = 9
P( y x > 0) = ?
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
43

( ) ( )
90 , 1
96 , 6
5
36 , 3 6 , 3
5 0
9
25 , 30
10
36
25 20 0
= =
+

=
+

= Z
( ) 4713 , 0 90 , 1 A Z =
P( y x > 0) = 0,5000 - 0,4713 = 0,0287 = 2,87%

Distribucin muestral de diferencias de dos proporciones
En el caso de dos poblaciones independientes de tamao
1
N y
2
N , distribuidas
binomialmente, con parmetros, medias poblacionales
1
P y
2
P (tambin se
pueden representar las medias por
1
P
y
2
P
) y desviaciones proporcionales
1
P
o
y
2
P
o , siendo:
1 1
1
Q P
P
= o y
2 2
2
Q P
P
= o .
El error estndar de las diferencias entre las dos medias proporcionales estar
dada por:
2
2 2
1
1 1
2 1
n
Q P
n
Q P
P P
+ =

o Cuando son valores poblacionales


Cuando
1
n y
2
n corresponden a muestras grandes, es decir, ambas superiores
a 30:
2
2 2
1
1 1
2 1
n
q p
n
q p
s
P P
+ =


La media de las diferencias entre dos medias proporcionales, se simboliza por:
2 1
2 1 2 1
P P
P P P P
= =


La variante estadstica Z, estar dada en la misma forma en que fue presentada
para diferencias entre dos medias mustrales:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
44

( ) ( )
( ) ( )
2
2 2
1
1 1
2 1 2 1
2
2 2
1
1 1
2 1
2 1
n
q p
n
q p
P P p p
n
Q P
n
Q P
p p
Z
P P
+

=
+

=

cuando
1
n y
2
n > 30
Ejemplo:
Consideremos dos mquinas que producen un determinado artculo, la primera
produce por trmino medio un 14% de artculos defectuosos, en tanto que otra,
produce el 20% de artculos defectuosos; si se obtienen muestras de 200
unidades en la primera y 100 unidades en la segunda, Cul es la probabilidad
que difiera A de B en 8% o ms?
Solucin: P( 08 , 0
2 1
> P P ) = ?
1
n = 200
2
n = 100
1
P = 0,14
2
P = 0,20
2 1
P P
= 0,14 0,20 = -0.06
2 1
p p = 8% = 0,08
( )
( ) ( )
98 , 2
047 , 0
14 , 0
100
8 , 0 2 , 0
200
86 , 0 014
06 , 0 08 , 0
= =
+

= Z
( ) 4986 , 0 98 , 2 A Z =
P( 08 , 0
2 1
> P P ) = 0,5000 0,4986 = 0,0014 = 0,14%

Leccin No 8: Teorema central del lmite.

En el caso de una poblacin con media y varianza
2
o , la distribucin muestral
de medias de todas las muestras posibles de tamao n a partir de la poblacin,
tendr una distribucin aproximadamente normal (siendo la media de la
distribucin muestral igual a y la varianza igual a n /
2
o ) considerando que el
tamao de la muestra es bastante grande.

El teorema central del lmite es uno de los teoremas ms importantes dentro de
las ciencias estadsticas, ya que su funcionalidad es muy grande.




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
45













Hay que destacar aspectos importantes del teorema central de lmite.

- Si el tamao de la muestra n es suficientemente grande, la distribucin
muestral de las medias ser ms o menos normal. Esto se cumple ya sea
que la poblacin est o no distribuida normalmente. Esto es, el teorema se
verifica, ya sea que la poblacin est distribuida en forma normal, o bien sea
sesgada o uniforme.
- Como se mostr con anterioridad, la media de la poblacin, , y la media de
todas las medias muestrales posibles,
x

, son iguales. Si la poblacin es


grande y se selecciona un nmero grande de muestras de la poblacin, la
media de las medias muestrales se aproximar a la media poblacional.
- La varianza de la distribucin de medias muestrales se determina de n /
2
o .

No existe acuerdo general sobre lo que constituye un tamao de muestra
suficientemente grande. Algunos estadsticos consideran que es 30; otros
piensan que un nmero pequeo como 12 es adecuado. El ejemplo sobre los
salarios por hora de todos los profesores del colegio funcion bastante bien con
una muestra de 2. Sin embargo, a menos que la poblacin sea
aproximadamente normal, los tamaos de muestra as de pequeos, por lo
general no dan como resultado una distribucin muestral que se distribuya
normalmente. A medida que el tamao de la muestra se vuelve cada vez ms
grande, la distribucin de la media muestral se aproxima ms a la distribucin
normal con forma de campana.


Ejemplo:

Suponga que se tiene una poblacin conformada por 5 empleados de una
empresa (N = 5), y la variable de inters es el nmero de aos de experiencia
laboral de cada empleado. Los datos de la poblacin son: 5 , 4 , 3 , 2 , 1 =
i
X

TEOREMA CENTRAL DEL LMITE:

Sea X
1
, X
2
,, X
n
una variable aleatoria independiente e idnticamente
distribuida de una poblacin infinita con media y varianza
2
. Para
2
< ,
Entonces:
n
X
Z
o

= Presenta una distribucin Normal estndar.

O sea:
) 1 , 0 ( n Z



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
46

Muestreo sin Reemplazamiento:

1. Determine la media y la desviacin estndar para la poblacin.

Solucin:

a) Para este caso la media poblacional se obtiene as:


3
5
5 4 3 2 1 1
1
=
+ + + +
= =

=
N
i
i
x
N



Promedio de aos de experiencia por empleado.

b) La desviacin estndar de la poblacin: Primero calculamos la varianza y
luego la desviacin:


999 . 1 ) 3 5 ( ... ) 3 2 ( ) 3 1 (
5
1
) (
1
2 2 2
1
2 2
= + + + = =

=
N
i
i
x
N
o

Ahora extraemos la raz cuadrado a la varianza y obtenemos la desviacin
estndar.

414 . 1 = o


2. Seleccione ahora todas las muestras posibles de tamao dos, sin
reemplazamiento (poblaciones finitas):

Solucin:

Recordemos que cuando el muestreo es sin reemplazamiento y no interesa el
orden, entonces tenemos una combinatoria.


( ) ! !
!
xn n N
N
C
N
N

=
Reemplazando:
( ) ( )
10
2 ! 3
! 3 4 5
! 2 ! 3
! 5
! 2 ! 2 5
! 5
5
2
= = =

=
x
x x
x
C



Se tiene 10 muestras posibles de tamao dos. Las posibles muestras se indican
a continuacin:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
47


Posibles muestras y su media

Muestra
Media Muestral X
Muestra
Media Muestral X
1 - 2
1 3
1 4
1 5
2 3
1.5
2.0
2.5
3.0
2.5
2 4
2 5
3 4
3 5
4 - 5
3.0
3.5
3.5
4.0
4.5
Cuadro 2.6

3. Determine el promedio de la distribucin muestral de medias.

Solucin:

En la segunda y cuarta columna del cuadro 2.6 estn las medias de todas las
muestras posibles, lo que se debe hacer es sumarlas y dividirlas por en nmero
de medias.


3
10
5 . 4 0 . 4 5 . 3 5 . 3 0 . 3 5 . 2 0 . 3 5 . 2 0 . 2 5 . 1
=
+ + + + + + + + +
=
X


Con la informacin anterior se logra demostrar el primer principio del teorema
central del lmite, que consiste en que el promedio de la poblacin es igual al
promedio de la distribucin muestral de medias: 3 = =
X


Observe que dicho principio se ha cumplido, en consideracin a que el promedio
de aos de experiencia para la poblacin es de tres y el promedio de la
distribucin muestral de medias es igual tambin a tres.

4. Determine la desviacin estndar de la distribucin muestral de medias.

Solucin:

Como siempre primero calculamos la varianza y luego la desviacin estndar.


( )
( ) ( ) ( )
7499 . 0
10
0 . 3 5 . 4 3 0 . 2 3 5 . 1
2 2 2
2
2
=
+ + +
=

=

n
X
X
X

o


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
48

Ahora extrayendo raz cuadrado a la varianza, obtenemos la desviacin
estndar.

8660 . 0 7499 . 0 = =
X
o

Observemos que la desviacin estndar de la poblacin (1.4142) es diferente a
la desviacin estndar de la distribucin muestral de medias (0.8660), y una
forma de corregir esta diferencia es mediante la siguiente igualdad:

1

=
N
n N
n
X
o
o
Donde:

X
o Desviacin estndar de la distribucin muestral de medias.
o Desviacin estndar de la poblacin.
n Tamao de la muestra.
N Tamao de la poblacin.
1

N
n N
Factor de correccin para poblaciones finitas.

Reemplazando los valores correspondientes se tiene:


8660 , 0
1 5
2 5
2
4142 , 1
=

=
x
o



El segundo principio del teorema central del lmite para poblaciones finitas se
expresa: La desviacin estndar de la distribucin muestral de medias es igual
al factor de correccin poblacional multiplicada por la relacin entre la
desviacin estndar poblacional y la raz cuadrada del tamao de la muestra.
Dicho principio queda demostrado con la relacin anterior.

Muestreo con Reemplazamiento:

Ahora, cuando el muestreo se realiza para poblaciones finitas, y con
reemplazamiento, el nmero de muestras posibles esta dada por:

n
N
Para N = Tamao de la poblacin y n = Tamao de la muestra

1. Hallar el nmero de muestras posibles con reemplazamiento de tamao dos,
para el problema anterior.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
49

Solucin:

El nmero de muestras de tamao dos es: 25 5
2
= =
n
N


Nmero de muestras con Reemplazamiento
muestra Muestra Media muestral muestra Muestra Media muestral
1
2
3
4
5
6
7
8
9
10
11
12
13
1-1
1-2
1-3
1-4
1-5
2-1
2-2
2-3
2-4
2-5
3-1
3-2
3-3
1.0
1.5
2.0
2.5
3.0
1.5
2.0
2.5
3.0
3.5
2.0
2.5
3.0
14
15
16
17
18
19
20
21
22
23
24
25
3-4
3-5
4-1
4-2
4-3
4-4
4-5
5-1
5-2
5-3
5-4
5-5
3.5
4.0
2.5
3.0
3.5
4.0
4.5
3.0
3.5
4.0
4.5
5.0
Cuadro 2.7


2. Determine la media de la distribucin muestral de medias.

Solucin:

Con lo estudiado:

3
25
0 . 5 5 . 4 0 . 4 5 . 2 0 . 2 5 . 1 0 . 1
=
+ + + + + + +
=

X


El primer principio se mantiene, en el sentido, que la media poblacional es igual
a la media de la distribucin muestral de medias.


3. Determine la desviacin estndar de la distribucin muestral de medias.

Solucin:

Como ya conocemos la forma de calcular dicha desviacin, procedemos:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
50

( )
( ) ( ) ( ) ( )
0 . 1
25
0 . 3 0 . 5 0 . 3 5 . 4 3 5 . 1 3 1
2 2 2 2
2
=
+ + + +
=

=


n
X
X
X

o

Observe que la desviacin estndar de la poblacin (1.4142) sigue siendo
diferente a la desviacin estndar de la distribucin muestral de medias (1.0)

La forma de corregir esta diferencia para poblaciones no finitas es mediante la
siguiente igualdad:


n
X
o
o =
Correccin para poblaciones no finitas

Reemplazando en el caso que nos ocupa:
1
2
41421356 . 1
= =
x
o


Para poblaciones no finitas, el segundo principio de teorema del lmite central se
expresa: La desviacin estndar de la distribucin muestral de medias es igual
a la desviacin estndar poblacional dividida entre la raz cuadrada del tamao
de la muestra.


Leccin No 9: Tamao de la Muestra para estimar la
media , la Proporcin y el Total de poblacin:

Tamao de muestra para estima la media

En el apartado anterior se analiz la forma de estimar los parmetros de la
poblacin: P t o
2
Promedio, Varianza, total y proporcin poblacional
respectivamente. Pero siempre que se realiza una investigacin se debe definir
el tamao de la muestra. Tomar observaciones para una muestra cuesta
dinero, por lo cual se debe tomar la muestra adecuada, que de la informacin
necesaria y a costos razonables. Una muestra mal tomada arroja informacin
inadecuada, lo que hace perder tiempo y dinero.

Determinar el nmero de observaciones que harn parte de la muestra, para
estimar , con un lmite de estimacin B definido, se obtiene a partir de la
ecuacin del error de estimacin.

Para poblaciones Finitas y Varianza Poblacional Conocida:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
51

|
.
|

\
|

|
|
.
|

\
|
=

1
2
) 2 / 1 (
N
n N
n
Z B
o
o


Despejando n, se obtiene:

2 2 2
2 2
) 2 / 1 (
) 1 ( o
o
o
Z B N
N Z
n
+
=



Nota: Estimado Estudiante hacer el ejercicio de despejar n es muy interesante.


Para Poblaciones Infinitas y Varianza Poblacional Conocida:

Cuando N es muy grande, se asume una poblacin infinita, en estos casos N
1 se aproxima a N, entonces N n ~ N, as se puede obtener el tamao de
una muestra para poblaciones infinitas.
n
Z B
2
) 2 / 1 (
o
o
= Entonces:

2
2 2
) 2 / 1 (
B
Z
n
o
o
=


Ejemplo:

En un estudio sobre el tamao de las manos para el diseo de guantes, se
estableci que la longitud de estas sigue una distribucin normal. Por datos
conocidos se sabe que la desviacin tpica es de 1,5 cm. Cul ser el tamao
de la muestra para estimar el promedio de la longitud de los guantes, si se
asume un error de estimacin de 0,5 cm. y un nivel de significancia del 5%?

Solucin:

Z
(1-/2)
=Z
0,975
= 1,96
B = 0,5 y = 1,5

Segn el problema la poblacin es infinita, entonces:

57 , 34
) 5 , 0 (
) 5 , 1 ( ) 96 , 1 (
2
2 2
2
2
) 2 / 1 (
= = =

B
Z
n
o
o


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
52

En tamao requerido para estimar la media de la longitud de los guantes, con un
error de estimacin de 0,5 cm. y un nivel de significancia del 5% debe ser de
n = 35 observaciones.

Ejemplo:

Un Banco desea identificar el promedio de cuentas por cobrar, estudios previos
han determinado que la variacin de las cuentas est en $1.000. El Banco
cuenta con 1.400 clientes activos. Si el lmite de error de estimacin es de $50
Cul debe ser el tamao de la muestra a un nivel de significancia del 5%?

Solucin:

Se trata de una poblacin finita. Por teora la amplitud de variacin es 4 veces la
desviacin tpica: A = 4 entonces: = A/4 = 1.000/4 = 250

Z
(1-/2)
= Z
0,975
= 1,96



2 2 2
2 2
2 2 2
2 2
) 2 / 1 (
) 250 ( ) 96 , 1 ( ) 50 )( 1 1400 (
400 . 1 ) 250 ( ) 96 , 1 (
) 1 ( +
=
+
=

o
o
o
Z B N
N Z
n



93 , 89
100 . 240 500 . 497 ' 3
000 . 140 ' 336
) 250 ( ) 96 , 1 ( ) 50 )( 1 1400 (
400 . 1 ) 250 ( ) 96 , 1 (
2 2 2
2 2
=
+
=
+
= n


En las condiciones dadas, la muestra debe ser de n = 90 cuentas.


Tamao de la Muestra para estimar P:

En muchos estudios el Investigador esta interesado en estimar la proporcin de
poblacin que tienen la caracterstica, como la proporcin de dietas preparadas
del total de dietas planeadas, la proporcin de aves con un peso definido
respecto al total de aves pesadas, el porcentaje de personas que observan un
programa de televisin respecto al total de la poblacin potencial que puede ver
la televisin. Dichos fenmenos son de tipo binomial.

Se sabe que:

=
=
n
i
i
y
n
p
1
1
Para y
i
= 1.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
53

El nmero de observaciones necesarias para estimar la proporcin poblacional,
con un lmite de error de estimacin asumido B y un nivel de significancia
definido, esta dado a partir de la ecuacin del error de estimacin.

|
.
|

\
|
|
.
|

\
|

=

N
n N
n
q p
Z B
1
*
) 2 / 1 (

o
Despejando n se obtiene:

q p Z NB
NB N q p Z
n


*
*
2
) 2 / 1 (
2
2 2
) 2 / 1 (
o
o

+
+
=


NOTA: Cuando no se conoce o no se puede determinar el valor de p, entonces
se asume como un caso dudoso y en estos casos p = 0,5

Ejemplo 1:

En una ciudad se desea realizar una encuesta para determinar la proporcin de
habitantes que estn de acuerdo con el consumo de cigarrillo. La ciudad tiene
7.500 habitantes y por estudios previos se ha determinado que de cada 100
habitantes, 15 estn de acuerdo. Cul debe ser el tamao de la muestra para
estimar la proporcin poblacional P; con un lmite de error de estimacin de 0,05
y un nivel de significancia del 5%.

Solucin:

Por los datos:

15 , 0
100
15
= = p

Luego 85 , 0 15 , 0 1 = = q



Aplicando la ecuacin correspondiente:

) 85 , 0 )( 15 , 0 ( ) 96 , 1 ( ) 05 , 0 )( 500 . 7 (
) 05 , 0 )( 500 . 7 ( ) 500 . 7 )( 85 , 0 )( 15 , 0 ( ) 96 , 1 (
*
*
2 2
2 2
2
) 2 / 1 (
2
2 2
) 2 / 1 (
+
+
=
+
+
=

q p Z NB
NB N q p Z
n


o
o


4898 , 0 75 , 18
75 , 18 53 , 3673
) 85 , 0 )( 15 , 0 ( ) 96 , 1 ( ) 05 , 0 )( 500 . 7 (
) 05 , 0 )( 500 . 7 ( ) 500 . 7 )( 85 , 0 )( 15 , 0 ( ) 96 , 1 (
2 2
2 2
+
+
=
+
+
= n

908 , 191
2398 , 19
28 , 3692
4898 , 0 75 , 18
75 , 18 53 , 3673
= =
+
+
= n


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
54

Por consiguiente se debe tomar una muestra de 192 habitantes para estimar la
proporcin poblacional, con un lmite de error de 0,05 y un nivel de confianza de
95%.


Ejemplo:

En una compaa de 3.500 empleados, se desea saber la proporcin de
empleados que estn a favor de la organizacin de un Sindicato. El investigador
tomo una muestra de 400 empleados fruto del clculo respectivo; adems,
asume un nivel del 5%. Por ser una compaa relativamente nueva, NO hay
datos al respecto. De que valor fue tomado el error de estimacin del
muestreo?

Solucin:

Inicialmente por no conocer proporciones anteriores, entonces se asume un
fenmeno dudoso, as p = 0,5 luego q = 0,5. Conocemos el tamao de la
poblacin y de la muestra. Debemos despejar B de la ecuacin del tamao
muestral.

q p Z NB
NB N q p Z
n


*
*
2
) 2 / 1 (
2
2 2
) 2 / 1 (
o
o

+
+
=
Despejando B:

500 . 3 500 . 3 * 400
000 . 4 * 5 , 0 * 5 , 0 * ) 96 , 1 ( 500 . 3 * 5 , 0 * 5 , 0 * ) 96 , 1 (
* *
2 2
2
) 2 / 1 (
2
) 2 / 1 (
2

=

N nN
n q p Z N q p Z
B

o o

002132 , 0
500 . 396 ' 1
24 , 977 . 2
500 . 3 500 . 3 * 400
000 . 4 * 5 , 0 * 5 , 0 * ) 96 , 1 ( 500 . 3 * 5 , 0 * 5 , 0 * ) 96 , 1 (
2 2
2
= =

= B

04617 , 0 002132 , 0 = = B

El error de estimacin tomado fue casi de 0,04617, es decir casi 0,05

Ejemplos:
1. El mantenimiento de cuentas puede resultar demasiado costoso, si el
promedio de compra por cuenta baja de cierto nivel. El gerente de un gran
almacn por departamentos desea estimar el promedio de lo comprado
mensualmente por los clientes que usan la cuenta de crdito, con un error de
$1.500, y una probabilidad aproximada de 0,95. Cuntas cuentas deber
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
55

seleccionar, si sabe que la desviacin estndar es de $30.000, la cual fue
obtenida de los balances mensuales de la cuenta de crdito?
n =
2
2 2
E
Z o
=
( )
2
2 2
500 . 1
000 . 30 2
= 1.600 cuentas se deben seleccionar
2. Un auditor desea tener un nivel de confianza del 95%, para que la verdadera
proporcin de error no exceda del 2%. Si la poblacin es muy grande, Qu
tamao tendr la muestra que va a tomarse, si el auditor estima que la
proporcin de error es del 5%?
n =
2
2
E
PQ Z
=
( )( )
2
2
02 , 0
95 , 0 05 , 0 2
= 475 cuentas
Calculo de n en poblaciones finitas
La formula ms utilizada para el tamao ptimo en el muestreo aleatorio simple,
cuando la poblacin es finita, se obtiene:
n =
N
n
n
o
o
+ 1
donde:
2
2 2
E
Z
n
o
o
= En variables
n =
N
n
n
o
o
+ 1
donde:
2
2
E
PQ Z
n
o
= En proporciones

Tamao de la Muestra para estimar :

El nmero de observaciones necesarias para estimar , el total poblacional, con
un lmite de error de estimacin asumido B y un nivel de significancia definido,
esta dado a partir de la ecuacin del error de estimacin, partiendo que se
conoce la varianza poblacional.

|
.
|

\
|

|
|
.
|

\
|
=

1
2
2
) 2 / 1 (
N
n N
n
N Z B
o
o


Despejando n se obtiene:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
56

2 2 2
) 2 / 1 (
2
2 3 2
) 2 / 1 (
) 1 ( N Z B N
N Z
n
o
o
o
o

+
=


Ejemplo:

Una compaa que hace estudios a nivel social, desea estimar el total de
ingresos de una poblacin de 3.000 habitantes que tiene ingresos. Por estudios
previos se sabe que la varianza poblacional para los ingresos es de $40.000
Cuntas personas se deben tomar como muestra, si se asume un lmite de
error de estimacin de $100.000 y un nivel de confianza del 95%?

Solucin:

Los datos:

N = 3.000

2
= 40.000
B = 100.000
Entonces:
2 2 2
) 2 / 1 (
2
2 3 2
) 2 / 1 (
) 1 ( N Z B N
N Z
n
o
o
o
o

+
=


Para Z
(1-/2)
= Z
0,975
= 1,96 Reemplazando en la ecuacin:

000 . 40 ) 000 . 3 ( ) 96 , 1 ( ) 000 . 100 )( 1 000 . 40 (
000 . 40 ) 000 . 3 ( ) 96 , 1 (
2 2 2
3 2
+
= n


281 , 7
10 01372976 , 4
10 9225 , 2
10 382976 , 1 10 9999 , 3
10 148928 , 4
14
15
12 14
15
= =
+
=
X
X
X X
X
n


Por consiguiente para estimar el promedio de ingresos de la poblacin objeto
de estudio, con un nivel de confianza del 95% y el error de estimacin de
$40.000, se debe tomar una muestra aleatoria de 8 personas.




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
57

Leccin No 10: Tamao de muestra para la diferencia de
dos medias y para la diferencia de dos proporciones:


Tamao de muestra para la diferencia de dos medias

Para calcular los tamaos de muestras en estos casos, se presentan dos
situaciones:

- Tamaos de muestras iguales
- Tamaos de muestras diferentes

Para el primer caso no se tiene ningn problema porque al ser n1 sera igual n2
Se calcula una sola muestra de tamao n

n = Z**2(S1**2 + S2**2)/E**2

Para el segundo caso se calcula una n en funcin de la otra as.

n2 = Z**2(S1**2 + KS2**2)/KE**2 y n1 se obtiene reemplazando en la siguiente
ecuacin: n1 = Kn2

Tamao de muestra para la diferencia de dos proporciones

En este caso se calculan los tamaos con los mismos criterios anteriores, es
decir para muestras de igual tamao y tamaos desiguales, as:

- Tamaos iguales n= Z**2(P1Q1 + P2Q2)/E**2

- Tamaos desiguales n2 = Z**2(P1Q1 + KP2Q2)/KE**2 y se obtiene n1 de la
siguiente ecuacin n1 = Kn2


Tamao de muestra con muestreo estratificado
La asignacin del tamao de la muestra a cada estrato definido en este mtodo
se puede hacer por tres formas diferentes. Asignacin: igual, proporcional y
ptima.
Asignacin Igual: Es la ms elemental, porque asigna tamaos iguales de
muestra a cada estrato, es decir ni = nj = nk = etc.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
58

i = 1..h
Asignacin proporcional:
En la asignacin proporcional asignacin se hace proporcional a los tamaos de
los estratos.
Asignacin ptima: La asignacin se hace proporcional al tamao de la
desviacin estndar

Esto requiere que el tamao de la muestra sea proporcional al producto del
tamao del estrato y la desviacin estndar del estrato. Cuando todas las
desviaciones estndares de los estratos son iguales, la asignacin ptima
coincide con la asignacin proporcional.
Ejemplo. Los tamaos de tres pequeos pueblos son: N
1
= 40,000, N
2
= 20,000
y N
3
= 30,000. Se va a tomar una muestra aleatoria estratificada aleatoria con
un tamao total de muestra de n = 400. Determine el tamao de la muestra que
debe ser tomada de cada pueblo utilizando (a) asignacin proporcional y (b)
asignacin ptima cuando de un estudio previo se conocen estimativos burdos
de las desviaciones estndares, que son o
1
= 20, o
2
= 12 y s
3
= 14.
(a) asignacin proporcional:

=400(4/9)=178; = 400(2/9)=89; =400(3/9)=133

(b) asignacin ptima:
N
1
o
1
= 800,000
N
2
o
2
= 240,000
N
3
o
3
= 420,000
----------------
Total = 1,460,000
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
59


n
1
=

n
2
=

n
3
=

Concluimos esta discusin planteando las situaciones para las cuales la
estratificacin es una tcnica de muestreo beneficiosa. Primero, la estratificacin
generalmente crea una reduccin en la varianza del estimador de una
caracterstica de una poblacin. Esta reduccin puede ser sustancial si cada
estrato es homogneo pero difiere de los otros con respecto a la caracterstica.
Segundo, si se requieren estimativos para ciertas subdivisiones de una
poblacin, puede ser til tratar las subdivisiones como estratos para obtener
estos estimativos. Por ejemplo, podemos querer estimar los ingresos de los
miembros de cierto grupo minoritario mientras realizamos un estudio de los
ingresos de una poblacin urbana.
Ejercicios: 2

1. Un fabricante de muebles produce un espejo en una lnea de montaje.
Cuando opera adecuadamente, el proceso de montaje consigue elaborar una
media de 140 espejos por da con una desviacin estndar de 20 espejos. Para
controlar el proceso de montaje, se seleccionan 100 das aleatoriamente y se
anotan los espejos producidos cada da. Despus se utiliza la distribucin
muestral de la produccin media para comprobar si el proceso de montaje
funciona adecuadamente. Explique como se genera tericamente la distribucin
muestral.

R/ta: Seleccionando repetidamente muestras de 100 das y se calcula la media
de cada muestra. Las diferentes medias obtenidas forman la distribucin
muestral

2. Usted es el coordinador de logstica de una gran compaa que el tempo
promedio en el que reciben los pedidos los clientes tiene una distribucin normal
con una media de 30 horas y una desviacin estndar estndar de 3 horas. Si
usted revisa el tiempo de entrega de 25 clientes seleccionados al azar, la
distribucin del tiempo promedio de entrega es
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
60


R/ta: T-Student

3. La altura de los hombres de un pas se distribuye normalmente, con media
180 cm y desviacin tpica 8 cm. La altura de las mujeres tambin se distribuye
normalmente, con media 168 cm y desviacin tpica 8 cm. La distribucin de la
diferencia de alturas entre un hombre y una mujer es:

R/ta: Normal (12; 4)

4. Sea la poblacin de elementos: {22,24, 26}.
-Escriba todas las muestras posibles de tamao dos, escogidas mediante
muestreo aleatorio simple. R/ta: M
1
= {22, 24}, M
1
= {22, 26}, M
1
= {24, 26}
-Calcule la varianza de la poblacin. R/ta:8/3
-Calcule la varianza de las medias muestrales.

R/ta:2/3

5. La variable altura de las alumnas que estudian en una escuela de idiomas
sigue una distribucin normal de media 1,62 m y la desviacin tpica 0,12 m.
Cul es la probabilidad de que la media de una muestra aleatoria de 100
alumnas sea mayor que 1.60 m?

Rta: 0951

6. Se ha tomado una muestra de los precios de un mismo producto alimenticio
en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han
encontrado los siguientes precios:
95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110.
Suponiendo que los precios de este producto se distribuyen segn una ley
normal de varianza 25 y media desconocida:
-Cul es la distribucin de la media muestral?Rta:N(104; 1.25)
-Determine el intervalo de confianza, al 95%, para la media poblacional.

R/ta:(101.55; 106.45)

7. Cul sera el mnimo tamao muestral necesario para que pueda decirse
que la verdadera media de las estaturas est a menos de 2 cm de la media
muestral, con un nivel de confianza del 90%?

Rta: La muestra debe tener al menos 1083 personas.

8. Las ventas mensuales de una tienda de electrodomsticos se distribuyen
segn una ley normal, con desviacin tpica 900 . En un estudio estadstico de
las ventas realizadas en los ltimos nueve meses, se ha encontrado un intervalo
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
61

de confianza para la media mensual de las ventas, cuyos extremos son 4 663
y 5 839 .
- Cul ha sido la media de las ventas en estos nueve meses?

R/ta: x =5251

9. Si el contenido en gr. de un determinado medicamento X sigue una
distribucin N(7.5,0.3), calcular la probabilidad de que para una muestra de
tamao n=5, se obtenga medio menor que 7, Pr ( X 7).

R/ta: Pr ( X 7) = 0.0001

10. Un ascensor limita el peso de sus cuatro ocupantes a 300Kg. Si el peso de
un individuo
sigue una distribucin N( 71,7 ), calcular la probabilidad de que el peso de 4
individuos supere los 300Kg

R/ta: 0.1265

11. En una universidad se desea conocer la opinin de los estudiantes acerca
de ciertas medidas que han tomado las directivas. De 120 estudiantes
consultados, 90 estuvieron a favor. Estime la proporcin de estudiantes que
estn a favor de las medidas.

R/ta: 75%.

12. En el estudio de cierta caracterstica X de una poblacin se sabe que la
desviacin estndar es 3. Se va a escoger una muestra de tamao 100, halle el
error estndar de la media muestral.

R/ta:(0,3).









UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
62

CAPITULO TRES: INTERVALOS DE CONFIANZA
Introduccin

El problema que presenta la estimacin puntual de un parmetro reside en que
no garantiza ni mide la precisin de la estimacin. Slo la bondad de ajuste y el
tamao de la muestra pueden proporcionar una mayor o menor confianza en la
estimacin obtenida. Por esta razn es necesario dar, junto a la estimacin, una
medida del grado de confianza que se merece, la cual se consigue mediante un
intervalo de confianza que proporcione unos lmites dentro de los cuales se
confa est el valor desconocido del parmetro. Esta confianza de inclusin se
mide mediante un porcentaje.

Con frecuencia se encuentra informacin como la siguiente:

El peso de un objeto es 104 ms o menos 2 gramos.
El dimetro de un tornillo es de 8 mas o menos 0.05 milmetros.
El contenido de protenas de la carne de pollo es de 20.2 mas o menos 1%.

En estos casos y otros similares se quiere indicar que la media verdadera se
encuentra en algn lugar entre el intervalo.

Lo anterior indica que existe la probabilidad de error en la medicin y adems no
se puede estar absolutamente seguro que el verdadero valor se encuentre
dentro del intervalo obtenido. Ntese que si el intervalo se hace ms amplio
aumenta la posibilidad que se incluya el verdadero valor de la media.

Objetivo general

Mostrar los diferentes mtodos para calcular los intervalos de confianza, a partir
de muestras grandes y pequeas, para estimar los parmetros poblacionales de
una media y proporcin, as como para la diferencia de medias y proporciones.

Objetivos especficos

Calcular el intervalo de confianza para estimar el parmetro poblacional a
partir de muestras pequeas, para una media y una proporcin.
Calcular el intervalo de confianza para estimar el parmetro poblacional a
partir de muestras grandes, para una media y una proporcin.
Calcular el intervalo de confianza para la diferencia de dos medias y dos
proporciones.
Exponer el uso de clculo de intervalos de confianza utilizando paquetes de
Excel y SSPS.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
63

Leccin No 11: Nociones Fundamentales.

En estadstica muchos problemas exigen construir conjuntos (intervalos) que
contengan el verdadero valor del parmetro en estudio con una probabilidad
dada generalmente alta. Si por ejemplo X representa los grados de grasa de
una margarina se puede estar interesado en encontrar los lmites bajos y altos
aceptables para este tipo de producto; pero no se puede asegurar con
probabilidad de uno que el verdadero valor se encuentre entre estos dos lmites,
lo mximo que se puede lograr es elegir un nmero uno menos alfa ( ) 1 o que
est muy prximo a uno (recuerde que alfa es el nivel de significacin o error
tipo uno) tal que la probabilidad que el verdadero valor se encuentre entre estos
dos lmites inferior y superior sea mayor o igual a uno menos alfa.

En la prctica se elige un alfa fijo generalmente pequeo 0.01 o 0.05. La
probabilidad que la afirmacin del intervalo incluya al parmetro sea cierta es
por lo menos ) 1 ( o ; por lo tanto la probabilidad que la afirmacin sea falsa es
por lo ms un alfa. Un intervalo de confianza dado que incluya o no el verdadero
valor del parmetro, esto nunca se conoce con exactitud al menos que se
conozca el parmetro, pero se sabe que se tendr xito en encontrar el valor
verdadero del parmetro dentro de este tipo de intervalos por lo menos en el
) 1 ( o 100% de las veces.
Los dos tipos de problemas que resuelven las tcnicas estadsticas son:
estimacin y contraste de hiptesis. En ambos casos se trata de generalizar la
informacin obtenida en una muestra a una poblacin. Estas tcnicas exigen
que la muestra sea aleatoria. En la prctica rara vez se dispone de muestras
aleatorias, por la tanto la situacin habitual es la que se esquematiza en la figura








UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
64

Entre la muestra con la que se trabaja y la poblacin de inters, o poblacin
diana, aparece la denominada poblacin de muestreo: poblacin (la mayor parte
de las veces no definida con precisin) de la cual nuestra muestra es una
muestra aleatoria. En consecuencia la generalizacin est amenazada por dos
posibles tipos de errores: error aleatorio que es el que las tcnicas estadsticas
permiten cuantificar y crticamente dependiente del tamao muestral, pero
tambin de la variabilidad de la variable a estudiar y el error sistemtico que
tiene que ver con la diferencia entre la poblacin de muestreo y la poblacin
diana y que slo puede ser controlado por el diseo del estudio.
Estimacin

El proceso de estimacin conlleva a obtener un estimador que tenga ciertas
condiciones deseables para hacer inferencia sobre el modelo de probabilidad
que ha generado los datos. Entre los mtodos de estimacin de la estadstica
parametrica, se tiene: Momentos, mnimos cuadrados y mxima verosimilitud.
En temticas posteriores se analizar lo referente a la estimacin

Estimacin de la Media Poblacional:

Al seleccionar una muestra aleatoria por M. A. S. sin reemplazamiento y pesos
iguales, se tiene:

=
=
n
i
i
x
n
X
1
1


A partir de este planteamiento se tiene que la media muestral es un estimador
insesgado de mnima varianza de la media poblacional.

Entonces:




Demostracin:

A partir de las propiedades del valor esperado:

|
.
|

\
|
= |
.
|

\
|
= |
.
|

\
|
=

= = =
n
i
i
n
i
i
n
i
i
x E
n
x E
n
x
n
E X E
1 1 1
) (
1 1 1
) (

= = = |
.
|

\
|

= =
) (
1 1
) (
1
1 1
n
n n
x E
n
n
i
i
n
i
i

= ) (X E
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
65

Varianza del Estimador:

El valor de X indicara muy poco sobre al menos que se evale la bondad del
estimador, lo que se hace por medio de la varianza del estimador, la cual nos
indica el grado de variabilidad que tiene dicho estimador, as un estimador con
varianza pequea tiene ms valor que un estimador con varianza grande.

Cuando se desea hallar la varianza del estimador y se conoce la varianza
poblacional, la ecuacin que nos permite hacer dicho clculo es:





N es el tamao de la poblacin, n es el tamao de la muestra,
2
es la varianza
poblacional.

Cuando no se conoce la varianza poblacional, sta se estima por medio de la
varianza muestral S
2
.

=
n
i
i
x x
n
S
1
2 2
) (
1
1
Por definicin:
2 2
1
) ( o

=
N
N
S E

Con estos argumentos, se puede determinar la varianza estimada del estimador:




En la ecuacin:

N
n N
Es el factor de correccin para poblaciones finitas, se puede despreciar si

95 , 0 >

N
n N
o cuando n
N
>
20


Para poblaciones infinitas:






|
.
|

\
|

=
1
) (
2
N
n N
n
X V
o
|
.
|

\
|
=
N
n N
n
S
X V
2
) (

n
S
X V
2
) ( =

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD


ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
66

Error de Estimacin: (B)

En toda estimacin se debe establecer un error de estimacin, denominado con
B, el cual se calcula de la siguiente manera:




Donde es el nivel de significancia que asume el investigador. Con el valor de
B se puede establecer un intervalo de confianza (1- )100% de que la media
esta en el intervalo: B X

Ejemplo 1:

Sea la poblacin compuesta por los elementos U = (2, 4, 6, 8) Hallar los
parmetros y
2
.

Solucin:

Solucionmoslo por el principio del valor esperado.

= = ) ( ) ( x xp x E
Como x = 2, 4, 6, 8 entonces: p(x) = as:

=
= + + + = + + + = =
4
1
5 2 2 / 3 1 2 / 1 ) 4 / 1 ( 8 ) 4 / 1 ( 6 ) 4 / 1 ( 4 ) 4 / 1 ( 2 ) (
i
i i
x p x

Ahora la varianza:

=
= = =
n
i
i i
x p x x E x V
1
2 2 2
) ( ) ( ) ( ) ( o
Reemplazando:
) 4 / 1 ( ) 5 8 ( ) 4 / 1 ( ) 5 6 ( ) 4 / 1 ( ) 5 4 ( ) 4 / 1 ( ) 5 2 ( ) ( ) ( ) (
2 2 2 2
1
2 2
+ + + = = =

=
n
i
i i
x p x x V o

5 4 / 9 4 / 1 4 / 1 4 / 9 ) (
2
= + + + = = x V o

Ejemplo 2:

Utilizando muestras de tamao 2 sin reemplazamiento hallar
) ( ) ( x V y x E = Adems el error de estimacin para = 1%

Solucin:

Como la poblacin tiene 4 elementos y se requieren muestras de dos si
reemplazamiento, entonces:
) (
) 2 / 1 (
X V Z B

o
=
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
67

6
)! 2 4 ( ! 2
! 4
2 4
=

= C Muestras posibles, cada una tendr como probabilidad 1/6



MUESTRA P(x
i
) x S
2
) (x V


n
1
= 2, 4 1/6 3 2 1/2
n
2
= 2, 6 1/6 4 8 2
n
3
= 2, 8 1/6 5 18 9/2
n
4
= 4, 6 1/6 5 2
n
5
= 4, 8 1/6 6 8 2
n
6
= 6, 8 1/6 7 2 1/2

Veamos cmo fueron los clculos:
3
2
4 2
1
=
+
= x ----- | | 2 ) 3 4 ( ) 3 2 (
1 2
1
2 2 2
= +

= s -----
2
1
4
2 4
2
2
) ( = |
.
|

\
|
= x V



Ahora si podemos calcular la media y la varianza.

=
= + + + + + = =
4
1
5 ) 6 / 1 ( 7 ) 6 / 1 ( 6 ) 6 / 1 ( 5 ) 6 / 1 ( 5 ) 6 / 1 ( 4 ) 6 / 1 ( 3 ) ( ) (
i
i i
x p x x E

=
= =
n
i
i i
x p x x E x V
1
2 2
) ( ) ( ) ( ) (

Reemplazando:

| |
3
5
) 6 / 1 ( ) 5 7 ( ) 5 6 ( ) 5 5 ( ) 5 5 ( ) 5 4 ( ) 5 3 ( ) ( ) (
2 2 2 2 2 2 2
= + + + + + = = x E x V

Si utilizamos la ecuacin de varianza del estimador tenemos:

3
5
3
2 4
2
5
1
) (
2
=
|
.
|

\
|
=
|
.
|

\
|

=
N
n N
n
x V
o


Vemos que la varianza calculada por el principio de valor esperado es igual a la
obtenida por la ecuacin de varianza del estimador.


Con lo anterior lo que se esta mostrando es que:

= ) (x E y |
.
|

\
|

=
1
) (
2
N
n N
n
x V
o

El error de estimacin se calcula as:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
68


) (
) 2 / 1 (
x V z B
o
=

Como = 0,01 entonces: 1 /2 = 0,995 Para esta probabilidad z
0,995
= 2,575

324 , 3 3 / 5 575 , 2 = = B

Estimacin del Total Poblacional:

Cuando de una poblacin se obtiene una muestra aleatoria para estudiar una
caracterstica de la primera, uno de los parmetros a obtener es el total
poblacional t . Por ejemplo a partir de una muestra de personas, se puede
estimar la edad total de una poblacin, la partir de una muestra de cuentas de
ahorro, se puede estimar el capital total del banco, otros.

Sea
N
n
i
= t Donde
i
la probabilidad de seleccin del elemento i-simo
elemento en una muestra dada n. En el M. A. S. sin reemplazamiento. El t es
estimado por t

obtenido en la muestra, de la siguiente manera:




= = = =
= |
.
|

\
|
= |
.
|

\
|
= |
.
|

\
|
=
|
|
.
|

\
|
=
n
i
n
i
i i
n
i
i
n
i i
i
X N
n
X
N
n
NX
N n
X X
1 1 1 1
/ t
t



As el estimador del total poblacional:




Anlogamente:




Varianza del Estimador:

Al igual que en la estimacin de la media poblacional, para el total poblacional t
tambin se requiere identificar la bondad de ajuste del estimador, con el fin de
identificar el error de estimacin.

La varianza del estimador se obtiene con la siguiente expresin:

X N = t

t N =
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
69

|
.
|

\
|

|
|
.
|

\
|
= =
1
) ( ) (
2
2
N
n N
n
N N V V
o
t



Cuando NO se conoce la varianza poblacional
2
, entonces sta se estima por
medio de S
2
, as se obtiene la varianza estimada del estimador.

|
.
|

\
|
|
|
.
|

\
|
= =
N
n N
n
S
N X N V V
2
2
) ( ) (t



Error de Estimacin:

El error de estimacin B nos permite obtener un intervalo de confianza para un
nivel de significancia para el total poblacional.
Como ) (
) 2 / 1 (
t
o

V Z B

= Entonces:

|
.
|

\
|
|
|
.
|

\
|
=

N
n N
n
S
N Z B
2
2
) 2 / 1 ( o


Con un nivel de significancia , el parmetro t estar entre B t




Ejemplo 1:

En un centro de investigacin se desea saber el tiempo que dedican los
investigadores a tareas administrativas, para lo cual se toma una muestra de 60
investigadores que al tomarles el tiempo de actividades se obtuvo un promedio
de 15 hr/semana, con una varianza de 5 hr
2
. El centro cuento con 800
investigadores. Estimar el total de horas utilizadas en tareas administrativas por
parte de los investigadores y el error de estimacin para un nivel de significancia
del 1%.



Solucin:

Los datos:

Poblacin N = 800
Muestra n = 60
Promedio muestral 15 = x
Varianza muestral 5
2
= s
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
70

La estimacin de total poblacional:

000 . 12 15 800 = = = x x N t



En le centro de investigacin los investigadores gustan un total de 12.00 horas
por mes en trmites administrativos.

Para hallar el error de estimacin, primero calculamos la varianza del estimador.
Como no conocemos la varianza poblacional, sino la muestral; entonces
calculamos la varianza estimada del estimador.

|
.
|

\
|
|
|
.
|

\
|
=
N
n N
n
s
N x V
2
2
) (



Reemplazando:

2 , 331 . 49 07708 , 0 000 . 640
800
60 800
60
5
800 ) (
2
= = |
.
|

\
|
|
.
|

\
|
= x x V



Ahora si podemos calcular el error de estimacin:

) (
) 2 / 1 (
x V z B

o
= Pero z
(1-/2)
= Z
0,995
=2,575

92 , 571 2 , 331 . 49 575 , 2 ) (
) 2 / 1 (
= = =

x V z B

o


El total estimado de tiempo que los investigadores dedican a labores
administrativas esta entre: 92 , 571 2 , 331 . 49

Ejemplo 2:

En una granja avcola hay 250 gallinas, el avicultor desea saber el total de
huevos que producen semanalmente, para lo cual tomo una muestra de 20
gallinas, cuyo promedio de huevos producidos es de 16 huevos / gallina /
semana, con una varianza de 28 huevos
2
. Adems hallar el error de estimacin.

Solucin:

A partir de los datos se puede estimar el total de huevos:

00 . 4 16 250 = = = x x N t



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
71

Se estima que la produccin de huevos por semana en la granja es de 4.000
unidades.

Como tarea se debe verificar que el error de estimacin B = 556,10

Estimacin de la Proporcin Poblacional:

Cuando se desea determinar la proporcin de un atributo en una poblacin, el
experimento es binomial.

Sea



=
atributo tiene no y si
atributo tiene y si
y
i
i
0
1

Los elementos que tienen el atributo son

=
=
N
i
i
y a
1
Donde y
i
= 1.
Entonces:
N
a
P = Pero como no se conoce P, ste se puede estimar a partir
de la proporcin muestral. Si n es grande, p

es aproximadamente normal,
donde:

P p E = ) (

y
n
q x p
p V

= ) (

Para el M. A. S. el estimador de la proporcin poblacional P esta dado por:

=
=
n
i
i
y
n
p
1
1
Donde y
i
son los elementos que tiene el atributo.

Varianza del Estimador:

Al igual que en la estimacin de la media poblacional, para la proporcin
poblacional P, tambin se requiere identificar la bondad de ajuste del estimador,
con el fin de identificar el error de estimacin.

Para poblaciones infinitas:

n
q x p
p V

= ) ( Varianza estimada del estimador.



Para poblaciones finitas:

|
.
|

\
|
=
N
n N
n
q x p
p V

) (
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
72

Error de Estimacin:

Como en los caos anteriores, el error de estimacin B nos permite obtener un
intervalo de confianza para un nivel de significancia para la proporcin
poblacional.

Para poblaciones infinitas:

n
q x p
z B

) 2 / 1 ( o
=

Para poblaciones finitas:

|
.
|

\
|

=

N
n N
n
q x p
z B
1
) 2 / 1 (

o


Ejemplo

En un estudio de fallas que presenta una maquina empacadora, se tomo una
muestra de 120 unidades, de las cuales 32 presentaron fallas. Estimar la
proporcin poblacional de fallas en la maquina, adems del error de estimacin
para un nivel de significancia del 5%.

Solucin:

Como 32
1
=

=
n
i
i
y Entonces: 267 , 0
120
32
= = p



La proporcin de fallas en la maquina es del 26,7%


En seguida calculamos la varianza del estimador, como la poblacin es infinita,
entonces:

00163 , 0
120
733 , 0 267 , 0
) ( = = =
x
n
q x p
p V



Ahora calculamos el error de estimacin:

0791 , 0 00163 , 0 96 , 1 ) ( ) (
975 , 0 ) 2 / 1 (
= = = =

p V z p V z B

o


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
73

Por consiguiente la proporcin de fallas en la maquina esta en el intervalo de
proporciones: 18,8% - 34,6%

Ejemplo

La gerencia de una multinacional desea conocer la tendencia de sus empleados
a capacitarse, la compaa cuenta con 650 empleados, para el estudio se toma
una muestra de 80 empleados obtenindose los siguientes resultados:

x
i
= 1 Empleados que desean estudiar Ingeniera
x
i
= 0 Empleados que No desean estudiar Ingeniera
y
i
= 1 Empleados que desean estudiar Administracin
y
i
= 0 Empleados que No desean estudiar Administracin

35
80
1
=

= i
i
x y 25
80
1
=

= i
i
y

Estimar la proporcin de empleados que desean estudiar Ingeniera,
Administracin. Adems del error de estimacin al 1%

Solucin:

Calculamos las proporciones estimadas:

4375 , 0
80
35
= =
x
p y 3125 , 0
80
25
= =
y
p

Calculamos la varianza, pero tengamos en cuenta que la poblacin es finita.

00273 , 0
650
80 650
1 80
5625 , 0 4375 , 0
1
) ( = |
.
|

\
|

= |
.
|

\
|

=
x
N
n N
n
q x p
p V
x



00208 , 0
650
80 650
1 80
75 , 0 25 , 0
1
) ( = |
.
|

\
|

= |
.
|

\
|

=
x
N
n N
n
q x p
p V
y



El error de estimacin:

1345 , 0 00273 , 0 575 , 2 ) ( ) (
995 , 0 ) 2 / 1 (
= = = =
x x x
p V z p V z B

o


1174 , 0 00208 , 0 575 , 2 ) ( ) (
995 , 0 ) 2 / 1 (
= = = =
y y y
p V z p V z B

o


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
74

Por consiguiente el 43,75% de empleados desean estudiar Ingeniera con un
error de estimacin del 13,45%. El 31,25% desea estudiar Administracin con
un error de estimacin del 11,74%.

Estimacin por intervalos de Confianza.
En el contexto de estimar un parmetro poblacional, un intervalo de confianza
es un rango de valores (calculado en una muestra) en el cual se encuentra el
verdadero valor del parmetro, con una probabilidad determinada.
La probabilidad de que el verdadero valor del parmetro se encuentre en el
intervalo construido se denomina nivel de confianza, y se denota 1- . La
probabilidad de equivocarnos se llama nivel de significancia y se simboliza .
Generalmente se construyen intervalos con confianza 1- =95% (o significancia
=5%). Menos frecuentes son los intervalos con =10% o =1%.

Leccin No 12: Intervalos de confianza para la media y
la diferencia de medias con muestras grandes

Intervalos de confianza para la media con muestras grandes
30 > n

Recordemos que para obtener un intervalo de confianza se procese como sigue:

1. Se determina el riesgo de error que se quiere asumir al afirmar que el
parmetro (en este caso la media) se encuentra en el interior del intervalo.

2. El intervalo de confianza se obtiene separando a izquierda y derecha de la
estimacin del parmetro (en este caso la media) un mltiplo de error
estndar ( )
n
o
. El mltiplo est determinado por el valor del estadstico Z
asociado al nivel de confianza escogido.

Suponga por ejemplo que Ud. est dispuesto a aceptar un riesgo de error de
05 . 0 = o ; entonces 95 . 0 1 = o , luego se trata de un intervalo de confianza del
nivel 0.95. Dado que esta probabilidad se distribuye simtricamente a los dos
lados de la media, se obtiene 0.475 a cada lado. Ahora bien, el valor de Z
asociado a una probabilidad de 0.475 es de 1.96 (de acuerdo a la tabla de la
distribucin normal) a la derecha de la media y de 1.96 a la izquierda, como se
puede apreciar el la siguiente grafica:


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
75

Figura 4.2 Intervalo de confianza para grandes muestras



El intervalo de confianza est dado por la siguiente relacin:

(

|
.
|

\
|
+ |
.
|

\
|

n
X
n
X
o o
96 . 1 ; 96 . 1


Expresado en forma generalizada, para poblaciones infinitas o si se muestrea
sin reemplazamiento una poblacin finita, la relacin es:


|
.
|

\
|

n
X
o
96 . 1


Si la poblacin es finita o si se muestrea sin reemplazamiento una poblacin
finita, la relacin es la siguiente:

|
|
.
|

\
|

|
.
|

\
|

1 N
n N
n
Z X
o


Recuerde que Z depende del nivel de confianza que se fije y que si la
desviacin estndar poblacional ( ) o es desconocida, se utiliza como estima la
desviacin muestral (S).

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
76

Podr darse cuenta las semejanzas con los procedimientos utilizados para las
pruebas de hiptesis, vistas anteriormente para pruebas unilaterales y
bilaterales.

Ejemplo 4.2

El contenido de protenas de una muestra de 100 pollos criados en una
determinada granja dio una media de 20.2 gramos con una desviacin estndar
de 1.14 gramos. Obtener el intervalo de confianza del 99% para el contenido
medio de protena de todos los pollos de la granja.

Como el intervalo de confianza se distribuye simtricamente a los dos lados de
la media, en este caso a cada lado le corresponde una probabilidad de 0.495
(0.99/2 = 0.495). El valor de Z asociado a una probabilidad de 0.795 es 2.58.
El intervalo para la media ser:


294 . 0 2 . 20
100
14 . 1
58 . 2 2 . 20 |
.
|

\
|
|
.
|

\
|

n
Z X
o


El contenido medio de protena de toda la poblacin de pollos de la granja esta
dentro de un intervalo de 19.91 y 20.49 gramos con un nivel de confianza del
99%, y se expresa de la siguiente forma:


{ } 99 . 0 49 . 20 91 . 19 > P


Ejemplo 4.3

Se toma una muestra al azar de 40 vasos de kumis de un lote de 500, dieron un
promedio de 76 caloras por cada 100 gramos con una desviacin estndar 2.9
caloras. Obtener el intervalo de confianza del 95% para el contenido medio de
caloras para todo el lote.

Ntese que se trata de una poblacin finita y muestreo sin reemplazamiento. El
valor de Z asociado a un nivel de confianza del 95% es 1.96 (0.95/2 = 0.475) de
acuerdo a la tabla de la distribucin normal.

El intervalo de confianza en este caso est dado por:

87 . 0 76
499
40 500
40
9 . 2
76
1

|
|
.
|

\
|

|
.
|

\
|

|
|
.
|

\
|

|
.
|

\
|

N
n N
n
Z X
o


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
77

Por tanto el contenido medio de caloras del lote esta dentro del intervalo de
75.13 y 76.87 caloras con un 95% de nivel de confianza, y expresado
matemticamente es:


{ } 95 . 0 87 . 76 13 . 75 > P


Intervalo de confianza para la diferencia entre dos medias.

El intervalo de confianza para la diferencia de medias de poblaciones infinitas
est dado por:

2
2
2
1
2
1
2 1
n n
Z X X
o o
+


Ejemplo 4.5

Se analiz el contenido de vitamina A de una muestra de mantequilla y de una
muestra de margarina enriquecida. En la muestra de mantequilla formada por 40
potes de 100 gramos, el contenido medio de vitamina A fue de 4.86 unidades
con una desviacin estndar de 0.06. En la muestra de margarina enriquecida
formada por 50 potes de 100 gramos el contenido medio de vitamina A fue de
5.0 unidades con una desviacin estndar de 0.08 unidades. Encontrar el
intervalo de confianza del 95% para la diferencia de contenido medio de
vitamina A para el experimento en mencin.

Generalmente el mayor valor de la media se toma como
1
X .
El nivel de confianza del 95% corresponde un Z = 1.96.


Aplicando la frmula se tiene:

029 . 0 14 . 0 00009 . 0 000128 . 0 96 . 1 14 . 0
40
06 . 0
50
08 . 0
96 . 1 86 . 4 0 . 5
2 2
2
2
2
1
2
1
2 1
+
+ +
n n
Z X X
o o



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
78

Por lo tanto se puede afirmar con un nivel del 95% que la diferencia de los dos
contenidos de vitamina A de la mantequilla y la margarina enriquecida se
encuentran entre 0.111 y 0.169 unidades.

Intervalos diferencias de medias y varianzas desconocidas e
iguales ( = = )
Cuando las varianzas son desconocidas, se debe realizar previamente una
prueba estadstica para verificar si stas son iguales o diferentes. Para realizarlo
debemos hacer uso de la distribucin F, bien sea mediante el clculo de la
probabilidad de que la muestra tomada provenga de dos poblaciones con
varianzas iguales, o mediante el uso de un intervalo de confianza para la
relacin de dos varianzas, segn se estudiar ms adelante.
a) Si mediante el uso de la distribucin F se llega a la conclusin de que las
varianzas son iguales, el procedimiento a seguir para el clculo del intervalo
de confianza para la diferencia de dos medias ser el siguiente:
El estadstico usado como estimador puntual de la diferencia de medias 1 -
2 ser T = , que es un estimador suficiente.
b) La variable aleatoria asociada con el estimador ser la variable T definida
como:


donde es un estimador combinado de o, mejor que por separado, y


c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente
probabilidad:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
79



De nuevo, manipulando la expresin anterior en forma similar a los casos se
llega al siguiente teorema que nos define el intervalo de confianza para la
diferencia entre dos medias 1 - 2 con varianzas desconocidas o1 y o2,
pero iguales:
Teorema. Si son las medias y las varianzas de dos muestras
aleatorias de tamaos n1 y n2, respectivamente, tomadas de dos poblaciones
normales e independientes con varianzas desconocidas pero iguales, entonces
un intervalo de confianza del 100(1- 1 - 2
es:


Ejemplo. La siguiente tabla presenta los resultados de dos muestras aleatorias
para comparar el contenido de nicotina de dos marcas de cigarrillos.

Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar
de poblaciones normales con varianzas desconocidas, construya un intervalo de
confianza del 95% para la diferencia real de nicotina de las dos marcas.
Solucin. Inicialmente mediante la distribucin F debemos verificar si las
varianzas son iguales
( = = )


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
80

Buscando en la tabla de la distribucin F para 7 grados de libertad en el
numerador y 9 en el denominador, vemos que el valor de la probabilidad est
entre 0.10 y 0.25 (aproximadamente 0.19, mediante interpolacin lineal). Como
esta probabilidad es muy alta, concluimos que no hay evidencia para rechazar la
hiptesis de que las varianzas sean iguales.
Como las varianzas son iguales, calculamos que est dado por:


El intervalo de confianza del 95% est dado por (t0.025,16 = 2.12):




Debido a que la diferencia real puede ser cero, no se puede concluir que existe
una diferencia en el contenido de nicotina de las dos marcas de cigarrillos.
Ejemplo: El gerente de una refinera piensa modificar el proceso para producir
gasolina a partir de petrleo crudo. El gerente har la modificacin slo si la
gasolina promedio que se obtiene por este nuevo proceso (expresada como un
porcentaje del crudo) aumenta su valor con respecto al proceso en uso. Con
base en experimentos de laboratorio y mediante el empleo de dos muestras
aleatorias de tamao 12, una para cada proceso, la cantidad de gasolina
promedio del proceso en uso es de 24.6 con una desviacin estndar de 2.3, y
para el proceso propuesto fue de 28.2 con una desviacin estndar de 2.7. El
gerente piensa que los resultados proporcionados por los dos procesos son
variables aleatorias independientes normalmente distribuidas con varianzas
iguales. Con base en esta evidencia, debe adoptarse el nuevo proceso?

Intervalos para diferencias de medias y varianzas desconocidas
y desiguales 1 2
Si mediante el uso de la distribucin F se llega a la conclusin de que las
varianzas son diferentes, el procedimiento a seguir para el clculo del intervalo
de confianza para la diferencia de dos medias ser el siguiente:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
81

a) El estadstico usado como estimador puntual de la diferencia de medias 1 -
2 ser T = , que es un estimador suficiente.
b) La variable aleatoria asociada con el estimador ser la variable T definida
como:
donde
c) El intervalo de confianza esta dado por el siguiente teorema, basado en la
distribucin t con n grados de libertad.
Teorema. Si son las medias y las varianzas de dos muestras
aleatorias de tamaos n1 y n2, respectivamente, tomadas de dos poblaciones
normales e independientes con varianzas desconocidas y desiguales, entonces
un intervalo de confianza aproximado del 100(1-
medias 1 - 2 es:

Problema. Cierto metal se produce, por lo comn, mediante un proceso
estndar. Se desarrolla un nuevo proceso en el que se aade una aleacin a la
produccin del metal. Los fabricantes se encuentran interesados en estimar la
verdadera diferencia entre las tensiones de ruptura de los metales producidos
por los dos procesos. Para cada metal se seleccionan 12 ejemplares y cada uno
de stos se somete a una tensin hasta que se rompe. La siguiente tabla
muestra las tensiones de ruptura de los ejemplares, en kilogramos por
centmetro cuadrado:

Si se supone que el muestreo se llev a cabo sobre dos distribuciones normales
e independientes, obtener los intervalos de confianza estimados del 95 y 99%
para la diferencia entre los dos procesos. Interprete los resultados

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
82

Leccin No 13: Intervalos de Confianza para Proporciones y
para diferencias de proporciones.
Intervalo de confianza para proporciones.

Recuerde las propiedades de la distribucin binomial y de las pruebas de
hiptesis vistan anteriormente.

El intervalo de confianza para la proporcin de la poblacin infinita y muestreo
con reemplazamiento est dada por:


n
PQ
Z P


En tanto que el intervalo de confianza para la proporcin de la poblacin finita y
muestreo con reemplazamiento est dada por:


1

N
n N
n
PQ
Z P


donde el valor de Z depende del nivel de confianza deseado.

Ejemplo 4.4

De un lote de 500 frascos de jugo se extrae una muestra de 50 frascos de los
cuales 43 cumplen con las especificaciones exigidas y 7 fueron rechazados.
Hallar el intervalo de confianza del 95% para la proporcin de frascos de jugo
aceptados del lote de estudio.

Para un nivel de confianza de 95% el valor de Z = 1.96 (tabla de distribucin
normal)

Aplicando la frmula se tiene:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
83

( )( )
( )( ) 09 . 0 86 . 0 95 . 0 049 . 0 96 . 1 86 . 0
499
450
50
) 14 . 0 )( 86 . 0 (
96 . 1 86 . 0
1 500
50 500
50
50
43
1
50
43
96 . 1
50
43
1

N
n N
n
PQ
Z P


Con un nivel de confianza del 95% la proporcin de frascos aceptados fue de
0.77 y 0.95, es decir el nivel de aceptacin est entre 380 y 480 frascos de lujo
de un lote de 500 frascos


Intervalo de confianza para la diferencia de dos proporciones.

El intervalo de confianza para la diferencia de proporciones de poblaciones
infinitas est dado por:

2
2 2
1
1 1
2 1
n
q p
n
q p
Z P P +


Ejemplo 4.6

En un supermercado se vende queso de dos marcas diferentes. En el mismo
perodo de tiempo se vende 380 de un total de 500 unidades de la marca A y
333 de un total de 450 unidades de la marca B. Hallar el intervalo de confianza
del 99% para la diferencia entre las proporciones de los quesos A y B que salen
al mercado y se venden.










UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
84

Aplicando la formula de la diferencia de proporciones se tiene:

073 . 0 02 . 0
450
) 26 . 0 )( 74 . 0 (
500
24 . 0 )( 76 . 0 (
58 . 2 74 . 0 76 . 0
450
450
117
450
333
500
500
120
500
380
58 . 2
450
333
500
380
2
2 2
1
1 1
2 1
+
|
.
|

\
|
|
.
|

\
|
+
|
.
|

\
|
|
.
|

\
|
+
n
q p
n
q p
Z P P



Por lo cual es de esperar con un nivel de confianza del 99% que la verdadera
diferencia de proporcin de venta de los quesos A y B se encuentre entre
0.053 y 0.093. La diferencia de proporcin negativa del lmite inferior del
intervalo indica que en esta regin la diferencia est a favor del queso B cuya
proporcin de venta es menor en las muestras estudiadas.


Leccin No 14: Intervalos de confianza para medias y para
diferencia de medias con muestras pequeas 30 n

El caso anterior se estudi intervalos de confianza aplicados a la media
poblacional suponiendo que se conoca la desviacin estndar de la poblacin
( ) o . Cuando no se conoce la desviacin estndar de la poblacin y la muestra
es pequea, se utiliza la distribucin t cambiando los valores crticos del
estadstico t asociados al nivel de confianza.

En este caso el intervalo de confianza esta dado por:


|
.
|

\
|

n
S
t X


con n 1 grados de libertad y el valor de t depende del nivel de confianza.

Ejemplo

Una muestra de 10 cajas de atn dio un peso neto medio de 184 gramos y una
desviacin estndar de 3.0 gramos. Encontrar los lmites de confianza con un
95% para el verdadero peso promedio de todas las latas de atn.


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
85

La siguiente grafica nos ayuda a comprender la presente situacin:


Figura 4.1 Intervalo de confianza para pequeas muestras


En la tabla de la distribucin t con 9 grados de libertad y un nivel de significancia
del 10% para dos colas, se registra un valor de 2.26 como valor crtico.

El intervalo de confianza para la media de peso de todas las cajas de atn esta
dado por:


14 . 2 184
10
0 . 3
26 . 2 184 |
.
|

\
|
|
.
|

\
|

n
S
t X


Se interpreta que las cajas de atn tienen un promedio de peso entre 181.86 y
186.14 gramos con un nivel de confianza del 95% y expresado
matemticamente es:


{ } 95 . 0 14 . 186 86 . 181 > P



Intervalos de confianzas para diferencias entre dos medias con
muestras relacionadas o dependientes.
Cuando se comparan las medias de dos niveles es deseable que las
observaciones dentro de cada nivel sean lo ms homogneas posibles. Si existe
un efecto debido a factores externos stos pueden neutralizarse mediante la
aplicacin del principio de la aleatoriedad. Esto se logra tomando las
observaciones en pares. Se supone que las condiciones exteriores son las
mismas para cada par, pero pueden variar de un par a otro. Por ejemplo,
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
86

suponga que se tiene un grupo de personas que se someten a una dieta para
reduccin de peso, y para cada persona se lleva el registro del peso, en kgs,
antes de la dieta, y un tiempo razonable despus de haber empezado la dieta.
En este caso, el peso de cada persona despus de la dieta no es independiente
del peso de la misma persona antes de la dieta; por lo tanto estas dos variables
estn correlacionadas, y si se quiere examinar el efecto de la dieta, se debe
llevar el registro del peso para la misma persona antes y despus de la dieta.

Sean (X11, X21), (X12, X22),...(X1n,X2n) los datos consistentes de n pares;
supondremos que las variables aleatorias X1 y X2 tienen medias 1 y 2, y
varianzas , respectivamente. Podemos suponer que el conjunto de datos
apareados son observaciones de un conjunto independiente de parejas de
variables aleatorias provenientes de una distribucin normal bivariada (X1 X2)
~f(X1, X2), y que las diferencias D = X1 - X2 se distribuyen normalmente con
valor esperado D y varianza .
Sea Dj la diferencia entre las variables aleatorias del j-simo par, es decir, Dj =
X1j-X2j. El valor esperado y la varianza de la diferencia entre las variables est
dado por:



Si las variables X1 y X2 se distribuyen normalmente, las diferencias estarn
distribuidas tambin de manera normal con media D y varianza
Para estimar la media y la varianza de la diferencia, se debe tomar una muestra
aleatoria de tamao n, antes y despus, calcular la diferencia, y luego la
diferencia promedio y la varianza muestral de las diferencias, como se ilustra en
el siguiente cuadro.


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
87

Dada la muestra aleatoria se calculan los siguientes estadsticos que servirn
para estimar la media y la varianza de la diferencia, , respectivamente:





Sabemos que la siguiente variable aleatoria sigue una distribucin normal
estndar:



Sin embargo, como no es conocido, lo podemos estimar mediante la
varianza muestral , en cuyo caso la siguiente variable aleatoria sigue una
distribucin t con n-1 grados de libertad.

Usando la distribucin t podemos calcular el intervalo de confianza para la
media de observaciones pareadas, el cual est dado por el siguiente teorema.

Teorema. Si son la media y la desviacin estndar mustrales de la
diferencia de n pares aleatorios de mediciones normalmente distribuidas,
entonces un intervalo de confianza del 100(1-o) % para la diferencia de medias
D = 1 -2 es:


Ejemplo: Se est investigando la utilidad de dos lenguajes de diseo para
mejorar las tareas de programacin. Se le ha pedido a 12 programadores
expertos, familiarizados con los dos lenguajes, que codifiquen una funcin
estndar con ambos lenguajes, y se registra el tiempo requerido, en minutos,
para realizar estas dos tareas. Los datos obtenidos son los siguientes:


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
88


Encuentre un intervalo de confianza para la diferencia en los tiempos medios de
codificacin. Use un nivel de confianza del 95%. Existe alguna evidencia que
indique una preferencia por alguno de los dos lenguajes?
Tenemos que:
El intervalo de confianza est dado por:


Dado que la diferencia puede ser cero, se concluye que no hay evidencia para
rechazar la hiptesis de que ambos lenguajes requieren el mismo tiempo de
programacin, y por lo tanto no hay preferencia por ninguno de los dos
lenguajes.

Leccin No 15: Intervalos de confianza para la varianza
poblacional.

Para ver cmo se aplica un intervalo de confianza para la varianza poblacional,
suponga que se est interesado en estimar la varianza poblacional para el
mecanismo de llenado de tal modo que la media de la cantidad de llenado sea
de 16 onzas y es crtica la varianza de los llenados. Para el efecto se toma una
muestra de 20 envases llenos y se encuentra que la varianza de las cantidades
de llenado es 0025 . 0
2
= s Sin embargo, no se puede esperar que esa varianza
que procede de una muestra de 20 envases, proporcione el valor exacto de la
varianza de la poblacin de recipientes llenos con dicho producto. En
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
89

consecuencia el inters est es determinar un estimado de intervalo de la
varianza poblacional.

Se utiliza el smbolo
2
o
_ para representar el valor de la distribucin ji cuadrado
que da como resultado un rea, o probabilidad, de o a la derecha del valor ji
cuadrado establecido. Por ejemplo en la siguiente figura, se observa la
distribucin ji cuadrado con 8523 , 32
2
025 . 0
= _ que indica que el 2.5% de los valores
de ji cuadrado esta a la derecha de 32,8523, y 90655 , 8
2
975 . 0
= _ que indica que el
97.8% de los valores de ji cuadrado esta a la derecha de 8,90655. Consultan
con la tabla del anexo G que hace relacin a la tabla de distribucin de ji
cuadrado, los resultados son iguales.

En la grfica se puede observar que 0.95 o el 95% de los valores de la ji
cuadrada estn entre
2
975 . 0
_ y
2
025 . 0
_ . Significa esto que existe una probabilidad
del 95% de obtener un valor de
2
_ tal que:


( )
2
025 . 0
2
2
2
975 . 0
1
_
o
_ s

s
S n


Esta ecuacin define un estimado de intervalo, porque el 95% de todos los
valores posibles de
( )
2
2
1
o
S n
se encuentran en el intervalo de
2
975 , 0
_ a
2
025 . 0
_ .


Figura 4.3 Distribucin ji cuadrado con 19 grados de libertad


Ahora se requiere llevar a cabo algunas operaciones algebraicas de la ecuacin,
para determinar un estimado de intervalo de
2
o de la varianza poblacional.
Realizando operaciones del extremo izquierdo de la ecuacin se tiene:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
90

( )
2
2
2
975 . 0
1
o
_
S n
s
despejando la varianza se tiene:
( )
2
975 . 0
2
2
1
_
o
S n
=


realizando operaciones semejantes con la desigualdad del extremo derecho de
la ecuacin se tiene:

( )
2
2
025 . 0
2
1
o
_
s
S n
despejando la varianza se tiene:
( )
2
025 . 0
2
2
1
_
o
S n
>


Por ltimo combinando los resultados de las operaciones se llega a:


( ) ( )
2
975 . 0
2
2
2
025 . 0
2
1 1
_
o
_
S n S n
s s



Esta relacin representa el estimado del intervalo de confianza para la varianza
2
o .

Ejemplo 4.7.

Regresando al problema para determinar un estimado de intervalo de la
varianza poblacional de las cantidades de llenado, recuerde que la muestra es
de 20 envases que presenta una varianza de 0025 . 0
2
= S . Con un tamao de
muestra de 20, los grados de libertad son de 19. En la figura presentada
anteriormente, se determina que 90655 , 8
2
975 . 0
= _ y 8523 , 32
2
025 . 0
= _ . Con dichos
valores, reemplazando en la ecuacin del intervalo para la varianza poblacional
se tiene:

( )( ) ( )( )
90655 , 8
0025 . 0 1 20
8523 , 32
0025 . 0 1 20
2

s s

o


O sea que el intervalo se encuentra dentro de los lmites: 0728 . 0 0374 . 0
2
s s o .

Con lo anterior se ha ilustrado el proceso de aplicar la distribucin ji cuadrado
para establecer estimados de intervalo de una varianza y de una desviacin
estndar de una poblacin. Especficamente observe que como se us
2
975 , 0
_ y
2
025 . 0
_ el estimativo tiene un coeficiente de confianza de 0.95. Cuando la
ecuacin se amplia a un caso general de cualquier coeficiente de confianza, el
estimativo del intervalo de confianza es:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
91


( ) ( )
( )
2
2
1
2
2
2
2
2
1 1
o o
_
o
_

s s
S n S n


En donde los valores de
2
_ se basan en una distribucin ji cuadrado con (n-1)
grados de libertad, y en donde ( ) o 1 es el coeficiente de confianza.

Ejercicios: 3.

1. Se clculado el intervalo de confianza al 95% para una muestra en la que x =
10, s = 4 y n= 100. Si el resultado con una muestra de 225 fuera el mismo y
calculramos el intervalo de confianza al 99%, Cmo debera ser la amplitud del
intervalo:

R/ta: Ms grande

2. Si el intervalo de confianza al 95% para la media de una poblacin es (52;
68). Cul podra ser el intervalo al 99% de confianza?

R/ta: (51; 69)

3. Suponga que el intervalo de confianza al 98% es (0,60; 0,84). Cul es su
interpretacin

R/ta: Estamos convencidos, al 98% de confianza, de que la verdadera
proporcin estar incluida en el intervalo (0,60; 0,84)

4. En una empresa se obtuvo, mediante una encuesta a 36 de sus empleados
de la parte operativa y un intervalo de confianza del 95%, que el salario
promedio estaba entre ($450 mil, $600 mil). Si se desea cambiar el nivel de
confianza al 99%, el intervalo sera:
R/ta: Ms ancho, pero con un riesgo ms pequeo de ser incorrecto.

5. Un corredor de la bolsa de valores siente curiosidad por saber el tiempo
promedio que trascurre entre la colocacin y ejecucin de una orden en el
mercado. Construyo un intervalo de confianza del 95% para el tiempo medio de
ejecucin encontrando que: los extremos del intervalo obtenido son (15 y 25),
con una confiabilidad de 95%. Con base en este intervalo de confianza se
puede concluir que:

R/ta: El verdadero tiempo promedio que trascurre entre la colocacin y
ejecucin de una orden en el mercado esta entre 15 y 25 das, con una
confiabilidad de 95%
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
92


6. Se ha tomado una muestra de los precios de un mismo producto alimenticio
en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han
encontrado los siguientes precios: 95, 108, 97, 112, 99, 106, 105, 100, 99, 98,
104, 110, 107, 111, 103, 110.
Suponiendo que los precios de este producto se distribuyen segn una ley
normal de varianza 25 y media desconocida:
-Determine el intervalo de confianza, al 95%, para la media poblacional.

R/ta:(101.55; 106.45)

7. La media de las estaturas de una muestra aleatoria de 400 personas de una
ciudad es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es
una variable aleatoria que sigue una distribucin normal con varianza
2
= 0,16
m
2
.
-Construye un intervalo, de un 95% de confianza, para la media de las estaturas
de la poblacin.

R7ta: (1.7108, 1.7892)

8. Las ventas mensuales de una tienda de electrodomsticos se distribuyen
segn una ley normal, con desviacin tpica 900 . En un estudio estadstico de
las ventas realizadas en los ltimos nueve meses, se ha encontrado un intervalo
de confianza para la media mensual de las ventas, cuyos extremos son 4 663
y 5 839 .
-Cul ha sido la media de las ventas en estos nueve meses?

R/ta: x =5251

-Cul es el nivel de confianza para este intervalo?

R/ta: 95%

9. Se desea estimar la proporcin, p, de individuos daltnicos de una poblacin
a travs del porcentaje observado en una muestra aleatoria de individuos, de
tamao n.
1. Si el porcentaje de individuos daltnicos en la muestra es igual al 30%,
calcula el valor de n para que, con un nivel de confianza de 0,95, el error
cometido en la estimacin sea inferior al 3,1%.

R/ta: Al menos 840 individuos.

10. Si el tamao de la muestra es de 64 individuos, y el porcentaje de individuos
daltnicos en la muestra es del 35%, determina, usando un nivel de significacin
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
93

del 1%, el correspondiente intervalo de confianza para la proporcin de
daltnicos de la poblacin.

R/ta(0.196;0.504)

11. En una poblacin una variable aleatoria sigue una ley normal de media
desconocida y desviacin tpica 2.
-Observada una muestra de tamao 400, tomada al azar, se ha obtenido una
media muestra al igual a 50. Calcule un intervalo, con el 97 % de confianza,
para la media de la poblacin.

R/ta:(49,783 y 50,217)

- Con el mismo nivel de confianza, qu tamao mnimo debe tener la muestra
para qu la amplitud del intervalo que se obtenga sea, como mximo, 1?

R/ta: n 76

12. La cantidad de hemoglobina en sangre del hombre sigue una ley normal
con una desviacin tpica de 2g/dl.
-Calcule el nivel de confianza de una muestra de 12 extracciones de sangre
que indique que la media poblacional de hemoglobina en sangre est entre
13 y 15 g/dl.

R/ta:91.64

13. Si X ~ N (40,10), calcular Pr (39 X 41) para n=10. En qu intervalo
se obtendrn el 95% de los resultados?

R/ta : (33.802,46.198)

14. Se desea cambiar una mquina en una cadena de produccin. Se toman
muestras con la mquina actual y con la nueva mquina para determinar si se
van a producir mejoras en el sistema. 75 de 1.000 artculos del procedimiento
actual presentaron defectos y lo mismo sucedi con 80 de 2.500 partes del
nuevo, determine un intervalo de confianza del 90% para la verdadera diferencia
de proporciones de partes defectuosas.

R/ta: (0,0281, 0,0579).

15. Una marca de lavadoras quiere saber la proporcin de amas de casa que
preferiran usar su marca. Toman al azar una muestra de 100 amas de casa y
20 dicen que la usaran. Calcula un intervalo de confianza del 95% para la
verdadera proporcin de amas de casa que preferiran dicha lavadora.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
94

R/ta: (0,122; 0,278)


Autoevaluacin. 1

Para determinar el tamao muestral de un estudio, debemos considerar
diferentes situaciones y verificar el cumplimiento de varios factores:
Si deseamos estimar una proporcin, debemos saber:
a. El nivel de confianza o seguridad (1-). El nivel de confianza
prefijado da lugar a un coeficiente (Z). Para una seguridad del
95% = 1.96, para una seguridad del 99% = 2.58.
b. La precisin que deseamos para nuestro estudio.
c. Una idea del valor aproximado del parmetro que queremos medir
(en este caso una proporcin). Esta idea se puede obtener
revisando la literatura, por estudio pilotos previos. En caso de no
tener dicha informacin utilizaremos el valor p = 0.5 (50%).
Ejemplo: A cuantas personas tendramos que estudiar para conocer la
prevalencia de diabetes?
Seguridad = 95%; Precisin = 3%: Proporcin esperada = asumamos que puede
ser prxima al 5%; si no tuvisemos ninguna idea de dicha proporcin
utilizaramos el valor p = 0,5 (50%) que maximiza el tamao muestral:

donde:
Z
2
= 1.96
2
(ya que la seguridad es del 95%)
p = proporcin esperada (en este caso 5% = 0.05)
q = 1 p (en este caso 1 0.05 = 0.95)
d = precisin (en este caso deseamos un 3%)

Si la poblacin es finita, es decir conocemos el total de la poblacin y
desesemos saber cuntos del total tendremos que estudiar la respuesta seria:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
95


donde:
N = Total de la poblacin
Z
2
= 1.96
2
(si la seguridad es del 95%)
p = proporcin esperada (en este caso 5% = 0.05)
q = 1 p (en este caso 1-0.05 = 0.95)
d = precisin (en este caso deseamos un 3%).
A cuntas personas tendra que estudiar de una poblacin de 15.000
habitantes para conocer la prevalencia de diabetes?
Seguridad = 95%; Precisin = 3%; proporcin esperada = asumamos que puede
ser prxima al 5% ; si no tuviese ninguna idea de dicha proporcin utilizaramos
el valor p = 0.5 (50%) que maximiza el tamao muestral.

Segn diferentes seguridades el coeficiente de Z vara, as:
Si la seguridad Z fuese del 90% el coeficiente sera 1.645
Si la seguridad Z fuese del 95% el coeficiente sera 1.96
Si la seguridad Z fuese del 97.5% el coeficiente sera 2.24
Si la seguridad Z fuese del 99% el coeficiente sera 2.576
Si deseamos estimar una media: debemos saber:
El nivel de confianza o seguridad (1-). El nivel de confianza
prefijado da lugar a un coeficiente (Z). Para una seguridad del
95% = 1.96; para una seguridad del 99% = 2.58.
La precisin con que se desea estimar el parmetro (2
*
d es la
amplitud del intervalo de confianza).
Una idea de la varianza S
2
de la distribucin de la variable
cuantitativa que se supone existe en la poblacin.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
96

Ejemplo: Si deseamos conocer la media de la glucemia basal de una poblacin,
con una seguridad del 95 % y una precisin
por un estudio piloto o revisin bibliogrfica que la varianza es de 250 mg/dl

Si la poblacin es finita, como previamente se seal, es decir conocemos el
total de la poblacin y desearamos saber cuantos del total tendramos que
estudiar, la respuesta sera:





Estimacin de la media de la poblacin por intervalos de confianza
Los tiempos de reaccin, en mili segundos, de 17 sujetos frente a una matriz de
15 estmulos fueron los siguientes: 448, 460, 514, 488, 592, 490, 507, 513, 492,
534, 523, 452, 464, 562, 584, 507, 461
Suponiendo que el tiempo de reaccin se distribuye Normalmente, determine un
intervalo de confianza para la media a un nivel de confianza del 95%.

Solucin:

Mediante los clculos bsicos obtenemos que la media muestral vale 505,35 y
la desviacin tpica 42,54.

Buscando en las tablas de la t de Student con 16 grados de libertad, obtenemos
que el valor que deja por debajo una probabilidad de 0,975 es 2,12

Sustituyendo estos valores en la expresin del intervalo de confianza de la
media tenemos: (505,35 - 2,12 42,54 / 4 = 505,35 + 2,12 42,54 / 4)
Operando: ( 482,80 ,, 527,90 )








UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
97











UNIDAD DOS


PRUEBAS DE HIPTESIS, ANLISIS DE VARIANZAS Y
ESTADSTICAS NO PARAMTRICAS























UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
98

CAPITULO CUATRO: PRUEBAS DE HIPTESIS


Introduccin.

En casos relacionados con situaciones especiales en las cuales se desea
comprobar la efectividad de estndares preestablecidos, la tcnica de prueba de
hiptesis resultaba bastante apropiada, por cuanto permite comprobar con
bastante certeza el grado de acierto en la fijacin de stos.

Una hiptesis estadstica se define como un supuesto hecho sobre algn
parmetro de la poblacin. Por ejemplo, los siguientes enunciados podran ser
tomados como hiptesis:

- El ingreso promedio de los trabajadores de la fbrica es de $X.
- El rendimiento promedio de los empleados de dos fbricas es
diferente.
- El promedio de duracin de las bombillas es de 1.000 horas.
- El promedio de duracin de las llantas es de 100.000 kilmetros.

Ya se ha recabado en muchas ocasiones, que el objetivo es tomar muestras
para extraer alguna conclusin o inferencia sobre la poblacin y que el nico
objetivo de examinar muestras, es que las poblaciones suelen ser demasiado
grandes y costosas de estudiar.

Objetivo general.

Contrastar la validez de una hiptesis o conjetura que se haya planteado en
relacin con una situacin determinada de la empresa, analizando errores
estadsticos posibles en las pruebas de hiptesis

Objetivos especficos.

- Examinar que se entiende por hiptesis y qu por prueba de hiptesis.
- Describir los pasos que se siguen para demostrar una hiptesis.
- Describir los errores estadsticos que se pueden presentar.
- Realizar pruebas en relacin con una y dos medias poblacionales, con
una y dos colas.
- Realizar pruebas con una y dos proporciones poblacionales.
- Realizar pruebas de hiptesis para datos que se encuentran en una
escala nominal u ordinal con aplicacin de la distribucin chi cuadrado.



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
99

Leccin No 16: Nociones fundamentales.

La prueba de hiptesis consiste en aplicar tcnicas estadsticas que permitan
aceptar o rechazar una hiptesis. Este procedimiento se conoce como contraste
de hiptesis. Las pruebas de hiptesis utilizan un procedimiento de cinco
pasos, los cuales se mencionan a continuacin:
1. Plantear las hiptesis nula y alternativa.
2. Determinar el nivel de significancia.
3. Estimar el valor estadstico de prueba.
4. Establecer la regla de decisin.
5. Tomar la decisin.


Tipos de pruebas.

En la prueba de investigacin, o de validez de una afirmacin, se conocen las
siguientes clases de pruebas:
Pruebas para grandes muestras.
Pruebas para pequeas muestras.
Pruebas de varianza.

En las pruebas de grandes muestras se realizan para los siguientes casos:
Pruebas de medias y de proporciones.
Pruebas de diferencias de medias y proporciones.

En las pruebas de pequeas muestras se realizan para los siguientes casos:
Pruebas para medias y diferencias de medias.


Nivel de significancia.

Una vez planteada la hiptesis nula y la alternativa, el siguiente paso es definir
el nivel de significancia. Es la probabilidad de rechazar la hiptesis nula cuando
en realidad es verdadera.

El nivel de significacin se denota mediante alfa (o ), tambin se denomina nivel
de riesgo, y es el riesgo de rechazar un planteamiento cuando en realidad es
cierto. Tradicionalmente se ha escogido un nivel de significancia del 0.05 (5%)
para proyectos de investigacin de consumo, el 0.01 (1%) para control de
calidad y el 0.10 (10%) para encuestas polticas.


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
100

Clases de hiptesis.

Una hiptesis estadstica es un enunciado provisional referente a uno o ms
parmetros de una poblacin o grupo de poblaciones. En el proceso de
estadstica inferencial hay dos tipos de hiptesis:

1. Hiptesis nula, designada mediante Ho y se lee H subcero. La letra H
significa hiptesis y el subndice cero indica no hay diferencia. Por lo
general en la hiptesis nula se plantea en trminos de no hay cambio, no
hay diferencia, se plantea con el objetivo de aceptarla o rechazarla.

2. Hiptesis alternativa, describe lo que se considerar si se rechaza la
hiptesis nula. A menudo tambin se le denomina hiptesis de investigacin,
y se designa por H
1
, que se lee h subuno

Tipos de error.

La hiptesis nula y alternativa son entonces aseveraciones sobre la poblacin
que compiten entre s, en el siguiente sentido: la hiptesis nula (H
o
) es
verdadera, o lo es la hiptesis alternativa (H
1
), pero no ambas. En el caso ideal,
el procedimiento de prueba de hiptesis debe conducir a la aceptacin de H
o

cuando sea verdadera y al rechazo de H
1
. Desafortunadamente no siempre es
posible puesto que como las pruebas de hiptesis se basan en la informacin de
la muestra, se debe considerar la posibilidad de cometer errores. La siguiente
cuadro muestra los dos tipos de errores que se pueden cometer:

Cuadro 3.1 Tipos de errores
DECISIN
SOBRE Ho
VERDADERA FALSA
Aceptar H0
Correcta ( ) o 1

Error tipo I I ( ) |

Rechazar H0
Error tipo I ( ) o
Nivel de significancia
Correcta ( ) | 1
Potencia de la prueba

Cuando se tiene una hiptesis esta puede ser verdadera o falsa y la decisin
que se toma en la prueba es aceptar o rechazar la hiptesis. Si la decisin que
se toma est de acuerdo con la realidad no se cometen errores, en este caso
las dos buenas decisiones son: aceptar la hiptesis nula cuando es cierta o
rechazar la hiptesis nula cuando es falsa.

Pero cuando la decisin no est de acuerdo con la realidad se pueden cometer
dos tipos de errores vistos anteriormente: rechazar la hiptesis nula cuando en
realidad es cierta, llamado error tipo I representado por alfa ( o ); aceptar la
hiptesis nula cuando en realidad es falso, llamado error tipo II representado por
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
101

beta ( | ), llamados tambin nivel de significancia. El procedimiento utilizado
consiste en limitarlos a un nivel preestablecido pequeo, generalmente 0.01
0.05. Este planteamiento se le denomina la potencia de la prueba y se
representa as:

Probabilidad de cometer el error tipo I
o Probabilidad de rechazar Ho cuando es verdadera.
(1 - o ) Probabilidad de acertar la Ho cuando es verdadera.

Probabilidad de cometer el error tipo II
| Probabilidad de aceptar Ho cuando es falsa.
(1 - | ) Probabilidad de rechazar Ho cuando es falsa.

Toda prueba de hiptesis determina una regin de rechazo de la hiptesis
llamada regin crtica, la cual depende del tipo de hiptesis que se pruebe y se
determina utilizando un nivel de significancia ( ) o .

El p-valor

Es el mnimo nivel de significancia en el cual Ho sera rechazado cuando se
utiliza como procedimiento de prueba especfico con un conjunto dado de
informacin. Si el p-valor es menor que el nivel de significancia, la hiptesis nula
se rechaza.


Leccin No 17: Pruebas para la Media y la Diferencia de
medias con grandes muestras.

Este procedimiento de formulas dos hiptesis es muy similar al de un juicio en
donde se supone que el acusado es inocente hasta que se le demuestre su
culpabilidad. Por tanto se hace una hiptesis de culpabilidad cero, lo cual
tambin ayuda a explicar el nombre de la hiptesis. Sin embargo una evidencia
contraria hace que la hiptesis nula sea descartada y aceptar la nica
alternativa posible de declararlo culpable.

El procedimiento de los cinco pasos indicado en lneas arriba, se empieza a
aplicar para muestras grandes: 30 > n pero con 05 . 0 s
N
n
para pruebas en
donde intervienen una o dos medias, por lo tanto se supone que la distribucin
muestral del estadstico de prueba se aproxima por la curva normal.


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
102

Prueba para la media (muestra grande).

En las pruebas para la media de poblacin de muestra grande se distingue dos
situaciones:

Conocida la desviacin estndar de la poblacin.
Desconocida la desviacin estndar de la poblacin.

CONOCIDA LA DESVIACIN ESTANDAR POBLACIONAL.

Las pruebas de hiptesis utilizan un procedimiento de cinco pasos, los cuales se
recuerdan a continuacin:
a. Plantear las hiptesis nula y alternativa.
b. Determinar el nivel de significancia.
c. Estimar el valor estadstico de prueba.
d. Establecer la regla de decisin.
e. Tomar la decisin.

Dependiendo del planteamiento de la hiptesis alternativa (H
1
) se distingue dos
tipos de pruebas:

Pruebas bilaterales.
Pruebas unilaterales
PRUEBA BILATERAL

El procedimiento de prueba de hiptesis para pruebas bilaterales a cerca de la
media de una poblacin, cuando se considera el caso de muestra grande
) 30 ( > n , en que el teorema del lmite central permite suponer que la media de la
distribucin muestral de medias se puede aproximar a una distribucin normal
de probabilidad, y la desviacin estndar de la poblacin es conocida, sigue la
siguiente forma general:

Muestra grande ) 30 ( > n
Planteamiento de hiptesis:

0 1
0 0
:
:


=
=
H
H


Estadstico de prueba para desviacin estndar poblacional ( ) o
conocida:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
103

n
x
Z
o

=


Regla de rechazo a un nivel de significancia o :

2 2
0
Z Z si o -Z z si H Rechazar
o o

Ejemplo

La empresa coca cola ha establecido como poltica general para su produccin
en pequea escala, un promedio ( ) de llenado para sus envases de 200
centmetros cbicos con una desviacin estndar ( o ) de 16 centmetros
cbicos. Dado que recientemente se han contratado y diseado nuevos
mtodos de produccin, utilizando un nivel de significancia del 0.01, se desea
probar la hiptesis, que el promedio de llenado sigue siendo de 200 centmetros
cbicos. Para tal efecto se tom una muestra de 100 envases llenos, los cuales
mostraron una media de llenado de 203.5 centmetros cbicos.

Paso 1

Planteamiento de la hiptesis nula: la media poblacional es 200
Planteamiento de la hiptesis alternativa: La media poblacional es diferente a
200. Estas hiptesis se expresan como sigue:


200 :
200 :
1
0
=
=

H
H


Esta es una prueba de dos colas, debido a que la hiptesis alternativa (
0
H ) es
planteada en palabras de diferencia, es decir, la hiptesis no indica si la media
es mayor o menor que 200.

Paso 2

El nivel de significancia es de 0.01 que es el alfa (o ), la probabilidad de
cometer el error de tipo uno, es decir la probabilidad de rechazar la hiptesis
siendo verdadera. Para ste tipo de problema se utiliza la distribucin normal
estandarizada en Z.

Paso 3

El valor estadstico de prueba para este tipo de problema es utilizando la
distribucin normal estandarizada en Z:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
104


19 . 2
6 . 1
5 . 3
100
16
200 5 . 203
= =

=
n
X
Z
o



Paso 4

La formulacin de la regla de decisin consiste en hallar el valor crtico de Z con
una prueba de dos colas. En el anexo C (tabla de la distribucin normal) se
identifica el valor de Z correspondiente a una probabilidad igual a 0.4950 (0.5
0.01/2). El valor ms cercano a 0.4950 es 0.4951 que corresponde a una valor
de Z igual a 2.58, que es el valor crtico para la prueba de hiptesis. Dado que
es una prueba de dos colas, se tendrn dos valores crticos, tal como se indica
en la siguiente figura:


Figura 3.1 Prueba de dos colas


La regla de decisin es aceptar la hiptesis nula (Ho), puesto que el valor
estadstico de prueba (2.19) ha cado en la zona de aceptacin de dicha
hiptesis.

Paso 5

Se concluye que el llenado de los envases cumple con las polticas generales
de la empresa, y la diferencia de promedios se atribuye a variaciones aleatorias.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
105

PRUEBA UNILATERAL

Con anterioridad de dijo que la hiptesis alternativa indica una direccin ya sea
mayor que o menor que, la prueba es de una cola. El procedimiento para
demostrar la hiptesis es por lo general igual a la prueba de dos colas, excepto
que el valor crtico es diferente. Ahora se modificar la hiptesis alternativa del
problema anterior, sobre el llenado de los envases de una factora de coca cola

Paso uno:

200 :
200 :
1
0
>
=

H
H

Paso dos: igual.
Paso tres: igual
Paso cuatro:

El valor crtico cambia. En el anexo C (tabla de la distribucin normal) se
identifica el valor de Z correspondiente a una probabilidad igual a 0.490 (0.5
0.01). El valor ms cercano a 0.4900 corresponde a una valor de Z igual a 2.33,
que es el valor crtico para la prueba de hiptesis. Dado que es una prueba de
una cola, se tendr el valor crtico, tal como se indica en la siguiente grfica:

Figura 3.2 Prueba una cola a la derecha


La regin de rechazo para una prueba de una extremidad se ubica en la cola de
la derecha, y el valor crtico es +2.33.

Paso cinco: Igual, puesto que el valor estadstico de prueba est ubicado en la
zona de aceptacin de la hiptesis nula, es decir, se est diciendo que el
promedio de llenado es de 200, tal como est planteada la hiptesis nula.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
106

A continuacin se presentan un ejemplo para que Ud. lo aborde y aplique los
mtodos de pruebas de hiptesis vistos anteriormente.

Ejercicio

El anlisis del contenido de grasa de una muestra de 40 tarros de leche en
polvo de una determinada marca dio como resultado un contenido promedio de
grasa de 27.5% en peso. Si asume que la varianza es de 0.85 y se pide un nivel
de significancia del 5%; probar la hiptesis que el contenido promedio de grasa
de la leche es de 28% contra la hiptesis:

a. El contenido de grasa es mayor que 28%.
b. El contenido de grasa es menor que 28%.
c. El contenido de grasa es diferente que 28%.

Sugerencia: Utilice el siguiente estadstico de prueba:
|
|
|
.
|

\
|

=
n
X
Z
o



DESCONOCIDA LA DESVIACIN ESTANDAR POBLACIONAL

En la mayora de los casos se desconoce la desviacin estndar de la poblacin
(o
) , la cual debe calcularse en estudios previos o se estima utilizando la
desviacin estndar de la muestra (s). En estos casos se utiliza la desviacin
estndar de la muestra, quedando la formula para el estadstico de prueba as:


n
S
X
Z

=


Ejemplo

Una cadena grande de almacenes expide su propia tarjeta de crdito y Ud.
desea saber si los saldos promedios por crditos de los clientes son mayores
que 400 unidades monetarias. El nivel de significancia se fija en 0.05. Una
revisin aleatoria de 172 clientes, revel que el promedio por crdito de los
clientes es de 407 unidades monetarias y la desviacin estndar de la muestra
es de 38 unidades monetarias. Concluye UD. que la media poblacional es
mayor que 400 unidades monetarias?

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
107

Las hiptesis se enuncian como sigue:


400 :
400 :
1
0
>
=

H
H


Dado que la hiptesis alternativa se enuncia mayor que, se aplica una cola a la
derecha, y como la muestra es grande ( n >= 30), se aplica la distribucin
normal estandarizada en Z.

El estadstico de prueba es:


42 . 2
172
38
400 407
=

=
n
S
X
Z




La regla de decisin es:

Figura 3.3 Prueba de una cola a la derecha


El valor crtico es 1.645 y la ubicacin del estadstico de prueba se encuentra en
la zona de rechazo de la hiptesis nula, por lo tanto se acepta la hiptesis
alternativa.

La decisin a tomar por Ud. es que el promedio de los crditos es mayor que
400 unidades monetarias con un grado de confianza del 95%.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
108

Prueba para diferencia de medias (muestra grande).

En la mayor parte de los casos no se conoce la varianza o desviacin estndar
real de ninguna poblacin. En general la nica informacin que es posible
obtener se relaciona con las medias muestrales ( )
2 1
X y X , las varianzas
muestrales ( )
2
2
2
1
yS S y las desviaciones estndar de las muestras ( )
2 1
yS S . Si se
hacen las suposiciones que las muestras se obtienen de manera aleatoria e
independiente a partir de las poblaciones respectivas que tiene una distribucin
normal y que las varianzas poblacionales son iguales, es decir, ( )
2
2
2
1
o o = , se
puede utilizar una prueba de distribucin normal de varianzas combinadas para
determinar si existe una diferencia significativa entre las dos poblaciones.

Recordemos que para diferencias de medias se utiliza el siguiente estadstico
de prueba:
( )
2
2
2
1
2
1
2 1 2 1
) (
n n
X X
Z
o o

+

=

Ejemplo

Una obra de construccin requiere un gran nmero de bloques de concreto. Dos
empresas abastecedoras A y B licitan para su adjudicacin, y dentro del pliego
de condiciones se estipula que la resistencia mnima es de 1.000 unidades
mtricas a la resistencia, y el contrato se adjudicar a la empresa que mayor
resistencia presente su producto.

Paso 1: Se plantea la hiptesis nula (Ho) que no existe diferencia entre las
resistencias medias a la compresin de los bloques de concreto. La hiptesis
alternativa se plantea en trminos que hay alguna diferencia significativa entre
las dos resistencias medias a la compresin. Simblicamente se expresa as:


B A
B A
H
H


=
=
:
:
1
0


Dado que la hiptesis alternativa no indica una direccin especfica, la prueba
es de dos colas

Paso 2: Se elige un nivel de significancia de 0.01. Esto equivale a cometer un
error de tipo I. Se usar una distribucin normal estandarizada en Z, razn por la
cual se debe seleccionar una muestra que al menos contenga como mnimo 30
unidades de bloque, cada una de las empresas licitantes.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
109

Paso 3: El estadstico de prueba a aplicar est dado por la siguiente frmula:



2
2
2
1
2
1
2 1
n
S
n
S
X X
Z
+

=



Suponga que Usted seleccion una muestra de cada una de las empresas
licitantes y determin la resistencia a la compresin, con los siguientes
resultados:


Cuadro 3.2 Resultados de muestra
Licitante A Licitante B
X = 1.070
X = 1.020
n = 81 n = 64
S = 63 S = 57


El valor del estadstico de prueba es:


( ) ( )
01 . 5
98827 . 9
50
64
57
81
63
020 . 1 070 . 1
2 2
2
2
2
1
2
1
2 1
= =
+

=
+

=
n
S
n
S
X X
Z



Paso 4

Recurdese que se seleccion un nivel de significancia del 0.01 y se utilizar
una prueba de dos colas. Los valores crticos y zonas de aceptacin para las
hiptesis se presentan en la siguiente figura:








UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
110

Figura 3.4 Toma decisin para prueba de hiptesis


Paso 5

El valor Z calculado queda en el rea de rechazo de la hiptesis nula, por lo
tanto se concluye que la media poblacional de la resistencia a la compresin es
diferente en las dos empresas y la diferencia no se debe al azar del muestreo,
con un grado de confianza del 99%.

Ejercicio de pruebas de medias

Se analiz el contenido de caloras de dos lotes de leche condensada de
diferente marca. El lote A constituido por 45 tarros de 100 gramos su contenido
promedio de caloras fue de 320 y una desviacin de 3. El lote B constituido por
55 tarros igualmente de 100 gramos el promedio de caloras fue de 321.5 con
una desviacin de 2.5. Existe diferencia entre los contenidos calricos de las
dos marcas de leche al nivel de significacin de 0.05?

Sugerencia: Plantear las hiptesis en funcin de hay diferencia no existe
diferencia de contenido promedio de caloras.
Ejercicio de prueba de medias

El contenido medio de carbohidratos de 50 litros de leche de vaca entera cruda
fue de 4.6% con un desviacin de 0.5 y el de 50 litros de leche pasteurizada fue
de 3.9% con una desviacin de 0.4. Probar la hiptesis que el contenido de
carbohidratos de la leche cruda es mayor que el la leche pasteurizada con un
alfa de 0.01.

Sugerencia: Se concluye que el contenido de la leche cruda es
significativamente mayor que el la pasteurizada con un nivel de confiabilidad del
99%
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
111

Leccin No 18: Prueba de hiptesis para proporciones y
diferencias de proporciones.

Se entiende por proporcin, la porcin relativa o porcentaje que expresa la parte
de la poblacin o muestra que tiene un atributo particular de inters como el
resultado comparativo de contar algo, Se cuenta el nmero de partes
defectuosas; se cuenta el nmero de votantes por la preferencia de un
candidato. As la prueba de proporcin implica niveles nominales de medida.


Prueba para una proporcin

Para demostrar una proporcin muestral se requiere cumplir con ciertos
principios binomiales, tales como:

1. Los datos recolectados son el resultado de un conteo.
2. El resultado de un experimento se clasifica en una de las dos
categoras mutuamente excluyentes: un xito o un fracaso.
3. La probabilidad de xito se mantiene constante.
4. Los intentos para realizar cada experimento son independientes.
5. El tamao de la muestra debe ser tan grande para que se d la
siguiente condicin: (n)(p)>5 y (n)(1-p)>5

Para realizar una prueba de hiptesis a fin de evaluar la magnitud de la
diferencia entre la proporcin muestral ( ) p y la proporcin poblacional ( P ), se
puede usar el siguiente estadstico de prueba:


n
P P
P P
Z
) 1 (

=

donde:

P es la proporcin muestral.
P es la proporcin poblacional.
n es el tamao de la muestra.

De otra manera, en lugar de examinar la proporcin de xitos en una muestra
como en el caso anterior, es posible estudiar el nmero de xitos en una
muestra, para determinar el nmero de xitos esperados o hipotticos en la
poblacin, se utiliza el siguiente estadstico de prueba:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
112


( )( )
( )( )( ) q p n
p n X
Z

=

donde:
X es el nmero de xitos en la muestra.
P es la proporcin hipottica de xitos.

PRUEBA UNILATERAL

Ejemplo

Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al
menos el 80% de los votos del barrio donde vive. Dado su inters decide hacer
una encuesta en el barrio con una muestra de 2.000 personas, para ver la
posibilidad y 1.550 dieron respuesta favorable por sus aspiraciones. Pruebe la
hiptesis de favorabilidad, con un nivel de significancia del 0.05.

Antes de realizar el procedimiento de los cinco pasos, veamos si cumple la
condicin de:

(n)(p)>5 (2.000)(0.8)>5 1.600>5 Cierto
(n)(1-p)>5 (2.000)(0.2)>5 400>5 Cierto

Paso 1
La hiptesis nula se plantea diciendo que Ud. s tiene el 80% de favorabilidad
de voto en su barrio y la hiptesis alternativa en que no alcanza a tener este
porcentaje de favorabilidad de voto. Simblicamente se expresa como sigue:

80 . 0 :
80 . 0 :
1
<
=
P H
P Ho


Paso 2
La distribucin de probabilidad a utilizar es la normal estandarizada en Z, con un
nivel de significancia del 5%, con una cola a la izquierda.

Paso 3
El estadstico de prueba a utilizar es:
n
P P
P P
Z
) 1 (

=

donde:

P es la proporcin muestral.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
113

P es la proporcin poblacional.
n es el tamao de la muestra.

P
n
P P
o =
) 1 (
es el error estndar de la proporcin poblacional.


Reemplazando los diferentes valores en la ecuacin se tiene:

80 . 2
0089443 . 0
025 . 0
00008 . 0
80 . 0 775 . 0
000 . 2
) 80 . 0 1 ( 80 . 0
80 . 0
000 . 2
550 . 1
) 1 (
=

=
n
P P
P P
Z


Paso 4
La regla de decisin se toma sobra la base de un valor critico calculado a partir
de la tabla de distribucin Z, con un rea de 0.4500 (0.5000-0.0500)



Cuadro 3.7 Prueba de hiptesis de una proporcin


Paso 5
Como el valor Z (-2080) est en la regin de rechazo de la hiptesis nula,
entonces se acepta la hiptesis alternativa y se concluye la favorabilidad de voto
es menos al 80%.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
114

PRUEBA BILATERAL

Ejemplo

Probar al nivel de significancia del 0.01 la aseveracin que el 55% de las
familias que planean adquirir una residencia en Melgar desean su ubicacin
en un condominio. Para su estudio Ud. toma una muestra aleatoria de 400
familias que planean comprar una residencia en Melgar, de las cuales 228
familias desean en un condominio.

Paso 1
La hiptesis nula se plantea diciendo que el 55% de las familias desean adquirir
residencia en un condominio en Melgar.
55 . 0 :
55 . 0 :
1
=
=
P H
P Ho

Paso 2
La distribucin de probabilidad a utilizar es la normal estandarizada en Z, con un
nivel de significancia del 1%, con dos colas.

Paso 3
80 . 0
0248747 . 0
02 . 0
400
) 55 . 0 1 ( 55 . 0
55 . 0
400
280
) 1 (
= =


=

=
n
P P
P P
Z


Paso 4
La regla de decisin se toma sobre la base del siguiente grafico:

Figura 3.9 Prueba de proporcin de dos colas




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
115

Paso 5
La hiptesis nula que la proporcin verdadera es del 55% no es rechazada a un
nivel de significancia del 1%, concluyendo que el 55% de las familias planean
adquirir residencia vacacional en Melgar lo desean en un condominio.

A continuacin se proponen dos ejercicios para que los desarrolle aplicando las
sugerencias propuestas:
Ejemplo 3.12
Se lanza una moneda 200 veces y se obtienen 105 caras. Si el nivel de
significancia es de 1% probar la hiptesis que la probabilidad de caras es de
contra la hiptesis:
a. Que es mayor de .
b. Que es menor de .
c. Que es diferente de .

Sugerencia: En este caso utilice las propiedades de la distribucin binomial
donde:

( )( ) 100
2
1
200 = = = np

( )( )( ) ( )( )( ) 07 . 7
2
1
2
1
200 = = = q p n o

( )( )
( )( )( ) q p n
p n X
Z

=


Ejemplo

Un fabricante de un empaque para harinas garantiza que tiene una efectividad
de 95% en la proteccin contra la humedad durante un perodo de 6 meses. Se
observ una muestra de 100 paquetes encontrndose resultados positivos en
85 paquetes. Comprobar si la afirmacin del fabricante es verdadera con un
nivel de significancia de 0.05.

Sugerencia: Utilizar prueba de una proporcin.

Prueba de hiptesis para diferencias entre dos proporciones

Se presenta a continuacin un ejemplo donde se emplea la prueba de
proporcin para dos poblaciones, utilizando el siguiente estadstico de prueba:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
116


( )
2 1
2 1 2 1
) 1 ( ) 1 (
) (
n
P P
n
P P
P P P P
Z
C C C C

+


=


Donde:

1
n

Es la cantidad seleccionada en una muestra.

2
n Es la cantidad seleccionada en la otra muestra.
2 1
2 1
n n
X X
P
C
+
+
= Es la media ponderada de las proporciones muestrales.

1
X Es la cantidad de xitos de la primera muestra.

2
X Es la cantidad de xitos de la segunda muestra.

2 1
yP P Proporcin de xitos de la poblacin uno y dos respectivamente.

Ejemplo

Una fbrica de perfumes ha desarrollado un nuevo producto. Varias pruebas de
comparacin indican que el perfume tiene un buen potencial en el mercado. Sin
embargo el departamento de mercadotecnia y publicidad quieren planear una
estrategia de manera que el producto llegue e impresione al sector ms grande
posible del pblico comprador. Una de las preguntas es si prefiera el perfume
una proporcin mayor de mujeres jvenes o una proporcin mayor de mujeres
maduras. Por tanto, existen dos poblaciones: una que consta de mujeres
jvenes y otra de damas maduras. Se us una prueba estndar de aroma. Se
seleccionaron aleatoriamente damas y se les pidi que olieran varios perfumes,
incluyendo el que suelen usar, y por supuesto el nuevo perfume. La persona
que realiza la prueba es la nica que conoce el nombre de los perfumes. Cada
mujer selecciona el perfume que le agrada ms.

Paso 1
La hiptesis nula se plantea diciendo que no hay diferencia entre la proporcin
de mujeres jvenes y maduras que prefieren el nuevo perfume. La hiptesis
alternativa se plantea que las dos proporciones no son iguales.

2 1 1
2 1
:
:
P P H
P P Ho
=
=


Se designa P subuno como la proporcin de mujeres jvenes y P subdos como
la proporcin de mujeres maduras.

Paso 2: Se decidi un nivel de significancia del 0.05.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
117

Paso 3: Los planes son tomar una muestra al azar de 100 mujeres jvenes
designada por n subuno y una muestra de 200 mujeres mayores designada
como n subdos. Los resultados una vez hecha el experimento dio los siguientes
resultados: de las 100 mujeres jvenes 20 eligieron el nuevo perfume,
designando este valor como X subuno; y de las 200 mujeres maduras 100
prefirieron el nuevo perfume, designando este valor como X subdos.

La proporcin ponderada, da como resultado:

40 . 0
300
120
200 100
100 20
2 1
2 1
= =
+
+
=
+
+
=
n n
X X
P
C


0 . 5
06 . 0
30 . 0
200
) 40 . 0 1 ( 40 . 0
100
) 40 . 0 1 ( 40 . 0
200
100
100
20
) 1 ( ) 1 (
2 1
2 1
=


=
n
P P
n
P P
P P
Z
C C C C


Paso 4
Los valores crticos para un nivel de significancia del 5% son 1.96 y +1.96.
Igual que en los otros casos, la siguiente grafica establece la regla de decisin:

Figura 3.10 prueba de dos proporciones




Paso 5
El valor de Z calculado de 5.0 se encuentra en el rea de rechazo de la
hiptesis nula. Por tanto, la hiptesis que las proporciones son iguales se
rechaza a un nivel del 5% de significancia.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
118


Ejercicio 3.15 de diferencia de proporciones

Dos lotes de frutas conformados cada uno por 250 unidades son tratados y
almacenados en iguales condiciones salvo que el lote No 1 est a temperatura
ligeramente inferior que el lote No 2. Pasado un tiempo se encuentra que el lote
No 1 hay 225 frutas sanas y en el lote No 2 hay 200 sanas. Probar la hiptesis
que la temperatura ms baja favorece la conservacin de las frutas al nivel de
significacin de 0.05.
Paso 1:
2 1 1
2 1
:
:
P P H
P P Ho
>
=


Paso 2: Utilizando la distribucin de probabilidad normal con ensayo unilateral a
la derecha con un nivel significativo de 0.05, el valor critico es de 1.645.

Paso 3:

13 . 3
0319 . 0
10 . 0
250
) 15 . 0 )( 85 . 0 (
250
) 15 . 0 )( 85 . 0 (
80 . 0 90 . 0
) 1 ( ) 1 (
2 1
2 1
= =
+


=
n
P P
n
P P
P P
Z
C C C C


85 . 0
250 250
200 225
2 1
2 1
=
+
+
=
+
+
=
n n
X X
P
C


Figura 3.11 Prueba de dos proporciones


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
119


Como 3.12>1.645 se rechaza la hiptesis nula y se acepta la hiptesis
alternativa.

Paso 5
La temperatura ms baja favorece la conservacin de las frutas.



Leccin No 19: Pruebas de hiptesis para la media y la
Diferencia de medias con pequeas muestras.

Ahora veamos el caso en que las muestras son pequeas, 30 < n , pero donde la
distribucin muestral del estadstico de prueba se puede aproximar a una
distribucin t student. Dicha aproximacin es posible cuando los valores
subyacentes de la poblacin son casi normalmente distribuidos, y cuando
intervienen poblaciones donde las desviaciones estndar, aunque
desconocidas, se sabe que son iguales. Habiendo estudiado pruebas para
muestras grandes con todo detalle, podemos restringirnos a ejemplos en donde
se aplique este tipo de distribucin.

Prueba para media (pequea muestra)

Si tambin es razonable suponer que la poblacin tiene una distribucin normal
de probabilidad, con la distribucin t se puede hacer inferencia a cerca del valor
de la media de la poblacin.

Ejemplo

Una compaa de seguros revela que en promedio la investigacin por
demandas en accidentes y todos los trmites tiene un costo promedio de 60
unidades monetarias. Este costo se considera exagerado comparado con el de
otras compaas del mismo tipo. A fin de evaluar el costo se seleccion una
muestra aleatoria de 26 demandas recientes y se realiz el estudio de costos.
Se concluy que el costo promedio es de 57 unidades monetaria con una
desviacin estndar de 10 unidades monetarias. Con un nivel de significancia
del 0.01 se puede decir que el estudio revel un costo menor al establecido por
la empresa?

Paso 1
La hiptesis nula se plantea en el sentido que el costo promedio es de 60
unidades monetarias. La hiptesis alternativa que el costo es menor a 60
unidades monetarias. Esto se expresa en la siguiente forma:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
120


600 :
600 :
1
0
<
=

H
H


La prueba es de una cola a la izquierda, segn el planteamiento de la hiptesis
alternativa.

Paso 2
Se usa un nivel de significancia del 0.01 con una distribucin t, en
consideracin a que la muestra en menor a 30, es decir, es una pequea
muestra.

Paso 3
Utilizando los datos de la muestra, se utiliza la siguiente frmula como
estadstico de prueba:
530 . 1
26
10
60 57
=

=
n
S
X
t



Paso 4
Los valores crticos para la distribucin t se encuentran en la tabla
correspondiente (anexo D), con 25 grados de libertad (26 1), prueba de una
cola a un nivel de significancia de 0.01, correspondiendo un valor crtico de
2.485. En el siguiente figura se indica el presente planteamiento:

Figura 3.5 Prueba de una cola


Paso 5
Puesto que 1.53 se encuentra en la regin de aceptacin de la hiptesis nula a
un nivel del 1% de significancia, se concluye que los costos para los tramites de
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
121

seguros de accidente no se han disminuido y se mantiene a un nivel promedio
de costo de 60 unidades monetarias.

Ejemplo

Una empresa produce elementos con un promedio de 43 mm de largo. Un
ajuste en las mquinas de produccin supone que dicho estndar ha cambiado.
Se quiere probar sta hiptesis con un nivel de significancia del 0.02.

Para afrontar el problema Ud. selecciona una muestra aleatoria de 12 elementos
y procede a medir su largor con los siguientes resultados:

Cuadro 3.3 Seleccin muestra aleatoria
Elemento 1 2 3 4 5 6 7 8 9 10 11 12
Medida 42 39 42 45 43 40 39 41 40 42 43 42

Paso 1
Plantea sus hiptesis:

43 :
43 :
1
0
=
=

H
H


Como hiptesis nula que no se ha producido un cambio en las dimensiones del
producto. Como hiptesis alternativa que se ha producido un cambio en las
caractersticas internas del producto debido a los ajustes en las mquinas.

Paso 2
Se dispone a probar la hiptesis con un nivel de significancia del 0.02, utilizando
la distribucin t porque es una pequea muestra, con 11 grados de libertad
aplicando el principio de ( n- 1) y calculo para dos colar puesto que la hiptesis
alternativa est planteada desde el punto de vista de diferente.

Paso 3
El estadstico de prueba a utilizar es el siguiente:


n
S
X
t

=







UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
122

Procede al calculo de la media y la desviacin estndar muestral:

5 . 41
12
498
= = =

n
X
X

( )
78 . 1
11
35
1
2
= =

=

n
X X
S


Con la informacin anterior, aplica la frmula del estadstico de prueba:

92 . 2
12
78 . 1
0 . 43 5 . 41
=

=
n
S
X
t




Paso 4
Para aplicar la regla de decisin, muestra en el siguiente grfico el
planteamiento anterior:


Figura 3.6 Prueba de dos colas


Paso 5
La hiptesis nula que la media poblacional es 43 mm se rechaza a un nivel de
significancia del 0.02 y se acepta la hiptesis alternativa, concluyendo que los
ajustes en las mquinas s causaron un cambi en la calidad de control en el
largor de los diferentes elementos que se producen.

Anteriormente se analiz ampliamente la prueba de hiptesis para cuando las
muestra son pequeas, es decir, el tamao de la muestra es menor a 30. A
continuacin se propone un ejercicio de aplicacin, para que Ud. los desarrolle
atendiendo las sugerencias dadas.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
123

Ejemplo

Un fabricante de pastas alimenticias sostiene que el contenido medio de
protenas del producto es de 10.7. Un anlisis de una muestra de 8 paquetes dio
como resultado un contenido medio de 10% con una desviacin de 1. Se
puede aceptar como verdadera la afirmacin del fabricante a un nivel de 0.01?

Sugerencia:
Utilizar el siguiente estadstico de prueba:
n
S
X
t

=


Un ensayo unilateral con cola a la izquierda con un nivel significativo de 0.01 el
valor critico con 7 grados de libertad es igual a 3.0 ( Anexo D)

Prueba para dos medias maestrales (pequeas muestras)

Una prueba que utiliza la distribucin t tambin puede aplicarse para comparar
dos medias muestrales que tienen las siguientes caractersticas:

1. Las poblaciones deben de distribuirse normalmente.
2. Las poblaciones deben de ser independientes.
3. Las varianzas de las poblaciones deben de ser iguales.
4. Las muestras tienen menos de 30 observaciones.
5. Las desviaciones estndar de las poblaciones no se conocen.

Cuando se est frente a estas caractersticas, el estadstico de prueba a utilizar
es el siguiente:

( )
( ) ( )
(

+
(

+
+

=
2 1 2 1
2
2
2 1
2
1
2 1 2 1
1 1
2
1 1
) (
n n n n
n S n S
X X
t


Donde:
2 1
X y X
Las medias de las muestras

2 1
yn n
Los tamaos de las muestras

2
2
2
1
yS S
Las varianzas de las muestras

G.L. Grados de libertas, igual a = 2
2 1
+ n n




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
124

Ejemplo

Se ha propuesto realizar un examen de estadstica a dos grupos de estudiantes,
con el propsito de saber si los grupos tienen similares conocimientos sobre
pruebas de hiptesis. Para ello Ud. seleccion el grupo A compuesto de 5
estudiantes de educacin a distancia y el grupo B compuesto por 6 estudiantes
de educacin presencial, y los someti a la prueba, dando como resultado los
siguientes tiempos en minutos:

Cuadro 3.4 prueba para dos grupos
Educacin a
distancia
Educacin
presencial
2
4
9
3
2
3
7
5
8
4
3

Probar con un nivel de significacia del 0.10 si existe alguna diferencia de
habilidad en los conocimientos de los dos grupos.

Paso 1: Las hiptesis las plantea en los siguientes trminos:

2 1 1
2 1
:
:


=
=
H
Ho


La hiptesis nula consistente en que los dos grupos no tienen alguna diferencia
en la habilidad de conocimiento, y la hiptesis alternativa en que existe
diferencia entre los grupos sobre la habilidad en la aplicacin de los
conocimientos.

Paso 2: Prueba la hiptesis con un nivel de significancia del 10%, utilizando la
distribucin t student porque las muestras son menores que 30, con 9 grados
de libertad (5+6 2) y prueba de dos colar porque la hiptesis alternativa est
planteada en funcin de diferente.

Paso 3 Para el clculo del estadstico de prueba se requiere estimar las medias
de los grupos y sus varianzas, los cuales se presentan en el siguiente cuadro:




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
125

Cuadro 3.5 Resultados para los grupos de estudiantes
Grupo estudiantes a distancia Grupo presencial
Media = 4 Media = 5
Varianza = 8.5 Varianza = 4.4
Muestra = 5 Muestra = 6

( ) ( )
( ) ( )
6620 . 0
6
1
5
1
2 6 5
1 6 4 . 4 1 5 5 . 8
5 4
1 1
2
1 1
2 1 2 1
2
2
2 1
2
1
2 1
=
(

+
(

+
+

=
(

+
(

+
+

=
n n n n
n S n S
X X
t

Paso 4: La regla de decisin se presenta en la siguiente grfica:

Figura 3.7 Pruebas para comparacin de dos medias


Paso 5: La decisin es no rechazar la hiptesis nula debido a que el valor del
estadstico de prueba 06620 ha cado en la zona de aceptacin de dicha
hiptesis, concluyendo que no existe diferencia en la habilidad de aplicacin de
conocimientos entre los estudiantes a distancia y los estudiantes de presencial,
con un nivel de significancia del 10%.

Prueba de hiptesis para observaciones pareadas o
relacionadas (con muestras pequeas)

La caracterstica principal para aplicar este tipo de prueba, es que las muestras
sean dependientes y el tamao de cada muestra sea inferior a 30 elementos
seleccionados.


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
126

Ejemplo 3.9:

Un grupo de alumnos registra un ndice de puntuacin en estadstica, que se
considera muy bajo para aceptarlos al siguiente nivel. Proceden a tomar un
curso de nivelacin, obteniendo los siguientes registros antes y despus del
curso. Con un nivel de significancia del 0.05 probar si el curso de nivelacin
mejor las condiciones del grupo.

Antes 128 105 119 140 98 123 127 115 122 145
Despus 135 110 131 142 105 130 131 110 125 149

En estas condiciones hay un par de ndices de eficiencia para cada miembro del
grupo, antes y despus del curso,; ste conjunto de pares es lo que se
denomina muestra por pares. La prueba de hiptesis que se realiza para
determinar si hay diferencia entre los ndices antes y despus del curso de
nivelacin, es lo que denomina prueba de diferencia por pares. Obsrvese que
las dos muestras, una antes y una despus, dependen entre s, debido a que los
mismos alumnos estn en ambas pruebas, por tanto son dependientes.

La muestra est constituida por la diferencia entre los registros de puntuacin
antes y despus del programa. As, la media de las diferencias entre los
registros de rendimiento, se designa mediante
d
. Se presenta a continuacin
el procedimiento de la prueba:

Paso 1:
0 :
0 :
1
>
=
d
d
H
Ho



La hiptesis nula plantea que no hay diferencia de eficiencia despus del curso.
La hiptesis alternativa plantea que el programa de nivelacin mejor el nivel de
los estudiantes.

Paso 2
Se usa un nivel de significancia del 5%, la muestra seleccionada es de 10
estudiantes considerada pequea muestra, la distribucin de probabilidad a
utilizar es la t student , con n 1 grados de libertad.

Paso 3
El estadstico de prueba a utilizar es:


n
S
d
t
d
=

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
127

donde:

d :es la media de la diferencia entre las observaciones por pares.

d
S :es la desviacin estndar de las diferencias entre las
observaciones por pares.
n :es el nmero de observaciones por pares.
G.L :son los grados de libertad (n 1)

Para determinar el calculo del estadstico de prueba se requiere conocer la
media de las diferencias y su desviacin estndar, para lo cual procedemos a su
clculo utilizando el siguiente cuadro:

Cuadro 3.6 Calculo estadstico sobre diferencia de medias
Muestra Registro
antes
Registro
despus
Diferencia d Diferencia al
cuadrado
1
2
3
4
5
6
7
8
9
10
128
105
119
140
98
123
127
115
122
145
135
110
131
142
105
130
131
110
125
149
7
5
12
2
7
7
4
-5
3
4
49
25
144
4
49
49
16
25
9
16
Sumas 46 386


60 . 4
10
46
= = =

n
d
d


( )
( )
40 . 4
1 10
10
46
386
1
2
2
2
=

n
n
d
d
S
d


Aplicando la frmula, se obtiene:

30 . 3
10
4 . 4
6 . 4
= = =
n
S
d
t
d




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
128

Paso 4
El valor crtico de t para esta prueba de una cola a la derecha, es 1.833 que se
obtiene en la tabla de la distribucin t (anexo D), ubicando en la columna de
la izquierda 9 grados de libertad y recorriendo a la derecha hasta la columna de
una cola con 0.05 nivel de significancia. En la siguiente grfica se indica lo
expuesto:

Figura 3.8 Prueba de hiptesis por pares


Paso 5
Como el valor t (3.30) est en la regin de rechazo de la hiptesis nula,
entonces se acepta la hiptesis alternativa y se concluye que el programa de
adiestramiento para los alumnos fue eficaz para aumenta su eficiencia.


Leccin No 20: Pruebas de hiptesis para la varianza

Como su nombre lo indica, consiste en comparar tres o ms medias de una
muestra para identificar su homogeneidad o variabilidad. esta tcnica
estadstica, normalmente es utilizada para analizar resultados en la
investigacin con diseos experimentales y cuasi-experimentales; muchas
veces necesitamos comparar dos o ms distribuciones que corresponden a
variaciones de una misma variable dependiente, afectada por una o ms
variables independientes.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
129

COMPARACIN DE DOS VARIANZAS POBLACIONALES

Su utilidad radica en determinar si una poblacin normal tiene ms variacin que
otra poblacin que se considera tambin normal. Como ejemplo se pueden
mencionar, si dos mquinas dedicadas a producir cierto artculo de precisin
pueden ser confiables en el control de calidad, es decir, el producto tiene el
mismo largor, el mismo dimetro y las variaciones presentadas son similares.

Ejemplo 16

La tasa media de rendimiento de dos tipos de acciones se pueden apreciar en el
siguiente cuadro, se desea saber si el rendimiento promedio es diferente a un
nivel de significancia del 0.10.

Acciones Rendimiento
promedio
Desviacin
estndar
Tamao de la
muestra
Tipo A
Tipo B
56
58
12
5
7
8

Paso 1:
2
2
2
1 1
2
2
2
1
:
:
o o
o o
=
=
H
Ho


La variacin de los rendimientos promedios de las acciones es igual como la
hiptesis nula. La variacin de los rendimientos de las acciones es diferente
como hiptesis alternativa.

Paso 2: Se selecciona un nivel de significancia de 0.01 utilizando la distribucin
F.

Paso 3: El valor del estadstico de prueba sigue una distribucin F, con la
siguiente relacin:

76 . 5
5
12
2
2
2
2
2
1
= = =
S
S
F


Se acostumbra a colocar el mayor valor en el numerador, de tal forma que la
relacin siempre ser por lo menos igual a uno.





UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
130

Paso 4
El valor crtico se obtiene del Anexo F, para lo cual se reproduce una parte de la
tabla. Debido a que utiliza una prueba de dos colas, el nivel de significancia para

cada cola ser de:
05 . 0
2
10 . 0
2
= =
o
.

Grados de libertad para el numerador : n 1 = 7-1 = 6
Grados de libertad para el denominador : n 1 : 8 1 = 7

Para encontrar el valor crtico, se incorpora parte de la tabla del Anexo F:

Cuadro 3.8 Grados libertad numerador denominador

GRADOS LIBERTAD
NUMERADOR
G.L
Denominador
5 6 7 8
1
2
3
4
5
6
7
8
9
10
230
19.3
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
234
19.3
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
2.7
19.4
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14
239
19.4
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07


Paso 5: Dado que el valor de la distribucin F (5.76) se encuentra a la derecha
del valor crtico (3.87), se acepta la hiptesis alternativa y se concluye que los
rendimientos promedios de las acciones son diferentes.

Ejercicios: 4

1. Suponga que se va efectuar una prueba de hiptesis para un proceso en el
cual un error de tipo II sera muy costoso, no as el error tipo I que sera
bastante ms barato y tendra poca importancia. Cual sera entonces de los
siguientes valores la mejor opcin para el nivel de significacin de cometer un
error tipo I en esta prueba?: 0.01; 0.1; 0.25; 0.5

R/ta: 0,25

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
131

2. Un grupo de investigadores de una escuela introdujeron un programa de
preparacin para el ingreso a la universidad. Al finalizar el ao, 125 estudiantes
tomaron los exmenes de admisin de la universidad obteniendo en la prueba
un promedio de 590 puntos con una desviacin estndar de 35 puntos. En
aos anteriores el puntaje promedio obtenido en esta misma prueba fue de 580
puntos. Si se quiere probar a un nivel de significacin del 5%, si el programa
mejora el puntaje. Las Hiptesis a Probar son:

R/ta: H0 580 H1: > 58

3. A fin del mes de marzo de 2007 la empresa brasilera compro el 51% de las
acciones de Paz del Rio S.A a razn de $120 la accin. En el mes de junio de
2007, en una muestra de 500 acciones, la razn promedio de las acciones
cotizadas en la bolsa de valores de Bogot fue de $95, con una desviacin
estndar de $20. Si queremos saber si se puede afirmar que esta muestra
ofrece suficiente evidencia en un nivel de significanca de 0.05, que durante el
mes de junio de 2007 el precio de estas acciones en la bolsa de valores de
Bogot se desmejoraron, las hiptesis a probar son?:

R/ta: Ho: = 120 H1 : < 120.

4. El puntaje promedio tradicional de una prueba de admisin a una universidad
es de 580 puntos. Se realiz una prueba con 125 aspirantes cuyo promedio fue
590 puntos, con una desviacin estndar de 35 puntos. Si se quiere probar a un
nivel de significacin de 5% si el promedio ha mejorado. Las hiptesis a probar
son:

R/ta: H0 = 580 H1: > 580

5. Un fabricante asegura a una empresa que le compra regularmente un
producto que el porcentaje de defectuosos no es mayor del 5%. La compaa
decide comprobar la afirmacin del fabricante, seleccionando de su inventario
50 unidades de ese producto y probndolas. Deber sospechar la empresa de
la afirmacin del fabricante cuando el intervalo de confianza de la verdadera
proporcin de artculos defectuosos sea:

R/ta: (0.08 y 0.12)

6. Una marca de nueces afirma que, como mximo, el 6% de las nueces estn
vacas. Se eligieron 300 nueces al azar y se detectaron 21 vacas.
1.Con un nivel de significacin del 1%, se puede aceptar la afirmacin de la
marca?

R/ta: Aceptamos la hiptesis nula H
0
. Con un nivel de significacin del 1%.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
132

7. La duracin de la bombillas de 100 W que fabrica una empresa sigue una
distribucin normal con una desviacin tpica de 120 horas de duracin. Su vida
media est garantizada durante un mnimo de 800 horas. Se escoge al azar una
muestra de 50 bombillas de un lote y, despus de comprobarlas, se obtiene una
vida media de 750 horas. Con un nivel de significacin de 0,01, habra que
rechazar el lote por no cumplir la garanta?

R/ta: Rechazamos la hiptesis nula H
0
. Con un nivel de significacin del 1%

8. Un fabricante de lmparas elctricas est ensayando un nuevo mtodo de
produccin que se considerar aceptable si las lmparas obtenidas por este
mtodo dan lugar a una poblacin normal de duracin media 2400 horas, con
una desviacin tpica igual a 300. Se toma una muestra de 100 lmparas
producidas por este mtodo y esta muestra tiene una duracin media de
2320 horas. Se puede aceptarr la hiptesis de validez del nuevo proceso de
fabricacin con un riesgo igual o menor al 5%?

R/ta: Rechazamos la hiptesis nula H
0
, con un nivel de significacin del
5%.


Aplicaciones en Excel y SPSS.
1

A. Excel
Excel dispone de funciones que permiten realizar contrastes de hiptesis de
igualdad de medias y varianzas, de independencia y ajuste de la chi cuadrado
y otros contrastes. A continuacin se presenta la sintaxis de estas funciones:
Cuadro 3.9 Funciones de pruebas de hiptesis
PRUEBA. CHI (rango
1; rango 2)
Realiza las pruebas de independencia y ajuste de la
CHI CUADRADO para los valores actuales
(definidos por rango 1) y esperados dados (definidos
por rango 2). Calcula el valor de la CHI CUADRADO
y el p-valor del contraste.
PRUEBA F (x, y) Realiza la prueba de igualdad de varianzas para dos
muestras x e y, calculando la probabilidad de la
igualdad.
PRUEBA T( x; y) Realiza la prueba T de Student de igualdad de medias
para dos muestras x e y, calculando la probabilidad
de la igualdad. El parmetro n puede valer 1 2,
segn el nmero de colas de la T. El parmetro tipo
vale 1 si los datos son pareados, vale 2 si las
varianzas de las muestras se suponen iguales, y vale



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
133

3 si las varianzas de las muestras se suponen
desiguales.
PRUEBA Z (x; a; b) Realiza la prueba de que la observacin a provenga
de la poblacin cuya muestra es x, siendo b la
desviacin tpica. La funcin devuelve la probabilidad
de dicho evento.


B. SPSS

Ejemplo 2.17

Un agente de seguros vende plizas a cinco individuos todos de la misma edad.
De acuerdo con las tablas actuariales, la probabilidad de que una persona con
esa edad viva 30 aos ms es de 3/5. Determine la probabilidad que dentro de
30 aos vivan:
a. Al menos 3 individuos.
b. Como mucho dos individuos.

Dado que la situacin de cada individuo es que viva o que no viva, y una de las
dos alternativas se debe de presentar, la situacin de cada individuo se ajusta a
una variable de Bernoulli con probabilidad de xito (vivir 30 aos ms) igual a
3./5 = 0.6. Al considerar los 5 individuos, se esta ante una variable X Binomial
con n = 5, p = 0.6. Se designa F(X) como la funcin de distribucin, en donde
para el literal a, habr de calcularse P(X>=3).

Para calcular la probabilidad pedida se selecciona transformar, calcular
(previamente es necesario tener cargado un fichero cualquiera en memoria
como se indica en la siguiente figura..

Figura 3.10

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
134


Se trata de identificar la distribucin Bernoulli, que solicita la cantidad y la
probabilidad para calcular la probabilidad acumulada para los parmetros
solicitados. En la figura siguiente se detalla la funcin desplegada en la ayuda.

Figura 3.11



En la siguiente figura se muestra la pantalla como resultado de haber
seleccionado la figura 3.10 relacionada con el clculo de la variable.








Figura 3.12
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
135




Actividades de aprendizaje.

Excel contiene varias herramientas de anlisis tiles para realizar contrastes de
hiptesis. La opcin anlisis de datos del men herramientas le lleva al cuadro
de dialogo de la siguiente figura:

Figura 3.12 Ventana de anlisis de datos


Observe que puede realizar contrastes de pruebas t para medias de dos
muestras emparejadas, para dos muestras suponiendo varianzas iguales, para
dos muestras suponiendo varianzas desiguales y prueba z para medias de dos
muestras.





PRUEBA T PARA MEDIAS DE DOS MUESTRAS ENPAREJADAS
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
136


Es posible ejecutar una prueba T de Student de dos muestras pareadas para
determinar si las medias de las dos muestras son iguales suponiendo que las
varianzas de ambos conjuntos de datos son iguales. Esta prueba generalmente
se utiliza cuando un par natural de observaciones en las muestras, como por
ejemplo, cuando un grupo de muestra se somete dos veces a prueba, antes de
un experimento y despus de este. Si elige dicha opcin en el cuadro de dialogo
aparece la siguiente figura:

Figura 3.13 ventana de prueba t de dos muestras


Rango para la variable 1 y 2: Se introduce la referencia de celda
correspondiente al primer y segundo rango de datos que desea analizar. El
rango debe constar de una nica fila o una nica columna.

Diferencia hipottica entre medias: Se introduce el nmero cero para indicar,
que segn la hiptesis, las medias de las muestras son iguales.

Rtulos: Activa la casilla si la primera fila o columna del rango de entrada
contiene rtulos y la desactiva si carece de rtulos. El programa genera los
rtulos de datos correspondientes para la tabla de resultados.

Alfa: Se introduce el nivel de significancia para la prueba, valor que debe estar
comprendido entre el rango de cero y uno. El nivel alfa es un nivel de
importancia relacionado con la probabilidad de que haya un error de tipo I
(rechazar una hiptesis verdadera).

Rango de salida: Se introduce la referencia correspondiente a la celda superior
izquierda de la tabla de resultados y el programa determina el tamao del rea
de resultados y muestra un mensaje si la tabla de resultados reemplaza datos
ya existentes.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
137


En cuanto a las opciones de salida, se presenta En una hoja nueva para
insertar una hoja en el libro actual y pegar los resultados comenzando por la
celda A1 de la nueva hoja de clculo. En un libro nuevo para crear un nuevo
libro y pegar los resultados en una hoja del libro creado.

En el siguiente ejemplo de muestras emparejadas suponga que en un
experimento de 6 lotes de terreno, la mitad de cada lote fue sembrado con una
semilla resistente y la otra mitad con semilla corriente. Los resultado al momento
de la recoleccin fue el siguiente en Kilos:

Semilla resistente Semilla corriente
84
76
104
103
91
90
72
70
90
94
93
90

Se desea probar si existe alguna diferencia significativa entre las semillas. En el
presente ejemplo de muestras apareadas se tiene la opcin de salida utilizando
despus de haber registrado la informacin:

Figura 3.14 Resultados de prueba de muestras pareadas

De acuerdo con los resultados se rechaza la igualdad de medias para el
contraste de una cola puesto que el valor crtico de T (2,01504918) es menor
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
138

que el valor del estadstico de prueba t (2,47152458), es decir, esta ubicado en
la regin critica o de rechazo de la hiptesis nula. Adems, la probabilidad o p-
valor (0.02821228) es menor que el nivel alfa propuesto de 0.05.

Observando los resultados para el contraste de dos colas, se acepta la igualdad
de medias, puesto que el valor crtico de t (2.57057764) es mayor que el valor
del estadstico de prueba t (2.47152458), es decir, cae fuera de la regin crtica
o de rechazo, adems, la probabilidad o p-valor (0.05642456) es mayor
ligeramente al nivel alfa estipulado de 0.05.

PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS IGUALES Y
DESCONOCIDAS.

En Excel es posible ejecutar una prueba t de Student en dos muestras para
determinar si sus medias son iguales suponiendo que las varianzas de ambos
conjuntos de datos son desconocidas e iguales. Esta prueba se conoce con el
nombre de prueba t homocedstica. En el cuadro de dilogo de Anlisis de
datos se elige prueba t para dos muestras suponiendo varianzas iguales. El
siguiente ejemplo permite entender el contraste, suponga que se estn
utilizando ampollas de la marca A durante muchos aos, pero se contempla el
cambio a la marca B debido a un mejor precio. Se afirma que la marca B es tan
bueno como el A y a fin de contrastar dicha afirmacin se toman las siguientes
muestras de cada una de las marcas y se verifica el tiempo en horas de efecto
y si se admite que no existe competencia entre las dos marcas, se trata de
probar la hiptesis de que el efecto en horas de las ampollas de la marca B es
igual a las de la marca A.

El cuadro de dialogo para la prueba se muestra a continuacin:















Figura 3.15 Prueba t para dos muestras
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
139



La salida correspondiente a las opciones de la prueba t para dos muestras
suponiendo varianzas iguales se muestran en la siguiente figura:


Figura 3.16 Resultados prueba t dos muestras

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
140

En el ejemplo de las ampollas marca A y B se puede apreciar en el cuadro
anterior que se rechaza la igualdad de medias, tanto para el contraste de una
cola como para el contraste de dos colas, puesto que ambos valores crticos de
t (1.7396064 y 2.1098185) son menores que el valor del estadstico de prueba t
(2.5235223), es decir, caen dentro de la regin crtica o de rechazo. Adems las
dos probabilidades o p-valores (0.0109339 y 0.0218678) son menores que el
alfa propuesto de 0.05.

PRUEBA T PARA DOS MUESTRA SUPONIENDO VARIANZAS DESIGUALES
Y DESCONOCIDAS.

En Excel es posible ejecutar una prueba t Student en dos muestras para
determinar si sus medias son iguales, suponiendo que las varianzas de ambos
conjuntos de datos son desconocidas y desiguales. Esta prueba se conoce con
el nombre de prueba t heterocedstica. Si en el cuadro de dialogo de Anlisis
de datos se elige la prueba t para dos muestras suponiendo varianzas
desiguales, se obtiene el siguiente cuadro de dilogo:


Figura 3.17 Ventana para prueba t de dos muestras


Para entender la prueba de t para dos muestras suponga que un ingeniero
qumico quiere analizar la cantidad de nicotina de dos marcas diferentes de
cigarrillos (X y Y) para lo cual dispone de la informacin que se presenta junto
con el cuadro de salida de la prueba:





UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
141


Figura 3.18 resultados para prueba t de dos muestras


En el ejemplo del contenido de nicotina para las dos marcas de cigarrillos, se
rechaza la igualdad promedio de nicotina, tanto para el contraste de una cola
como para el contraste de dos colas, puesto que ambos valores crticos de t
(1.7396064 y 2.1098185) son menores que el valor estadstico de prueba t
(2.5156445), es decir, caen dentro de la regin crtica o de rechazo. Adems las
dos probabilidades o p-valores (0.011112 y 0.0222241) son menores que el
nivel alfa propuesto de 0.05.

CONTRASTE Z PARA DIFERENCIAS DE MEDIAS SUPONIENDO
VARIANZAS CONOCIDAS.

En Excel tambin es posible ejecutar una prueba Z de la normal en dos
muestras para determinar si sus medias son iguales, suponiendo que las
varianzas de ambos conjuntos de datos son conocidas. Si en el cuadro de
dilogo Anlisis de datos se elige la opcin Prueba Z para medias de dos
muestras, suponiendo que las cifras que se registran corresponden al anlisis
de protenas realizadas a una misma variedad de trigo cosechada en dos
distritos diferentes, y se desea contrastar si existe alguna diferencia significativa
en la cantidad promedio de protena en los dos distritos, se obtiene el siguiente
cuadro de dilogo:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
142

Figura 3.19 Ventana para prueba z de dos muestras


La opcin de salida se muestra en el siguiente cuadro u corresponde a las
opciones de la prueba Z para medias de dos muestras:


Figura 3.20 Resultados de una prueba Z para dos muestras


En el presente ejemplo de las muestras de trigo de los dos distritos, se acepta la
igualdad del contenido promedio de protenas, tanto para el contraste de una
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
143

cola como para el contraste de dos colas, puesto que ambos valores crticos de
Z ( 1.64485348 y 1.95996279) son mayores que el valor estadstico de prueba Z
(0.19377279), es decir, cae fuera de la regin crtica o de rechazo. Adems, la
probabilidad o p-valor (0.42317692) es mayor que el nivel alfa preestablecido de
0.05.

Auto evaluacin

Informacin de retorno al final del mdulo.

3.1 Qu es una prueba de hiptesis?
3.2 Enumere el procedimiento de los cinco pasos para probar una hiptesis?
3.3 Se dispone del producto XX para agregarlo al maz durante la etapa de
crecimiento con el propsito de agregar peso a la mazorca. Para
determinar si el producto fue eficaz, se seleccionaron aleatoriamente 400
mazorcas que recibieron el tratamiento; se pes cada mazorca y su peso
medio fue de 16 onzas con una desviacin estndar de 1 onza. De igual
manera , se pes 100 mazorcas de maz no tratado y la media fue de
15.2 onzas con una desviacin estndar de 1.2 onzas.
3.3.1 Utilizando una prueba de una cola y el nivel de 0.05, es posible decir
que el producto XX actu eficazmente para dar ms peso al maz?.
3.3.2 Muestre la regla de decisin grficamente.
3.4 Una persona cree que las latas de 16 onzas de un determinado enlatado
se estn llenando en exceso. El departamento de control de calidad tom
una muestra aleatoria de 50 envases y encontr que el peso promedio es
de 16.05 onzas, con una desviacin estndar de 0.03 onzas. En el nivel
de significancia de 5%.
3.4.1 Puede rechazarse la hiptesis de que el peso promedio es igual a 16
onzas?
3.4.2 Determine el p valor.


Resumen

Cuando las personas toman decisiones lo hacen con base en creencias que
tienen en relacin a su concepto de realidad. Cada una de estas creencias
origina una hiptesis, que es una proposicin avanzada con posibilidad de ser
verdadera. La prueba de hiptesis es un mtodo sistemtico de evaluar
creencias sobre la realidad que requiere de la confrontacin de una creencia
con una evidencia y decidir si puede mantenerse como razonable o descartarse
por insostenible, e intervienen 5 pasos principales.

El primer paso es la formulacin de dos hiptesis opuestas, la hiptesis nula
simbolizada por
0
H y la hiptesis alternativa simbolizada por
1
H siendo ambas
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
144

mutuamente excluyentes y tambin colectivamente exhaustivas, las cuales se
pueden expresar en varias formas, mientras que la hiptesis nula puede ser
expresada como exacta o inexacta, la alternativa siempre se expresa como
inexacta de dos o una cola.

El paso dos es la determinacin del nivel de significancia y por supuestamente
el tipo de distribucin de probabilidad a utilizar, con el propsito de fijar los
puntos crticos de la prueba, sea para una prueba de una cola o de dos colas.
El paso tres es la seleccin del estadstico de prueba a calcular a travs de una
muestra aleatoria simple tomada de la poblacin de inters para establecer la
probable verdad o falsedad de la hiptesis nula.

El paso cuatro es la confrontacin con la regla de decisin, que consiste en
aceptar o rechazar la hiptesis nula. El rechazo errneo de una hiptesis nula
que en realidad es verdadera se llama error tipo I y ocurre con una probabilidad
de o . La aceptacin errnea de una hiptesis nula que en efecto es falsa se
llama error tipo II y ocurre con una probabilidad | . Dado el tamao muestral de
n, cualquier cosa que reduzca o har aumentar | en forma automtica. Las
dos probabilidades complementarias o 1 con respecto a o y | 1 con
respecto a | , se conocen respectivamente como el nivel de confianza y la
potencia de la prueba de hiptesis. La relacin entre los errores tipo I y tipo II se
pueden describir con ayuda de la correspondiente curva.

El paso 5 es la toma de la decisin con relacin a la hiptesis nula planteada.
Los procedimientos modernos de pruebas de hiptesis an estn sujetos a
controversia considerable y los crticos presentan preocupaciones por las
violaciones serias de suposiciones.

Aplicaciones en Excel y SPSS.

A. Excel

GENERACIN DE NMEROS ALEATORIOS

Excel dispone de funciones para la obtencin de nmeros aleatorios
independientes, extrados segn una distribucin dada, utilizando herramientas
de anlisis. Si en el cuadro de dilogo Anlisis de datos de la figura 2.5 elige
Generacin de nmeros aleatorios de la figura 2.6.






UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
145

Figura 2.5 Ventana de anlisis de datos



Figura 2.6 Generacin de nmeros aleatorios


En el cuadro de nmero de variables introduzca el nmero de columnas de
valores que desee incluir en la tabla de resultados; si no introduce valor alguno,
el programa rellenar todas las columnas del rango de salida que se haya
especificado. En el cuadro de Cantidad de nmeros aleatorios introduzca el
nmero de puntos de datos que dese ver; si no introduce algn nmero el
programa rellenar todas las columnas del rango de salida que haya
especificado. En el cuadro de Distribucin haga clic en distribucin estadstica
que desee utilizar para crear los valores aleatorios


Las distribuciones posibles son:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
146


Uniforme: caracterizada por los lmites inferior y superior. Se
extraen las variables con probabilidades iguales de todos los
valores del rango.

Normal: Caracterizada por una media y una desviacin estndar.
Una aplicacin normal utiliza una media cero y una desviacin
estndar de uno para la distribucin estndar normal.

Bernoulli: Caracterizada por la probabilidad de xito (valor P) en un
ensayo dado. Las variables aleatorias de Bernoulli tiene un valor
cero uno; por ejemplo, puede trazarse una variable aleatoria
uniforme en el rango 0...... Si la variable es menor o igual que la
probabilidad de xito, se asigna el valor uno a la variable aleatoria
de Bernoulli; en caso contrario se le asigna el valor de cero.

Binomial: Caracterizada por una probabilidad de xito (valor P)
durante un nmero de pruebas; por ejemplo, se puede generar
varables aleatorias de Bernoulli de nmero de pruebas, cuya suma
es una variable aleatoria binomial.
Poisson: Caracterizada por un valor lambda, igual a
Media
1
. La
distribucin de Poisson se utiliza con frecuencia para caracterizar
el nmero de incidencias por unidad de tiempo; por ejemplo, el
ritmo promedio al que llegan los vehculos a una garita de peaje.

Frecuencia relativa: Caracterizada por un lmite inferior y superior,
un incremento, un porcentaje de repeticin para valores y un ritmo
de repeticin de la secuencia.

Discreta: Caracterizada por un valor y el rango de probabilidades
asociado. El rango debe contener dos columnas. La columna
izquierda debe contener valores, y la derecha probabilidades
asociadas con el valor de esa fila. La suma de las probabilidades
debe ser igual a uno

En el campo de parmetros introduzca un valor o varios valores para
caracterizar la distribucin seleccionada.- En el campo Iniciar con escriba un
valor opcional a partir del cual se generan los nmeros aleatorios. En el cuadro
de Rango de salida introduzca la referencia correspondiente a la celda
superior izquierda de la tabla de resultados. Haga clic en aceptar y se muestra
la salida correspondiente a la opcin de generacin de nmeros aleatorios

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
147

OBTENCIN DE MUESTRA ALEATORIA SIMPLE

Adicionalmente Excel permite obtener una muestra aleatoria simple con
reposicin de una poblacin numerada dada como rango de entrada. En el
cuadro de dilogo Anlisis de datos se elige Muestra como se indica en el
cuadro 2.7, se obtiene el cuadro de dilogo de la muestra de la figura 2.8. A
continuacin se explica la funcionalidad de todos los campos del cuadro de
dilogo de la muestra.

Figura 2.7 Ventana de anlisis de datos

Figura 2.8 Ventana del dialogo para la muestra


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
148

Rango de entra: Introduzca la referencia correspondiente al rango de datos que
contenga la poblacin de valores de los que desee extraer una muestra.

Rtulos: Active sta casilla si la primer afila y la primera columna del rango de
entrada contiene rotulo. Desactive si el rango de entrada carece de rotulo.
Mtodo de muestreo: Haga clic en el peridico o aleatorio para indicar el
intervalo de muestreo que desee.
Periodo: Introduzca el intervalo en el que desee realizar la muestra. El valor n
del perodo del rango de entrada y cada valor n del perodo siguiente se copian
en la columna de resultados. El muestreo termina cuando se llegue al final del
rango de entrada.
Nmero de muestra: Introduzca el nmero de valores aleatorios que desee en la
columna de resultados. Cada valor se extrae de una posicin aleatoria del rango
de entrada, y puede seleccionarse cualquier nmero ms de una vez.
Rango de salida: Introduzca la referencia correspondiente a la celda superior
izquierda de la tabla de resultados. Los datos se escriben en una sola columna
debajo de la celda. Si selecciona Peridico, el nmero de valores de la tabla
de resultados es igual al nmero de valores del rango de entrada dividido por la
tasa de muestreo. Si selecciona Aleatorio, el nmero de valores de la tabla de
resultados es igual al nmero de muestras.
En hoja nueva: Hace clic en sta opcin para insertar nueva hoja en e libro
actual y pegar los resultados, comenzando por la celda A1 de la nueva hoja de
clculo. Para darle un nombre a la nueva hoja de clculo, escrbalo en el
cuadro.
En libro nuevo: Haga clic en sta opcin para crear un libro nuevo y pegar los
resultados en una hoja nueva del libro creado.
Al pulsar aceptar en la figura 2.8, se obtiene la muestra aleatoria simple con
sin reposicin.

B. SPSS
Ordenar casos
Para ordenar una variable aleatoria de un archivo en SPSS, elija en los mens:
datos, seleccionar casos como se indica en la figura:








UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
149


Figura 2.9


Al hacer clic en ordenar datos aparece la siguiente figura que permite ordenar
por la variable en que se est interesado, para el caso se ha seleccionada la
edad.

Figura 2.10


Seleccionar una muestra aleatoria
En la barra de men elija datos, y selecciona casos como se indica en la figura:




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
150

Figura 2.11

Al pulsar clic en seleccionar casos se logra la siguiente figura:

Figura 2.12


Al lado derecho de la figura selecciona muestra aleatoria de casos y pulsando
muestra le obtiene la siguiente figura:





UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
151

Figura 2.13


El mtodo de muestreo le permite introducir el porcentaje o el nmero de casos,
que para el caso se selecciona el 10% y hace clic en aceptar, donde se puede
observar en la vista de datos la seleccin de la muestra correspondiente al 10%
del total de la muestra.

Actividades de aprendizaje.

Ejercicio 2.15

Generar 20 nmeros aleatorios distribuidos uniformemente en el intervalo (0,1).
Generar igualmente 20 nmeros aleatorios entre 50 y 100.

Desarrollo: En la primera fila escribe en A1 nmero de orden; En A2 escribe
ALEATORIO (0,1) y en A3 ALEATORIO (50,100), como se indica en la siguiente
pantalla:

Figura 2.14 Ventana Excel de entrada de informacin


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
152

Aunque no es necesario en este caso, se inicia introduciendo los 20 primeros
nmeros naturales en el rango A2:A21 aunque solo sea para usarlos como
referencia. En la celda B2 introduce la frmula =ALEATORIO(), y en la celda C2
introduce la frmula =ALEATORIO.ENTRE(50;100). En la figura 2.14 se
present la estructura de frmulas, y los resultados obtenidos al arrastrar hacia
abajo 20 lugares ambas frmulas.

Ejercicio 2.16:

Generar 15 nmeros aleatorios distribuidos segn una variable de Poisson de
media 4 y segn una binomial(40,1/10)
Desarrollo:

En el men Herramientas de Excel elige Anlisis de datos, a continuacin
selecciona Generacin de nmeros aleatorios y rellena la pantalla de entrada
como se indica en la figura 2.7 y 2.8, obteniendo los resultados de la figura 2.9.
Se observa que los rangos de los dos conjuntos de nmeros aleatorios son
parecidos, puesto que una binomial (n,p) puede aproximarse por una Poisson
de parmetros np, siempre que 5 np y
10
1
s p para el caso del enunciado.

Figura 2.15 Ventana variable Poisson











UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
153

Figura 2.16 Ventana variable binomial


Figura 2.17 Resultados ejercicio 2



Auto evaluacin

Informacin de retorno al final del mdulo.

2.1 Qu es una muestra probabilstica?
2.2 Una poblacin consiste en los cuatro valores siguientes: 12, 12, 14, 16.
2.2.1 Cuntas muestras de tamao dos sin reemplazamiento son posibles?
2.2.2 Liste todas las posibles muestras de tamao dos y calcule la media de
cada muestra?
2.2.3 Determine la media de las medias maestrales y la media de la poblacin.
Compare los dos valores.
2.3 En qu consiste el Teorema del lmite central?
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
154

2.4 Suponga que un candidato a la alcalda desea una estimacin de la
proporcin de la poblacin de la localidad que apoya su poltica. Es
postulante desea que la estimacin este dentro del 0.04 de la proporcin
verdadera. Considere que se usa un nivel de confianza de 0.95. El partido
del candidato estima que la proporcin que apoya la poltica actual es de
0.60.
2.4.1 Qu tan grande debe ser la muestra?
2.4.2 Cun grande debe ser la muestra si no se contara con la estimacin del
partido del candidato?

Resumen.

Cuando se realiza una investigacin se trata de buscar informacin sobre
caractersticas numricas de un conjunto de elementos, al que se le denomina
poblacin. Por lo general debido a problemas de tiempo y costo es difcil o
imposible estudiar cada individuo o elemento de la poblacin, y es necesario
examinar solamente una parte de la poblacin seleccionada adecuadamente a
la que se le da el nombre de muestra.

Para extraer conclusiones sobre las caractersticas desconocidas de la
poblacin se procede a aplicar uno de los mtodos probabilisticos de muestreo,
entre los cuales se tiene el muestreo aleatorio simple, el muestreo estratificado,
el muestreo por conglomerados y el muestreo sistemtico, los cuales son
aplicados dependiendo de las caractersticas que tiene los elemento de la
poblacin.

Una poblacin se conoce cuando se logra identificar su funcin de probabilidad
o funcin de densidad de la variable aleatoria asociada; por lo general dicha
funcin no se conoce y tampoco sus parmetros (media y desviacin estndar),
entonces se hace necesario estimarlos con base en la informacin suministrada
por el estudio de muestras aleatorias de la poblacin. Los valores obtenidos de
una muestra con el propsito de estimar los parmetros de la poblacin se le
conoce como estimadores o estadsticos. Un estadstico muestral, es una
variable aleatoria cuya distribucin se conoce con el nombre de distribucin
muestral, para la cual se puede calcular la media y la desviacin estndar
(conocida tambin como el error tpico).

Para ilustrar lo anterior se considera estudiar todas las posibles muestras de un
determinado tamao que se pueden tomar de una poblacin y se calcula el
estadstico para cada muestra, obteniendo tantos valores cuantas muestras
haya y por tanto se obtiene la distribucin del estadstico o distribucin muestral.

Si se tiene una muestra de cierto tamao y se obtiene tantos valores
estadsticos como muestras se logren obtener, la distribucin muestral de
medias tiene una distribucin normal, en donde la media de la poblacin es igual
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
155

a la media de la distribucin muestral de medias; la varianza de la distribucin
muestral de medias es igual a la varianza poblacional dividida entre el tamao
de la muestra, para poblaciones infinitas o muestreo con reemplazamiento. Este
planteamiento se le conoce como el teorema central del lmite, de amplia
aplicacin dentro de la teora del muestreo.

Cuando se trabaja con muestras siempre se presentan algunos errores de
muestreo debidos a que las muestras varan de una a otra y los riesgos pueden
ser apreciados gracias a la teora de probabilidad. El error de muestreo depende
del tamao de la muestra, y entre ms grande sea la muestra menor ser el
error, pero en trminos econmicos es ms costosa, por lo que es importante
tener criterio para el clculo del tamao de muestra, utilizando formulas basadas
en las propiedades de la distribucin normal y el error estndar, las cuales
permiten calcular tamaos de muestra para medias y para proporciones,
teniendo en cuenta si el muestreo es con o sin reemplazamiento.

Finalmente se ponen en prctica algunas aplicaciones sobre la generacin de
nmeros aleatorios y tamaos de muestra generados por Excel y SPSS.

CAPITULO CINCO: ANLISIS DE VARIANZA

Introduccin.

En esta unidad se prosigue con el anlisis de pruebas de hiptesis. Recuerde
que en captulo anterior se examin la teora general de la prueba de hiptesis y
se describi el caso en el que fue seleccionada una muestra grande a partir de
la poblacin. Se emple la distribucin Z como base para determinar si es
razonable concluir que una media calculada a partir de una muestra, proviene
de una poblacin hipottica. Adems se prob si dos medias muestrales
provienen de poblaciones iguales. Tambin se efectuaron pruebas de una y dos
muestras para relaciones proporcionales utilizando la distribucin normal como
entidad estadstica de prueba. Se utiliz la distribucin t como entidad
estadstica de prueba para muestras pequeas (con menos de 30
observaciones)

Cuando se desea conocer la homogeneidad que existe entre tres o ms medias
muestrales, se procede a determinar la variabilidad entre esas medias, tcnica
que se conoce como anlisis de varianza. Es decir, cuando productos o
individuos son sometidos a tratamientos determinados para ver cmo stos
influyen en resultados o comportamientos, lo ms aconsejable es utilizar la
tcnica de anlisis de varianza.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
156

El objetivo del anlisis de varianza es determinar cuales son las variables
independientes de importancia en un estudio, y en qu forma interactan y
afectan la respuesta.

Objetivo general.

Reconocer la importancia principios en que se basa y campos de aplicacin de
la tcnica de Anlisis de Varianza.

Objetivos especficos.

Comprender la nocin general del anlisis de varianza.
Realizar una prueba de hiptesis para determinar si dos varianzas
muestrales provienen de poblaciones iguales.
Probar e interpretar hiptesis aplicando el anlisis simple de varianza.
Establecer y organizar datos en una tabla de ANOVA de una y de dos
direcciones.
Plantear, probar e interpretar hiptesis de anlisis de varianza de dos
factores de diseo de bloque aleatorizado.
Plantear, probar e interpretar hiptesis de anlisis de varianza de dos
factores con interaccin o diseo de factorial.
Definir los trminos tratamientos y bloques.
Dar a conocer el manejo de la herramienta de Anlisis de varianza en
Excel.


Leccin No 21: Generalidades.

Como su nombre lo indica, el ANALISIS DE VARIANZA, consiste en comparar
tres o ms medias de una muestra para identificar su homogeneidad o
variabilidad.

Del anlisis de varianza, podemos decir que esta tcnica estadstica,
normalmente es utilizada para analizar resultados en la investigacin con
diseos experimentales y cuasi-experimentales; muchas veces necesitamos
comparar dos o ms distribuciones que corresponden a variaciones de una
misma variable dependiente, afectada por una o ms variables independientes.

Tericamente es posible dividir la variabilidad del resultado de un experimento
en dos partes: la originada por factores o tratamientos que influyen directamente
en el resultado del experimento, y la producida por el resto de factores
desconocidos o no controlables, que se conoce con el nombre de error
experimental

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
157

Un modelo de anlisis de varianza es de efectos fijos cuando los resultados
obtenidos slo son vlidos para esos determinados niveles del factor estudiado
y lo que ocurra a otros niveles del factor puede ser diferente.

Un modelo de anlisis de varianza es de efectos aleatorios cuando los
resultados obtenidos son vlidos para cualquier nivel del factor estudiado.

Un modelo es replicado si el experimento se repite varias veces para cada nivel
del factor; en caso contrario se dice que el modelo es por unidad de casilla.

SUPUESTOS DEL ANLISIS DE VARIANZA

Para cada poblacin la variable de respuesta est normalmente
distribuida.
La varianza de la variable respuesta es la misma para todas las
poblaciones.
Las observaciones deben ser independientes.

- Comparacin mltiple de medias muestrales.

El anlisis de varianza se usa para probar la igualdad de K medias
poblacionales y la forma general del planteamiento de las hiptesis es:

K o
H = = = ... :
2 1

iguales. son poblacin la de medias las todas No :
1
H

Donde:
j
= Media de la j-sima poblacin.

Si supone que se ha tomado una muestra aleatoria simple de tamao
j
n de
cada una de las K poblaciones, se tiene:

to. tratamien simo - j del muestra la de estndar Desviacin S
to. tratamien simo - j del muestra la de Varianza S
to. tratamien simo - j del muestra la de Media X
to. tratamien simo - j el en nes observacio de Cantidad n
j. to tratamien el para i n observaci cada de Valor
j
2
j
j
j
=
=
=
=
=
ij
X


La media general de las muestra, est representada por X , y es la suma de
todas las observaciones divida entre la cantidad total de las mismas, expresada
de la siguiente forma:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
158


t
K
j
n
i
ij
n
X
X
j

= =
=
1 1

Donde:
K t
n n n n + + + = ...
2 1


Si el tamao de cada muestra es kn n n
T
= , , la ecuacin de la media general se
reduce a:

K
X
K
n
X
n
X
X
K
j
j
K
j
n
i
ij
t
K
j
n
i
ij
j j

= = = = =
= = =
1 1 1 1 1


En otras palabras, cuando los tamaos de muestra son iguales, la media
general muestral es justamente el promedio de las medias de las K muestras.

Ejemplo 1

Suponga que una empresa tiene tres dependencias diferentes en donde
produce tubos de iluminacin, y desea verificar el control de calidad en cuanto a
duracin se refiere de las bombillas, y para ello toma una muestra de 6 unidades
de cada factora y las somete a desgaste hasta que dejan de iluminar con los
siguientes resultados en horas:

Observacin Planta 1 Planta 2 Planta 3 total
1
2
3
4
5
6
85
75
82
76
71
85
71
75
73
74
69
82
59
64
62
69
75
67

J
X
79 74 66 73
2
J
S
34 20 32
J
S 5.83 4.47 5.66
J
n 6 6 6 18

=
n
J
iJ
X
!

474 444 396 1314





UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
159

La media general es igual a:

73
3
219
18
66 74 79
3
1
= =
+ +
= =

=
J
J
J
n
X
X


Se observa que se obtienen las medias para cada tratamiento (79,74,66) y una
media general (73). Para llevar a cabo la prueba de la igualdad de las medias
de la poblacin, se subdivide la variacin total en dos mediciones:

Diferencia entre los grupos.
Diferencia dentro de los grupos.

La varianza de la muestra total se particiona en la varianza dentro de las plantas
y la varianza entre las plantas, tal como se indica en el siguiente grfico:

Figura 5.1 Componentes de la variacin total




Variacin total (VT) = ( )
2
1 1

= =

k
j
n
i
ij
X X = VT


( ) ( ) ( ) ( )
( ) ( )

= =
= +
+ + + + + + =
|
.
|

\
|

=
6
1 2 2
2 2 2 2
2
3
1
946 73 64 73 59
... 73 75 73 71 ... 73 75 73 85
i
ij
J
X X
VT



n
X
X
K
j
n
i
ij
= =
=
1 1
La gran media o media general.

=
ij
X es la i-sima observacin del grupo, nivel o tratamiento j.
=
j
n es el nmero de observaciones del grupo, nivel o tratamiento j.
Variacin
total (VT)
Variacin
dentro del
grupo (VDG)
Variacin entre
grupo (VEG)
= +
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
160

= n es el total del nmero de observaciones en todos los grupos
combinados.
= K es el nmero de grupos, niveles o tratamientos del factor de inters.

Variacin dentro del grupo (VDG) = ( )

= =

k
j
n
i
j ij
X X
1 1
2
= VDG



( ) ( ) ( ) ( )
( ) ( )

= = = + +
+ + + + + +
=
3
1
6
1
2 2
2 2 2 2
430 .... 66 64 66 59
... 74 75 74 71 ... 79 75 79 85
j I
VDG


=
ij
X es la i-sima observacin del grupo, nivel o tratamiento j.

=
j
X es la media de la muestra del grupo, nivel o tratamiento j.


Variacin entre grupos (VEG) =
( )

=

K
j
j j
X X n
1
2
= VEG


( ) ( ) ( )

=
= + + =
|
.
|

\
|
=
3
1
2 2 2
2
6
516 73 66 6 73 74 6 73 79 6
J
X X n VEG



K= es el nmero de grupos, niveles o tratamientos que se estn
comparando.
=
j
n es el nmero de observaciones del grupo, nivel o tratamiento j.
=
j
X es la media de la muestra del grupo, nivel o tratamiento j.
= X es la media general o gran media.


Compruebe que la variacin total sea igual a la sumatoria de la variacin entre y
dentro de los grupos.

Puesto que K niveles estn siendo comparados, existen (K-1) grados de libertad
asociados con la suma de cuadrados entre los grupos, niveles o tratamientos.
Como cada uno de los K niveles contribuye con ( 1
j
n ) grados de libertad,
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
161

existen (nk) grados de libertad asociados con la suma de cuadrados dentro de
los grupos.

Si cada suma de cuadrados se divide entre sus grados de libertad asociados, se
obtienen tras varianzas o trminos cuadrticos medios, como se indica en el
siguiente cuadro:


Cuadro 5.1 Componentes del anlisis de varianza
Variacin Suma
cuadrados
Grados
libertad
Cuadrado
medio
Distribucin
F
Entre
tratamiento
( )

=

K
j
j j
X X n
1
2

(K-1)
( )
A
K
VET
=
1

B
A

Dentro o error
( )

= =

k
j
n
i
j ij
X X
1 1
2

(n-K)
( )
B
k n
VDT
=



Total
( )
2
1 1

= =

k
j
n
i
ij
X X
(n-1)



Los resultados para el problema de anlisis es el siguiente:


Cuadro 5.2 Resultados del anlisis de varianza
Variacin Suma
cuadrados
Grados
libertad
Cuadrado
medio
Distribucin
F
Entre
tratamiento
516 (K-1)= 2
00 . 258
2
516
= 99 . 8
67 . 28
258
=
Dentro o error 430 (n-K)=15
67 . 28
15
430
=

Total 946 (n-1)=17

En el anexo F Tabla de Distribucin F determina el correspondiente valor
crtico para el numerador (k-1= 3-1=2) y el denominador (n-K = 18-3=15), con
una probabilidad de error tipo 1 o un nivel de significancia del 5%, que
corresponde a 68 . 3
05 . 0
= F , significando que si se tuviera que seleccionar un
valor al azar de una distribucin F con 2 grados de libertad en el numerador y 15
en el denominador, slo el 5% de las veces se obtendra un valor mayor que
3.68. Adems la teora del anlisis del varianza indica que si es cierta la
hiptesis nula, la relacin entre los cuadrados medios entre y dentro de los
tratamientos seria un valor dentro de esa distribucin, tal que se rechaza si, el
valor de dicha relacin es mayor que el valor crtico:


( ) 1 n
VT
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
162

crtico Valor
B
A
si H Rechaza
0
>


Para el caso la relacin es igual a 8.99 mayor que el valor crtico 3.68, entonces
se tienen pruebas suficientes para rechazar la hiptesis nula consistente en que
las medias de las tres poblaciones son iguales. En otras palabras el anlisis de
varianza apoya la conclusin que las medias para la duracin de las bombillas
es diferente en las tres plantas.
El grfico para dicho planteamiento es el siguiente:


Figura 5.2 Decisin del anlisis de varianza



El valor de la relacin es superior al valor crtico, por tal razn se rechaza la
hiptesis nula consistente en que las medias poblacionales sean iguales.


Leccin No 22: Anlisis de varianza de un factor.

El anlisis de varianza simple se presenta cuando se tiene un solo factor
estudiado en sus distintos niveles que influyen sobre una variable respuesta que
mide el resultado del experimento, y el resto de los factores conforman el error
experimental influyendo sobre la variable respuesta de manera no controlable.
El factor se presenta con I niveles, y dentro de cada nivel se analiza una serie
de observaciones del experimento en control (unidades experimentales) y su
efecto sobre la variable respuesta, es decir, para cada nivel se repite el
experimento varias veces (replicacin).
El anlisis de varianza descompone la variabilidad del resultado de un
experimento en componentes independientes (variacin total descompuesta en
variaciones particulares). Como ejemplo se puede considerar los rendimientos
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
163

de un mismo cultivo en parcelas diferentes, que aunque labradas en las mismas
condiciones, producen cosechas que son distintas. La variabilidad de
rendimientos es producida por factores o tratamientos controlables (abono,
riego, etc.), donde cada factor o tratamiento puede presentar diferentes niveles
(diferentes cantidades o calidades de abono, distinta intensidad de riego);
tambin puede ser producida por otros factores o tratamientos no controlables
(humedad relativa, clima, plagas, etc.).

As,
ij
X es la observacin j-sima de la variable respuesta relativa al j-simo
nivel de factor, y en el ejemplo anterior,
ij
X es el rendimiento obtenido (variable
respuesta) bajo el nivel i del factor (abono) en la observacin j-sima (Para cada
nivel i de factor se repite el clculo de rendimiento
i
n veces para recoger el
efecto del error experimental).

Se representa por
i
u la parte de
ij
X debida a la accin del factor.

Se representa por
ij
u la variacin causada por todos los factores no controlables
(error experimental).

En consideracin a lo anterior el valor de la variable respuesta
ij
X , se debe a la
variacin debida al factor que se esta analizando y a la variacin de los otros
factores no controlables, por tanto se puede expresar que:

ij i ij
u u X + =

Se supone que
ij
u es una variable normal de media cero y varianza constante.

En esta seccin se considera el anlisis de varianza de un solo factor , en el
cual solo interviene en el experimento un solo tipo de tratamiento. Cuando se
desea contrastar las hiptesis sobre la diferencia global entre tres o ms
medias de poblacin, se aplica la distribucin de probabilidad F encontrando en
cociente de dos varianzas calculadas a partir de los datos experimentales. El
modelo lineal en que se basa el mtodo de anlisis de varianza de un solo factor
es:

ij i iJ
X + + = |
donde:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
164

j. poblacin la de to tratamien de n observaci sima - la a asociado aleatorio error
ntes. independie aleatorias les Son variab j. poblacin la en to tratamien del efecto
constante una nto.Es tratamie del j s poblacione las todas de media gran la
al. experiment grupo simo - j del n observaci sima - i la es :
iJ
=
=
=

i
ij
X
|


Entre estas tres componentes, la gran media se comprende por s misma. El
efecto
i
| del tratamiento o factor es la diferencia entre la gran media y la media
J
de la poblacin en tratamiento J, esto es: | =
J i
.
Por consiguiente, si hay J tratamientos en un experimento, la suma de todos los
J efectos de los tratamientos debe ser igual a cero:

( ) 0
1 1 1
= = =

= = =
| J
J
J
J
J
J
J
J
J
i


El ltimo trmino
iK
refleja la variabilidad dentro de cada una de las
poblaciones en tratamiento, y su presencia se atribuye al proceso aleatorio, y se
interpreta como lo resultante de la diferencia entre el resultado observado y la
media de la poblacin del tratamiento:
j iij iJ
X =

El valor esperado o la esperanza de
ij
es igual a cero.
El modelo se basa en las siguientes suposiciones:

Admite que los errores aleatorios
ij
tienen una distribucin normal
para cada poblacin en tratamiento J.
Admite que los errores
iJ
se distribuyen independientemente
tanto entre poblaciones en tratamiento como dentro de ellas.
Acepta que la varianza
2
o del error permanece constante para
cada una de las poblaciones.

Un ejemplo numrico sencillo contribuye a la comprensin de las relaciones
anteriormente expresadas en las frmulas.
Ejemplo 2
Suponga que dispone de un conjunto de rboles clasificados por altura (en
metros) y por especie, segn los siguientes datos:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
165


Cuadro 5.3 Registro de altura de un conjunto de rboles
Especie Altura Especie Altura Especie Altura
A
B
C
A
B
D
E
D
C
C
8.52
6.45
7.41
7.15
8.73
7.55
6.54
7.74
8.65
8.81
B
A
A
E
B
B
D
C
C
B
8.52
6.43
6.21
7.07
8.83
8.53
7.84
8.59
7.41
8.94
A
E
A
C
A
B
C
D
B
B
8.13
7.17
8.40
8.87
6.12
8.91
8.81
7.40
8.19
8.56

Para ajustar la informacin a un modelo de anlisis de varianza, se considera
como variable respuesta la altura de los rboles en metros, y como nico
factor la variable cualitativa especie con cinco niveles (A, B, C, D, E). Dado
que se tiene un modelo de un solo factor, se desea probar si las variadas
especies de rboles tienen igual o diferente promedio de altura con un nivel
de significancia del 1%.
Primero se estiman las medias para cada una de las especies y la media
total, conforme al siguiente cuadro:

Cuadro 5.4 Registro de estadsticos para diferentes especies
Especie
A
Especie
B
Especie
C
Especie
D
Especie
E
Total
8.52
7.15
6.43
6.21
8.13
6.12
6.45
8.73
8.52
8.83
8.53
8.94
8.40
8.91
8.19
8.56
7.41
8.65
8.81
8.59
8.87
8.81
7.55
7.74
7.84
7.41
7.40
6.54
7.07
7.17

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
166

Sumas 42.56 84.06 51.14 37.94 20.78 236.48
Promedio 7.093 8.406 8.523 7.588 6.926 7.707
Observaciones 6 10 6 5 3 30

882666 . 7
30
48 . 236
30
.... ... 65 . 8 41 . 7 ... 76 . 8 45 . 6 ... 15 . 7 52 . 8
5
1 1
= =
+ + + + + + + + +
= =

= =
t
j
n
i
ij
n
X
X
j
Variacin total (VT) =
( )
2
1 1

= =

k
j
n
i
ij
X X


( ) ( ) ( ) ( ) 0741867 . 24 88 . 7 17 . 7 88 . 7 07 . 7 ... 88 . 7 12 . 6 ... 88 . 7 52 . 8
2 2 2 2
= + + + + + = VT

Variacin dentro del grupo (VDG) =
( )

= =

k
j
n
i
j ij
X X
1 1
2

( ) ( ) ( ) ( ) 9584533 . 11 926 . 6 17 . 7 .... 523 . 8 41 . 7 ... 406 . 8 45 . 6 ... 09 . 7 52 . 8
2 2 2 2
= + + + + + + = VDG

Variacin entre grupos (VEG) =
( )

=

K
j
j j
X X n
1
2


( ) ( ) ( ) 1157333 . 12 88 . 7 926 . 6 .... 88 . 7 406 . 8 88 . 7 093 . 7
2 2 2
= + + + = VEG


Para calcular el estadstico de prueba perteneciente a la distribucin F , se
resume en el siguiente cuadro:

Cuadro 5.5 Clculos del cuadro de anlisis de varianza
Variacin Suma
cuadrados
Grados
libertad
Cuadrado
medio
Distribucin
F
Entre
tratamiento
12.1157333 (K-1)= 4 3.0289 6.332
Dentro o error 11.9584533 (n-K)=25 0.4783
Total 24.0741867 (n-1)=29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
167

En el anexo F Tabla de Distribucin F determina el correspondiente valor
crtico para el numerador (k-1= 5-1=4) y el denominador (n-K = 30-5=25), con
una probabilidad de error tipo 1 o un nivel de significancia del 1%, que
corresponde a 18 . 4
01 . 0
= F . Para el caso la relacin es igual a 6.332 mayor que
el valor crtico 4.18, entonces se tienen pruebas suficientes para rechazar la
hiptesis nula consistente en que las medias de las cinco variedades de rboles
son iguales. En otras palabras el anlisis de varianza apoya la conclusin que
las medias para la altura de las diferentes especies de rboles es diferente.

Leccin No 23: Comparacin Mltiples de medias (Pruebas
a posteriori)
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las
posibles medias que podra ser diferente al rechazar la hiptesis.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan
el rango (diferencia entre medias) de todos los pares de muestras como
estadstico y dicho rango debe superar un cierto valor llamado mnimo rango
significativo para considerar la diferencia significativa.
La principal diferencia con respecto a la t de Student radica en que usan MSE
como estimador de la varianza, es decir un estimador basado en todas las
muestras.

Leccin 24: Anlisis de varianza con dos factores
(diseo de bloques aleatorizados).

Con frecuencia interesa analizar los efectos de dos tipos de factores o
tratamientos. Suponga que un experimento incluye dos tipos de factores: el uno
llamado C (lo que sugiere columna) consistente en K tratamientos diferentes, y
el otro, denominado F (lo que sugiere fila) consistente en J tratamientos
diferentes. Se admite que respecto al j-simo tratamiento de F y el K-simo
tratamiento de C, existen cuatro componentes as:

ijk j i ijK
X + + + = o | donde:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
168

k. y j to tratamien del n combinaci la en n observaci sima - i la a asociado aleatorio Error
j. to tratamien del Efecto
i. to tratamien del Efecto
to. tratamien del nte independie X de media gran La
ijk
j
i
=
=
=
=

o
|


La varianza total de la muestra se particiona en la varianza entre las filas,
varianza entre columnas, varianzas entre la j x k, y las varianzas del error
aleatorio. Para este modelo, los clculos del anlisis de la varianza para las
sumas de los cuadrados son idnticos a los realizados en el modelo de un solo
factor, tan solo que se calculan variaciones para el factor de fila, de columna y
para el error aleatorio. De manera anloga, los grados de libertad y los
cuadrados medios son los mismos. A continuacin se indica el cuadro resumen
para el anlisis de varianza de dos factores:

Cuadro 5.6 Anlisis de varianza para dos factores

Fuente
de
variaci
n
Suma de los cuadrados, SC Grados
de
Libertad,
gl
Media
cuadrtica,
MC
Relaci
n F
Entre
los
grupos
o
column
as (j)

=
|
.
|

\
|
=
C
j
j X X r VEC
1
2
.


1 c


1
=
c
VEC
MCA


MCE
MCA
F =

Entre
los
bloque
s o
filas (i)

=
|
.
|

\
|
=
r
i
i X X c VEF
11
2
.


1 r

1
=
r
VEF
MCB

MCE
MCB
F =

Error
de
muestr
eo, E

= =
|
.
|

\
|
+ =
c
j
r
i
i j
ij
X X X X VE
1 1
2
. .

( )( ) 1 1 c r


( )( ) 1 1
=
c r
VE
MCE



Total, T

= =
|
.
|

\
|
=
c
j
r
i
ij
X X VT
1 1
2


1 rc


La definicin de los trminos del cuadro son los siguientes:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
169

nes. observacio de total Nmero n
grupos. de nmero El c
bloques. de nmero El r
. gran total al e equivalent
grupos, los todos de y bloques los todos de valores los de sumatoria La X
j. grupo del to tratamien el para valores los todos de media La X
i. bloque el en valores los todos de media La
simo. - i grupo del to tratamien el para simo - i bloque del Valor
1 1
ij
j
=
=
=
= =
=
=
=

= =
X
X
X
c
j
r
i
i
ij


Para contrastar los efectos de los factores en el modelo, se construye un
estadstico que se compara los cuadrados medios, que bajo la hiptesis nula
sigue una distribucin F.

Ejemplo 3

Suponga que existen cuatro parcelas diferentes las cuales son sometidas
sucesivamente a seis tipos de insumos y se piensa que la produccin es
afectada por el tipo de insumo y mantenimiento a que es sometida. Se desea
probar los diferentes tratamientos afectan la produccin por parcela, y la
produccin es la siguiente:


Cuadro 5.7 Rendimientos en kilos por parcela
Tratamiento RENDIMIENTO EL KILOS
Parcela
1
Parcela
2
Parcela
3
Parcela 4 Total Medias
A
B
C
D
E
F
70
77
76
80
84
78
61
75
67
63
66
68
82
88
90
96
92
98
74
76
80
76
84
86
287
316
313
315
326
330
71.75
79.00
78.25
78.75
81.50
82.50
Totales 465 400 546 476 1.887
Medias 77.50 66.67 91.00 79.33 78.625

Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y
los promedios por tratamientos o bloques (insumo y manteniendo), as como la
gran media se indican en el cuadro.


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
170

Adems de las estadsticas representadas en el cuadro, se tiene:

24 rc n 4; c ; 6 = = = = r

625 , 78
24
887 . 1
1 1
= = =

= =
rc
X
X
c
j
r
i
ij


Para determinar los resultados del experimento de diseos de bloques
aleatorizados con fines ilustrativos, se hacen los siguientes clculos:

Variacin Total de Cuadrados:

= =
|
.
|

\
|
=
c
j
r
i
ij
X X VT
1 1
2


( ) ( ) ( ) 63 , 295 . 2 625 , 78 86 ... 625 , 78 77 625 , 78 70
2 2 2
= + + + = VT


Variacin entre grupos o columnas:

=
|
.
|

\
|
=
C
j
j X X r VEC
1
2
.


( ) ( ) ( ) | | 46 , 787 . 1 625 , 78 33 . 79 ... 625 , 78 67 . 66 625 , 78 5 . 77 6
2 2 2
= + + + = VEC


Variacin entre bloques o filas:

=
|
.
|

\
|
=
r
i
i X X c VEF
11
2
.


( ) ( ) ( ) | | 38 , 238 625 , 78 5 . 82 ... 625 , 78 79 625 , 78 75 . 71 4
2 2 2
= + + + = VEF


Variacin del error de muestreo:

= =
|
.
|

\
|
+ =
c
j
r
i
i j
ij
X X X X VE
1 1
2
. .

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
171

( )
( )
( )
244.79
78,625 82.50 - 79.33 - 86
.
.

625 , 78 00 . 79 50 . 77 77
625 , 78 75 . 71 5 . 77 70
2
2
2
=
+ +
+
+ +
+ + = VE


Para calcular los medios o promedios cuadrticos, se calculan as:

82 , 595
1 4
46 , 787 . 1
1
=

=
c
VEC
MCA


676 , 56
1 6
38 . 283
1
=

=
r
VEF
MCB


( )( ) ( )( )
986 , 14
15
79 . 224
1 4 1 6
79 . 224
1 1
= =

=

=
c r
VE
MCE


Los clculos anteriores se pueden resumir en el siguiente cuadro:


Cuadro 5.8 Resultados del anlisis de varianza para dos factores
Fuente Suma de
cuadrados
Grados
libertad
Cuadrado
medio
(varianza)
F
Entre
grupos

1.787.46

4-1=3
595,820
3
46 . 787 . 1
=
= VEC

39,758
986 , 14
82 . 595
=
= F

Entre
Bloques

283.38

6-1=5

56,676
5
38 . 283
=
= VEF

3,782
986 , 14
676 , 56
=
= F

Error
224.79

(6-1)(4-1)=15


Total 2.295.63 (6)(4)-1=23
14,986
15
79 . 224
=
= VE
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
172

Adems de los registros anteriores, en las tablas ANOVA de los diferentes
paquetes de software estadsticos, incluyen el p-valor que consiste en la
probabilidad de obtener un estadstico F igual o mayor a la obtenida dado que la
hiptesis nula sea verdadera, es decir, si el p- valor es menor que el nivel
especificado de significancia o , la hiptesis nula es rechazada. Para nuestro
caso se utiliza la informacin contenida en el cuadro anterior.

Si se desea probar las diferencias entre los rendimientos de las parcelas con un
nivel de significancia del 5%, la regla de decisin consiste en rechazar la
hiptesis nula ( )
4 3 2 1
: = = =
o
H si el valor F calculado es mayor que 3.29
(Ver anexo F con 3 grados de libertad en el numerados y 15 grados en el
denominador). Para el caso F = 39,758 es mayor que el valor crtico 3.29,
entonces se rechaza la hiptesis nula y se llega a la conclusin que existe
evidencia de una diferencia entre la produccin promedio de las diferentes
parcelas, como se puede apreciar en el siguiente grfico:


Figura 5.3 Regin de aceptacin de hiptesis


Como una verificacin de la efectividad de la utilizacin de insumos, se puede
probar la diferencia de efectividad de los diferentes insumos aplicados. La regla
de decisin utilizando un nivel de significancia del 5%, sera la de rechazar la
hiptesis nula ( )
6 5 4 3 2 1
: = = = = =
o
H si el valor F calculado excede a
2.90 (Ver anexo F con 5 grados de libertad en el numerados y 15 grados en el
denominador). Para el caso el valor F = 3,782 es mayor al valor crtico, lo que
se concluye que la utilizacin de los diferentes insumos, produce diferencia
significativa entre los promedio de produccin para las parcelas, y que la
conformacin de dichos bloques es ventajosa para reducir el error experimental,
situacin que se presenta en el siguiente grfico:




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
173

Figura 5.4 Regin de aceptacin de hiptesis



Leccin 25: Anlisis de varianza de dos factores con
interaccin. (Diseo factorial).

Se ha visto hasta ahora el anlisis de varianza de una direccin o el modelo de
diseo completamente aleatorizado, despus el modelo de diseo de bloque
aleatorizado, y en la presente seccin el anlisis de varianza de dos factores
con interaccin.

Con el propsito de desarrollar el procedimiento de la prueba F, se define a
continuacin los siguientes trminos:

'
'
.j.
i..
ij
r.c.n n (con o experiment del nes observacio de total Nmero n
celda. cada para replicas) valores( de Nmero n
B. factor del niveles de Nmero c
A. factor del niveles de Nmero r
columnas. y hileras las en todas valores los todos de Gran total GT
B. factor del j columna la de valores los de Suma X
A. factor del i hilera la de valores los de Suma X
B. factor del j nivel del y A factor del i nivel del nes observacio (las ij celda la de valores los de Suma X
B. factor del j nivel del A t factor del i nivel del n observaci sima - k la de Valor
= =
=
=
=
=
=
=
=
=
ijk
X

Con fines ilustrativos se hacen planteamientos tanto conceptuales como de
clculos para la descomposicin de la variacin total necesaria para el
desarrollo del procedimiento de la prueba F. Debido a la gran cantidad de
clculos se recomienda que dicho proceso sea llevado por el paquete de
software analizado ms adelante.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
174

Tabla resumen para el anlisis de varianzas de dos vas con ms de una
observacin por clula se resume en el siguiente cuadro:

Cuadro 5.9 Resumen de anlisis de varianza de dos vas
Fuente de
variacin
Suma de los cuadrados,
SC
Grados
de
libertad,
gl
Media
cuadrtica, MC
Relaci
n F
Entre
grupos de
tratamient
o A
( )
'
2
1
'
2
..
rcn
GT
cn
X
VEGA
r
i
i
=

=


1 r
1
=
r
VEGA
MCA
MCE
MCA
F =

Entre
grupos de
tratamient
o, B
( )
'
2
1
'
2
. .
rcn
GT
rn
X
VEGB
c
j
j
=

=


1 c
1
=
c
BEGB
MCB
MCE
MCB
F =

Interacci
n entre
factores A
y B. ( )
'
2
1
'
2
. .
1
'
2
..
1 1
'
2
rcn
GT
rn
X
cn
X
n
X
VEAB
c
j
j
r
i
i
r
i
c
j
ij
+
=


=
= = =


( )( ) 1 1 c r

( )( ) 1 1
=
c r
VEABI
MCC

MCE
MCI
F =

Error de
muestreo,
E

( ) 1
'
n rc
( ) 1
'

=
n rc
VE
MCE

Total, T
( )

= = =
=
r
i
c
J
n
K
ijk
rcn
GT
X VT
1 1 1
'
2
2
'


1
'
rcn



Ejemplo 4

Para ilustrar el modelo factorial de dos factores, suponga que UD como dueo y
propietario de una cadena de supermercados esta interesado en saber el efecto
de la colocacin de los estantes en la venta de un producto. Para ello estudia 4
posibles lugares distintos donde colocar los estantes: Colocacin normal entre el
pasillo(A), colocacin ingreso del pasillo (B), colocacin a la entrada del pasillo
con impulsadora (C) y colocacin normal con propaganda (D). Se toman ventas
aleatorias en las jornadas de la maana, tarde y noche y los resultados de las
ventas semanales se resumen en la siguiente tabla:





= = = =
=
r
i
c
j
n
k
r
i
c
j
ij
ijk
n
X
X VE
1 01 1 1 1
'
2
. 2
'
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
175

Cuadro 5.10 Colocacin de productos en un estantes durante jornadas
JORNADA COLOCACIN ESTANTE
A B C D Totales Medias
Maana 45
50
56
63
65
71
48
53
451 56,375
Tarde 57
65
69
78
73
80
60
57
539 67,375
Noche 70
78
75
82
82
89
71
75
622 77,750
Totales 365 423 460 364 1.612
Medias 60.83 70.50 76.67 60.67 67,167

Se tiene las siguiente informacin:
2
4
3
'
=
=
=
n
c
r

622
539
451
.. 3
.. 2
.. 1
=
=
=
X
X
X

364
460
423
365
. 4 .
. 3 .
. 2 .
. 1 .
=
=
=
=
X
X
X
X

101
136
119
95
. 14
. 13
. 12
. 11
=
=
=
=
X
X
X
X

117
153
147
122
. 24
. 23
. 22
. 21
=
=
=
=
X
X
X
X

146
171
157
148
. 34
. 33
. 31
. 31
=
=
=
=
X
X
X
X


612 . 1 = GT

= = =
= + + + =
r
i
c
j
n
k
ijk
X
1 1
2 2 2
1
2
550 . 111 75 ... 50 45
'


( )( )
75 , 100 . 110
2 4
622 539 451
2 2 2
1
'
2
..
=
+ +
=

=
r
i
i
cn
X


( )( )
375 . 109
2 3
364 460 423 365
2 2 2 2
1
'
2
. .
=
+ + +
=

=
c
j
j
rn
X


( )
292 . 111
2
146 ... 119 95
2 2 2
1 1
'
2
.
=
+ + +
=

= =
r
i
c
j
ij
n
X


( )
( )( )( )
66 . 272 . 108
2 4 3
612 . 1
2
'
2
= =
rcn
GT




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
176

Variacin Total de Cuadrados:
( )
34 . 277 . 3 66 . 272 . 108 550 . 111
1 1 1
'
2
2
'
= = =

= = =
r
i
c
J
n
K
ijk
rcn
GT
X VT


Variacin entre grupos del tratamiento A:
( )
09 . 828 . 1 66 . 272 . 108 75 . 100 . 110
'
2
1
'
2
..
= = =

=
rcn
GT
cn
X
VEGA
r
i
i


Variacin entre grupos del tratamiento B:
( )
34 . 102 . 1 66 . 272 . 108 375 . 109
'
2
1
'
2
. .
= = =

=
rcn
GT
rn
X
VEGB
c
j
j


Variacin entre los factores A y B:
( )
88.91 108.272.66 109.375 - 110.100.75 - 111.292
'
2
1
'
2
. .
1
'
2
..
1 1
'
2
= + =
+ =

= = = =
rcn
GT
rn
X
cn
X
n
X
VEAB
c
j
j
r
i
i
r
i
c
j
ij


Variacin del error de muestreo:
( )
258 292 . 111 550 . 111
1 1 1
'
2
2
'
= = =

= = =
r
i
c
J
n
K
ijk
rcn
GT
X VT


Para el clculo de las varianzas se utilizan las siguientes relaciones:

045 . 914
1 3
09 . 828 . 1
1
=

=
r
VEGA
MCA


447 . 367
1 4
34 . 102 . 1
1
=

=
c
BEGB
MCB


( )( ) ( )( )
818 , 14
1 4 1 3
91 . 88
1 1
=

=

=
c r
VEABI
MCC


( ) ( )( )( )
5 . 21
1 2 4 3
258
1
'
=

=
n rc
VE
MCE

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
177

Los clculos anteriores se resumen en el siguiente cuadro:

Cuadro 5.11 Resumen de anlisis de varianza de dos vas
Fuente de
variacin
Suma de
los
cuadrados,
SC
Grados de
libertad, gl
Media
cuadrtica,
MC
Relacin F
Entre grupos
de tratamiento
A

1.828.09

2 1 3 =

914.045

42.51
Entre grupos
de tratamiento,
B

1.102.34

3 1 4 =

367.447

17.09
Interaccin
entre factores
A y B.

88.91

( )( ) 6 1 4 1 3 =

14.818

0.69
Error de
muestreo, E
258
( )( )( ) 12 1 2 4 3 =
21.5
Total, T 3.277.34
( )( )( ) 23 1 2 4 3 =


Si utiliza un nivel de significancia del 0.05 y se prueba la diferencia entre las
ventas en las diferentes jornadas (maana, tarde, noche), la regla de decisin
es la rechazar la hiptesis nula (
r
H = = = ... :
2 1 0
) si el valor calculado para
F (42.51) es mayor que 3.49 (observar anexo F para 2 grados de libertad en el
numerador y 12 grados de libertad en el denominador); se rechaza la hiptesis
nula y se llega a la conclusin que existe evidencia que entre las diferentes
jornadas las ventas en promedio son diferentes.

As mismo si utiliza un nivel de significancia de 0.05 para probar si existe alguna
diferencia entre la ubicacin de los estantes, la regla de decisin es rechazar la
hiptesis nula (
c
H = = = ... :
2 1 0
), si el valor calculado F (17.09) es mayor
que 3.49 (observar anexo F para 3 grados de libertad en el numerador y 12
grados de libertad en el denominador); se rechaza la hiptesis nula y se
concluye que existe una diferencia entre los promedios de ventas para la
colocacin de los diferentes estantes en el almacn.

Finalmente se puede probar si existe algn efecto de interaccin entre el factor
A (ventas en las diferentes jornadas) y el factor B (colocacin de los estantes).
Utilizando un nivel de significancia del 5%, la regla de decisin es rechazar la
hiptesis nula ( j y i todo para , 0 =
ij
AB ), si el valor calculado F (0.69) es mayor
que 3.0 (observar anexo F para 6 grados de libertad en el numerador y 12
grados de libertad en el denominador); no se rechaza la hiptesis nula y se
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
178

concluye que no existe evidencia de un efecto de interaccin entre las jornadas
del da y la colocacin de los estantes.

INTERPRETACIN DE LOS EFECTOS DE LA INTERACCIN

Se ha realizado hasta ahora las pruebas para la significacin del factor A, del
factor B y de la interaccin, corresponde entender en mejor forma el concepto
de interaccin, si se grafica las medias, empleando la siguiente frmula:

'
n
X
X
ij
ij
=

5 . 50
2
101
2
136
2
119
5 . 47
2
95
. 14
. 13
. 12
. 11
= =
=
=
= =
X
X
X
X

5 . 58
2
117
5 . 76
2
153
5 . 73
2
147
0 . 61
2
122
. 24
. 23
. 22
. 21
= =
= =
= =
= =
X
X
X
X

0 . 73
2
146
5 . 85
2
171
5 . 78
2
157
0 . 74
2
148
. 34
. 33
. 32
. 31
= =
= =
= =
= =
X
X
X
X


Se procede a graficar las ventas semanales promedio de cada jornada y de
cada colocacin de la estantera, como se indica a continuacin:

Figura 5.5 Ventas de producto en tres jornadas


Las cuatro lneas representan las colocaciones de las estanteras aparecen
apuntando casi representando en la misma direccin, lo que significa que la
diferencia en las ventas entre las cuatro colocaciones de los estantes es
40
45
50
55
60
65
70
75
80
85
90
Maana Tarde Noche
V
e
n
t
a
s
Jornada
Ventas Jornada maana-tarde-noche
A
B
C
D
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
179

virtualmente la misma para las ventas de las diferentes jornadas. En otras
palabras, no existe interaccin entre los dos factores (jornada y estantera),
como claramente se evidenci en la prueba F vista anteriormente.

Cual es la interpretacin si se presenta el efecto de interacci n? En tal
situacin, algunos niveles del factor A responden mejor con ciertos niveles del
factor B; por ejemplo, suponga que algunas colocaciones en los estantes fueran
mejor para las jornadas. Si este fuera el caso, las lneas de la figura no estaran
apuntando en la misma direccin que las hace casi paralelas y el efecto de
interaccin sera estadsticamente significativo, y por consiguiente, las
diferencias entre las diferentes localizaciones de estantes no seran las mismas
para las diferentes jornadas

Ejercicios: 5

1. En el modelo de anlisis de varianzas de un factor con (i = 3), niveles del
factor y (J = 10), unidades experimentales, el nmero de grados de libertad con
el cual deber estimarse la varianza residual es:

R/ta: 27

2. Queremos comprobar si el nmero de horas (medido a travs de la variable #
horas) que pasan los estudiantes del Politcnico en la Biblioteca guarda alguna
relacin con su hbito de lectura (medido a travs de la variable lectura).
Ejecuta un ANOVA, utilizando un nivel de significacin del 5 %
R/ta: Si guarda relacin, porque se acepta la hiptesis nula.
3. Los miembros de un equipo ciclista se dividen al azar en tres grupos que
entrenan con mtodos diferentes. El primer grupo realiza largos recorridos a
ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el
tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta
frecuencia. Despus de un mes de entrenamiento se realiza un test de
rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos
empleados fueron los siguientes:

Mtodo I Mtodo II Mtodo III
15 14 13
16 13 12
14 15 11
15 16 14
17 14 11

A un nivel de confianza del 95% Puede considerarse que los tres mtodos
producen resultados equivalentes? O por el contrario Hay algn mtodo
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
180

superior a los dems?

R/ta: Los tres mtodos de entrenamiento producen diferencias significativas

4. En el diseo de anlisis de Varianza de un factor completamente aleatorizado
(DCA) con 3 niveles del factor y 10 unidades experimentales. Cl debe ser el
nmero de grados de libertad con el cual debemos estimar la varianza residual?

R/ta: 27






4. Deducir el valor del estadstico de prueba de la tabla ANOVA siguiente:

F. de Variacin S:C G.L C.M
Explicada 54 2 27
Residual 180 10 18
Total 234 12

R/ta: F= 1.5

5. En un estudio de ANOVA para tres grupos y 5 observaciones cada uno de
ellos, encontramos los siguientes resultados.
SCE = 310
SCT = 358
G.L de la SCD = 12
Qu valores deben obtenerse de los grados de libertad de V.T de la SCD?

R/a: 15 y 51.6

6. Se realiza un diseo experimental para estudiar la diferencia en la resistencia
de 5 materiales. Se toma una muestra de 4 especmenes de cada material a los
que se le mide la resistencia. Si la suma de cuadrados de los tratamientos es de
800 y la de los errores de 200. Cul debe ser el estadstico F para el anlisis de
varianzas.

R/ta: 15




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
181

- Aplicaciones en Excel y SPSS.

A. ANOVA EN EXCEL

Siguiendo con el mismo ejercicio desarrollado anteriormente y que hace
relacin con el rendimiento de las acciones, se tiene nuevamente el
enunciado:

Ud. como analista financiero desea determinar si hay diferencia en la
tasa promedio de rendimiento de cuatro tipos de acciones: de servicios
pblicos, de comercio, de industria y de la banca. Para ello se obtuvo la
siguiente la informacin muestral:

Cuadro 5.12 Rendimientos de 4 tipos de acciones
Rendimientos Promedios por tipo de accin
Meses Servicios(A) Comercio(B) Industria(C) Banca(D)
1
2
3
4
5
6
7
94
90
85
80
75
68
77
83
88
70
73
76
78
80
68
65
68
70
72
65
74
65

Utilizando un nivel de significancia del 0.01, pruebe si existe diferencia en la
tasa media de rendimiento de los cuatro tipos de acciones.

Paso 1. Ingrese la siguiente informacin en una hoja Excel:



Figura 5.6 registro de informacin


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
182


Paso 2:En el men de Excel haga clip en herramientas y seleccione anlisis de
datos.


Figura 5.7 Ventana desplegada de herramientas


Paso 3: Selecciona anlisis de varianza de un factor y hace clip en aceptar.












Figura 5.8 Ventana de anlisis de datos
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
183



Paso 4: Aparece un cuadro de dialogo como el siguiente:

Figura 5.9 ventana de anlisis de varianza de un factor


Paso 5:En rango de entrada selecciona los valores registrados en la hoja de
excel:










Figura 5.10 Registro de informacin
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
184



Paso 6: Selecciona rtulos en la primera fila.

Figura 5.11 Registro de informacin


Paso 7: Seleccione un alfa de 0.01 y rango de salida en donde quiere ubicar la
informacin:














Figura 5.12 Seleccin del nivel alfa
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
185



Paso 8: Hace clip en aceptar y le aparece la siguiente informacin:

Figura 5.13 Resultados del anlisis de varianza

Observe que la informacin aqu registrada es igual a la que se calculo en la
tabla ANOVA realizada en los cuadros anteriores:

El valor de la distribucin F es igual a 8.99 y el valor crtico es igual a 5.09. La
suma de los cuadrados toman el nombre de entre grupos denominados
anteriormente tratamientos. y dentro de los grupos denominados
anteriormente errores.

De esta forma el anlisis de varianza de un factor aplicando la hoja electrnica
de Excel resulta ser muy sencillo.




B. ANOVA en SPSS
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
186


Para obtener un anlisis de varianza de un factor elija en los men Analizar;
Comparar medias; ANOVA de un factor como se indica en la siguiente figura.


Figura 5.14


Seleccione una o ms variables independientes y seleccione una sola variable
de factor independiente, como se indica en la figura. Se pretende analizar el
precio actual segn el factor de titulacin del estratro.

Figura 5.15


Haciendo clic en el botn contrastes permite dividir las sumas de cuadrados
Inter. grupos en componentes de tendencia. En polinmico se puede
contrastar la existencia de tendencia en la variable dependiente a travs de los
niveles ordenados de la variable de factor. Por ejemplo se puede contrastar si
existe una tendencia lineal (creciente o decreciente) de un precio a travs de los
niveles ordenados del estrato. En coeficientes se pueden elegir contrastes a
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
187

priori especificados por el usuario que sern contrastados mediante el
estadstico T; si introduce un coeficiente para cada grupo (categora) de la
variable factor y se pulsa aadir despus de cada entrada. Cada nuevo valor se
aade al final de la lista de coeficientes. Para especificar conjuntos de
contrastes adicionales, pulse en siguiente para desplazarse entre los conjuntos
de contrastes.

Figura 5.16


Haciendo clic en continuar y aceptar se presenta la tabla de ANOVA, como se
indica en la siguiente figura con un valor F de 1.148

ANOVA

Precio

Suma de
cuadrados gl
Media
cuadrtica F Sig.
Inter-grupos
198123,716 5 39624,743 1,148 ,335
Intra-grupos 10144438,6
14
294 34504,893
Total 10342562,3
30
299


Actividades de aprendizaje.

Las actividades de aprendizaje estn orientadas a desarrollar los ejercicios
vistos anteriormente pero no en forma manual, sino utilizando las herramientas
de Excel para el anlisis de varianza de un factor, anlisis de varianza con dos
factores o de diseo de bloques aleatorizados y finalmente anlisis de varianza
de dos factores con interaccin o de diseo factorial.


Anlisis de varianza de un factor:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
188


Suponga que dispone de un conjunto de rboles clasificados por altura (en
metros) y por especie, segn los siguientes datos:


Cuadro 5.13 Registro de informacin sobre alturas en metros de rboles
Especie
A
Especie
B
Especie
C
Especie
D
Especie
E
Total
8.52
7.15
6.43
6.21
8.13
6.12
6.45
8.73
8.52
8.83
8.53
8.94
8.40
8.91
8.19
8.56
7.41
8.65
8.81
8.59
8.87
8.81
7.55
7.74
7.84
7.41
7.40
6.54
7.07
7.17

Sumas 42.56 84.06 51.14 37.94 20.78 236.48
Promedio 7.093 8.406 8.523 7.588 6.926 7.707
Observaciones 6 10 6 5 3 30

Ingrese los datos en la hoja como se indica en el siguiente cuadro:

Figura 5.14 Registro de informacin en hoja de Excel


En el cuadro de dialogo de anlisis de datos elija Anlisis de varianza de un
factor y rellene el cuadro de dialogo como se indica en la siguiente figura:




Figura 5.15 Registro de informacin en ventana
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
189



Pulse aceptar y obtiene los siguientes resultados:

Figura 5.16 Resultados del anlisis de varianza de un factor


Como el p-valor del test de Fisher (0.00115963) de igualdad de todas las
medias de os niveles es menor que 0.05, existen diferencias significativas entre
las alturas medias de los rboles de diferentes especies al 95% de confianza.
Por otra parte el valor crtico (2.75871059) es menor que el valor del estadstico
F (6.33220127), lo que corrobora la aceptacin de la hiptesis de alturas medias
distintas para las diferentes especies de rboles al 95% de confianza y
corrobora los mismos valores calculados en igual ejemplo visto anteriormente en
anlisis de varianza de un solo factor, el cual se muestra a continuacin:



Cuadro 5.14 Resultados de anlisis de varianza de un factor
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
190

Variacin Suma
cuadrados
Grados
libertad
Cuadrado
medio
Distribucin
F
Entre
tratamiento
12.1157333 (K-1)= 4 3.0289 6.332
Dentro o
error
11.9584533 (n-K)=25 0.4783
Total 24.0741867 (n-1)=29

Podr darse cuenta que los resultados son idnticos, teniendo como ventaja el
uso de la herramienta, un ahorro considerable de tiempo y menor riesgo a
equivocarse.

Anlisis de varianza con dos factores (diseo de bloques aleatorizados).

Suponga que existen cuatro parcelas diferentes las cuales son sometidas
sucesivamente a seis tipos de insumos y se piensa que l a produccin es
afectada por el tipo de insumo y mantenimiento a que es sometida. Se desea
probar los diferentes tratamientos afectan la produccin por parcela, y la
produccin es la siguiente:


Cuadro 5.15 Registro de informacin sobre rendimientos en parcelas
Tratamiento RENDIMIENTO EL KILOS
Parcela
1
Parcela
2
Parcela
3
Parcela
4
Total Medias
A
B
C
D
E
F
70
77
76
80
84
78
61
75
67
63
66
68
82
88
90
96
92
98
74
76
80
76
84
86
287
316
313
315
326
330
71.75
79.00
78.25
78.75
81.50
82.50
Totales 465 400 546 476 1.887
Medias 77.50 66.67 91.00 79.33 78.625

La herramienta realiza un anlisis de varianza de dos factores con una sola
muestra por grupo, comprobando la hiptesis segn la cual las medias de dos o
ms muestras son iguales (extradas de poblaciones con la misma media). En el
cuadro de dialogo de Anlisis de datos elige la opcin Anlisis de varianza de
dos factores con una sola muestra por grupo, se obtiene el siguiente cuadro de
dialogo:



Figura 5.17 Venta de ANOVA de dos factores
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
191




Despus de dar la opcin de aceptar se tienen los siguientes resultados:


Figura 5.18 Resultados sobre anlisis de varianza de dos factores



El p-valor es menor a un nivel de significancia del 0.05, por tal razn los
rendimientos medios son diferentes para las parcelas como para la utilizacin de
los diferentes tipos de insumos. De otra parte el valor estadstico de prueba F es
superior al valor crtico afirmando la conclusin anterior. Los resultados son los
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
192

mismos a los calculados anteriormente y que nuevamente se muestran a
continuacin:


Cuadro 5.16 Resultados de anlisis de varianza de dos factores
Fuente Suma de
cuadrados
Grados
libertad
Cuadrado medio
(varianza)
F
Entre grupos
1.787.46

4-1=3
595,820
3
46 . 787 . 1
=
= VEC

39,758
986 , 14
82 . 595
=
= F

Entre
Bloques

283.38

6-1=5

56,676
5
38 . 283
=
= VEF

3,782
986 , 14
676 , 56
=
= F

Error
224.79

(6-1)(4-1)=15


Total 2.295.63 (6)(4)-1=23


Anlisis de varianza de dos factores con interaccin. (Diseo factorial):

Suponga que UD como dueo y propietario de una cadena de supermercados
esta interesado en saber el efecto de la colocacin de los estantes en la venta
de un producto. Para ello estudia 4 posibles lugares distintos donde colocar los
estantes: Colocacin normal entre el pasillo(A), colocacin ingreso del pasillo
(B), colocacin a la entrada del pasillo con impulsadora (C) y colocacin normal
con propaganda (D). Se toman ventas aleatorias en las jornadas de la maana,
tarde y noche y los resultados de las ventas semanales se resumen en la
siguiente tabla:

Cuadro 5.17 Colocacin de productos
JORNADA COLOCACIN ESTANTE
A B C D Totales Medias
Maana 45
50
56
63
65
71
48
53
451 56,375
Tarde 57
65
69
78
73
80
60
57
539 67,375
Noche 70
78
75
82
82
89
71
75
622 77,750
Totales 365 423 460 364 1.612
Medias 60.83 70.50 76.67 60.67 67,167
14,986
15
79 . 224
=
= VE
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
193

El problema se relaciona con un diseo de dos factores con medidas repetitivas
o replicas de dos veces, puesto que se toman dos muestras en cada jornada de
cada una de las colocaciones de los estantes. La variable respuesta son las
ventas semanales obtenidas, y los dos factores son la jornada y la colocacin
del estante. Para resolver el problema se introducen los datos tal como se indica
a continuacin:

Figura 5.19 Registro de informacin


A continuacin en el cuadro de dialogo de anlisis de datos elige la opcin
Anlisis de varianza de dos factores con varias muestras por grupo, y rellena el
cuadro de dialogo como se indica en la siguiente figura:


Figura 5.20 Ventana de anlisis de varianza


Pulsa aceptar y obtiene los siguientes resultados:








UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
194

Figura 5.21 Resultados de anlisis de varianza de dos factores




A la vista de los p-valores obtenidos, se concluye que es significativa la
diferencia entre las jornadas porque el p-valor (3.5787E-06) es menor que 0.05;
igualmente es significativa la diferencia entre la colocacin de los estantes
porque el p-valor (0.00012489) es menor que el nivel e significancia 0.05; no es
significativa la diferencia entre la interaccin de los factores porque el p-valor
(0.66276957) es mayor al nivel de significancia del 0.05. Podr darse cuenta,
que los resultados utilizando la herramienta de Excel son idnticos, a los
trabajados manualmente en el ejercicio desarrollado anteriormente, como se
indica en el siguiente cuadro:


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
195


Cuadro 5.18 Resultados de anlisis de varianza de dos factores
Fuente de
variacin
Suma de los
cuadrados,
SC
Grados de
libertad, gl
Media
cuadrtica,
MC
Relacin F
Entre grupos
de tratamiento
A
1.828.09 2 1 3 = 914.045 42.51
Entre grupos
de
tratamiento, B
1.102.34 3 1 4 = 367.447 17.09
Interaccin
entre factores
A y B.
88.91
( )( ) 6 1 4 1 3 =
14.818 0.69
Error de
muestreo, E
258
( )( )( ) 12 1 2 4 3 =
21.5
Total, T 3.277.34
( )( )( ) 23 1 2 4 3 =


Cuadro elaborado manualmente en ejercicio anterior para anlisis de varianza
de dos factores.


5.1 Auto evaluacin

5.1 Para los siguientes enunciados indique si es cierto o falso. Si es falso,
corrjalo
5.1.1 La distribucin F esta positivamente sesgada
5.1.2 La distribucin F se basa en dos conjuntos de grados de libertad.
5.1.3 Un tratamiento es una fuente de variacin en los datos.
5.1.4 Para el procedimiento de ANOVA, las poblaciones deben ser
positivamente sesgadas.
5.1.5 Rechazar la hiptesis nula en un procedimiento ANOVA, indica que
difieren todos los pares de medias.
5.1.6 Si el nivel de significancia es de 0.05 y existen 3 grados de libertad en el
numerador y 12 en el denominador, el valor crtico de F es iguala 3.49
5.1.7 Si existen 4 tratamientos, el nmero de grados de libertad en el
numerador de F es tambin de 4.
5.1.8 Una variable de bloque es una fuente de variacin similar a una variable
de tratamiento.
5.1.9 Existe una familia de distribuciones F, es decir, hay una distribucin para
17 y 14 grados de libertad, y otra para 6 y 4 grados de libertad.
1. 5.2 Durante los ltimos meses el operario A ha producido un promedio
de 9 componentes defectuosos con una desviacin estndar de 2
piezas defectuosas. El operario B ha tenido un promedio mensual de 8.5
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
196

componentes defectuosos con una desviacin estndar de 1.5 piezas en
el mismo perodo.- Al nivel de significancia de 0.05, es posible
concluir que hay ms variacin mensual en el nmero de
componentes defectuosos que se atribuye al operario A?
5.3 Se han seleccionado 20 personas las cuales aleatoriamente se han
distribuido en 4 grupos de 5 personas cada uno, para adelantar una
instruccin con 4 profesores diferentes. Al final se cada sesin se aplic
una prueba con una calificacin de hasta 10 puntos y los resultados
fueron los siguientes:

Instructor A Instructor B Instructor C Instructor D
6
7
6
5
6
8
5
8
6
8
7
9
6
8
5
8
5
6
6
5

Pruebe al nivel de significancia del 0.05 que no hay diferencia entre los
promedios para los 4 grupos.
5.4 Se distribuyen 3 clases de jabones: A, B y C. Las ventas mensuales en
unidades monetarias se indican en la siguiente tabla:
Mes Jabn A Jabn B Jabn C
Enero
Febrero
Marzo
Abril
Mayo
7
11
13
8
9
9
12
11
9
10
12
14
8
7
13

Utilizando un nivel de significancia de 0.05, aplique el procedimiento
ANOVA para demostrar si:
5.4.1 Las ventas medias para los diferentes tipos de jabones son iguales.
5.4.2 Las ventas medias son iguales para cada uno de los cinco meses.

Resumen.

Se ha indicado cmo se usa el anlisis de varianza para ver si existe diferencias
significativas entre las medias de varias poblaciones o tratamientos. Adems se
introdujo el diseo de experimentos para un factor, el anlisis de varianza de
dos factores mediante el diseo de bloques aleatorizados y finalmente el
anlisis de varianza de dos factores con interaccin mediante el diseo factorial.
El objetivo principal de formar bloques en el diseo de bloques aleatorizado es
eliminar fuentes extraas de variacin a partir del trmino de error. Ese
agrupamiento da como resultado un mejor estimado de la varianza verdadera
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
197

del error, y una mejor prueba para determinar si las medias de poblacin o
tratamiento del factor difieren apreciablemente.

En el anlisis de varianza de un solo factor, la estimacin se basa en la
variacin entre los tratamientos; ese estimador permite contar con un estimado
insesgado slo si todas las medias poblacionales son iguales. Calculando la
relacin de ese estimador mediante el estadstico F, se llega a establecer una
regla de rechazo para determinar si se rechaza la hiptesis nula que hace
relacin a que si las medias poblacionales o de tratamientos son iguales. En
todos los diseos de experimento vistos, el agrupamiento o reparticin de la
suma de cuadrados y de los grados de libertad en sus diversas fuentes permite
calcular los valores adecuados para el anlisis de varianza y sus pruebas.

Algn Glosario

TABLA DE ANLISIS DE VARIANZA: Tabla que se usa para resumir los
clculos y resultados del anlisis de varianza. En las columnas se indican la
fuente de variacin, la suma de cuadrados, los grados de libertad, el cuadrado
medio y los valores F.

REPARTICIN O PARTICIN: Proceso de asignar la suma total de cuadrados
y los grados de libertad a los diversos componentes.

PROCEDIMIENTO DE COMPARACIN MLTIPLE: Procedimientos
estadsticos para llevar a cabo comparaciones estadsticas entre pares de
medias poblacionales o de tratamientos.

FACTOR: Sinnimo de la variable de inters en un experimento.

TRATAMIENTO: Distintos niveles de un factor.

EXPERIMENTO DE UN SOLO FACTOR:Un experimento donde solo interviene
un factor con k poblaciones o tratamientos.

UNIDAD EXPERIMENTAL: Los objetos de inters en el experimento.

DISEO TOTALMENTE ALEATORIZADO: Diseo de experimento en el que
los tratamientos se asignan aleatoriamente a las unidades experimentales.

CUADRADO MEDIO: La suma de los cuadrados divida entre los grados de
libertad correspondientes. Esta cantidad se usa en la relacin F para determinar
si existe diferencias significativas entre las medias poblacionales.

AGRUPAMIENTO EN BLOQUES: Proceso de usar las mismas o semejantes
unidades experimentales para todos los tratamientos. El objeto del
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
198

agrupamiento en bloques es eliminar una fuente de variacin del termino de
error, y en consecuencia, obtener una prueba mas poderosa para investigar una
diferencia entre promedios de poblacin o de tratamientos.

DISEO DE BLOQUE ALEATORIZADO: Diseo de experimento donde se usa
agrupamiento en bloques.

EXPERIMENTO FACTORIAL: Diseo de experimentos que permite llegar a
conclusiones estadsticas acerca de dos o ms factores.

REPLICACIN: O repeticin, es la cantidad de veces que aparece cada
condicin experimental en un experimento.

INTERACCIN: Efecto producido cuando los niveles de un factor interactan
con los de otro factor, influyendo sobre la variable respuesta.




199

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
CAPITULO SEIS: PRUEBAS NO PARAMETRICAS
Introduccin
Uno de los problemas ms difciles para el principiante y para el investigador
experimentado, es decidir cul de las pruebas estadsticas es la ms adecuada
para analizar un conjunto de datos. La aplicacin de la estadstica en el anlisis
de datos es muy amplia y las reas en las que se aplica son diversas, desde las
ciencias exactas hasta las ciencias sociales. La seleccin de la prueba
estadstica necesaria para el caso, depende de varios factores, en primer lugar
se debe saber cul es la escala con la que se estn midiendo los datos que se
analizarn, pues no se puede aplicar la misma prueba estadstica para el caso
en que la variable de inters sea el peso de un producto que cuando lo es la
profesin del usuario de un producto.
Queremos introducir en este parte la nocin de pruebas no paramtricas como
aquellas que no presuponen una distribucin de probabilidad para los datos, por
ello se conocen tambin como de distribucin libre. En la mayor parte de ellas
los resultados estadsticos se derivan nicamente a partir de procedimientos de
ordenacin y recuento, por lo que su base lgica es de fcil comprensin.
Cuando trabajamos con muestras pequeas (n < 10) en las que se desconoce si
es vlido suponer la normalidad de los datos, conviene utilizar pruebas no
paramtricas, al menos para corroborar los resultados obtenidos a partir de la
utilizacin de la teora basada en la normal.
En estas tcnicas, solamente se necesitan conocimientos elementales de
matemticas, pues los mtodos son relativamente ms sencillos que en las
pruebas paramtricas. En estas pruebas, tambin se tienen supuestos, pero son
pocos y no tienen que ver con la naturaleza de la distribucin de la poblacin,
por lo que a estas tcnicas tambin se les conoce como de libre distribucin.
En general el nico supuesto que se debe cumplir en la mayora de las pruebas
no paramtricas para confiar en ellas, es que la muestra haya sido seleccionada
en forma probabilstica.
Las pruebas que se mencionarn son las que se podran necesitar con mayor
frecuencia, se mencionarn sus principales caractersticas y aplicaciones.
Objetivo general.

Contrastar la validez de hiptesis o conjetura sobre la relacin entre variables y
sobre las distribuciones de probabilidad terica que adoptan dichas variables,
sin sujetarse a los condicionamientos de la validez de supuestos paramtricos.

200

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
Objetivos especficos.

- Examinar que se entiende por hiptesis y por prueba de hiptesis No
paramtricas.
- Realizar pruebas No paramtricas para una variable y para datos
pareados
- Realizar pruebas sobre la bondad de ajustes de variables a distribuciones
de probabilidad terica de carcter cuantitativas.
- Realizar pruebas de hiptesis para datos que se encuentran en una
escala nominal u ordinal con aplicacin de la distribucin chi- cuadrado.
- Realizar pruebas sobre la relacin entre dos y ms variables
poblacionales.
Leccin No 26: Generalidades
Las pruebas de hiptesis hacen inferencias respecto a los parmetros de la
poblacin, como la media. Estas pruebas paramtricas utilizan la
estadstica paramtrica de muestras que provinieron de la poblacin que
se est probando. Para formular estas pruebas, hicimos suposiciones
restrictivas sobre las poblaciones de las que extraamos las muestras.
Por ejemplo: suponamos que las muestras eran grandes o que
provenan de poblaciones normalmente distribuidas. Pero las poblaciones no
siempre son normales.


Los estadsticos han desarrollado tcnicas tiles que no hacen
suposiciones restrictivas respecto a la forma de las distribuciones de las
poblaciones. estas se conocen como pruebas sin distribucin, o pruebas no
paramtricas. Las hiptesis de una probabilidad no paramtrica se refieren a
algo distinto del valor de un parmetro de poblacin


Ventajas de los mtodos no paramtricos.

1. No requieren que hagamos la suposicin de que una poblacin est
distribuida en forma de curva normal u otra forma especfica.
2. Generalmente, son ms fciles de efectuar y comprender.
3. Algunas veces, ni siquiera se requiere el ordenamiento o clasificacin
formal.

Desventajas de los mtodos no paramtricos.

1. Ignoran una cierta cantidad de informacin
2. A menudo, no son tan eficientes como las pruebas paramtricas.



201

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
Cuando usamos pruebas no paramtricas, efectuamos un trueque:
perdemos agudeza al estimar intervalos, pero ganamos la habilidad de
usar menos informacin y calcular ms rpidamente.


Leccin No 27: Prueba de bondad de ajuste Chi
Cuadrado:

Comprueban el ajuste a cualquier distribucin, no necesariamente normal (por
ejemplo, a una exponencial, che-cuadrado, etc.). Compara frecuencias tericas
esperadas con frecuencias obtenidas. Necesita un nmero suficiente de datos
(al menos 30); tambin es necesario que las frecuencias esperadas sean
mayores o iguales que 5. Vlido tanto para variable discreta, como continua.

Pero especialmente para variables cualitativas.


Prueba de independencia de variables

Dadas dos variables categricas X e Y, el test contrasta si dichas variables son
independientes, o si por el contrario hay cierta relacin entre ellas (en otras
palabras: si una de ellas influye en la otra, si hay diferencias significativas en
una de ella segn los valores de la otra, etc.)



Leccin No 28: Prueba de Kolmogorov-Smirnov:

La nica premisa que se necesita es que las mediciones se encuentren al
menos en una escala de intervalo. Se necesita que la medicin considerada sea
bsicamente continua. Adems dicha prueba es aplicable cualquiera sea el
tamao de la muestra.

Compara las funciones de distribucin terica y emprica (slo vlido para
variables continuas).

Caractersticas de la prueba
La prueba de K-S de una muestra es una hiptesis de bondad de ajuste. Esto
es, se interesa en el grado de acuerdo entre la distribucin de un conjunto de
valores de la muestra y alguna distribucin terica especfica. Determina si
razonablemente puede pensarse que las mediciones mustrales provengan de
una poblacin que tenga esa distribucin terica. En la prueba se compara la

202

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
distribucin de frecuencia acumulativa de la distribucin terica con la
distribucin de frecuencia acumulativa observada. Se determina el punto en el
que estas dos distribuciones muestran la mayor divergencia.
Hiptesis
Ho: La distribucin observada se ajusta a la distribucin terica.
F(x) = F
t
(x) para todo x.
H
1
: La distribucin observada no se ajusta a la distribucin terica.
F
t
(x): es la funcin terica. Esta puede ser por ejemplo la funcin normal con
cierta media y varianzas conocidas.

Estadstico de prueba
D = mxima
S
n
(x): es la funcin de distribucin emprica.

Leccin No 29: Prueba de Wilcoxon de los rangos con
signo
Esta prueba nos permite comparar nuestros datos con una mediana terica.
Llamemos M
0
a la mediana frente a la que vamos a contrastar nuestros datos, y
sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M
0
, X2-
M
0
, ..., Xn-M
0
. Si la hiptesis nula fuera cierta estas diferencias se distribuiran
de forma simtrica en torno a cero.
Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M
0
| y
se ordenan de menor a mayor, asignndoles su rango (nmero de orden). Si
hubiera dos o ms diferencias con igual valor (empates), se les asigna el rango
medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna
el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las
diferencias positivas, aquellas en las que Xi es mayor que M
0
y R- la suma de
todos los rangos correspondientes a las diferencias negativas. Si la hiptesis
nula es cierta, ambos estadsticos debern ser parecidos, mientras que si
nuestros datos tienen a ser ms altos que la mediana M
0
, se reflejar en un
valor mayor de R+, y al contrario si son ms bajos. Se trata de contrastar si la
menor de las sumas de rangos es excesivamente pequea para ser atri buida al
azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es
excesivamente grande.

203

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
Prueba de Wilcoxon para contrastar datos pareados
El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de
parejas de valores, por ejemplo antes y despus del tratamiento, que podemos
denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora
calcularemos las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en
valor absoluto, asignndoles el rango correspondiente. Calculamos R+ la suma
de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos
R-. Ahora la hiptesis nula es que esas diferencias proceden de una distribucin
simtrica en torno a cero y si fuera cierta los valores de R+ y R- sern
parecidos.

Leccin No 30: Prueba de Mann-Whitney para muestras
independientes
Si tenemos dos series de valores de una variable continua obtenidas en dos
muestras independientes: X1, X2, ... , Xn, Y1, Y2, ... , Ym, procederemos a
ordenar conjuntamente todos los valores en sentido creciente, asignndoles su
rango, corrigiendo con el rango medio los empates. Calculamos luego la suma
de rangos para las observaciones de la primera muestra Sx, y la suma de
rangos de la segunda muestra Sy. Si los valores de la poblacin de la que se
extrajo la muestra aleatoria de X se localizan por debajo de los valores de Y,
entonces la muestra de X tendr probablemente rangos ms bajos, lo que se
reflejar en un valor menor de Sx del tericamente probable. Si la menor de las
sumas de rangos es excesivamente baja, muy improbable en el caso de que
fuera cierta la hiptesis nula, sta ser rechazada.

Leccin No 31: Prueba H de suma de rangos o prueba
de Kruskal-Wallis para comparar k muestras
independientes
Tambin se conoce esta prueba como prueba H de Kruskal-Wallis para diseos
completamente aleatorizados.
Cuando se tiene inters o necesidad de probar una hiptesis nula en la que se
afirma que k tratamientos son iguales o que k muestras aleatorias
independientes provienen de poblaciones idnticas, siendo k > 2, la prueba
estadstica que se realizara dentro de la estadstica paramtrica sera el anlisis
de varianza de un sentido y para la prueba se utilizara la distribucin F; sin

204

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
embargo, cuando la escala es ordinal o se desconfa del supuesto de que las
muestras provienen de poblaciones con forma de distribucin normal, se puede
utilizar esta prueba para muestras independientes. La hiptesis alternativa sera
que al menos dos poblaciones tienen una distribucin diferente.
Esta prueba solamente se puede usar cuando el tamao de cada muestra sea
mayor o igual a cinco. Se puede afirmar que el procedimiento que se realiza en
esta prueba es una extensin del utilizado en la prueba U de Mann-Withney.
Para proceder a realizar esta prueba, se utiliza la distribucin ji cuadrada con (k-
1) grados de libertad, siendo k el nmero de muestras con las que se trabaja.
Ejercicios: 6

1. Cinco antiguos pacientes son seleccionados aleatoriamente del ala A de un
hospital y cuatro pacientes son seccionados del ala B. Los pacientes estuvieron
los siguientes nmeros de das:
Ala A 13 4 2 10 6

Ala B 10 9 7 8

Se debe efectuar una prueba U de Mann-Whitney para determinar si existe
diferencia significativa entre la duracin de las estancias en el hospital para las
dos alas. Cual es la clasificacin para la estancia de 13 das en el Ala A?

R/ta: 9 das

2. Elija la muestra con la mayor suma de rangos si los elementos son
clasificados de mayor a menor:
Muestra A: 1 3 9
Muestra B: 5 1 8
Muestra C: 9 4 2

R/ta: 16

3. En una partida de Rol se lanza 200 veces un dado de cuatro caras
obtenindose 60 veces el nmero 1, 45 veces el nmero 2, 38 veces el nmero
3 y 57 veces el nmero 4. Se puede aceptar, a un nivel de confianza del 95%,
que estos resultados corresponden a un dado homogneo.

R/ta: Se acepta de la hiptesis que los resultados corresponden a un dado
homogneo

4. En una encuesta preelectoral realizada a 500 personas se obtuvo la
siguiente distribucin en funcin de sus edades y de su intencin de
voto:

205

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

Edad
Partido 18 35 35 50 50 o ms
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15

A un nivel de confianza del 90% Puede afirmarse que la intencin de voto es
independiente de la edad?

R/ta: Se rechaza la hiptesis de independencia de las variables

5. Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de
palabras, previamente presentadas, han sido los siguientes:

115, 98, 123, 109, 112, 87, 118, 104, 116

A un nivel de confianza del 95% Son compatibles estos resultados con la
hiptesis de que el tiempo de reaccin en esta tarea sigue una distribucin
Normal de media 110 y desviacin tpica 10?

R/ta: Se acepta la hiptesis de normalidad de la variable.


Autoevaluacin


1. Los miembros de un equipo ciclista se dividen al azar en tres grupos que
entrenan con mtodos diferentes. El primer grupo realiza largos recorridos a
ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el
tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta
frecuencia. Despus de un mes de entrenamiento se realiza un test de
rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos
empleados fueron los siguientes:

Mtodo I Mtodo II Mtodo III
15 14 13
16 13 12
14 15 11
15 16 14
17 14 11

A un nivel de confianza del 95% Puede considerarse que los tres mtodos
producen

206

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
resultados equivalentes? O por el contrario Hay algn mtodo superior a los
dems?

Solucin:

Comenzamos calculando los totales y los cuadrados de los totales
divididos por el nmero de observaciones:

Metd. I Metd. II Metd. III Total Sum
2
/n
Suma 77 72 61 210 2940
Sum
2
/n 1185,8 1036,8 744,2 2966,8

A continuacin calculamos los cuadrados de las observaciones y su total:

Metd. I Metd. II Metd. III
225 196 169
256 169 144
196 225 121
225 256 196
289 196 121
1191 1042 751 2984

A partir de estas cantidades bsicas calculamos las Sumas de Cuadrados:

SC(total) = 2984 - 2940 = 44
SC(intra) = 2984 2966,8 = 17,2
SC(entre) = 2966,8 2940 = 26,8
Los cuadrados medios
sern: CM(entre) =
26,8/2 = 13,4
CM(intra) = 17,2/12 = 1,43

Por consiguiente el estadstico de contraste vale:

F = 13,4/ 1,43 = 9,37

El valor de la F terica con 2 y 12 grados de libertad, a un nivel de confianza
del 95% es 3,89. Por consiguiente se rechaza la hiptesis nula y se concluye
que los tres mtodos de entrenamiento producen diferencias significativas.
(Tomado de problemas de anlisis de datos Tema 14 Anlisis de varianzas:
Jos Mara Salinas)

207

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

Test No Parmetro

2. En una partida de Rol se lanza 200 veces un dado de cuatro caras
obtenindose 60 veces el nmero 1, 45 veces el nmero 2, 38 veces el
nmero 3 y 57 veces el nmero 4. Se puede aceptar, a un nivel de confianza
del 95%, que estos resultados corresponden a un dado homogneo.

Solucin:

1 La hiptesis nula ser que el dado es homogneo, esto implica que la
distribucin de los nmeros es uniforme, es decir que los cuatro nmeros
tienen una probabilidad de aparecer de 0,25.

2 La hiptesis alternativa ser que la distribucin no es uniforme.

3 Como la variable es discreta utilizaremos el test Ji-cuadrado de bondad
de ajuste a una distribucin.

4 En la tabla siguiente se han realizado todos los clculos necesarios,
obtenindose el valor 4,36 para el estadstico de contraste.

x
i
n
i
p
i
Np
i
n
i
-np
i
(n
i
-np
i
)
2
(n
i
-np
i
)
2
/np
i

1 60 0,25 50 10 100 2
2 45 0,25 50 -5 25 0,5
3 38 0,25 50 -12 144 2,88
4 57 0,25 50 7 49 0,98
200 4,36

5 Como el estadstico tena 4 sumandos, buscamos en las tablas de la Ji-
cuadrado con 3
grados de libertad el valor que deja por debajo una probabilidad de 0,95 y
obtenemos que el valor crtico es 7,81.

6 Como el valor del estadstico es inferior al valor crtico, aceptamos la
hiptesis nula.

7 Estos resultados son compatibles con el hecho de que el dado sea
homogneo.

2.- En una encuesta preelectoral realizada a 500 personas se obtuvo
la siguiente distribucin en funcin de sus edades y de su intencin
de voto:

Edad

208

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
Partido 18 35 35 50 50 o ms
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15

A un nivel de confianza del 90% Puede afirmarse que la intencin de voto es
independiente de la edad?

Solucin:

1 La hiptesis nula es que las dos variables son independientes.

2 La hiptesis alternativa es que hay relacin entre ambas variables.

3 Se trata de un contraste de independencia entre dos variables, por
consiguiente el estadstico de contraste a utilizar es el estadstico Ji-
cuadrado para tablas de contingencia.

4 Las tablas siguientes presentan los clculos del estadstico:


Partido
Edad
18 35 35 50 50 o ms

A
B
C
D
10 40 60
15 70 90
45 60 35
30 30 15
110
175
140
75
100 200 200 500

A partir de las frecuencias marginales de la tabla anterior, se obtienen las
frecuencias
esperadas que aparecen a continuacin:

Edad
Partido 18 35 35 50 50 o ms
A 22 44 44
B 35 70 70
C 28 56 56
D 15 30 30

Por consiguiente las discrepancias entre frecuencias empricas y frecuencias
esperadas
son:

Edad

209

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
Partido 18 35 35 50 50 o ms
A -12 -4 16
B -20 0 20
C 17 4 -21
D 15 0 -15

Los cuadrados de las discrepancias son:

Edad
Partido 18 35 35 50 50 o ms
A 144 16 256
B 400 0 400
C 289 16 441
D 225 0 225

Dividiendo por las frecuencias esperadas se obtiene:


Partido
Edad
18 35 35 50 50 o ms

A
B
C
D
6,55 0,36 5,82
11,43 0 5,71
10,32 0,29 7,88
15 0 7,5

43,30 0,65 26,91 70,86

Sumando, se obtiene el valor del estadstico 70,86.

5 Como la edad presenta tres intervalos y los partidos son cuatro, el
estadstico tendr (3 - 1)(4 -1 ) = 6. Buscamos en las tablas de la
distribucin Ji-cuadrado con 6 grados de libertad el valor de la variable que
deja por debajo una probabilidad de 0,9 encontramos que el valor crtico es
10,64.

6 Como el valor del estadstico es mayor que el valor crtico rechazamos
la hiptesis nula de que ambas variables son independientes.

7 La edad cambia la intencin de voto.

3. Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento
de palabras, previamente presentadas, han sido los siguientes:

115, 98, 123, 109, 112, 87, 118, 104, 116

A un nivel de confianza del 95% Son compatibles estos resultados con la

210

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
hiptesis de que el tiempo de reaccin en esta tarea sigue una distribucin
Normal de media 110 y desviacin tpica 10?

Solucin:

1 La hiptesis nula es que los datos proceden de una Normal (110, 10).

2 La hiptesis alternativa es que no siguen esa distribucin Normal.

3 Como la variable es continua, y la hiptesis nula especifica totalmente la
distribucin utilizaremos el test de Kolmogoroff-Smirnoff, cuyo estadstico de
contraste es:
max | F
n
(x
i
) - M
n
(x
i
) |

4 los clculos del estadstico se especifican en la siguiente tabla:

x
i 87 98 104 109 112 115 116 118 123
z
i -2,3 -1,2 -0,6 -0,1 0,2 0,5 0,6 0,8 1,3
F
n 0,0107 0,1151 0,2743 0,4602 0,5793 0,6915 0,7257 0,7881 0,9032
M
n 0,1111 0,2222 0,3333 0,4444 0,5556 0,6667 0,7778 0,8889 1
|F
n
-M
n
| 0,1004 0,1071 0,059 0,0158 0,0237 0,0248 0,0521 0,1008 0,0968

5 Buscando en las tablas del test Kolmogoroff-Smirnoff para n = 9 el valor
crtico para
un nivel de confianza del 95% se obtiene 0,43001.

6 Como el valor del estadstico 0,1071 es menor que el valor crtico se acepta
la
hiptesis nula.

7 A un nivel de confianza del 95% no hay evidencia en contra de que el
tiempo de reaccin siga una distribucin N(110, 10). (Tomado de
problemas de anlisis de datos Tema 14 Anlisis de varianzas: Jos
Mara Salinas)









211

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

























212

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
BLIOGRAFA


CANAVOS, George. Estadstica y Probabilidad. Mc Graw Hill. Mxicoo 1.998

DEVORE, Jay. Probabilidad y estadstica. Quinta edicin. Thomsom-Learning.
Mxico 2.001

JONHSON, Richard. Probabilidad y Estadstica para Ingenieros. Printece mall
Mxico 1.997

MONTGOMERY, Douglas. Estadstica y Probabilidad. Segunda edicin.
Limusa. Mxico, 2.002

PEA, Daniel. Estadstica, Modelos y Mtodos. Vol. 1. Alianza Editorial. Madrid
1.988

ROSS, Sheldon. Probabilidad y Estadstica para Ingenieros. Segunda Edi cin.
Mc Graw Hill. Mxico 2.001

CASAS, J.M. (1997). Inferencia Estadstica. Centro de Estudios Ramn Areces,
Madrid.

SARABIA, J.M. (2000). Curso Prctico de Estadstica. Segunda Edicin. Civitas,
Madrid.

SARABIA, J.M. (2002). Apuntes de Inferencia Estadstica.

SARABIA, J.M., PASCUAL, M. (2002). Prcticas de Inferencia Estadstica.

CASAS, J.M., SANTOS, J. (1999). Estadstica Empresarial. Centro de Estudios
Ramn Areces, Madrid.

CUADRAS, C.M. (1983). Problemas de Probabilidades y Estadstica. Tomo II.
PPU, Barcelona.

MENDENHALL, W. REINMUTH, J.E. (1993). Estadstica para Administracin y
Economa. Grupo Editorial Iberoamericana, Mxico.

PEA, D. (2001). Fundamentos de Estadstica. Alianza Editorial, Madrid.

RUIZ-MAYA, L., MARTN PLIEGO, F.J. (2001). Estadstica II: Inferencia.
Segunda Edicin. AC, Madrid.



213

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA
Sitios Web.

http://server2.southlink.com.ar/vap/PROBABILIDAD.htm

http://es.wikipedia.org/wiki/Probabilidad

http://www.terra.es/personal2/jpb00000/pprobjunio99.htm

http://www.fvet.edu.uy/estadis/probabilidad.htm

http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/matematicas-28.html

http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm

http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/E
stadistica/index.html

http://www.d16acbl.org/U173/Brmx_prob1.html#_1

http://espanol.geocities.com/eprobabilidades/index.htm

http://www.monografias.com/trabajos11/tebas/tebas.shtml

http://www2.uiah.fi/projects/metodi/252.htm

http://e-stadistica.bio.ucm.es/mod_intervalos/intervalos6.html

http://escuela.med.puc.cl/Recursos/recepidem/EPIANAL9.HTM

http://adrianamoralesunad.blogspot.com/

Vous aimerez peut-être aussi