Vous êtes sur la page 1sur 195

INFERENCIA ESTADSTICA

AUTORES
JORGE ELIECER RONDON DURAN
DANIS BRITO ROSADO

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD


ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERA
UNIDAD DE CIENCIAS BSICAS
Bogot, Mayo 2008

COMIT DIRECTIVO
Jaime Alberto Leal Afanador
Rector
Gloria Herrera
Vicerrectora Acadmica
Roberto Salazar ramos
Vicerrector de Medios y mediaciones Pedaggicos
Maribel Crdoba Guerrero
Secretaria General

Inferencia Estadstica
Primera Versin
Copyright
Universidad Nacional Abierta y a Distancia

ISBN

2008
Unidad de Ciencias Bsicas UNAD

TABLA DE CONTENIDO
Unidad uno: Principios de Muestreo e Intervalos de confianza
Captulo 1: Principios de Muestreo
- 1.1. Elementos bsicos del muestreo
- 1.2. Clases de muestreo
- Muestreo Aleatorio Simple
- Muestreo Aleatoria estratificado
- Muestreo sistemtico
- Muestreo por Conglomerado
- 1.3. Distribucin Muestral
- 1.4. Teorema Central del Lmite

6
6
12
13
25
37
37
38
47

Captulo Dos: Intervalos de confianza


- 2.1. Nociones Fundamentales
- 2.2. Teora de Estimacin
- 2.3. Estimacin por Intervalos
- Intervalos de confianza para la media: Muestras pequeas
- Intervalos de confianza para diferencia de medias: 2 Desconocida, iguales
- Intervalos de confianza para diferencia de medias 2 Desconocida, diferentes
- Intervalos de confianza para la media: Muestras grandes
- Intervalos de confianza para diferencia de medias
- Intervalos de confianza para proporciones
- Intervalos de confianza para diferencia de proporciones
- Intervalos de confianza para varianza poblacional

58
59
63
63
65
67
68
71
74
74
75

Unidad dos: Pruebas de Hiptesis, Anlisis de Varianza y Estadstica No-paramtrica


Captulo 3: Pruebas de hiptesis
79
- 3.1. Nociones fundamentales
79
- 3.2. Pruebas para Grandes Muestras
81
- 3.3. Pruebas para Muestras Pequeas
88
- 3.4. Pruebas para Proporciones
96
- 3.5. Pruebas para Varianza
103
- Aplicaciones con Excel y SPSS
106
Captulo Cuatro: Anlisis de Varianza
- 4.1. Generalidades del ANOVA
- 4.2. Comparacin Mltiple de Medias Muestrales
- 4.3. ANOVA de un Factor
- 4.4. ANOVA de Dos Factores: Bloques Aleatorizados
- 4.5. ANOVA de Dos Factores Con Iteracin (Diseo Factorial)
- Aplicaciones con Excel y SPSS
- 4.6. Anlisis de Covarianza
- 4.7. Coeficiente de Correlacin
- Anlisis de Regresin con Excel y SPSS
- Anlisis de Covarianza con Excel

122
122
123
127
134
138
147
161
164
165
169

Captulo Cinco: Pruebas No Paramtricas


- 5.1. Generalidades
- 5.2. Prueba de Bondad de Ajuste de la Ji Cuadrado

177
177
177

- 5.3. Prueba de Kolmogorov-Smirnov


- 5.4. Prueba de Wilcoxon
- 5.5. Prueba de Mann-Whitner
- 5.6. Prueba de Kruskal-Wallis
- 5.7. Introduccin a la Inferencia Bayesiana
- Glosario
- Bibliografa

180
183
185
186
188
192
194

UNIDAD UNO

PRINCIPIOS DE MUESTREO E INTERVALOS DE CONFIANZA

CAPITULO UNO

1. PRINCIPIOS DE MUESTREO
Introduccin.
En los estudios de investigacin lo primero que se define es el fenmeno a analizar, luego la
poblacin objeto de estudio, la cual puede ser finita cuando se conocen todos los elementos, o
infinita cuando no se conocen todos los elementos de la misma. Desde estos puntos de vista
analizar la poblacin no es prctico, por tiempo y costos, lo que induce a seleccionar una
muestra, cuya importancia radica en el proceso de consecucin de datos que proporcionan la
informacin suficiente y necesaria a cerca de la poblacin, adems que con la muestra se estn
utilizando menos recursos, debido a que slo una parte de la poblacin se encuentra bajo
observacin, lo que resulta significativamente beneficioso sobre todo cuando se trata de
poblaciones grandes y dispersa.
Otro aspecto que justifica la decisin de tomar una muestra es en casos donde se debe destruir
los elementos de sta, por ejemplo cuando se desea identificar el grado de vaco de un
producto enlatado, la resistencia de un material y otros.
En las encuestas de opinin sobre la preferencia de un producto se nota ms claramente la
utilidad de una muestra en contraste con la poblacin, para conocer las preferencias de los
consumidores y poder acomodar rpidamente el sistema de produccin a dichos cambios.
Objetivo general.
Que los estudiantes identifiquen los principios sobre poblacin y muestra, mtodos de
muestreo, distribucin de muestreo para medias, el teorema central del lmite, aplicados al
clculo de tamaos de muestras pertinentes.
Objetivos especficos.
Comprender los conceptos de poblacin y muestra.
Identificar los diferentes diseos de muestreo y su utilidad en diferentes
campos del saber.
Conceptuar una distribucin muestral y calcular las estimaciones requeridas, la
varianza y el error de estimacin para los mismos.
Conocer y comprender los elementos del teorema central de lmite y su
utilidad.
Determinar un tamao de muestra representativo tanto para medias como para
proporciones.
Realizar aplicaciones en Excel y SPSS.

1. 1 Elementos Bsicos del Muestreo.


Dentro de la inferencia estadstica, el proceso de muestreo permite que a partir de los
resultados obtenidos al analizar una muestra, se pueda obtener conclusiones en cuanto a una o
varias de las caractersticas o parmetros de una poblacin. Esta rea de la Estadstica, ayuda a

determinar la confiabilidad de la inferencia de que los fenmenos observados en la muestra


ocurrirn tambin en la poblacin de donde se seleccion la muestra. Es decir, sirve para
estimar la eficacia del razonamiento inductivo con el cual se infiere que lo observado en una
parte ser equivalente a lo observado en la poblacin.
Las tcnicas de muestreo son importantes en la medida que se utilice en forma adecuada para
la situacin que se requiera. De las tcnicas ms conocidas y utilizadas se tienen el Muestro
Aleatorio Simple (M.A.S), Muestreo Aleatorio Estratificado (M.A.E), Muestro Sistemtico
(M.S) y Muestreo por Conglomerados (M.C). Se tratara de analizar estas tcnicas,
especialmente el M.A.S y M.A.E
El xito en el desarrollo del curso en mencin est en los buenos conocimientos previos en
Estadstica Descriptiva, Probabilidad y, lgebra, Trigonometra y Geometra analtica. Lo
anterior debido a que se debe predecir resultados o tomar decisiones que tienen un grado de
incertidumbre o un grado de error que se debe definir de antemano.

1.1.1 Poblacin y muestra


Existe una serie de trminos estadsticos bsicos, que son muy utilizados y se requiere sean
comprendidos para avanzar en otros temas o unidades, en esta seccin se tratarn los
conceptos de poblacin y muestra.

Figura 2.1 Poblacin y muestra

POBLACIN O UNIVERSO
Se considera a todo aquello sobre el que se desea hacer un estudio estadstico. Segn el
nmero de unidades, elementos o casos que la constituyen, la poblacin puede ser finita o
infinita.
Cuando el nmero de unidades que integra una poblacin es muy grande, se puede considerar
a sta como una poblacin infinita. La poblacin finita es aquella conformada por un
determinado o limitado nmero de elementos. El investigador define la poblacin objeto de
estudio en trminos de espacio y tiempo, ya que de esta manera los resultados sern sobre la
poblacin definida en el espacio demarcado y en el tiempo definido. Por ejemplo que
podemos decir de las siguientes poblaciones:
- Estudiantes del Programa de Ingeniera de Sistemas

- Estudiantes del programa de ingeniera de sistemas de la UNAD


- Estudiantes del programa de Ingeniera de sistemas en la UNAD de los aos
2.005, 2.006 y 2.007
Cual de esas poblaciones estar mejor definida? Analcelo con su grupo colaborativo y
realicen las observaciones al respecto.
El fin fundamental de la Inferencia Estadstica es analizar algunas caractersticas de la
poblacin denominados parmetros. Entre los ms importantes tenemos:
N = Tamao total de la poblacin
Promedio Poblacional
2 Varianza Poblacional
Desviacin estndar Poblacional
Total Poblacional
P = Proporcin Poblacional

MUESTRA
Se considera una muestra al subconjunto representativo de la poblacin, que ha sido
seleccionada de manera tcnica mediante un procedimiento denominado diseo de
muestreo, para garantizar que dicha muestra es representativa de la poblacin, es decir, que
las unidades seleccionadas en la muestra mediante un proceso aleatorio, hayan tenido igual
probabilidad de haber sido seleccionadas para el anlisis.
Entre los motivos que inducen a tomar una muestra aleatoria estn:
1. Naturaleza Destructiva: Existen casos donde se requiere destruir los elementos de la
muestra para medir la caracterstica, como es el caso de medir la resistencia de un
material, el vaco de un producto enlatado, otros.
2. Imposibilidad Fsica de Medir Todos los Elementos de la Poblacin: Se sabe que
existen poblaciones muy grandes, consideradas infinitas y es casi imposible conocer
todos los elementos de la misma.
3. Costos: Estudiar todos los elementos de la poblacin es muy costoso, tanto en tiempo
como en dinero, por lo que es ms rentable hacer un estudio Muestral.
4. Confiabilidad del Estudio Muestral: Esta demostrado con soporte matemtico que una
muestra representativa arroja resultados que permiten inferir sobre la poblacin con
una confiabilidad muy alta.
El objetivo fundamental del muestreo es Estimar los parmetros de la poblacin a partir de
algunos elementos cuyas mediciones se conocen como Estadsticos. Los estadsticos ms
utilizados por su importancia son:
n = Tamao de la muestra
X Promedio Muestral
S 2 Varianza Muestral
S Desviacin estndar Muestral
Total Estimado
p = Proporcin Muestral
8

UNIDADES DE MUESTREO:
Las unidades de muestreo son conjuntos disjuntos, cuya unin conforman la poblacin
completa. Por ejemplo en un censo poblacional los hogares conforman las unidades de
muestreo, en un estudio sobre la vida til de las llantas de un automvil, el auto ser la unidad
de muestreo.
UNIDAD DE OBSERVACIN:
Son los elementos que se miden; es decir, sobre los que se toman los datos de las variables a
medir. En el caso de los hogares, la unidad de observacin sern las personas y en el caso de
las llantas del automvil, cada una sern las unidades de observacin.
MARCO DE MUESTREO:
El marco de muestreo se considera el referente para identificar las unidades de observacin,
ste NO incluye todos los elementos de la poblacin. Ejemplos de marcos de muestreo
tenemos el directorio telefnico de una ciudad, como potenciales votantes, el registro de
ventas de los ltimos 5 aos en una compaa comercializadora y, muchos otros.
ERROR DE MUESTREO:
En estadstica se sabe que existen diferencias entre lo que se obtuvo en el estudio y lo que se
esperaba. En el proceso de estimacin es poco probable que la media Muestral sea idntica a
la media poblacional, igual para la varianza y la desviacin estndar. El error de muestreo es
la diferencia entre el estadstico y el parmetro.


Es el parmetro y es el estadstico.
ERROR TOLERABLE:
Se considera el error tolerable al error mximo que se est dispuesto a aceptar y an
considerar que el muestreo ha alcanzado su objetivo. En todo estudio estadstico siempre se
considera un error tolerable, partiendo del principio que a menor error tolerable, mayor ser el
tamao de la muestra. Si es el parmetro y es el estadstico, el error tolerable est
determinado por B, donde:

error B
ERRORR ESTANDAR
La desviacin estndar de una distribucin, en el muestreo de un estadstico, es
frecuentemente llamada el error estndar del estadstico. Por ejemplo, la desviacin estndar
de las medias de todas la muestras posibles del mismo tamao, extradas de una poblacin, es
llamada el error estndar de la media. De la misma manera, la desviacin estndar de las
proporciones de todas las muestras posibles del mismo tamao, extradas de una poblacin, es
llamada el error estndar de la proporcin. La diferencia entre los trminos desviacin

estndar y error de estndar es que la primera se refiere a los valores originales, mientras
que la segunda est relacionada con valores calculados.
ESTADSTICO
Un estadstico es una medida usada para describir alguna caracterstica de una muestra , tal
como una media aritmtica, una mediana o una desviacin estndar de una muestra.
PARAMETRO
Una parmetro es una medida usada para describir alguna caracterstica de una poblacin, tal
como una media aritmtica, una mediana o una desviacin estndar de una poblacin.
Cuando los dos nuevos trminos de arriba son usados, por ejemplo, el proceso de estimacin
en inferencia estadstica puede ser descrito como el proceso de estimar un parmetro a partir
del estadstico correspondiente, tal como usar una media muestral (un estadstico) para estimar
la media de la poblacin (un parmetro).
ETAPAS EN LA SELECCIN DE LA MUESTRA
E todo estudio de muestreo se debe definir las etapas que permiten su desarrollo.
Definicin del Objeto de Estudio: Comprende la identificacin del problema y el
establecimiento de las metas que busca el estudio.
Marco de Muestreo: Establecimiento de una metodologa para identificar los elementos que
estarn en el muestreo, sus caractersticas y el modelo que los identifica.
Identificacin de Variables: Es pertinente identificar las variables de estudio, para as definir
la forma de medicin que se hara.
Tamao de la Muestra: Por medio del modelo de muestreo pertinente seleccionar la muestra
representativa, sobre la que se realizarn las mediciones.
Unidad de Muestreo: Se debe extraer las unidades de muestreo segn el modelo definido que
determinan las n unidades maestrales de la poblacin N.
Trabajo de Campo: Son todas las acciones necesarias para obtener la informacin, definiendo
los costos, desplazamientos, herramientas fsica y logsticas para su realizacin.
Anlisis de Informacin: La informacin obtenida, requiere de un proceso estadstico, el cual
puede ser descriptivo o inferencial, para el curso que nos ocupa se deben hacer los dos.
Resultados: Con el proceso desarrollado sobre los datos obtenidos, se procede a la emisin de
los resultados y la confrontacin con las metas propuestas para verificar el grado de eficiencia
del trabajo realizado. Es pertinente saber presentar los resultados, ya que un buen trabajo que
no se presente de la mejor manera, quedara oscuro en su informacin.

10

TIPOS DE SELECCIN DE MUESTRAS


En el diseo Muestral hacemos referencia a la probabilidad de seleccin, la cual consiste en
definir el valor de probabilidad de que una muestra dada sea seleccionada. En teora de
probabilidad existen dos tipos de seleccin:
Seleccin con Reemplazamiento: Consiste en que los elementos seleccionados una vez
medidos vuelven a la muestra, lo que hace que el espacio Muestral permanezca constante. Por
lo anterior la ocurrencia de un evento no afecta la ocurrencia de otro, por lo que los eventos
se consideran independientes.
Ejemplo:
Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual ser la probabilidad que al
seleccionar dos bolas estas sean blancas.
Solucin:
4
9
4
A probabilidad de que la segunda sea negra es: P ( x 2 negra )
9

La probabilidad de que la primera sea negra es: P ( x1 negra )

Seleccin sin Reemplazamiento: Los elementos elegidos una vez la medicin, estos NO
vuelven a la muestra, lo que hace que el espacio muestral cambie a medida que se van tomado
elementos de la muestra.
Ejemplo:
Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual ser la probabilidad que al
seleccionar dos bolas estas sean blancas, la seleccin es sin reemplazamiento
Solucin:
La probabilidad de que la primera sea negra es: 4/9
A probabilidad de que la segunda sea negra es: 3/8
Recordemos que una vez elegida la primera, sta vuelve a la muestra.
Ejemplo:
Suponga que tenemos N = 4 unidades 1, 2, 3 y 5 en una poblacin hipottica y desea
seleccionar muestras con reemplazamiento y sin reemplazamiento de tamao n=2
Solucin:
Para los propsitos de esta seleccin, los valores podran ser el nmero de las personas que
viven en cada una de cuatro unidades habitacionales que constituyen una poblacin. Se
realizar una comparacin entre el muestreo aleatorio con y sin reemplazamiento para una
muestra de tamao n = 2. Primero se listan todas las posibles muestras no ordenadas de
tamao n = 2.
11

Podemos observar que cualquier muestra que se pueda obtener en muestreo sin
reemplazamiento, tambin es posible obtenerla con reemplazamiento. Sin embargo, las
muestras que contienen valores repetidos no se pueden obtener al realizar el muestreo sin
reemplazamiento. Dado que al medir una unidad ms de una vez no se est obteniendo
informacin adicional, es de esperase que con un muestreo sin reemplazamiento tiende a
recogerse mas informacin sobre la poblacin de la que puede obtenerse con muestreo

1.2 Clases de muestreo.


Con los conceptos previos que se han analizado, ahora corresponde estudiar las clases de
muestreo. Los dos grandes grupos estn enmarcados en las siguientes clases:
- Muestreo probablistico.
- Muestreo no probablistico.

1.2.1 Muestreo No Probablistico.


Son aquellos muestreos donde los elementos de la muestra se toman al azar, siendo imposible
determinar el grado de representatividad de la muestra. Para el caso de una poblacin
homognea, la representatividad de tal muestra puede considerarse satisfactoria.
Por otra parte, en problemas comerciales diarios y en la toma de decisiones que a falta de
tiempo no permiten disear mtodos de muestreo probablistico hay que recurrir a este tipo de
muestreo, donde el investigador conoce la poblacin.
Dentro del muestreo no probablistico se conoce varios tipos:
- Muestreo por conveniencia.
- Muestreo por juicio
- Muestreo Causa Efecto
- Muestreo por Cuotas
- Muestreo de Poblaciones Mviles

MUESTREO POR CONVENIENCIA


La muestra se determina por conveniencia, incorporando elemento en la muestra sin
probabilidades especificadas o conocida de seleccin. Por ejemplo un profesor que se
encuentra investigando una causa universitaria, puede usar alumnos voluntarios para formar la
muestra, tan solo porque dispone fcilmente de ellos y participan como elementos a un costo
pequeo o nulo. Tiene la ventaja de ser de fcil seleccin y recoleccin de sus datos. Tiene la
desventaja de no poderse evaluar en su bondad de la muestra en funcin de la
representatividad de la poblacin, motivo por el cual se hace imposible inferir a cerca de la
poblacin correspondiente.
MUESTREO POR JUICIO
En este mtodo la persona por experiencia y capacidad selecciona a los individuos u otros
elementos de la poblacin, que supone son los ms representativos de esa poblacin. Por
ejemplo un reportero puede muestrear uno o dos senadores, por considerar que ellos reflejan la
opinin general de todos.

12

MUESTREO CAUSA EFECTO


Se realiza cuando no hay una poblacin definida y se requiere tomar elementos para el estudio
en cuestin, caso por el cual se toman los elementos disponibles.
MUESTREO POR CUOTAS:
Cuando es necesario obtener una cantidad dada de elementos que constituyen una muestra
proporcional a la poblacin, se toman elementos hasta cubrir dicha cuota. El caso de tomar
una cantidad de carros en una esquina para hacer un estudio sobre accidentalidad en dicho
sitio.

MUESTREO DE POBLACIONES MVILES:


Mtodo propio de poblaciones mviles como en estudios de migracin ocurridos en un sitio
determinado. El caso tpico es con animales que migran, donde se hace captura-marcarecaptura.

1.2.2. Muestreo probablistico.


El muestreo aleatorio o muestreo probablistico, es aquel en que cada uno de los elementos
de la poblacin objeto de estudio, tienen una probabilidad matemtica conocida, y
frecuentemente igual, para ser elegido en la muestra.
Dentro del muestreo probablistico o aleatorio existen cuatro mtodos:
1. Muestreo aleatorio simple.
2. Muestreo estratificado.
3. Muestreo sistemtico.
4. Muestreo por conglomerados.
Una muestra se considera probabilstica si cumple con las siguientes condiciones:
a-) se pueda definir un conjunto de muestras M1, M2, M3, posibles derivados del proceso de
seleccin propuesta. As se puede identificar qu unidades de muestreo pertenecen a la
muestra M1, M2,
b-) A cada muestra posible le debe corresponder una probabilidad de seleccin conocida P(S).
c-) El proceso de seleccin garantiza que todos los elementos de la poblacin tienen una
probabilidad P(yi)>0 de ser elegido en alguna muestra.
d-) La seleccin es un proceso aleatorio que garantiza que cada muestra S tenga una
probabilidad P(S) de ser elegida.

1. Muestreo aleatorio simple (MAS)


El M A S es la forma ms sencilla de muestreo probabilstico y es la base de tcnicas ms
complejas. La muestra se puede tomar de una poblacin finita o infinita, la cantidad de
muestras posibles depende del tipo de diseo y la forma de tomar las muestras. Este tipo de
muestreo se utiliza cuando se considera que la poblacin es ms o menos homognea. Como
ya sabemos el muestreo puede ser con y sin reemplazamiento.
13

El marco de muestreo corresponde a la lista codificada de todas las observaciones que hacen
parte de la poblacin. La muestra se elige de tal manera que cada observacin tiene la misma
probabilidad de ser elegida, la eleccin de una observacin NO tiene influencia sobre la
eleccin de otra. Es de aclarar que en el M. A. S. La unidad de muestreo es igual a la unidad
de observacin.
Para seleccionar los elementos de la muestra se puede utilizar varias tcnicas:
a). Tabla de nmeros aleatorios: (Ver tabla siguiente). Se enumeran las unidades que
conforman la poblacin objetivo de estudio, partiendo desde 01 hasta 99, desde 001 hasta 999,
y as sucesivamente, dependiendo del tamao poblacional. Luego se define el tamao de la
nuestra y como los elementos de la poblacin estn listados y codificados, entonces se
establece un punto de partida: Columna Fila y se van leyendo ya sea horizontal o
verticalmente los nmeros de la tabla hasta completar el tamao de la muestra.
Ejemplo 1:
Se desea obtener una muestra aleatoria de tamao n = 10, los elementos de la poblacin estn
codificados de 1 a 200.
Solucin:
Seleccionemos la fila 06 y columna 12345, como punto de inicio y la lectura la hacemos
vertical. Se debe escoger los primeros tres dgitos que estn entre 1 y 200, hasta completar el
tamao de la muestra. La lectura ser de los tres primeros dgitos de la tabla.
Veamos: El primer nmero es 884, no se incluye, el segundo es 100, se incluye, el tercero es
007, se incluye, as sucesivamente. Por consiguiente la muestra ser:
n = 100, 007, 141, 151, 142, 128, 146, 042, 156, 134
Ejemplo 2:
Obtengamos una muestra aleatoria de 6 elementos de una poblacin cuyos elementos estn
codificados de 01 a 50.
Solucin:
Elegimos el punto de inicio de la fila 08 y columna 67890. Lectura del primer dgito y lectura
vertical.
n = 9, 5, 1, 3, 7, 8.

14

Fuente: Web

Este mtodo de seleccin permite que todos los elementos que constituyen la poblacin tengan
la misma posibilidad de ser incluidos en la muestra. Los elementos se escogen en forma
individual y aleatoriamente de la totalidad de la poblacin. Esta seleccin puede ser sin

15

reemplazamiento, similar a la que se realiza en la extraccin aleatoria de nmeros en el juego


denominado Baloto. Cada elemento que constituye la muestra se selecciona una sola vez,
denominndose extracciones sin reposicin.
En otras ocasiones, cada elemento puede ser elegido ms de una vez en la misma muestra,
como por ejemplo, cuando se selecciona aleatoriamente el nmero ganador de una lotera,
que puede ocurrir ser el mismo nmero; en estos casos se dice que las extracciones son
realizadas con reposicin.
b). Programa de Computador: Utilizando el programa Excel que es el ms comn se puede
desarrollar nmeros aleatorios de la siguiente manera:
Si la poblacin es de N = 1.000 observaciones y se desea una muestra de 20, entonces: Sobre
una celda se escribe =ALEATORIO ()*N y se da clic, el sistema genera el primer nmero
aleatorio, se despliega en la parte inferior derecha de la celda del nmero hasta el tamao de la
muestra definida.

Sintaxis para
obtener nmeros
aleatorios de una
poblacin de 1.000
observaciones

Al dar clic se genera el primer numero aleatorio y desplegando se obtiene los que se desea.

Primer numero
aleatorio.
Se despliega
desde la parte
inferior derecha
hasta completar
20 elementos

De esta manera se obtiene los nmeros aleatorios que se requieren para tomar la muestra
aleatoria de la poblacin objeto de estudio. Si se vuelve a hacer el proceso, se obtendrn
nuevos nmeros y cada que se realice un nuevo proceso, se generarn diferentes nmeros; esto
por lo de Aleatorio.

16

c). Mtodo de Fan Muller: Se definen los nmeros aleatorios 1, 2, 3, independientes


bajo la distribucin uniforme u (0,1). Si k=1 < n / N. (Siendo N el tamao de la poblacin y n
el tamao de la muestra), entonces k = 1 es seleccionado para la muestra, en otro caso no.
Para los siguientes nmeros k = 2, 3, 4,, nk los seleccionados deben cumplir
n nk
k

N k 1
el proceso termina cuando nk = n. N k + 1 es el marco muestral; es decir, el tamao
disponible. Los k son generados bajo la distribucin uniforme y se comparan con (n nk) /
(N k + 1).
d). Coordinado Negativo: El proceso general es de la siguiente manera:
- Se adiciona una variable aleatoria U con distribucin uniforme U ( 0, 1)
- Se ordena el marco muestral segn la distribucin U.
- La muestra se forma de los n primeros elementos del marco ordenado

Estimacin en el M.A.S.
El proceso de estimacin conlleva a obtener un estimador que tenga ciertas condiciones
deseables para hacer inferencia sobre el modelo de probabilidad que ha generado los datos.
Entre los mtodos de estimacin de la estadstica paramtrica se tiene: Momentos, Mnimos
cuadrados y Mxima verosimilitud.
Estimacin de la Media Poblacional (): Al seleccionar una muestra aleatoria por M.A.S.
1 n
sin reemplazamiento y pesos iguales, se tiene que: x xi Para i = 1, 2, 3, , n
n i 1
A partir de lo anterior, se puede decir que la media muestral es un estimador insesgado y de
mnima varianza de la media poblacional.
Definicin:
El valor esperado de la media muestral es la media
poblacional
E( X )

Varianza del Estimador: El valor de X indicar muy poco sobre al menos que se evale la
bondad del estimador. Esto quiere decir que se debe fijar un lmite sobre el error de
estimacin, lo que se hace a partir de la varianza del estimador.
Cuando se conoce la varianza poblacional, la varianza del estimador para poblaciones finitas
es de la forma:
2 N n
Recordemos que N = Poblacin y n = Muestra
V (X )

n N 1
Cuando no se conoce la varianza poblacional, entonces se estima a partir de la varianza
N
1 n
2
muestral, donde: S 2
( x i x ) 2 Donde: E ( S 2 )

N 1
n 1 i 1
De lo anterior se puede obtener la varianza estimada del estimador:
17


s2 N n
V (X )

n N

N n
Donde
Es el factor de correccin para poblaciones finitas.
N
N n
N
Este factor se pude despreciar si:
0,95 o cuando
n
N
20
Cuando se tiene poblaciones infinitas, la varianza estimada del estimador es de la forma:

s2
V (X )
n

Error de Estimacin: (B) La teora estadstica ha mostrado que al multiplicar la desviacin


estndar por el valor de Z (1 ) y, si a esto se le suma y resta al estimador de la media, se
2

obtiene un intervalo de confianza de (1 /2) el cual nos indica que la media poblacional esta

en dicho intervalo. De esta manera: B Z (1 ) V ( X ) Donde I .C. X B


2

Ejemplo 1:
Se tiene una poblacin de elementos N = [2, 4, 6, 8], se desea tomar una muestra aleatoria de
un elemento, hallar y 2
Solucin:
Por definicin: E ( x) xp( x) Como x = 2, 4, 6, 8

y p(x) =

Entonces:

xp( x) 2(1 / 4) 4(1 / 4) 6(1 / 4) 8(1 / 4) 5


n

Tambin por definicin: 2 V ( x ) E ( x ) 2 ( x i ) 2 p ( xi )


i 1

(2 5) (1 / 4) (4 5) (1 / 4) (6 5) (1 / 4) (8 5) 2 (1 / 4) 5
Ejemplo 2:
Del ejemplo uno, tomar muestras de tamao dos sin reemplazamiento y calcular

y 2

Solucin:
N
N!
4!
24
El nmero de muestras es:

6
n n!( N n )! 2!( 4 2)! 2 * 2
MUESTRA

P(xi)

s2

n1: (2, 4)
n2: (2, 6)
n3: (2, 8)
n4: (4, 6)
n5: (4, 8)
n6: (6, 8)

1/6
1/6
1/6
1/6
1/6
1/6

3
4
5
5
6
7

2
8
18
2
8
2

V (x )

2
9/2

Clculos: Tomemos como ejemplo la primera muestra.

18

1
1
1
1
( x i x ) 2 ( 2 3) 2 ( 4 3) 2 2
x i ( 2 4) 3
s2

2
2
2 1
1

242 1
As para las otras muestras.
V (x)

2 4 2

En seguida calculamos la media poblacional, desde la definicin de valor esperado:


n

E ( x ) x i p ( xi ) 3(1 / 6) 4(1 / 6) 5(1 / 6) 5(1 / 6) 6(1 / 6) 7(1 / 6) 5


i 1

La varianza del estimador se puede calcular desde dos formas:


1. Por definicin de valor esperado:
2

V ( x ) E ( x ) ( xi ) 2 p ( xi ) Reemplazando:
i 1

V ( x ) (3 5) 2 (1 / 6) (4 5) 2 (1/ 6) (5 5) 2 (1 / 6) (5 5) 2 (1 / 6) (6 5) 2 (1 / 6) (7 5) 2 (1 / 6)

5
3

2. Por la formula de varianza del estimador:


Como 2 5 del ejemplo anterior, N = 4 y n = 2,
2 N n 542 5
V (X )

n N 1 2 3 3
Los dos ejemplos muestran que:
2 N n
E( X )
y V (X )

n N 1
Ejemplo 3:
En un estudio se sabe que la varianza estimada del estimador es de 0,567. Se tom una
muestra de n = (1, 3, 5) Para un nivel de significancia del 5%, hallar el lmite de error de
estimacin.
Solucin:
Para los datos dados: n = (1, 3, 5) x 3

Ahora: B Z (1 ) V ( X ) Donde Z (1
2

y
2

s2 2
1 0 , 05

Z 0,975 . Para la probabilidad de 0,975


2

el valor de Z es 1,96. Entonces:


B 1,96 0,567 1,475
Por consiguiente la media poblacional estar en el intervalo (3 1,475); es decir, (1,525
4,475) con un nivel de confianza del 95%
Estimacin del Total Poblacional (): Cuando de la poblacin se obtiene una muestra
aleatoria para estudiar una caracterstica de la primera, uno de los parmetros a obtener es el
total poblacional de la caracterstica. Por ejemplo a partir de un nmero de personas se puede
estimar el total de edad de la poblacin, o el total de peso u otra caracterstica.
19

Si definimos a i como la probabilidad de seleccin del elemento i-simo en una muestra


n
dada n, en el M.A.S. sin reemplazamiento i se define como: i
Por otro lado el total
N
n x

poblacional es estimado por el cual esta definido como: i . Al reemplazar i


i 1 i
x
n
n
Nx i
xi
i

Nx

n i 1 n
i 1
i 1 n
N
Entonces el estimador del total poblacional esta definido como:
n

por su equivalente:

Nx
Anlogamente el total poblacional esta dado por:

N
Varianza del Estimador: Al igual que en la estimacin de , el total poblacional tambin
requiere identificar la bondad del estimador, para s identificar el error del estimador.
Si conocemos la varianza poblacional, la varianza del estimador esta dado por:
2 N n

V ( ) V ( Nx ) N 2

n N 1
Pero cuando NO se conoce la varianza poblacional, entonces se busca la varianza estimada del
estimador.
2

2 s N n

V ( ) V ( N x ) N

n N

Error de Estimacin: Al igual que en la media, el error de estimacin nos permite obtener un
intervalo de confianza con un nivel de significancia para el total poblacional.

Se sabe que B Z (1 ) V ( )
reemplazando la varianza estimada del estimador por su
2

equivalente obtenemos:
B Z (1

s2
N
n
2

N n

Ejemplo 1:
En un centro de investigacin se desea determinar el tiempo que los investigadores
tareas administrativas, para lo cual se tomo una muestra de 60 investigadores cuyo
de tiempo usado en dichas actividades fue de 15 hr/semana y varianza de 5 hr2.
cuenta con 800 investigadores. Estimar el total de horas que son utilizadas
administrativas por los investigadores y el error de estimacin, para un = 1%.

dedican a
promedio
El centro
en tareas

20

Solucin:
Los datos son:
N = 800, n = 60, x 15 y s 2 5

- Calculamos el estimador del total poblacional: Nx 800 * 15 12.000


En el centro los investigadores utilizan 12.00 horas /semana a tareas administrativas.
- Ahora el error de estimacin, para lo cual debemos hallar primero la varianza.

s 2 N n
2 5 800 60
V ( ) N 2
800
49.333,33
60 800
n N 1
2
2 s N n

N
n N
)
2


Se busca le valor de la distribucin: Z (1 ) Z

Error de estimacin: B Z (1

(1 0 , 01 2 )

Z 0,995 En la tabla de distribucin

normal para una probabilidad de 0,995 el valor de Z es de 2,575 Ahora se puede calcular el
error de estimacin:
B 2,575 49.333,33 571,94
Por consiguiente el total poblacional para el tiempo dedicado a tareas administrativas estar
entre 12.000 571,94; es decir esta en el intervalo: (11.428,06 - 12.571,94)
Estimacin del Proporcin Poblacional (P): Cuando se desea obtener la proporcin de una
atributo en la poblacin, el experimento es binomial.
1 si y i tiene atributo
yi
no
tiene
atributo
0 si y i
N

a
N
i 1

Pero P (proporcin poblacional) se puede estimar a partir de la muestra de tamao n por p .


p*q

Cuando n es grande, p es aproximadamente normal, donde: E ( p ) P y V ( p )


n
Para el M.A.S. el estimador de la proporcin poblacional P esta dado por:

Los elementos que tiene el atributo son: a y i

p
n

Donde yi = 1 Entonces: P

yi

i 1

Varianza del Estimador: De manera similar a los casos anteriores, la varianza del estimador
esta definido por la siguiente ecuacin.
Para poblaciones infinitas


p*q
V ( p)
n

Para poblaciones finitas




p*q N n
V ( p)

n N

Error de Estimacin: De la misma manera que en los casos anteriores


Para poblaciones infinitas

Para poblaciones finitas

21

B Z (1


p*q
n

B Z (1


p*q N n

n N

Ejemplo 1:
En un estudio sobre fallas que presenta una maquina empacadora, se tomo una muestra de 120
unidades de las cuales 32 presentaron fallas de sellado. Estimar la proporcin de fallas en la
maquina y el error de estimacin para un nivel de significancia del 5%.
Solucin:
n
1

- Segn los datos del problema: a y i 32 Entonces: p


n
i 1
La proporcin estimada de fallas en la maquina es del 26,7%

i 1

yi

32
0 , 267
120

- Para hallar el error de estimacin debemos calcular la varianza del estimador.




p * q 0,267 * 0,733
Por ser una poblacin infinita: V ( p )

0,00163
n
120
Buscamos el valor de la distribucin: Z (1 ) Z 0,975 Para una probabilidad del 0,975, el
2


p*q
valor de Z es 1,96. Entonces: B Z (1 )
1,96 0,00163 0,079
2
n
La proporcin de fallas en la maquina esta en: 0,267 0,079; es decir: (0,188 - 0,346)

Tamao de Muestra en el M.A.S.


En el M.A.S. Se han analizado tcnicas para estimar el promedio, la varianza, el total
poblacional y la proporcin poblacional, ahora el trabajo esta en buscar la forma de obtener el
tamao de la muestra. Tomar observaciones cuesta dinero, por lo cual se debe tomar la
muestra de tal forma que permita al investigador obtener la informacin pertinente, ya que una
muestra mal calculada arrojar informacin inadecuada que hace perder tiempo y dinero.
1. Tamao de la Muestra para Estimar : Determinar el numero de observaciones que
harn parte de la muestra para estimar la media poblacional, con un lmite de error de
estimacin B, se hace a partir de las desviaciones asumidas en el error de estimacin.
2 N n

Haciendo un proceso matemtico de despeje de n,


)
2
n N 1
Z (21 ) 2 N
2
se obtiene: n
Para poblaciones finitas.
2
( N 1) B Z (21 ) 2

Partiendo de: B Z (1

Cuando N es muy grande entonces se asume que la poblacin es infinita y as N -1 ~ N


tambin N n ~ N, lo que hace que: B Z (1
Z (21
n
B

2
2

2
Despejando n obtenemos:
n

Para poblaciones infinitas.

22

Ejemplo 1:
En un estudio sobre el tamao de manos para el diseo de guantes, se estableci que la
longitud de estos sigue una distribucin normal, por estudios realizados se sabe que la
desviacin tpica es de 1,5 cm. Cual debe ser el tamao de la muestra si el error de
estimacin es de 0,5 cm.? El nivel de significancia es de 0,05
Solucin:
Segn el problema se trata de una poblacin infinita, hallamos el valor de la distribucin.
Z (1 ) Z 1 0, 025 ) Z 0 ,975 Para una probabilidad de 0,975 el valor de Z es 1,96
2

Calculamos el tamao requerido:


Z (21 ) 2
(1, 96 ) 2 (1 , 5 ) 2
2
n

34 , 57
B2
( 0 ,5 ) 2
En las condiciones dadas, el tamao de la muestra debe ser de 35 personas.
2. Tamao de la Muestra para Estimar : El numero de observaciones necesarias para
estimar el total poblacional con un lmite de error de estimacin B para una muestra de
tamao n esta dada a partir del error de estimacin para poblaciones donde NO se conoce la
varianza, estudiado anteriormente.
B Z (1

s2
N 2
n

N n

Z 2N 2s2
n 2
B NZ 2 s 2

Haciendo las transformaciones matemticas pertinentes:

Poblaciones finitas y varianza poblacional desconocida.

Recordemos que la varianza muestral estima la varianza poblacional.


Ejemplo 1:
Una compaa que hace estudios a nivel social, desea estimar el total de ingresos de una
poblacin de 3.000 habitantes que tienen ingresos. Por estudios realizados con anterioridad se
sabe que la varianza es $40.000 Cuntas personas se deben tomar para estimar el total de
ingresos si se asume un error de estimacin de $100.000 y un nivel se significancia del 5%?
Solucin:
Primero hallamos el valor de la distribucin: Z (1

Z 0,975 Para 0,975 de probabilidad el

valor de Z es 1,96, entonces:

Z 2N 2s2
(1,96 ) 2 (3.000 ) 2 ( 40 .000 )
1.382976 X 10 12
n 2

B NZ 2 s 2 (100 .000 ) 2 3 .000 (1,96 ) 2 ( 40 .000 ) 1.0460992 X 10 10


n 132 , 20

23

Para hacer el estudio con un nivel de significancia del 5% se necesitan 133 personas de dicha
poblacin.
3. Tamao de la Muestra para Estimar P: Hemos vistos que la proporcin es una
caracterstica muy importante cuando se desea determinar qu parte de la poblacin esta a
favor de un determinado factor. El tamao de la muestra para estimar la proporcin
poblacional, es anlogo a lo establecido en los casos anteriores para la media y el total
poblacional.

p*q
A partir del error de estimacin para poblaciones infinitas: B Z (1 )
se tiene que el
2
n

Z (21 ) p q
2
tamao e la muestra es: n
B2

p*q N n
Para poblaciones finitas se parte de: B Z (1 )

para obtener el tamao de la


2
n N

Z (21
muestra, que es de la siguiente manera:

n
NB

p
qN
)

Z (21

p
q
)

Ejemplo 1:
En una ciudad se desea realizar una encuesta para determinar la proporcin de habitantes que
estn de acuerdo con el consumo de cigarrillo. La ciudad cuenta con 7.500 habitantes, en
estudios previos se ha determinado que por cada 100 habitantes, 15 estn de acuerdo. Cual
debe ser el tamao de la muestra para estimar la proporcin poblacional P de habitantes que
apoyan el consumote cigarrillo? Con un nivel de del 1% y error de estimacin de 0,05.
Solucin:
15

A partir de los datos: p


0,15 Entonces q 1 p 1 0,15 0,85
100
Para un nivel del 1%, Z (1 ) Z 0,995 Para una probabilidad del 0,995 el valor de Z es 2,575
2

Teniendo los datos necesarios, hallamos el tamao de la muestra.

Z (21
n
NB

pqN

Z (21

( 2 , 575 ) 2 ( 0 ,15 )( 0 , 85 )( 7 . 500 )



pq
7 . 500 ( 0 , 05 ) 2 ( 2 , 575 ) 2 ( 0 ,15 )( 0 , 85 )
)

( 2 , 575 ) 2 ( 0 ,15 )( 0 , 85 )( 7 . 500 )


6340 , 535

2
2
7 . 500 ( 0 , 05 ) ( 2 , 575 ) ( 0 ,15 )( 0 , 85 )
18 , 75 0 , 8454

6340 , 535
18 , 75 0 , 8454

323 , 57

Para hacer el estudio sobre consumo de cigarrillo en la ciudad definida, se debe tomar una
muestra de 324 habitantes, con un nivel de significancia del 1% y un error de estimacin de
0,05

24

2. Muestreo Aleatorio Estratificado


En el diseo de muestreo probablistico, es pertinente identificar la poblacin objeto de
estudio, ya que no siempre la variable de anlisis es ms o menos homognea. Si se desea
analizar la variable peso; por lo general los hombres pesan ms que las mujeres, en estratos
altos se paga ms arriendo que en estratos bajos. En stos y otros muchos casos el M. A. S. no
es adecuado. En casos donde la poblacin es muy heterognea respecto a la variable de
estudio el muestreo estratificado es mejor que el muestreo aleatorio simple. La palabra
estratificar hace referencia a Formar Capas.
DEFINICIN: Una muestra aleatoria estratificada se obtiene mediante la
separacin de los elementos de la poblacin en subgrupos llamados
ESTRATOS, los cuales son disyuntos
Obtenidos los estratos, en cada uno se obtiene la muestra por M. A. S. para el estudio de la
variable de inters.
La justificacin de seleccionar una muestra por muestreo aleatorio estratificado ms que por
muestreo aleatorio simple son entre otras.
1. Evitar la obtencin de muestras errneas, tal es el caso de escoger elementos que
podran sesgar el muestreo, por consiguiente se puede perder representatividad de la
poblacin.
2. Obtener informacin precisa de ciertos subgrupos para hacer comparaciones
3. Producir un lmite de error de estimacin (B) ms pequeo, comparado con el obtenido
en el M.A.S. para un mismo tamao de muestra.
4. Los costos por observacin en las encuestas son ms reducidos ya que se evitan
desplazamientos extremos.
5. Las estimaciones se obtienen por subgrupos as los estratos se hacen identificables.
Como los elementos de los estratos son disyuntos, entonces cada unidad de muestreo
pertenece solo a un estrato. Las muestras seleccionadas en los estratos deben ser
independientes; es decir, la elegida en un estrato no debe afectar la eleccin de otra muestra en
otro estrato.
La esencia de la estratificacin es que sta saca provecho de la homogeneidad conocida de las
subpoblaciones, de tal forma slo se requieran muestras relativamente pequeas para estimar
las caractersticas de cada subpoblacin, estas estimaciones individuales pueden entonces ser
fcilmente combinadas para producir una estimacin de toda la poblacin; adems, la
economa en el tamao de la muestra, un valioso subproducto del esquema de muestreo
estratificado es que las estimaciones obtenidas para diferentes partes de la poblacin se
pueden usar posteriormente para hacer comparaciones.
Para una descripcin general del muestreo aleatorio estratificado y los mtodos de inferencia
asociados con este procedimiento, suponemos que la poblacin est dividida en h
subpoblaciones o estratos de tamaos conocidos N1, N2,...,Nh tal que las unidades en cada
estrato sean homogneas respecto a la caracterstica en cuestin.

25

Partiendo de la poblacin o universo U cuyo tamao es N, se definen NL estratos.


N = N1 + N2 ++ NL
Nl = Tamao del estrato l.
x l j = Valor de la observacin j en el Estrato l.
l = Media poblacional en el estrato l.
2l = Varianza poblacional en el estrato l.
l = Total poblacional en el estrato l.
p l = Proporcin poblacional en el estrato l.
La media poblacional del estrato, la varianza poblacional del estrato, el total poblacional del
estrato y el total poblacional, se obtiene de la siguiente manera:
Nl
Nl
L
( xlj l ) 2
1 Nl
2
l
x

l
lj

l
lj
l
N l j 1
Nl 1
l 1
j 1
j 1
pl

Nl

x lj

Donde x l j son los elementos j del estrato l que tiene la caracterstica.

j 1

En cada estrato se obtiene una muestra aleatoria por M.A.S. Si tenemos el estrato l, se puede
hacer el siguiente anlisis.
nl = Tamao de la muestra en le estrato l
xl = Promedio muestral en el estrato l
sl2 = Varianza muestral en el estrato l

p l = Proporcin estimada del estrato l

xl

2
l

1
nl
nl

nl

x lj Donde x l j son los elementos j de la muestra en el estrato l

j 1

( xlj xl ) 2

j 1

pl
nl

nl 1
nl

x lj

x lj = Elementos j de la muestra en el estrato l que tienen la caracterstica

j 1

Estimacin en el M.A.E.
1. Estimador de la Media Poblacional:

Por teora estadstica sabemos que xl es un estimador insesgado de l , por otro lado l es un

estimador insesgado de l , donde: l N l l y l N l xl . Hallar un estimador insesgado


26

para el promedio poblacional requiere conocer el total de cada estrato o en su defecto un


estimador. Si definimos est como el promedio poblacional para el muestreo estratificado y a
xest como un estimador insesgado, entonces:
1
1 L
x est N 1 x1 N 2 x 2 ... N L x L Sintetizando: x est
N L xL
N
N l 1
Varianza del Estimador: Para el muestreo estratificado la varianza del estimador se obtiene
a partir de la varianza poblacional del estrato l ( l2 ), pero por lo general esta no se conoce,
luego se estima por medio de la varianza muestral del estrato l ( sl2 ), as se obtiene la varianza
estimada del estimador.

s 2 N n l
1 L

V ( x est ) 2 N l2 l l
N l 1
n l N l
Lmite de Error de Estimacin: Como en el caso del M.A.S. el lmite de error de estimacin
para el M.A.E. esta definido como:

B Z(1

V (xest )

Ejemplo 1:
Una fbrica de productos populares desea hacer un estudio para identificar el impacto del
producto lder en una ciudad, para lo cual se estratifico la ciudad en 3 estratos, los datos
fueron los siguientes.
SECTOR
A
B
C

Nl
155
62
93

nl
20
8
12

33,90
25,12
19,25

5,95
15,25
9,36

a) Estimar la cantidad media de personas que consumen el producto y su varianza


b) Estimar la cantidad media de personas que consumen el producto en el sector B.
c) Hallar el lmite de error de estimacin para los el sector A para un nivel de
significancia del 5% y del sector B para un nivel del 1%
Solucin:
1
155 * 33,90 62 * 25,12 93 *19,25 27,75
310
Se estima que el promedio de consumo del producto es de 28 personas.
2
2
2

1
2 (5,95) 155 20
2 (15,25) 62 8
2 (9,36) 93 12

V ( xest )

(
155
)
(
62
)
(
93
)

2
20 155
8 62
12 93
310

1
37.039,86 97.327,40 54.996,92 1,97 2 (personas)2
V ( xest )
96.100

a) x est

b) Para el sector B el tamao muestral fue de n = 8, el cual se obtuvo por medio de M.A.S.

27


Segn los datos: x B B 25,12 Entonces la cantidad media de personas que consumen

el
Producto en el sector B es de 26.
c) Para el caso del sector A:

B Z (1 ) V ( xest ) Z 0 ,975 2 2,77 As el lmite de error de estimacin es de 3


2

personas.
Para el caso del sector B:

s 2 N n
(15,25) 2 62 8

B Z (1 ) V ( xest ) Z 0,995
2,575
12,95 Para el caso
2
n N
8 62
del
sector B, el lmite de error de estimacin es de 13 personas.

2. Estimador del Total Poblacional:


Ya sabemos la filosofa del total poblacional, para el caso de muestro aleatorio estratificado,
se debe estimar el total poblacional en cada estrato, luego se suman todos los totales estimados
y as obtener el total poblacional estimado.
L
L
N L

Partiendo de: l xlj N l xl Se puede llegar a: est l N l xl


nl j 1
l 1
l 1
Por consiguiente el estimador es de la forma:
L

est

xl

Para l = 1, 2, 3, , L

l 1

Varianza del Estimador: Por los mismos principios del M.A.S. la varianza para el M.A.E.

cuando se conoce la media poblacional, esta definida como: V est V N est N 2V est .
En los casos donde no se conoce la media poblacional, sta se estima a travs de la media
muestral x , lo que conlleva a obtener la varianza estimada del estimador, as:

V est V Nxest N 2V xest


Por consiguiente la varianza estimada del estimador es de la forma:
2
L

2
2 sl Nl nl

V est N V xest Nl
l 1
nl Nl

Lmite de Error de Estimacin: Como en el caso del M.A.S. el lmite de error de estimacin
para el total poblacional en el M.A.E. se calcula conociendo el nivel de significancia.

B Z(1

)
2

V( est )

28

Ejemplo 1:
Una empresa publicitaria esta interesada en identificar el tiempo que utilizan las familias en 3
ciudades que hacen parte del Distrito Especial para ver televisin. Las ciudades se han
referenciado como A, B, C, donde la ciudad A tiene 125 hogares, la ciudad B tiene 62 hogares
y la ciudad C tiene 93 hogares. Con los datos de la siguiente tabla, estimar el total de horas
que utilizan las familias del distrito especial para ver televisin y su lmite de error de
estimacin para el nivel de significancia del 5%..
A
B
C

35
41
27
8

43
37
15
14

36
31
4
12

39
45
41
15

28
34
49
30

28

29

25

38

27

26

32

25
32

10
21

30
20

37

11

24

29

40

35

Solucin:
Con los datos de la tabal anterior, podemos obtener la siguiente tabla.
ESTRATO
A
B
C

nL
20
8
12

xl
33,9
25,125
19,25

sl
5,95
15,245
9,827

Nl
125
62
93

Estimamos el total poblacional:


3

N l x l 125 * 33,9 62 * 25,125 93 * 19,25 7.585,5


l 1

El total estimado de horas que utilizan para ver televisin los habitantes del distrito especial es
de 7.585,5
Ahora calculamos la varianza:
2
2

(5,95) 2 125 20
2 (15, 245) 62 8
2 (9,827)

V (t ) 125 2
62
93
8
20 125

62
12

V (t ) 23.232,89 97.263,59 60.621,77 181.118,25
Conocida la varianza podemos hallar el lmite de error de estimacin.

B Z (1

93 12

93


V ( est ) 1,96 181.118,25 834,136

El total poblacional oscila entre: 7.585,5 834,136 horas. Esto significa que el intervalo del
total poblacional esta dado por: (6.751,364 8.419,636)

3. Estimador de la Proporcin Poblacional:


En muchos estudios el inters es analizar la proporcin poblacional que presenta cierta
caracterstica. Ya hemos analizado que P tiene una distribucin binomial. Para el muestreo

aleatorio estratificado: l N l pl es el estimador insesgado del total poblacional para el


L

estrato l y est N L p L es el estimador del total poblacional para la caracterstica en


l 1

29


estudio. Si dividimos est en N se obtiene un estimador insesgado de la proporcin
poblacional de los elementos que tienen la caracterstica.
Entonces:
1

p est N 1 p1 N 2 p 2 ... N L p L Lo que conlleva a definir un estimador para la


N
proporcin poblacional.

p est
N

pl

L 1

Varianza del Estimador: En la estimacin de proporciones, la varianza estimada del


estimador
se
obtiene
de
la
siguiente
manera:
L






1
1
V p est 2 N 12V ( p1 ) N 22V ( p 2 ) ... N L2V ( p L ) Sintetizando: V p est 2 N l2V ( pl ) ,
N
N l 1
as podemos definir la varianza del estimador de la siguiente manera:


p q N n l
1 L

V p est 2 N l2 l l l
n

1
N
N l 1
l
l

Lmite de Error de Estimacin: Como en los casos anteriores el lmite de error de


estimacin para la proporcin en M.A.E. se calcula conociendo el nivel de significancia.

B Z(1


V ( pest)

NOTA: Como se ha estudiado cuando el nivel de significancia es del


1%, el valor de la distribucin Z es 2,575 y cuando el nivel es del 5%,
el valor de Z es 1,96

Ejemplo 1:
Siguiendo con el estudio del Distrito Especial del ejemplo de la seccin anterior, se tomaron
muestras en las tres ciudades y en cada una se identifico las personas que ven televisin.
Veamos la siguiente tabla:
ESTRATO TAMAO
ESTRATO
A
B
C

155
62
93

TAMAO
MUESTRA
20
8
12

PERSONAS
ENCUESTADAS
VEN TELEVISIN
16
2
6

QUE

Estimar la proporcin de personas que ven televisin en el distrito especial y el error de


estimacin para un nivel de significancia del 1%.
Solucin:
Primero calculemos la proporcin estimada en cada estrato:

30

16
2
6

pA
0,8
p B 0,25
pC
0,50
20
8
12
En seguida calculamos la proporcin estimada de la poblacin:

pest
155 * 0,80 62 * 0,25 93 * 0,50 0,60
310
La proporcin de personas que ven televisin en el distrito especial es del 60%.
Ahora busquemos la varianza de cada estrato para luego si hallar la varianza estimado del
estimador:


p A q A N A n A 0,8 * 0, 2 155 20


V p A

0,00733
n A 1 N A 20 1 155


p B q B N B n B 025 * 0,75 62 8


V p B

0,0233
n B 1 N B 8 1 62


p q N n C 0,8 * 0, 2 155 20

V p C C C C

0,0198
nC 1 N C 20 1 155
Varianza estimada del estimador:

1
V p est
(155) 2 (0,00733) (62) 2 (0,0233) (93) 2 (0,0198) 0,00455
2
310
Conocida la varianza del estimador, podemos hallar el error de estimacin:

B Z(1


V( pest) 2,575 0,00455 0,174

la proporcin de personas que ven televisin es de 60% con un lmite de error de estimacin
de 17,4%

Tamao de Muestra en el M.A.E.


A partir del estudio de la varianza, se sabe que sta disminuye a expensas de aumentar el
tamao de la muestra. Por lo anterior es pertinente determinar un tamao de muestra que
permita obtener la informacin adecuada para estimar algn parmetro de la poblacin.
1. Tamao de la Muestra para Estimar :
Por la teora de estimacin se sabe que la estimacin del promedio esta dentro de unidades,

con un nivel de significancia dado . Si partimos de: B Z (1 ) V ( xest ) Para despejar n que
2

es el tamao de la muestra, se debe conocer la relacin entre nl tamao de la muestra en el


estrato l y n que es el tamao de la muestra de todos los estratos, para l = 1, 2, 3,, L El
nmero de observaciones nl asignadas al l-esimo estrato es una fraccin del total n. La
fraccin se de denota como Afijacin ai con este anlisis se puede definir: nl nal para l = 1,
2, 3, ,L
2
2 s l N l nl

l
)
2
l 1
nl N l
Con un proceso matemtico de despeje se obtiene:

A partir de: B Z (1

1
N2

Sabiendo que

nl nal

31

2
l

s l2
al

l 1

n
N

al

2
(1

N ls

Afijacin definida para cada estrato.

2
l

l 1

Ejemplo 1:
Siguiendo con el ejemplo de las personas que ven televisin en el Distrito Especial, se
estimaron las varianzas,
ESTRATO
TAMAO VARIANZA ESTIMADA
A
155
25
B
62
225
C
93
100
Con un lmite de error de estimacin de 2 personas, una afijacin de 1/3 para cada estrato y un
nivel de significancia del 5%.
a-) Hallar el tamao de la muestra total
b-) Hallar el tamao en cada estrato.
Solucin:
L

Con la ecuacin
n

N 2B

N l2 sl2 / al
l 1

Calculamos cada trmino:

al

l 1

N l2 s l2
L

Z (21

N l s l2

l 1

(155) (25) (62) (225) (93) 2 (100)

6'991.275
1/ 3
1/ 3
1/ 3

N 2 B 2 (310) 2 (2) 2

100.062,474
Z2
(1.96) 2
3
2
l l

N s

155 * 25 62 * 225 93 * 100 27.125

l 1

Entonces:

6 '991 . 275
54 ,96 54
100 . 062 , 474 27125

El tamao de la muestra debe ser de 55 personas en las condiciones establecidas.


Ahora determinados el tamao de cada estrato.
n A na A 54 / 3 18
n B na B 54 / 3 18
nC naC 54 / 3 18
Como la afijacin es igual para cada estrato el tamao debe ser igual, en este caso 18 personas
por estrato.

Afijacin de la Muestra: En los diseos muestrales se busca obtener estimadores con


pequea varianza al menor costo posible, una vez definido el tamao de la muestra, el
siguiente paso es establecer el tamao en los estratos n1, n2, , nL. La afijacin pretende
conseguir la informacin adecuada pero a bajo costo. En el ejemplo anterior se defini una
32

afijacin igual para todos los estratos, pero esto no siempre es prctico. La afijacin esta
influenciada por:
1. Nmero total de elementos en cada estrato N 1 N 2 ... N L
2. Variabilidad de las observaciones en cada estrato 12 22 ... L2
3. Costos para obtener una observacin en cada estrato. C1 C 2 ... C L
Como el nmero de observaciones en cada estrato afecta la cantidad de informacin en cada
muestra, entonces la afijacin se debe hacer tal que se establezcan tamaos grandes para
estratos que tiene gran cantidad de informacin. Por otro lado, si el costo de obtener
informacin vara de un estrato a otro, se deben tomar muestras pequeas en estratos donde
tomar muestras origina altos costos, ya que el costo por muestreo debe ser mnimo.
Por consiguiente la afijacin que minimiza los costos para valores fijos de la varianza del
estimador, se obtiene de la siguiente manera:

N l l

Cl
nl n L
N
k k
Ck
k 1

El numerador nos indica el valor de cada estrato


El denominador nos indica el total para todos los estratos.
N l = Tamao del l-simo estrato

l2 = Varianza del l-simo estrato


C l = Costo de obtener una observacin en el l-simo estrato

La ecuacin deja ver que el tamao de la muestra en el estrato l (nl) es proporcional al tamao
de la poblacin en el estrato l (Nl) y a la desviacin estndar del mismo estrato, pero
inversamente proporcional a la raz cuadrada del costo en dicho estrato.
La forma de calcular el tamao de la muestra total; es decir, en todos los estratos se hace por
medio de la siguiente ecuacin:

L Nk k
L

Nl l Cl

Ck l 1
k 1

n
2

N D Nl l2

En este caso k = l.
D = B2 / 4. Para un nivel de significancia
aproximadamente 5%.

l 1

Ejemplo 1:
Siguiendo con el caso de las personas que ven televisin en las tres ciudades del Distrito
Especial, se ha establecido que el costo de obtener una observacin en cada ciudad esta
definida as: CA = 9, CB = 9 y CC = 16. Las desviaciones estndar estn definidas como: A =
5, B = 15, C = 10. Con estos datos determinar el tamao de la muestra n y el tamao de los
estratos nl que permitan estimar con un mnimo costos el promedio de las personas que ver
televisin en el distrito especial y con un lmite de error de estimacin de 2 personas.
Solucin:
Primero calculemos el tamao de la muestra.

L N k k

Ck
k 1
n
N 2D

L
N l l

l 1
L

N
l

Cl

2
l

l 1

33

N
k

Ck

k 1

155 * 5
9

62 * 15
9

93 * 10
16

800,83

2
l

l 1
L

C l 155 * 5 * 9 62 * 15 * 9 93 * 10 * 16 8.835
155 * 25 62 * 225 93 * 100 27.125

l 1

(2) 2
96.100
4
Reemplazando en la ecuacin:
N 2 D (310) 2 *

800 ,83 * 8 . 835


57 , 418 58
96 . 100 27 . 125

El tamao de la muestra para todos los estratos es de 58 observaciones.


Para hallar el tamao de la muestra en cada estrato, calculamos las afijaciones.
155 * 5

9
n A n
800 ,83

0 ,32 n

62 * 15

9
n B n
800 ,83

0 ,39 n

Finalmente el tamao en cada estrato:


n A 0,32 * 58 18,56 18
n B 0,39 * 58 22,62 23

93 * 10

16
nC n
800 ,83

0 , 29 n

nC 0,29 * 58 16,82 17

2. Tamao de la Muestra para Estimar :


Al igual que en el caso anterior para obtener el tamao de la muestra para estimar el total
poblacional se parte del lmite de error de estimacin.
sl2 N l nl

B Z (1 ) N
2
l 1
nl N l
Haciendo un trabajo matemtico de despeje, sabiendo que nl nal obtenemos:
L

l 1

2
l

N l2 s l2

al

B2

Z2

s l2

l 1

Ejemplo 1:
Con el ejemplo del Distrito Especial, determinar la muestra para estimar el Total Poblacional
, si se establece un lmite de error de estimacin de 400 personas, un nivel de significancia
del 5% y una afijacin igual para todos los estratos.
Solucin.
De los ejemplos anteriores ya tenemos algunos datos.
L
L
N l2 s l2

6
'
991
.
275
N l s l2 27 . 125

a
l 1
l 1
l

B 2 (400) 2

41.649,312
Z 2 (1,96) 2
34

Entonces:
L

l 1

N l2 s l2

al

6 '991 . 275

101 , 65 102
41 . 649 , 312 27 . 125
2
N l sl

L
B2

Z2
l 1
Como la afijacin es igual, entonces el tamao de cada estrato ser: 102/3 = 34 personas por
estrato.

3. Tamao de la Muestra para Estimar P:


Para la estimacin de la proporcin poblacional, es pertinente indicar que cantidad de
informacin se requiere y especificar el tamao del lmite de error de estimacin. As para
determinar el tamao de la muestra con el fin de de estimar la proporcin poblacional con un
lmite de error de estimacin B, es similar a que se utiliza para la estimacin del promedio

poblacional, solo que se reemplaza 2 por p * q . Entonces a partir de la siguiente ecuacin:

1 L 2 p l q l N l n l
B Z (1 )
N l n 1 N
2
N 2 l 1
l
l

Haciendo un proceso matemtico de despeje se llega a la ecuacin del tamao de la muestra


para estimar la proporcin poblacional.

N l2 p l * q l

al

l 1
2
2

N B
Z (21


Np * q

l 1

Para determinar la afijacin en los estratos que minimizan el costo para un valor fijo de la
varianza del estimador se utiliza la siguiente ecuacin:

Nl
nl n

K 1

Nl


pl ql
Cl

p*q
Cl

Ejemplo 1:
Con los datos de la tabla siguiente, calcular le tamao de la muestra para estimar P, si se sume
un lmite de error de estimacin de 0,1 y un nivel de significancia del 1% a un costo mnimo.
Tamao del Estrato Nl
155
62
93

Probabilidad pl
0,80
0,25
0,50

Costo Cl
9
9
16

Solucin:
Para comenzar calculemos la afijacin:

35


p*q

Nl

Cl

K 1

155


p Aqa

Para el estrato A: N
Para el estrato B: N

0,80 * 0, 20
0, 25 * 0,75
0,50 * 0,50
62
93
41, 245
9
9
16

CA

pBqB

CB

pC qC

Para el estrato C: N C

CC

155

0 ,80 * 0 , 20
20 , 67
9

62

0 , 25 * 0 , 75
8 , 95
9

93

0 , 50 * 0 , 50
11 , 625
16

Entonces:
20,67
8,95
11,625
n A n
0,50n --- n B n
0,22n --- n C n
0,28n
41,245
41,245
41,245
Las afijaciones son: a A 0,50 --- a B 0,22 --- a C 0,28
Conocidas las afijaciones podemos calcular el tamao de la muestra total:
L

l 1
L


N l2 p l * q l
al

N l2 p l * q l
al

l 1
L

(155 ) 2

0 ,80 * 0 , 20
0 , 25 * 0 ,75
0 ,50 * 0 ,50
( 62 ) 2
(93 ) 2
0 ,50
0 , 22
0 , 28

7 .688 3 .276 ,136 7 .722 ,32 18 .686 , 4456

N p * q 155 * 0,80 * 0,20 62 * 0,25 * 0,75 93 * 0,50 * 0,50 59 ,675


l 1

N 2B 2
( 310 ) 2 (( 0 ,1) 2
961

144 , 947
2
2
Z (1 )
( 2 , 575 )
6 , 63
2

Tamao de la muestra:
L

l 1
2

N B
Z (21

N l2 p l * q l
al
2


Np * q

18 . 686 , 456
91 , 32 92
144 , 947 59 , 675

l 1

En seguida calculamos el tamao en los estratos:


n A 0,50n 0,50 * 92 46
n B 0,22 * 92 20,24 20
nC 0,28n 0,28 * 92 25,76 26
El tamao de la muestra total debe ser de 92 personas y de los estratos ser de 46 para el A, 20
para el B y 26 para el C, as se los costos sern mnimos.

36

3. Muestreo Sistemtico
Es utilizado por algunos contadores para revisar sumas, cuentas, inventarios, etc., por ser un
mtodo directo y econmico. Consiste en seleccionar uno a uno, los elementos de la muestra
en un orden determinado, dando un inicio aleatorio. La fraccin de muestreo se establece por
medio de la siguiente relacin:
N
N Tamao de la poblacin.
f
Donde:
n
n Tamao de la muestra.
Ejemplo 1
De una poblacin de 1.000 observaciones, se desea tomar una muestra de 10, cuales seran las
observaciones que haran parte de la muestra sistemtica.
Solucin:
La fraccin de muestreo es: f

N 1.000

100
n
10

El primer elemento se selecciona aleatoriamente en el intervalo cero a cien, por ejemplo


seleccionando el nmero 25, el segundo elemento que se selecciona es 125 (25+100), luego el
225 (125+100) y as sucesivamente, hasta completar la muestra de diez.
Un problema especfico del muestreo sistemtico es la existencia de cualquier factor peridico
o cclico en la lista de la poblacin que pudiera conducir a un error sistemtico en los
resultados mustrales.
Ejemplo: Si en un hospital hay un universo de quince mil cien historias clnicas que estn
numeradas interrumpidamente y se desea tener una muestra equivalente al 10%, o sea, mil
quinientas diez historias, ello significa que ha de tomarse una de cada 10, ya que (15.100
1.510 = 10). La primera historia puede seleccionarse del primer grupo de 10. Si la primera
historia seleccionada es la nmero 8 en la poblacin, teniendo en cuenta que el ocho es un
nmero cualquiera tomado aleatoriamente; la segunda ser la 18= (8+10) la tercera ser la 28
= (18 + 10), la cuarta ser la 38 = (28 + 10), y as sucesivamente.
La estimacin y tamao de muestra tiene un anlisis similar al muestreo aleatorio simple
M.A.S.

4. Muestreo por Conglomerados


Este es un mtodo de muestreo aleatorio en el que los elementos de la poblacin se dividen en
forma natural en subgrupos, de tal forma que dentro de ellos sean lo ms heterogneo posible
y entre ellos sean homogneos, caso contrario al muestreo estratificado.
Este tipo de muestreo se usa en particular cuando no se dispone de una lista detallada y
enumerada de cada una de las unidades que conforman el universo y resulta muy complejo
elaborarla. Se le denomina as debido a que en la seleccin de la muestra en lugar de
escogerse cada unidad se procede a tomar los subgrupos o conjuntos de unidades, a los
que se llama "conglomerados". Aunque quiz por ello se tienda a creer que es lo mismo
37

que el estratificado, ambos se diferencian en que en los conglomerados los subconjuntos se


dan en la vida real o ya estn agrupados de esa manera; por ejemplo: Escuelas, tipos de
Industrias, bloques de casas y otros. En el estratificado el investigador decide las agrupaciones
que utilizar segn la posible variabilidad de los fenmenos a estudiar; otra diferencia es que
en este el investigador conoce la distribucin de la variable, todo lo contrario que en el
muestreo por conglomerado.
El proceso se indica definiendo los conglomerados, despus se seleccionan los subconjuntos a
estudiar (o sea, que se realiza un muestreo de conglomerados); de estos seleccionados se
procede a hacer el listado de las unidades que componen cada conglomerado, continuando
posteriormente con la seleccin de las unidades que integrarn la muestra, siguiendo algunos
de los mtodos aleatorios indicados.
Si se desea hacer un estudio en las escuelas de educacin primaria sobre un determinado
fenmeno, inicialmente se seleccionan las escuelas que se estudiarn, de esas escuelas
seleccionadas se determinan los grados o clases que deben incluir y posteriormente se escogen
los alumnos, que sern las unidades de observacin, utilizando uno de los mtodos aleatorios.
Se estima que las inferencias que se hacen en una muestra conglomerada no son tan confiables
como las que se obtienen de un estudio hecho por muestreo aleatorio.
Ejemplo:
Si un analista de la secretara de salud necesita hacer un estudio de los servicios mdicoasistenciales que reciben los trabajadores del rea metropolitana, sera difcil obtener una lista
de todos los trabajadores de la poblacin objetivo. Sin embargo podra obtenerse una lista de
las empresas y fbricas del rea. Con esta lista, el analista puede tomar una muestra aleatoria
de las empresas o fbricas, que representan conglomerados de trabajadores, y obtener la
informacin de los servicios mdicos que se les estn prestando.

1.3 Distribucin Muestral:


Como se ha sealado anteriormente, el propsito del muestreo es averiguar las caractersticas
de la poblacin en estudio, y cuando se disea una muestra por uno de los modelos dados. Una
distribucin muestral es una distribucin de probabilidad de un estadstico, calculado a partir
de una muestra aleatoria de tamao n, elegida de manera aleatoria de una poblacin
determinada, es decir, se est interesado en conocer una o ms de las siguientes
caractersticas:
La forma funcional.
La media
La desviacin estndar
1.3.1 Distribucin Muestral de la Media:
Los estadsticos obtenidos en una muestra son variables aleatorias, por lo cual deben tener una
distribucin de probabilidad, as que la media muestral tiene una distribucin.
Supongamos que se tiene una muestra aleatoria de tamao n observaciones, tomada de una
poblacin normal N ( , 2 ) cada observacin X1 = 1, 2, 3, , n tendr la misma
distribucin que la poblacin de donde fue tomada la muestra.
38

Teorema:
------------------------------------------------------------------------------------------------------X X 2 ... X n
Sea X 1
la media de la muestra aleatoria de tamao n, proveniente de una
n
poblacin infinita con media y varianza 2 .
Entonces:

2
n
--------------------------------------------------------------------------------------------------------E( X )

V (X )

Comentario:
E( X )
V (X )

2
n

Valor esperado de la media muestral es la media poblacional.


La varianza del estimador es igual a la varianza poblacional dividida por el
tamao de la muestra.

El caso anterior es dado para cuando la poblacin es infinita, pero se pueden presentar los
casos donde se conoce la poblacin; es decir, es finita. En estos casos se tiene el siguiente
teorema.

Teorema:
------------------------------------------------------------------------------------------------------X X 2 ... X n
Sea X 1
la media de la muestra aleatoria de tamao n, proveniente de una
n
poblacin finita de tamao N con media y varianza 2 .

2 N n
*
n
N 1
--------------------------------------------------------------------------------------------------------Entonces:

E( X )

V (X )

Comentario:
N n
Se conoce como el factor de correccin para poblaciones finitas. Cuando N es muy
N 1
grande comparado con n, la diferencia se hace despreciable lo que origina que para
poblaciones infinitas dicho factor de correccin se hace uno.
Ejemplo:
Un Colegio tiene siete profesores, la retribucin por hora ctedra es la que se muestra a
continuacin:

39

Salario profesores
Profesor
Salario $
1
7.000
2
7.000
3
8.000
4
8.000
5
7.000
6
8.000
7
9.000
Cuadro 2.3
a). Cul es la media de la poblacin?
Solucin:
Se sabe por los conocimientos de estadstica descriptiva que:
1 N
Para i = 1, 2, , 7
xi
N i 1
Entonces:

7000 7000 8000 8000 7000 8000 9000 54000

$7.714.3
7
7

b). Cual ser la varianza de dicha poblacin.


Solucin:
Al igual que el caso anterior, la varianza poblacional esta dada por:
1 N
2 ( xi ) 2
N i 1
Entonces:
1 N
2 (7000 7714.3) 2 ... (9000 7714.3) 2 699,85
7 i 1
c). Cul es la distribucin muestral de las medias para muestras de tamao dos?
Solucin:
Para determinar la distribucin muestral de las medias, se seleccionaron todas las muestras
posibles de tamao 2, sabiendo que son sin reemplazamiento y que no interesa el orden de
seleccin en la poblacin. Se calculan las medias de cada muestra y se calcula la media de las
medias maestrales.
Para saber cuantas muestras posibles se pueden tomar, se utiliza la combinatoria, por los
preceptos tomados: Sin repeticin y no importa el orden.

40

C 27

7!
7! 7 x6 x5! 42

21
7 2!2! 5! x2! 5! x 2 2

El valor de 21, es el nmero de muestras tamao 2 que se pueden formar de una poblacin de
7 elementos. A continuacin se indican las 21 muestras posibles y el valor de la media para
cada una de las muestras:
Muestreo sin reemplazamiento y las medias
Muestra Prof.
Salario
1
1 y 2 7000-7000
2

1y3

7000-8000

1y4

7000-8000

1y5

7000-7000

1y6

7000-8000

1y7

7000-9000

2y3

7000-8000

2y4

7000-8000

2y5

7000-7000

10

2y6

7000-8000

11

2y7

7000-9000

Media Muestra Prof. Salario


7000
12
3 y 4 80008000
7500
13
3 y 5 80007000
7500
14
3 y 6 80008000
7000
15
3 y 7 80009000
7500
16
4 y 5 80007000
8000
17
4 y 6 80008000
7500
18
4 y 7 80009000
7500
19
5 y 6 70008000
7000
20
5 y 7 70009000
7500
21
6 y 7 80009000
8000
Suma
Total
Cuadro 2.4

Media
8000
7500
8000
8500
7500
8000
8500
7500
8000
8500

162.000

En el cuadro siguiente se indica la distribucin de probabilidad para el muestreo de medias,


donde la sumatoria de todas las probabilidades es igual a uno:
Distribucin de probabilidad
Media muestral
7000
7500
8000
8500
Suma

Nmero de medias
3
9
6
3
21
Cuadro 2.5

Probabilidad
0.1429
0.4285
0.2857
0.1429
1.0000

d). Cul es la media de la distribucin Muestral?


41

Solucin:
La media de la distribucin muestral de medias, se determina sumando las diferentes medias
muestrales y dividiendo la suma entre el nmero de muestras. La media de todas las medias
muestrales en general se expresa:

1
N

x
i 1

Suma de medias muestrales


Nmero total de muestras

A partir de los datos:


162.000
XX 162.000 $$77..714
714..30
30
21
21

Segn lo obtenido podemos concluir: La media de la poblacin es igual a la media de las


medias muestrales. X
Estas caractersticas se analizan en el siguiente apartado.

Distribucin Muestral de Medias: Poblaciones Finitas:


Las poblaciones finitas, tiene la caracterstica de que N es conocido, al hacer la distribucin
muestral de las medias y muestreo sin reemplazamiento, se obtiene una grfica de la
distribucin que presenta forma aproximadamente acampanada, lo cual se puede observar en
la siguiente grfica.
Distribucin muestral

Distribucin Muestral de Medias: Poblaciones No Finitas:


La grfica de la distribucin muestras de medias para poblaciones no finitas y muestreo con
reemplazamiento tiene una distribucin normal, tal como se puede observar a continuacin:
Distribucin muestral de medias

42

La tercera propiedad del teorema central del lmite se expresa: No importa que distribucin
tenga la poblacin, pero la distribucin muestral de medias a partir de esa poblacin, tiene una
distribucin normal.
Ejemplo:
La altura media de 400 alumnos de un plantel de secundaria es de 1,50 mts. Y su desviacin
tpica es de 0,25 mts. Determinar la probabilidad de que en una muestra de 36 alumnos, la
media sea superior a 1,60 mts.
Solucin:
Z

P( X > 1,60) = ?

1,60 1,50 0,10 0,60

2,40
0,25
0,25 0,25
6
36

Z 2,40 A0,4918

P = 0,5000 0,4918 = 0,0082 = 82%


1.3.2 Distribucin muestral de proporciones
En el anlisis de una caracterstica cualitativa o atributo, se emplea la proporcin de xitos y
no el nmero de xitos como en la distribucin binomial.
Ahora, en vez de expresar la variable en trminos de xitos (X) nos referiremos, al nmero de
atributos en la muestra (a) y lo dividimos por el tamao de la muestra n:
p

ai
n

43

Total

A Ai NP
poblacin

p P P

A Ai

N
N

de

elementos

que

presentan

la

caracterstica

en

la

Proporcin de elementos que presenta la caracterstica en la

poblacin
Q

NA
1 P
N

Proporcin de elementos que no presenta la caracterstica

P Q 1
2

Varianza de la proporcin en la poblacin

P PQ

Desviacin estndar

p PQ

PQ
n

Error estndar de la proporcin

En muchos casos podemos utilizar la distribucin normal para evaluar la distribucin muestral
de proporciones, siendo:

pP

p p

PQ
n

Ejemplo:
Cuarenta y seis por ciento de los sindicatos del pas estn en contra de comerciar con la China
Continental;Cul es la probabilidad de que en una encuesta a 100 sindicatos muestre que ms
del 52% tengan la misma posicin?
Solucin:
P = 0,46
Z

pP
PQ
n

p = 0,52

n = 100

0,52 0,46

0,460,54

100

P(p>0,52) = ?
0,06
0,2484
100

1,21

Z 1,21 A0,3869 0,1131


P( p > 0,52) 11,31%

44

1.3.3 Distribucin muestral de diferencias de dos medias


Se tienen dos poblaciones independientes identificadas la primera por X y la segunda por Y,
de tamao
y , cuyas medias se simbolizan por
y , y sus desviaciones tpicas son
y

. Se obtiene un nmero (M) de pares de muestras. Las medias mustrales de la primera

poblacin se identifican por

. Y las muestras de la segunda variable por

Ahora, si consideramos las diferencias para cada par, la media aritmtica de dichas diferencias
se simbolizar por
, donde:

Se puede demostrar que la media de la diferencia de todos los pares de medias mustrales
posibles, es igual a la diferencia entre las medias poblacionales

La desviacin tpica de las diferencias entre los pares de medias mustrales se simboliza por:

Se puede considerar que la desviacin tpica de las diferencias entre los pares de medias
mustrales, denominado como error estndar de las diferencias entre las medias mustrales, es
igual a:

Siendo:

Suponiendo que la distribucin de diferencias entre las medias mustrales tenga un


comportamiento similar a la distribucin normal, la variante estadstica estar dada por la
frmula:

45

x y x y

x y x y
2
x2 y

n1
n2

x y

Se puede aplicar esta distribucin cuando no se conocen las varianzas poblacionales x y

y 2 , las cuales pueden ser sustituidas por varianzas mustrales s x 2 y s y 2 siempre y cuando
que n1 y n 2 sean mayores que 30.
Ejemplo:
El rendimiento de los autos de la marca A es de 20 kilmetros por galn de gasolina, con una
desviacin estndar de 6 k.p.g. las cifras comparables para los autos B son de 25 y 5,5 k.p.g.
se supone que el rendimiento de cada una de ambas marcas est normalmente distribuido.
cul es la probabilidad de que en un concurso, el rendimiento medio para 10 autos de la
marca A sea mayor que el de 9 autos de la marca B?
Solucin:

x = 20

y = 25

x= 6

y = 5,5

n1 = 10

n2 = 9

P( x y > 0) = ?
Z

0 20 25
36 30,25

10
9

0 5
3,6 3,36

5
6,96

1,90

Z 1,90 A0,4713

P( x y > 0) = 0,5000 - 0,4713 = 0,0287 = 2,87%

1.3.4 Distribucin muestral de diferencias de dos proporciones


En el caso de dos poblaciones independientes de tamao N 1 y N 2 , distribuidas
binomialmente, con parmetros, medias poblacionales P1 y P2 (tambin se pueden
representar las medias por P1 y P2 ) y desviaciones proporcionales P1 y P2 , siendo:

P P1Q1 y P P2 Q2 .
1

El error estndar de las diferencias entre las dos medias proporcionales estar dada por:

P P
1

P1Q1 P2 Q2

n1
n2

Cuando son valores poblacionales

46

Cuando n1 y n 2 corresponden a muestras grandes, es decir, ambas superiores a 30:


p1 q1 p 2 q 2

n1
n2

s P1 P2

La media de las diferencias entre dos medias proporcionales, se simboliza por:

P P P P P1 P2
1

La variante estadstica Z, estar dada en la misma forma en que fue presentada para
diferencias entre dos medias mustrales:

p1 p 2 P

P2

P1Q1 P2 Q2

n1
n2

p 2 P1 P2

cuando n1 y n 2 > 30

p1 q1 p 2 q 2

n1
n2

Ejemplo:
Consideremos dos mquinas que producen un determinado artculo, la primera produce por
trmino medio un 14% de artculos defectuosos, en tanto que otra, produce el 20% de artculos
defectuosos; si se obtienen muestras de 200 unidades en la primera y 100 unidades en la
segunda, Cul es la probabilidad que difiera A de B en 8% o ms?
Solucin:
P( P1 P2 0,08 ) = ?

n1 = 200

n 2 = 100

P1 = 0,14

P2 = 0,20

P P = 0,14 0,20 = -0.06


1

p1 p 2 = 8% = 0,08
Z

0,08 0,06
0140,86 0,20,8

200
100

0,14
2,98
0,047

Z 2,98 A0,4986

P( P1 P2 0,08 ) = 0,5000 0,4986 = 0,0014 = 0,14%

1.4 Teorema Central del Lmite.


En el caso de una poblacin con media y varianza 2 , la distribucin muestral de medias de
todas las muestras posibles de tamao n a partir de la poblacin, tendr una distribucin

47

aproximadamente normal (siendo la media de la distribucin muestral igual a y la varianza


igual a ( 2 / n ) considerando que el tamao de la muestra es bastante grande.
El teorema central del lmite es uno de los teoremas ms importantes dentro de las ciencias
estadsticas, ya que su funcionalidad es muy grande.
TEOREMA CENTRAL DEL LMITE:
Sea X1, X2,, Xn una variable aleatoria independiente e idnticamente
distribuida de una poblacin infinita con media y varianza 2. Para 2< ,
X
Entonces: Z
Presenta una distribucin Normal estndar.

n
O sea:

Z n(0,1)

Hay que destacar aspectos importantes del teorema central de lmite.

Si el tamao de la muestra n es suficientemente grande, la distribucin muestral


de las medias ser ms o menos normal. Esto se cumple ya sea que la poblacin
est o no distribuida normalmente. Esto es, el teorema se verifica, ya sea que la
poblacin est distribuida en forma normal, o bien sea sesgada o uniforme.
Como se mostr con anterioridad, la media de la poblacin, , y la media de todas

las medias muestrales posibles, x , son iguales. Si la poblacin es grande y se


selecciona un nmero grande de muestras de la poblacin, la media de las medias
muestrales se aproximar a la media poblacional.
2
La varianza de la distribucin de medias muestrales se determina de / n .

No existe acuerdo general sobre lo que constituye un tamao de muestra suficientemente


grande. Algunos estadsticos consideran que es 30; otros piensan que un nmero pequeo
como 12 es adecuado. El ejemplo sobre los salarios por hora de todos los profesores del
colegio funcion bastante bien con una muestra de 2. Sin embargo, a menos que la poblacin
sea aproximadamente normal, los tamaos de muestra as de pequeos, por lo general no dan
como resultado una distribucin muestral que se distribuya normalmente. A medida que el
tamao de la muestra se vuelve cada vez ms grande, la distribucin de la media muestral se
aproxima ms a la distribucin normal con forma de campana.
Ejemplo.
Suponga que se tiene una poblacin conformada por 5 empleados de una empresa (N = 5), y la
variable de inters es el nmero de aos de experiencia laboral de cada empleado. Los datos
de la poblacin son: X i 1,2,3,4,5 (Muestreo sin Reemplazamiento):
1. Determine la media y la desviacin estndar para la poblacin.

48

Solucin:
a-) Para este caso la media poblacional se obtiene as:

1 N
1 2 3 4 5
xi
3

5
N i1

Promedio de aos de experiencia por empleado.


b-) La desviacin estndar de la poblacin: Primero calculamos la varianza y luego la
desviacin:

1
N

(x

)2

i 1

1
(1 3) 2 ( 2 3) 2 ... (5 3) 2 1.999
5

Ahora extraemos la raz cuadrado a la varianza y obtenemos la desviacin estndar.


1.414

2. Seleccione ahora todas las muestras posibles de tamao dos, sin


(poblaciones finitas):

reemplazamiento

Solucin:
Recordemos que cuando el muestreo es sin reemplazamiento y no interesa el orden, entonces
tenemos una combinatoria.
C NN

N!
N n ! xn !

Reemplazando:

C25

5!
5!
5 x 4 x3!

10
5 2! x 2! 3!2! 3! x2

Se tiene 10 muestras posibles de tamao dos. Las posibles muestras se indican a continuacin:
Posibles muestras y su media
Muestra
1-2
13
14
15
23

Muestra
Media Muestral X
1.5
24
2.0
25
2.5
3 4
3.0
3 5
2.5
4-5
Cuadro 2.6

Media Muestral X
3.0
3.5
3.5
4.0
4.5

3. Determine el promedio de la distribucin muestral de medias.

49

Solucin:
En la segunda y cuarta columna del cuadro 2.6 estn las medias de todas las muestras
posibles, lo que se debe hacer es sumarlas y dividirlas por en nmero de medias.
1 .5 2 .0 2 .5 3 .0 2 .5 3 .0 3 .5 3 .5 4 .0 4 .5
X
3
10
Con la informacin anterior se logra demostrar el primer principio del teorema central del
lmite, que consiste en que el promedio de la poblacin es igual al promedio de la distribucin
muestral de medias: X 3
Observe que dicho principio se ha cumplido, en consideracin a que el promedio de aos de
experiencia para la poblacin es de tres y el promedio de la distribucin muestral de medias es
igual tambin a tres.
4. Determine la desviacin estndar de la distribucin muestral de medias.
Solucin:
Como siempre primero calculamos la varianza y luego la desviacin estndar.
2

2
2
2

1.5 3 2.0 3 4.5 3.0

10

0.7499

Ahora extrayendo raz cuadrado a la varianza, obtenemos la desviacin estndar.


X 0.7499 0.8660
Observemos que la desviacin estndar de la poblacin (1.4142) es diferente a la desviacin
estndar de la distribucin muestral de medias (0.8660), y una forma de corregir esta
diferencia es mediante la siguiente igualdad:

N n
N 1

Donde:

X
Desviacin estndar de la distribucin muestral de medias.

Desviacin estndar de la poblacin.


n
Tamao de la muestra.
N
Tamao de la poblacin.
N n
Factor de correccin para poblaciones finitas.
N 1
Reemplazando los valores correspondientes se tiene:

50

1,4142 5 2
0,8660
5 1
2

El segundo principio del teorema central del lmite para poblaciones finitas se expresa: La
desviacin estndar de la distribucin muestral de medias es igual al factor de correccin
poblacional multiplicada por la relacin entre la desviacin estndar poblacional y la raz
cuadrada del tamao de la muestra. Dicho principio queda demostrado con la relacin
anterior.
Muestreo con Reemplazamiento:
Ahora, cuando el muestreo se realiza para poblaciones finitas, y con reemplazamiento, el
nmero de muestras posibles esta dada por:

Para N = Tamao de la poblacin y n = Tamao de la muestra

Ejemplo:
1. Hallar el nmero de muestras posibles con reemplazamiento de tamao dos, para el
problema anterior.
Solucin:
El nmero de muestras de tamao dos es: N n 5 2 25
Nmero de muestras con Reemplazamiento
muestra
1
2
3
4
5
6
7
8
9
10
11
12
13

Muestra Media muestral


muestra
1-1
1.0
14
1-2
1.5
15
1-3
2.0
16
1-4
2.5
17
1-5
3.0
18
2-1
1.5
19
2-2
2.0
20
2-3
2.5
21
2-4
3.0
22
2-5
3.5
23
3-1
2.0
24
3-2
2.5
25
3-3
3.0
Cuadro 2.7

Muestra
3-4
3-5
4-1
4-2
4-3
4-4
4-5
5-1
5-2
5-3
5-4
5-5

Media muestral
3.5
4.0
2.5
3.0
3.5
4.0
4.5
3.0
3.5
4.0
4.5
5.0

2. Determine la media de la distribucin muestral de medias.

51

Solucin:
Con lo estudiado:

1 .0 1 .5 2 .0 2 .5 4 .0 4 .5 5 .0
3
25

El primer principio se mantiene, en el sentido, que la media poblacional es igual a la media de


la distribucin muestral de medias.
3. Determine la desviacin estndar de la distribucin muestral de medias.
Solucin:
Como ya conocemos la forma de calcular dicha desviacin, procedemos:
2

X
X

1 32 1.5 32 4.5 3.02 5.0 3.02

25

1.0

Observe que la desviacin estndar de la poblacin (1.4142) sigue siendo diferente a la


desviacin estndar de la distribucin muestral de medias (1.0)
La forma de corregir esta diferencia para poblaciones no finitas es mediante la siguiente
igualdad:

X
Correccin para poblaciones no finitas
n
1 . 41421356
1
Reemplazando en el caso que nos ocupa: x
2
Para poblaciones no finitas, el segundo principio de teorema del lmite central se expresa: La
desviacin estndar de la distribucin muestral de medias es igual a la desviacin estndar
poblacional dividida entre la raz cuadrada del tamao de la muestra.
Ejemplo para proporciones
Sobre distribucin muestral por proporcin. Si tenemos una poblacin conformada por 6
personas, de las cuales 3 son fumadores y 3 no fumadoras, designando a fumadores con la
letra F y a los no fumadores con F , determine:
a) La proporcin poblacional del nmero de fumadores P.
b) La desviacin estndar de la proporcin de fumadores en la poblacin p
c) Tomamos muestras de tamao dos n = 2, con reemplazamiento.
d) Promedio de las proporciones muestrales E (p) = p

52

e) Desviacin estndar de todas las proporciones muestrales posibles (error estndar de la


proporcin) p .
Le daremos la siguiente nominacin, dndole el valor de uno, a la caracterstica de ser
Fumador, y de cero al No fumador.
Fumador
No fumador

=
=

F=1
F= 0

Poblacin

xi

(xi -

F1
F2
F3
N1
N2
N3

1
1
1
0
0
0

(1
(1
(1
(0
(0
(0

Total

a) P =

b)

(xi - P)2

- 0,5)
- 0,5)
- 0,5)
- 0,5)
- 0,5)
- 0,5)

=
=
=
=
=
=

0,5
0,5
0,5
-0,5
-0,5
-0,5

0,25
0,25
0,25
0,25
0,25
0,25

P)

1,5

Proporcin de fumadores = 3/6 = 0,5 = 50%


i. (3 de 6 son fumadores).
1,5
= 0,25 = 0,5
6

Proporcin poblacional.

Desviacin poblacional

Adems podemos usar la frmula:


p

P Q = P(1 - P) = 0,5(1 - 0,5) = 0,25 = 0,5

c) Tomemos todas las muestras de tamao dos n = 2 con reemplazamiento de una


poblacin de 6:
F1

F2

F3

N1

N2

N3

F1

F1F1

F1F2

F1F3

F1N1

F1N2

F1N3

F2

F2F1

F2F2

F2F3

F2N1

F2N2

F2N3

F3

F3F1

F3F2

F3F3

F3N1

F3N2

F3N3

N1

N1F1

N1F2

N1F3

N1N1 N1N2 N1N3

N2

N2F1

N2F2

N2F3

N2N1 N2N2 N2N3

N3

N3F1

N3F2

N3F3

N3N1 N3N2 N3N3

Nn = 62 = 36

53

1
1
= 0,5 y P (N) = = 0,5
2
2

P (F) =

P (F o N) = 0,5 + 0,5 = 1
d) Proporcin de fumadores en cada una de las muestras p.
F1

F2

F3

N1

N2

N3

F1

0,5

0,5

0,5

F2

0,5

0,5

0,5

F3

0,5

0,5

0,5

N1

0,5

0,5

0,5

0,0

0,0

0,0

N2

0,5

0,5

0,5

0,0

0,0

0,0

N3

0,5

0,5

0,5

0,0

0,0

0,0

e) Promedio de todas las proporciones muestrales E (p) valor esperado de p .

Distribucin de proporciones de muestra.


Proporcin
N. de
Muestral p Muestras fi

p fi

p- p =d

(p - p )2

fi (p - p )2

0,0 - 0,5 = 0,5


0,5 - 0,5 = 0,0
1,0 - 0,5 = 0,5

0,25
0,00
0,25

2,25
0,00
2,25

0,0
0,5
1,0

9
18
9

0
9
9

Total

36

18

4,5

Reemplazando en la frmula tenemos que:


f i p
18
p =
(4.5)
E (p) = p =
= 0,5
f i
36
Error estndar de la proporcin de las muestras ( p )
2

fi(p p)
f i

4 .5
0.3536
36

54

p = Sp
El mismo resultado puede ser obtenido mediante la frmula simplificada siguiente:
P (1 P )

p = 0,3536

P Q
n

0 , 5 0 , 5
2

0 ,125 0 . 3536

Tambin se puede calcular S p de la siguiente manera:


p 0,5

Sp

p
n

0,5
2

0,5
S p 0,3536
1,4142

Observacin:
De los resultados anteriores puede concluirse lo siguiente:

El promedio de todas las proporciones muestrales E(p) es igual a la proporcin


poblacional P.

Si bien el error estndar de la proporcin mide la diferencia entre todas las


proporciones posibles de las muestras y la proporcin poblacional, no es necesario en
la prctica seleccionar todas las posibles muestras para determinar su valor. Existe un
mtodo alternativo para calcular el error estndar de la proporcin muestral.
p =

p
n

P.Q
n

p = Error estndar de las proporciones mustrales

P = Proporcin poblacional
Q = (1 - P)
n = Tamao de las muestras

La frmula anterior se utiliza para calcular el error estndar de la proporcin en los


siguientes casos:
Cuando la poblacin es infinita o indeterminada, adems cuando el tamao de la
muestra sea Inferior al 10% de la poblacin y el muestreo sea con reemplazo, es decir:
n
10%
N

Con el ejemplo anterior, pero considerando las muestras extradas sin reemplazo, se obtienen
las siguientes conclusiones:

55

1. El promedio de todas las proporciones mustrales E(p) es igual a la proporcin


poblacional P.
2. El nmero total de muestras de tamao dos se obtienen mediante la frmula de
combinaciones NCn, teniendo en cuenta que N representa la poblacin y n al tamao
de la muestra.
El error estndar de la proporcin puede obtenerse directamente empleando la frmula
siguiente:
p =

P (1 - P )
n

N -n
N -1

p = Error estndar de la proporcin

N = Tamao de la poblacin
n = Tamao de la muestra
P = Proporcin poblacional

EJERCICIOS COMPLEMENTARIOS
1. Una poblacin consiste en grupo edades de jvenes con los valores siguientes:
X1
X2
X3
X4

=
=
=
=

12 aos
12 aos
14 aos
16 aos

a) Enumere todas las muestras posibles de tamao 2 y calcule la media de cada muestra.
b) Determine el valor medio de la distribucin en medias mustrales, y la media de la
poblacin. Compare los dos valores.

N -n
c) Mustrese que x =
N -1
n
2. Hay una poblacin que consiste de los cinco pacientes hospitalizados en el Hospital
Rosario Pumarejo de Lpez. El estado civil de cada uno de ellos se da a continuacin.
.
Pacientes
Estado Civil
Ana Rosa

Casado

lvaro

Soltero

Clara

Casado

David

Soltero

Elkin

Soltero
56

a) Determine la proporcin de miembros casados de esta poblacin


b) Seleccinese todas las muestras posibles de 2 elementos de esta
calclese la proporcin de miembros casados en cada muestra.
c) Calclese la media E(p) y la desviacin
mustrales calcularlas en (b).

poblacin

estndar x de las 10 proporciones

Mustrese que
p =

( P Q)
n

( N - n)
N -1

57

CAPITULO DOS
2. INTERVALOS DE CONFIANZA

Introduccin.
El problema que presenta la estimacin puntual de un parmetro reside en que no garantiza ni
mide la precisin de la estimacin. Slo la bondad de ajuste y el tamao de la muestra pueden
proporcionar una mayor o menor confianza en la estimacin obtenida. Por esta razn es
necesario dar, junto a la estimacin, una medida del grado de confianza que se merece, la cual
se consigue mediante un intervalo de confianza que proporcione unos lmites dentro de los
cuales se confa est el valor desconocido del parmetro. Esta confianza de inclusin se mide
mediante un porcentaje.
Con frecuencia se encuentra informacin como la siguiente:
El peso de un objeto es 104 mas o menos 2 gramos.
El dimetro de un tornillo es de 8 mas o menos 0.05 milmetros.
El contenido de protenas de la carne de pollo es de 20.2 mas o menos 1%.
En estos casos y otros similares se quiere indicar que la media verdadera se encuentra en
algn lugar entre el intervalo.
Lo anterior indica que existe la probabilidad de error en la medicin y adems no se puede
estar absolutamente seguro que el verdadero valor se encuentre dentro del intervalo obtenido.
Ntese que si el intervalo se hace ms amplio aumenta la posibilidad que se incluya el
verdadero valor de la media.
Objetivo general.
Mostrar los diferentes mtodos para calcular los intervalos de confianza, a partir de muestras
grandes y pequeas, para estimar los parmetros poblacionales de una media y proporcin, as
como para la diferencia de medias y proporciones.
Objetivos especficos.
Calcular el intervalo de confianza para estimar el parmetro poblacional a partir de
muestras pequeas, para una media y una proporcin.
Calcular el intervalo de confianza para estimar el parmetro poblacional a partir de
muestras grandes, para una media y una proporcin.
Calcular el intervalo de confianza para la diferencia de dos medias y dos proporciones.
Exponer el uso de clculo de intervalos de confianza utilizando paquetes de Excel y
SSPS.

2.1. Nociones Fundamentales.


En estadstica muchos problemas exigen construir conjuntos (intervalos) que contengan el
verdadero valor del parmetro en estudio con una probabilidad dada generalmente alta. Si por
ejemplo X representa los grados de grasa de una margarina se puede estar interesado en
encontrar los lmites bajos y altos aceptables para este tipo de producto; pero no se puede

58

asegurar con probabilidad de uno que el verdadero valor se encuentre entre estos dos lmites,
lo mximo que se puede lograr es elegir un nmero uno menos alfa ( 1 ) que est muy
prximo a uno (recuerde que alfa es el nivel de significacin o error tipo uno) tal que la
probabilidad que el verdadero valor se encuentre entre estos dos lmites inferior y superior sea
mayor o igual a uno menos alfa.
En la prctica se elige un alfa fijo () generalmente pequeo 0.01 o 0.05. La probabilidad que
la afirmacin del intervalo incluya al parmetro sea cierta es por lo menos (1 ) ; por lo
tanto la probabilidad que la afirmacin sea falsa es por lo ms un alfa. Un intervalo de
confianza dado que incluya o no el verdadero valor del parmetro, esto nunca se conoce con
exactitud al menos que se conozca el parmetro, pero se sabe que se tendr xito en encontrar
el valor verdadero del parmetro dentro de este tipo de intervalos por lo menos en el (1 )
100% de las veces.
Los dos tipos de problemas que resuelven las tcnicas estadsticas son: estimacin y contraste
de hiptesis. En ambos casos se trata de generalizar la informacin obtenida en una muestra a
una poblacin. Estas tcnicas exigen que la muestra sea aleatoria. En la prctica rara vez se
dispone de muestras aleatorias, por la tanto la situacin habitual es la que se esquematiza en la
figura.

Entre la muestra con la que se trabaja y la poblacin de inters, o poblacin diana, aparece la
denominada poblacin de muestreo: poblacin (la mayor parte de las veces no definida con
precisin) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la
generalizacin est amenazada por dos posibles tipos de errores: error aleatorio que es el que
las tcnicas estadsticas permiten cuantificar y crticamente dependiente del tamao muestral,
pero tambin de la variabilidad de la variable a estudiar y el error sistemtico que tiene que
ver con la diferencia entre la poblacin de muestreo y la poblacin diana y que slo puede ser
controlado por el diseo del estudio.

2.1.1 Teora de Estimacin


El proceso de estimacin conlleva a obtener un estimador que tenga ciertas condiciones
deseables para hacer inferencia sobre el modelo de probabilidad que ha generado los datos.
Entre los mtodos de estimacin de la estadstica parametrica, se tiene: Momentos, mnimos

59

cuadrados y mxima verosimilitud. En temticas posteriores se analizar lo referente a la


estimacin
Propiedades de un estimador:
El concepto de estimacin de parmetros mediante la especificacin de las propiedades que
deben cumplir los estimadores y el desarrollo de tcnicas apropiadas para implementar el
proceso de estimacin. Se utilizar el punto de vista prctico de la teora del muestreo, que
considera un parmetro como una cantidad fija pero desconocida.
Para evaluar la calidad de un estadgrafo como un estimador este debe cumplir las siguientes
propiedades:
1. Insesgado:
El trmino in sesgado se refiere al hecho de que una media muestral es igual a un
estimador no sesgado de la media de una poblacin, porque la media de la distribucin
muestral de las medas muestrales tomada de esa misma poblacin es igual a la media
de la poblacin. Se puede decir que un estadgrafo es un estimador no sesgado, si en
promedio tiende a asumir valores por encima de los valores que se estn estimando, tan
frecuentes como tienda a asumir valores que estn por debajo del parmetro de la
poblacin que se estima.
2. Eficiencia:
La eficiencia se refiere al tamao del error estndar del estadgrafo de la muestra. Si se
comparan dos estadgrafos de una muestra del mismo tamao y se desea decidir cul
de los dos es el estimador ms eficiente, se escoger el estadgrafo que tenga el menor
error estndar o desviacin de la distribucin muestral. Supngase que se escoge una
muestra de un tamao dado y se decide cuando usar la media muestral o la mediana
muestral para estimar la media de la poblacin. Si se calcula el error estndar de la
media muestral y se encuentra que es igual a 2.15 y luego se calcula el error estndar
de la mediana muestral y se encuentra que es de 2.6, se podr decir que la media
muestral es un estimador ms eficiente de la media de la poblacin porque su error
estndar es menor o con menos variacin, tendr una mayor oportunidad de producir
un estimador ms cercano al parmetro de la poblacin bajo estudio.
3. Consistencia:
Un estadgrafo es un estimador consistente de un parmetro de la poblacin si en la
medida en que el tamao de la muestra aumenta se est seguro de que el valor del
estadgrafo se acerca al valor del parmetro de la poblacin. Cuando un estimador es
consistente, se vuelve ms confiable tomando muestras grandes. De esta manera,
cuando usted se preocupa por aumentar el tamao de la muestra para obtener ms
informacin acerca de un parmetro de la poblacin, debe primero encontrar si su
estadgrafo es un estimador consistente, si no es as, usted desperdiciar dinero y
tiempo al tomar muestras grandes.

60

Estimacin de la Media Poblacional:


Al seleccionar una muestra aleatoria por M. A. S. sin reemplazamiento y pesos iguales, se
tiene:
1 n
X xi
n i 1
A partir de este planteamiento se tiene que la media muestral es un estimador insesgado de
mnima varianza de la media poblacional.
Entonces:

E( X )
Demostracin:
A partir de las propiedades del valor esperado:
1 n
1 n
1 n

E ( X ) E xi E xi E ( xi )
n i 1 n i 1 n i 1

1 n
1 n
1
E ( xi ) i ( n )
n i 1
n
n i 1
Varianza del Estimador:
El valor de X indicara muy poco sobre al menos que se evale la bondad del estimador, lo
que se hace por medio de la varianza del estimador, la cual nos indica el grado de variabilidad
que tiene dicho estimador, as un estimador con varianza pequea tiene ms valor que un
estimador con varianza grande.
Cuando se desea hallar la varianza del estimador y se conoce la varianza poblacional, la
ecuacin que nos permite hacer dicho clculo es:
V (X )

2 N n

n N 1

N es el tamao de la poblacin, n es el tamao de la muestra, 2 es la varianza poblacional.


Cuando no se conoce la varianza poblacional, sta se estima por medio de la varianza muestral
S2.
S2

1 n
( xi x ) 2

n 1 i 1

Por definicin: E ( S 2 )

N
2
N 1

Con estos argumentos, se puede determinar la varianza estimada del estimador:

S2 N n
V (X )

n N

En la ecuacin:
N n
Es el factor de correccin para poblaciones finitas, se puede
N

61

despreciar si

N n
N
0,95 o cuando
n
N
20

Para poblaciones infinitas:

S2
V (X )
n

Ejemplo 1:
Sea la poblacin compuesta por los elementos U = (2, 4, 6, 8) Hallar los parmetros y 2.
Solucin:
Solucionmoslo por el principio del valor esperado. E ( x) xp( x)
Como x = 2, 4, 6, 8 entonces: p(x) = as:
4

xi p ( xi ) 2(1 / 4) 4(1 / 4) 6(1 / 4) 8(1 / 4) 1 / 2 1 3 / 2 2 5


i 1

Ahora la varianza:
2

V ( x ) E ( x ) ( xi ) 2 p ( x i )
i 1

Reemplazando:
n

2 V ( x) ( xi ) 2 p( xi ) (2 5) 2 (1 / 4) (4 5) 2 (1 / 4) (6 5) 2 (1 / 4) (8 5) 2 (1 / 4)
i 1

V ( x) 9 / 4 1 / 4 1 / 4 9 / 4 5
Ejemplo 2:
Utilizando muestras de tamao 2 sin reemplazamiento hallar E ( x )

y V (x)

Solucin:
Como la poblacin tiene 4 elementos y se requieren muestras de dos si reemplazamiento,
entonces:
4!
6 Muestras posibles, cada una tendr como probabilidad 1/6
4 C2
2!(4 2)!

x
MUESTRA
P(xi)
S2
V (x )
n1 = 2, 4
1/6
3
n2 = 2, 6
1/6
4
n3 = 2, 8
1/6
5
n4 = 4, 6
1/6
5
n5 = 4, 8
1/6
6
n6 = 6, 8
1/6
7
Veamos cmo fueron los clculos:

2
8
18
2
8
2

1/2
2
9/2

2
1/2

62


24
1
242 1
3 ----- s 2
( 2 3) 2 ( 4 3) 2 2 ----- V ( x )

2
2 1
2 4 2
Ahora si podemos calcular la media y la varianza.

x1

E ( x ) xi p ( xi ) 3(1 / 6) 4(1 / 6) 5(1 / 6) 5(1 / 6) 6(1 / 6) 7(1 / 6) 5


i 1

V ( x ) E ( x ) 2 ( xi ) 2 p ( x i )
i 1

Reemplazando:
V ( x ) E ( x ) 2 (3 5) 2 ( 4 5) 2 (5 5) 2 (5 5) 2 (6 5) 2 (7 5) 2 (1 / 6)

5
Si
3

utilizamos la ecuacin de varianza del estimador tenemos:


2 N n 542 5
V (x)

n N 1 2 3 3
Vemos que la varianza calculada por el principio de valor esperado es igual a la obtenida por
la ecuacin de varianza del estimador.
Con lo anterior lo que se esta mostrando es que:
2 N n
E (x ) y V ( x )

n N 1
2.3. Estimacin por Intervalos.
En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango de
valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parmetro,
con una probabilidad determinada.
La probabilidad de que el verdadero valor del parmetro se encuentre en el intervalo
construido se denomina nivel de confianza, y se denota 1- . La probabilidad de
equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen
intervalos con confianza 1- = 95% (o significancia =5%). Menos frecuentes son los
intervalos con = 10% o = 1%.
2.3.1. Intervalos de confianza para medias con muestras pequeas ( n 30 )
La inferencia de la distribucin muestral de la media en muestras grandes es una curva
normal. Con mucha frecuencia la varianza se desconoce 2 en los problemas de la vida real.
Cuando se desconoce la varianza el estadgrafo z ya no puede utilizarse para obtener intervalo
de confianza. Parece lgico desarrollar procedimientos en los cuales se utilice S 2 en lugar de
2 , de esta manera en lugar del estadgrafo z utilizaremos el tn1 para deducir inferencias
acerca de la media. Si la media de la poblacin es la distribucin muestral de t n-1 es una
distribucin t, teniendo en cuenta que las observaciones, x1, x2, x3, xn son elegidas
aleatoriamente y extradas de una poblacin normal.

Entonces, queda claro que cuando las muestras son pequeas la distribucin muestral es la
distribucin t. Esta se caracteriza porque es ms puntual que la distribucin normal, reuniendo
mayor proporcin de casos en los extremos de la curva a diferencia de la distribucin normal.

63

La distribucin t a medida que el tamao de la muestra "n" aumenta, tal distribucin t se va


pareciendo ms a la normal, de tal modo que cuando n > 30 no existen diferencias entre la
distribucin normal y la distribucin t. Entonces, cuando n < 30 existe una curva diferente
para cada valor de "n".
Grados de libertad. Nmeros de elementos en una muestra que pueden variar despus de
haber seleccionado cierto nmero de ellas. Supngase que existen dos elementos en una
muestra y se conoce la media. Se tiene libertad para especificar slo uno de los dos valores, ya
que el otro queda determinado automticamente; queda claro que el total de los dos valores es
dos veces la media.
En general, para la distribucin t de Student, se puede decir que el nmero de grados de
libertad es igual al tamao de la muestra o nmero de datos menos uno, es decir: g.l = tn-1
Pasos para la construccin de un Intervalo de confianza para la media , muestras
pequeas.
1. Determinar el nivel de confianza al que vamos a trabajar.
2. Obtener los grados de libertad g 1 = n - 1
3. Calcular el valor t correspondiente al nivel de confianza fijado con grados de
libertad y con ayuda de la tabla del anexo.
4. La tabla se divide en 10 columnas. La primera indica los grados de libertad, y
las siguientes columnas corresponden a los niveles de significanca que son 0.5,
0.4, 0.2, 0.1, 0.05, 0.025, 0.010, 0.005 y 0.001
5. De esta manera para un valor t correspondiente a un nivel de significanca del 10%
y 18 grados de libertad hay que buscar la interseccin de la columna del 10% y de
la fila 18
g 1, obteniendo un valor de t = 1.734
6. Calcular el error tpico de la media y determinar el error muestral
7. Determinar el intervalo de confianza para la media de la poblacin, sumando y
restando a la media de la muestra ( x ) el error muestral as:
S
X t

con n 1 grados de libertad y el valor de t depende del nivel de confianza.


Ejemplo
Una muestra de 10 cajas de atn dio un peso neto medio de 184 gramos y una desviacin
estndar de 3.0 gramos. Encontrar los lmites de confianza con un 95% para el verdadero peso
promedio de todas las latas de atn.
La siguiente grafica nos ayuda a comprender la presente situacin:

64

Figura: Intervalo de confianza para pequeas muestras

En la tabla de la distribucin t con 9 grados de libertad y un nivel de significancia del 10%


para dos colas, se registra un valor de 2.26 como valor crtico.
El intervalo de confianza para la media de peso de todas las cajas de atn esta dado por:
S
3 .0
X t
184 2.26
184 2.14
n
10

Se interpreta que las cajas de atn tienen un promedio de peso entre 181.86 y 186.14 gramos
con un nivel de confianza del 95% y expresado matemticamente es:

P181.86 186.14 0.95

2.3.2. Intervalos diferencias de medias con varianzas desconocidas pero iguales:


(

Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadstica
para verificar si stas son iguales o diferentes. Para realizarlo debemos hacer uso de la
distribucin F, bien sea mediante el clculo de la probabilidad de que la muestra tomada
provenga de dos poblaciones con varianzas iguales, o mediante el uso de un intervalo de
confianza para la relacin de dos varianzas, segn se estudiar ms adelante.
Si mediante el uso de la distribucin F se llega a la conclusin de que las varianzas son
iguales, el procedimiento a seguir para el clculo del intervalo de confianza para la diferencia
de
dos
medias
ser
el
siguiente:
a) El estadstico usado como estimador puntual de la diferencia de medias 1 - 2 ser T =
,

que

es

un

estimador

suficiente.

65

b) La variable aleatoria asociada con el estimador ser la variable T definida como:

donde

es un estimador combinado de , mejor que

por separado, y

c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente probabilidad:

De nuevo, manipulando la expresin anterior en forma similar a los casos se llega al siguiente
teorema que nos define el intervalo de confianza para la diferencia entre dos medias 1 - 2
con varianzas desconocidas 1 y2, pero iguales:
Teorema. Si
son las medias y las varianzas de dos muestras aleatorias de
tamaos n1 y n2, respectivamente, tomadas de dos poblaciones normales e independientes con
varianzas desconocidas pero iguales, entonces un intervalo de confianza del 100(1-)% para
la
diferencia
entre
medias
1
2
es:

Ejemplo.
La siguiente tabla presenta los resultados de dos muestras aleatorias para comparar el
contenido de nicotina de dos marcas de cigarrillos.

Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones
normales con varianzas desconocidas, construya un intervalo de confianza del 95% para la
diferencia
real
de
nicotina
de
las
dos
marcas.
66

Solucin.
Inicialmente mediante la distribucin F debemos verificar si las varianzas son iguales

Buscando en la tabla de la distribucin F para 7 grados de libertad en el numerador y 9 en el


denominador, vemos que el valor de la probabilidad est entre 0.10 y 0.25 (aproximadamente
0.19, mediante interpolacin lineal). Como esta probabilidad es muy alta, concluimos que no
hay evidencia para rechazar la hiptesis de que las varianzas sean iguales.
Como

las

varianzas

son

iguales,

calculamos

que

est

dado

por:
El

intervalo

de

confianza

del

95%

est

dado

por

(t0.025,16

2.12):

Debido a que la diferencia real puede ser cero, no se puede concluir que existe una diferencia
en el contenido de nicotina de las dos marcas de cigarrillos.
Ejercicio. El gerente de una refinera piensa modificar el proceso para producir gasolina a
partir de petrleo crudo. El gerente har la modificacin slo si la gasolina promedio que se
obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su valor
con respecto al proceso en uso. Con base en experimentos de laboratorio y mediante el empleo
de dos muestras aleatorias de tamao 12, una para cada proceso, la cantidad de gasolina
promedio del proceso en uso es de 24.6 con una desviacin estndar de 2.3, y para el proceso
propuesto fue de 28.2 con una desviacin estndar de 2.7. El gerente piensa que los resultados
proporcionados por los dos procesos son variables aleatorias independientes normalmente
distribuidas con varianzas iguales. Con base en esta evidencia, debe adoptarse el nuevo
proceso?
2.3.3. Intervalos para diferencias de medias y varianzas desconocidas y desiguales 12
Si mediante el uso de la distribucin F se llega a la conclusin de que las varianzas son
diferentes, el procedimiento a seguir para el clculo del intervalo de confianza para la
diferencia
de
dos
medias
ser
el
siguiente:
a) El estadstico usado como estimador puntual de la diferencia de medias 1 - 2 ser T
=
, que es un estimador suficiente
67

b) La variable aleatoria asociada con el estimador ser la variable T definida como:

donde
c) El intervalo de confianza esta dado por el siguiente teorema, basado en la distribucin t con
n grados de libertad.
Teorema. Si
son las medias y las varianzas de dos muestras aleatorias de
tamaos n1 y n2, respectivamente, tomadas de dos poblaciones normales e independientes con
varianzas desconocidas y desiguales, entonces un intervalo de confianza aproximado del
100(1-)%
para
la
diferencia
entre
medias
1
2
es:

Problema. Cierto metal se produce, por lo comn, mediante un proceso estndar. Se


desarrolla un nuevo proceso en el que se aade una aleacin a la produccin del metal. Los
fabricantes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de
ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 12
ejemplares y cada uno de stos se somete a una tensin hasta que se rompe. La siguiente tabla
muestra las tensiones de ruptura de los ejemplares, en kilogramos por centmetro cuadrado:

Si se supone que el muestreo se llev a cabo sobre dos distribuciones normales e


independientes, obtener los intervalos de confianza estimados del 95 y 99% para la diferencia
entre los dos procesos. Interprete los resultados.
2.3.4. Intervalos de confianza para la Media con muestras grandes n 30 .
Recordemos que para obtener un intervalo de confianza se procese como sigue:
1.
Se determina el riesgo de error que se quiere asumir al afirmar que el parmetro (en
este caso la media) se encuentra en el interior del intervalo.
2.
El intervalo de confianza se obtiene separando a izquierda y derecha de la
estimacin del parmetro (en este caso la media) un mltiplo de error estndar
(
) . El mltiplo est determinado por el valor del estadstico Z asociado al
n
nivel de confianza escogido.
Para la construccin del intervalo de confianza para la media poblacional , se han fijado los
siguientes pasos:

68

1. Fijar el nivel de confianza 1 -


2. Calcular la estandarizacin z de acuerdo al nivel de confianza predeterminado a travs de
la tabla de la distribucin normal N (0,1)
3. Calcular la media x y desviacin tpica S de la muestra.
4. Calcular el error tpico de la media (desviacin tpica de la distribucin muestral)
5. Calcular el error muestral
6. Construir el intervalo de confianza, sumando y restando a la media de la muestra ( x ) el
error muestral.
Suponga por ejemplo que Ud. est dispuesto a aceptar un riesgo de error de 0.05 ;
entonces 1 0.95 , luego se trata de un intervalo de confianza del nivel 0.95. Dado que
esta probabilidad se distribuye simtricamente a los dos lados de la media, se obtiene 0.475 a
cada lado. Ahora bien, el valor de Z asociado a una probabilidad de 0.475 es de 1.96 (de
acuerdo a la tabla de la distribucin normal) a la derecha de la media y de 1.96 a la izquierda,
como se puede apreciar el la siguiente grafica:
Figura: Intervalo de confianza para grandes muestras

El intervalo de confianza est dado por la siguiente relacin:



X 1.96 n ; X 1.96 n

Expresado en forma generalizada, para poblaciones infinitas o si se muestrea sin



reemplazamiento una poblacin finita, la relacin es: X 1.96 n

Si la poblacin es finita o si se muestrea sin reemplazamiento una poblacin finita, la relacin


es la siguiente:

N n
X Z

n N 1

69

Recuerde que Z depende del nivel de confianza que se fije y que si la desviacin estndar
poblacional es desconocida, se utiliza como estima la desviacin muestral (S).
Podr darse cuenta las semejanzas con los procedimientos utilizados para las pruebas de
hiptesis, vistas anteriormente para pruebas unilaterales y bilaterales.
Ejemplo
El contenido de protenas de una muestra de 100 pollos criados en una determinada granja dio
una media de 20.2 gramos con una desviacin estndar de 1.14 gramos. Obtener el intervalo
de confianza del 99% para el contenido medio de protena de todos los pollos de la granja.
Solucin:
Como el intervalo de confianza se distribuye simtricamente a los dos lados de la media, en
este caso a cada lado le corresponde una probabilidad de 0.495 (0.99/2 = 0.495). El valor de Z
asociado a una probabilidad de 0.795 es 2.58.
El intervalo para la media ser:

1.14
X Z
20.2 2.58
20.2 0.294
n
100

El contenido medio de protena de toda la poblacin de pollos de la granja esta dentro de un


intervalo de 19.91 y 20.49 gramos con un nivel de confianza del 99%, y se expresa de la
siguiente forma:

P19.91 20.49 0.99


Ejemplo:
Se toma una muestra al azar de 40 vasos de kumis de un lote de 500, dieron un promedio de
76 caloras por cada 100 gramos con una desviacin estndar 2.9 caloras. Obtener el intervalo
de confianza del 95% para el contenido medio de caloras para todo el lote.
Solucin:
Ntese que se trata de una poblacin finita y muestreo sin reemplazamiento. El valor de Z
asociado a un nivel de confianza del 95% es 1.96 (0.95/2 = 0.475) de acuerdo a la tabla de la
distribucin normal.
El intervalo de confianza en este caso est dado por:
N n
2.9 500 40
76
76 0.87
X Z

499
n N 1
40

Por tanto el contenido medio de caloras del lote esta dentro del intervalo de 75.13 y 76.87
caloras con un 95% de nivel de confianza, y expresado matemticamente es:

70

2.3.5. Intervalo de confianza para la diferencia entre dos medias.


El intervalo de confianza para la diferencia de medias de poblaciones infinitas est dado por:

X1 X 2 Z

12 22

n1 n2

Ejemplo:
Se analiz el contenido de vitamina A de una muestra de mantequilla y de una muestra de
margarina enriquecida. En la muestra de mantequilla formada por 40 potes de 100 gramos, el
contenido medio de vitamina A fue de 4.86 unidades con una desviacin estndar de 0.06. En
la muestra de margarina enriquecida formada por 50 potes de 100 gramos el contenido medio
de vitamina A fue de 5.0 unidades con una desviacin estndar de 0.08 unidades. Encontrar el
intervalo de confianza del 95% para la diferencia de contenido medio de vitamina A para el
experimento en mencin.
Solucin:
Generalmente el mayor valor de la media se toma como X 1 .
El nivel de confianza del 95% corresponde un Z = 1.96.
Aplicando la frmula se tiene:

X1 X 2 Z

12 22
0.082 0.062

5.0 4.86 1.96

n1 n2
50
40

0.14 1.96 0.000128 0.00009 0.14 0.029

Por lo tanto se puede afirmar con un nivel del 95% que la diferencia de los dos contenidos de
vitamina A de la mantequilla y la margarina enriquecida se encuentran entre 0.111 y 0.169
unidades.
2.3.6. Intervalos de confianzas para diferencias entre dos medias con muestras
relacionadas o dependientes.
Cuando se comparan las medias de dos niveles es deseable que las observaciones dentro de
cada nivel sean lo ms homogneas posibles. Si existe un efecto debido a factores externos
stos pueden neutralizarse mediante la aplicacin del principio de la aleatoriedad. Esto se
logra tomando las observaciones en pares. Se supone que las condiciones exteriores son las
mismas para cada par, pero pueden variar de un par a otro. Por ejemplo, suponga que se tiene
un grupo de personas que se someten a una dieta para reduccin de peso, y para cada persona
se lleva el registro del peso, en kgs, antes de la dieta, y un tiempo razonable despus de haber
empezado la dieta. En este caso, el peso de cada persona despus de la dieta no es
independiente del peso de la misma persona antes de la dieta; por lo tanto estas dos variables
estn correlacionadas, y si se quiere examinar el efecto de la dieta, se debe llevar el registro
del
peso
para
la
misma
persona
antes
y
despus
de
la
dieta.

71

Sean (X11, X21), (X12, X22),...(X1n,X2n) los datos consistentes de n pares; supondremos
que las variables aleatorias X1 y X2 tienen medias 1 y 2, y varianzas
,
respectivamente. Podemos suponer que el conjunto de datos apareados son observaciones de
un conjunto independiente de parejas de variables aleatorias provenientes de una distribucin
normal bivariada (X1 X2) ~f(X1, X2), y que las diferencias D = X1 - X2 se distribuyen
normalmente

con

valor

esperado

varianza

Sea Dj la diferencia entre las variables aleatorias del j-simo par, es decir, Dj = X1j-X2j. El
valor esperado y la varianza de la diferencia entre las variables est dado por:

Si las variables X1 y X2 se distribuyen normalmente, las diferencias estarn distribuidas


tambin

de

manera

normal

con

media

varianza

Para estimar la media y la varianza de la diferencia, se debe tomar una muestra aleatoria de
tamao n, antes y despus, calcular la diferencia, y luego la diferencia promedio y la varianza
muestral de las diferencias, como se ilustra en el siguiente cuadro.

Dada la muestra aleatoria se calculan los siguientes estadsticos que servirn para estimar la
media y la varianza de la diferencia,

, respectivamente:

Sabemos que la siguiente variable aleatoria sigue una distribucin normal estndar:

Sin embargo, como


no es conocido, lo podemos estimar mediante la varianza muestral
, en cuyo caso la siguiente variable aleatoria sigue una distribucin t con n-1 grados de
72

libertad.
Usando la distribucin t podemos calcular el intervalo de confianza para la media de
observaciones pareadas, el cual est dado por el siguiente teorema.
Teorema. Si
son la media y la desviacin estndar mustrales de la diferencia de n
pares aleatorios de mediciones normalmente distribuidas, entonces un intervalo de confianza
del 100(1-)% para la diferencia de medias D = 1 -2 es:

Ejemplo: Se est investigando la utilidad de dos lenguajes de diseo para mejorar las tareas de
programacin. Se le ha pedido a 12 programadores expertos, familiarizados con los dos
lenguajes, que codifiquen una funcin estndar con ambos lenguajes, y se registra el tiempo
requerido, en minutos, para realizar estas dos tareas. Los datos obtenidos son los siguientes:

Encuentre un intervalo de confianza para la diferencia en los tiempos medios de codificacin.


Use un nivel de confianza del 95%. Existe alguna evidencia que indique una preferencia por
alguno de los dos lenguajes?
Tenemos que:
est dado por:

. El intervalo de confianza

Dado que la diferencia puede ser cero, se concluye que no hay evidencia para rechazar la
hiptesis de que ambos lenguajes requieren el mismo tiempo de programacin, y por lo tanto
no hay preferencia por ninguno de los dos lenguajes.

P75.13 76.87 0.95

73

2.3.7. Intervalo de confianza para proporciones.


Recuerde las propiedades de la distribucin binomial y de las pruebas de hiptesis vistan
anteriormente.
El intervalo de confianza para la proporcin de la poblacin infinita y muestreo con
reemplazamiento est dada por:

PZ

PQ
n

En tanto que el intervalo de confianza para la proporcin de la poblacin finita y muestreo con
reemplazamiento est dada por:

PZ

PQ
n

N n
N 1

donde el valor de Z depende del nivel de confianza deseado.


Ejemplo:
De un lote de 500 frascos de jugo se extrae una muestra de 50 frascos de los cuales 43
cumplen con las especificaciones exigidas y 7 fueron rechazados. Hallar el intervalo de
confianza del 95% para la proporcin de frascos de jugo aceptados del lote de estudio.
Solucin:
Para un nivel de confianza de 95% el valor de Z = 1.96 (tabla de distribucin normal)
Aplicando la frmula se tiene:
P Z

PQ
n

0 . 86 1 . 96

N n
43

1 . 96
N 1
50
( 0 . 86 )( 0 . 14 )
50

0 . 86 1 . 96 0 . 049

0 . 95

43 50 1 43 50
50

500 50
500 1

450
499
0 . 86 0 . 09

Con un nivel de confianza del 95% la proporcin de frascos aceptados fue de 0.77 y 0.95, es
decir el nivel de aceptacin est entre 380 y 480 frascos de lujo de un lote de 500 frascos
2.3.8. Intervalo de confianza para la diferencia de dos proporciones.
El intervalo de confianza para la diferencia de proporciones de poblaciones infinitas est dado
por:

P1 P2 Z

p1q1 p2 q2

n1
n2

74

Ejemplo:
En un supermercado se vende queso de dos marcas diferentes. En el mismo perodo de tiempo
se vende 380 de un total de 500 unidades de la marca A y 333 de un total de 450 unidades de
la marca B. Hallar el intervalo de confianza del 99% para la diferencia entre las proporciones
de los quesos A y B que salen al mercado y se venden.
Solucin:
Aplicando la formula de la diferencia de proporciones se tiene:

P1 P2 Z

380 120 333 117

p1q1 p2 q2
380 333
500 500 450 450

2.58

n1
n2
500 450
500
450

0.76 0.74 2.58

(0.76)(0.24 (0.74)(0.26)

0.02 0.073
500
450

Por lo cual es de esperar con un nivel de confianza del 99% que la verdadera diferencia de
proporcin de venta de los quesos A y B se encuentre entre 0.053 y 0.093. La diferencia de
proporcin negativa del lmite inferior del intervalo indica que en esta regin la diferencia est
a favor del queso B cuya proporcin de venta es menor en las muestras estudiadas.

2.3.9. Intervalos de confianza para la varianza poblacional.


Para ver cmo se aplica un intervalo de confianza para la varianza poblacional, suponga que
se est interesado en estimar la varianza poblacional para el mecanismo de llenado de tal
modo que la media de la cantidad de llenado sea de 16 onzas y es crtica la varianza de los
llenados. Para el efecto se toma una muestra de 20 envases llenos y se encuentra que la
varianza de las cantidades de llenado es s 2 0.0025 Sin embargo, no se puede esperar que
esa varianza que procede de una muestra de 20 envases, proporcione el valor exacto de la
varianza de la poblacin de recipientes llenos con dicho producto. En consecuencia el inters
est es determinar un estimado de intervalo de la varianza poblacional.
Se utiliza el smbolo 2 para representar el valor de la distribucin ji cuadrado que da como
resultado un rea, o probabilidad, de a la derecha del valor ji cuadrado establecido. Por
ejemplo en la siguiente figura, se observa la distribucin ji cuadrado con 02.025 32,8523 que
indica que el 2.5% de los valores de ji cuadrado esta a la derecha de 32,8523, y
02.975 8,90655 que indica que el 97.8% de los valores de ji cuadrado esta a la derecha de
8,90655. Consultan con la tabla del anexo G que hace relacin a la tabla de distribucin de
ji cuadrado, los resultados son iguales.
En la grfica se puede observar que 0.95 o el 95% de los valores de la ji cuadrada estn entre
02.975 y 02.025 . Significa esto que existe una probabilidad del 95% de obtener un valor de

2 tal que:

75

2
0.975

n 1S 2

02.025

Esta ecuacin define un estimado de intervalo, porque el 95% de todos los valores posibles de
n 1S 2 se encuentran en el intervalo de 2 a 2 .
0 , 975
0.025
2
Figura: Distribucin ji cuadrado con 19 grados de libertad

Ahora se requiere llevar a cabo algunas operaciones algebraicas de la ecuacin, para


determinar un estimado de intervalo de 2 de la varianza poblacional.
Realizando operaciones del extremo izquierdo de la ecuacin se tiene:

02.975

n 1S 2
2

2
despejando la varianza se tiene:

n 1S 2
02.975

realizando operaciones semejantes con la desigualdad del extremo derecho de la ecuacin se


tiene:

n 1S 2
02.025

despejando la varianza se tiene:

n 1S 2
02.025

Por ltimo combinando los resultados de las operaciones se llega a:

n 1S 2
02.025

n 1S 2
02.975

Esta relacin representa el estimado del intervalo de confianza para la varianza 2 .


Ejemplo.
Regresando al problema para determinar un estimado de intervalo de la varianza poblacional
de las cantidades de llenado, recuerde que la muestra es de 20 envases que presenta una
varianza de S 2 0.0025 . Con un tamao de muestra de 20, los grados de libertad son de 19.
En la figura presentada anteriormente, se determina que 02.975 8,90655 y 02.025 32,8523 .
Con dichos valores, reemplazando en la ecuacin del intervalo para la varianza poblacional se
tiene:
76

20 10.0025 2 20 10.0025
32,8523

8,90655

O sea que el intervalo se encuentra dentro de los lmites: 0.0374 2 0.0728 .


Con lo anterior se ha ilustrado el proceso de aplicar la distribucin ji cuadrado para establecer
estimados de intervalo de una varianza y de una desviacin estndar de una poblacin.
Especficamente observe que como se us 02,975 y 02.025 el estimativo tiene un coeficiente
de confianza de 0.95. Cuando la ecuacin se amplia a un caso general de cualquier
coeficiente de confianza, el estimativo del intervalo de confianza es:

n 1S 2
2

n 1S 2
21
2

En donde los valores de 2 se basan en una distribucin ji cuadrado con (n-1) grados de
libertad, y en donde 1 es el coeficiente de confianza.

EJERCICIOS COMPLEMENTARTIOS
1. Una investigacin efectuada a 400 familias de clase medias, revel que un 62% de sus
ingresos anuales son utilizados para servicios de salud. Determinar los lmites de
confianza del 99%
2. En una muestra de 14 observaciones que tienen una media de 34.86 y una desviacin
estndar de 4.23, encuentre los lmites que en el 95% de los casos permiten acertar al
afirmar que la media poblacional queda incluida entre ellos.
3. Un laboratorio qumico desea estimar la reaccin promedio de mercurio utilizadas en un
medicamento. Qu tamao de muestra se requiere para garantizar que habr un riesgo de
solo 0.001 de sobrepasar un error de 5mm o ms en la estimacin? La desviacin estndar
de la reaccin se estima en 50mm
4. Un sondeo efectuado a 400 familias de clase media revel un gasto trimestral promedio de
$ 374.000 en productos de salud, con desviacin de $80.000.
a) Determine un intervalo de confianza del 95%
b) Cual es el mximo error, cuando se afirma que dicha media es de $374.000 con una
confianza del 99%?

77

UNIDAD DOS

PRUEBAS DE HIPTESIS, ANLISIS DE VARIANZAS Y ESTADSTICAS NO


PARAMTRICAS

78

CAPITULO TRES
3. PRUEBAS DE HIPTESIS
Introduccin.
En casos relacionados con situaciones especiales en las cuales se desea comprobar la
efectividad de estndares preestablecidos, la tcnica de prueba de hiptesis resultaba bastante
apropiada, por cuanto permite comprobar con bastante certeza el grado de acierto en la
fijacin de stos.
Una hiptesis estadstica se define como un supuesto hecho sobre algn parmetro de la
poblacin. Por ejemplo, los siguientes enunciados podran ser tomados como hiptesis:
- El ingreso promedio de los trabajadores de la fbrica es de $X.
- El rendimiento promedio de los empleados de dos fbricas es diferente.
- El promedio de duracin de las bombillas es de 1.000 horas.
- El promedio de duracin de las llantas es de 100.000 kilmetros.
Ya se ha recabado en muchas ocasiones, que el objetivo es tomar muestras para extraer alguna
conclusin o inferencia sobre la poblacin y que el nico objetivo de examinar muestras, es
que las poblaciones suelen ser demasiado grandes y costosas de estudiar.
Objetivo general.
Contrastar la validez de una hiptesis o conjetura que se haya planteado en relacin con una
situacin determinada de la empresa, analizando errores estadsticos posibles en las pruebas de
hiptesis
Objetivos especficos.

Examinar que se entiende por hiptesis y qu por prueba de hiptesis.


Describir los pasos que se siguen para demostrar una hiptesis.
Describir los errores estadsticos que se pueden presentar.
Realizar pruebas en relacin con una y dos medias poblacionales, con una y dos colas.
Realizar pruebas con una y dos proporciones poblacionales.
Realizar pruebas de hiptesis para datos que se encuentran en una escala nominal u
ordinal con aplicacin de la distribucin chi cuadrado.

3.1. Nociones Fundamentales.


La prueba de hiptesis consiste en aplicar tcnicas estadsticas que permitan aceptar o
rechazar una hiptesis. Este procedimiento se conoce como contraste de hiptesis. Las
pruebas de hiptesis utilizan un procedimiento de cinco pasos, los cuales se mencionan a
continuacin:
1. Plantear las hiptesis nula y alternativa.
2. Determinar el nivel de significancia.
3. Estimar el valor estadstico de prueba.
4. Establecer la regla de decisin.

79

5. Tomar la decisin.

3.1.1 Tipos de pruebas.


En la prueba de investigacin, o de validez de una afirmacin, se conocen las siguientes clases
de pruebas:
Pruebas para grandes muestras.
Pruebas para pequeas muestras.
Pruebas de varianza.
En las pruebas de grandes muestras se realizan para los siguientes casos:
Pruebas de medias y de proporciones.
Pruebas de diferencias de medias y proporciones.
En las pruebas de pequeas muestras se realizan para los siguientes casos:
Pruebas para medias y diferencias de medias.

3.1.2 Nivel de significancia.


Una vez planteada la hiptesis nula y la alternativa, el siguiente paso es definir el nivel de
significancia. Es la probabilidad de rechazar la hiptesis nula cuando en realidad es verdadera.
El nivel de significacin se denota mediante alfa ( ), tambin se denomina nivel de riesgo, y
es el riesgo de rechazar un planteamiento cuando en realidad es cierto. Tradicionalmente se
ha escogido un nivel de significancia del 0.05 (5%) para proyectos de investigacin de
consumo, el 0.01 (1%) para control de calidad y el 0.10 (10%) para encuestas polticas.
3.1.3 Clases de hiptesis.
Una hiptesis estadstica es un enunciado provisional referente a uno o ms parmetros de
una poblacin o grupo de poblaciones. En el proceso de estadstica inferencial hay dos tipos
de hiptesis:
1.
Hiptesis nula, designada mediante Ho y se lee H subcero. La letra H
significa hiptesis y el subndice cero indica no hay diferencia. Por lo general
en la hiptesis nula se plantea en trminos de no hay cambio, no hay
diferencia, se plantea con el objetivo de aceptarla o rechazarla.
2.
Hiptesis alternativa, describe lo que se considerar si se rechaza la hiptesis
nula. A menudo tambin se le denomina hiptesis de investigacin, y se
designa por H1, que se lee h subuno
3.1.4 Tipos de error.
La hiptesis nula y alternativa son entonces aseveraciones sobre la poblacin que compiten
entre s, en el siguiente sentido: la hiptesis nula (Ho) es verdadera, o lo es la hiptesis
alternativa (H1), pero no ambas. En el caso ideal, el procedimiento de prueba de hiptesis debe
conducir a la aceptacin de Ho cuando sea verdadera y al rechazo de H1. Desafortunadamente
no siempre es posible puesto que como las pruebas de hiptesis se basan en la informacin de

80

la muestra, se debe considerar la posibilidad de cometer errores. La siguiente cuadro muestra


los dos tipos de errores que se pueden cometer:
Cuadro: Tipos de errores
DECISIN
SOBRE Ho

VERDADERA

FALSA

Correcta

Error tipo I I

Aceptar H0
Rechazar H0

Error tipo I
Nivel de significancia

Correcta 1
Potencia de la prueba

Cuando se tiene una hiptesis esta puede ser verdadera o falsa y la decisin que se toma en la
prueba es aceptar o rechazar la hiptesis. Si la decisin que se toma est de acuerdo con la
realidad no se cometen errores, en este caso las dos buenas decisiones son: aceptar la hiptesis
nula cuando es cierta o rechazar la hiptesis nula cuando es falsa.
Pero cuando la decisin no est de acuerdo con la realidad se pueden cometer dos tipos de
errores vistos anteriormente: rechazar la hiptesis nula cuando en realidad es cierta, llamado
error tipo I representado por alfa ( ); aceptar la hiptesis nula cuando en realidad es falso,
llamado error tipo II representado por beta ( ), llamados tambin nivel de significancia. El
procedimiento utilizado consiste en limitarlos a un nivel preestablecido pequeo,
generalmente 0.01 0.05. Este planteamiento se le denomina la potencia de la prueba y se
representa as:
Probabilidad de cometer el error tipo I
Probabilidad de rechazar Ho cuando es verdadera.
(1 - ) Probabilidad de acertar la Ho cuando es verdadera.
Probabilidad de cometer el error tipo II
Probabilidad de aceptar Ho cuando es falsa.
(1 - ) Probabilidad de rechazar Ho cuando es falsa.
Toda prueba de hiptesis determina una regin de rechazo de la hiptesis llamada regin
crtica, la cual depende del tipo de hiptesis que se pruebe y se determina utilizando un nivel
de significancia .
3.1.5 El p-valor
Es el mnimo nivel de significancia en el cual Ho sera rechazado cuando se utiliza como
procedimiento de prueba especfico con un conjunto dado de informacin. Si el p-valor es
menor que el nivel de significancia, la hiptesis nula se rechaza.

3.2. Pruebas para Grandes Muestras.


Este procedimiento de formulas dos hiptesis es muy similar al de un juicio en donde se
supone que el acusado es inocente hasta que se le demuestre su culpabilidad. Por tanto se hace
una hiptesis de culpabilidad cero, lo cual tambin ayuda a explicar el nombre de la hiptesis.
81

Sin embargo una evidencia contraria hace que la hiptesis nula sea descartada y aceptar la
nica alternativa posible de declararlo culpable.
El procedimiento de los cinco pasos indicado en lneas arriba, se empieza a aplicar
n
para muestras grandes: n 30 pero con
0.05 para pruebas en donde intervienen
N
una o dos medias, por lo tanto se supone que la distribucin muestral del estadstico de
prueba se aproxima por la curva normal.

3.2.1 Prueba para la media (muestra grande).


En las pruebas para la media de poblacin de muestra grande se distingue dos situaciones:
Conocida la desviacin estndar de la poblacin.
Desconocida la desviacin estndar de la poblacin.

CONOCIDA LA DESVIACIN ESTANDAR POBLACIONAL.


Las pruebas de hiptesis utilizan un procedimiento de cinco pasos, los cuales se recuerdan a
continuacin:
a.
b.
c.
d.
e.

Plantear las hiptesis nula y alternativa.


Determinar el nivel de significancia.
Estimar el valor estadstico de prueba.
Establecer la regla de decisin.
Tomar la decisin.

Dependiendo del planteamiento de la hiptesis alternativa (H1) se distingue dos tipos de


pruebas:
Pruebas bilaterales.
Pruebas unilaterales
PRUEBA BILATERAL
El procedimiento de prueba de hiptesis para pruebas bilaterales a cerca de la media de una
poblacin, cuando se considera el caso de muestra grande ( (n 30) , en que el teorema del
lmite central permite suponer que la media de la distribucin muestral de medias se puede
aproximar a una distribucin normal de probabilidad, y la desviacin estndar de la poblacin
es conocida, sigue la siguiente forma general:
Muestra grande (n 30)
Planteamiento de hiptesis:
H 0 : 0
H1 : 0
Estadstico de prueba para desviacin estndar poblacional conocida:
Z

Regla de rechazo a un nivel de significancia :

82

Rechazar H 0 si z -Z o si Z Z
2

Ejemplo
La empresa coca cola ha establecido como poltica general para su produccin en pequea
escala, un promedio ( ) de llenado para sus envases de 200 centmetros cbicos con una
desviacin estndar ( ) de 16 centmetros cbicos. Dado que recientemente se han contratado
y diseado nuevos mtodos de produccin, utilizando un nivel de significancia del 0.01, se
desea probar la hiptesis, que el promedio de llenado sigue siendo de 200 centmetros cbicos.
Para tal efecto se tom una muestra de 100 envases llenos, los cuales mostraron una media de
llenado de 203.5 centmetros cbicos.
Solucin:
Paso 1
Planteamiento de la hiptesis nula: la media poblacional es 200
Planteamiento de la hiptesis alternativa: La media poblacional es diferente a 200. Estas
hiptesis se expresan como sigue:
H 0 : 200
H 1 : 200
Esta es una prueba de dos colas, debido a que la hiptesis alternativa ( H 0 ) es planteada en
palabras de diferencia, es decir, la hiptesis no indica si la media es mayor o menor que 200.
Paso 2
El nivel de significancia es de 0.01 que es el alfa ( ), la probabilidad de cometer el error de
tipo uno, es decir la probabilidad de rechazar la hiptesis siendo verdadera. Para ste tipo de
problema se utiliza la distribucin normal estandarizada en Z.
Paso 3
El valor estadstico de prueba para este tipo de problema es utilizando la distribucin normal
estandarizada en Z:
X 203.5 200 3.5

2.19
Z
16

1 .6
100
n
Paso 4
La formulacin de la regla de decisin consiste en hallar el valor crtico de Z con una prueba
de dos colas. En el anexo C (tabla de la distribucin normal) se identifica el valor de Z
correspondiente a una probabilidad igual a 0.4950 (0.5 0.01/2). El valor ms cercano a
0.4950 es 0.4951 que corresponde a una valor de Z igual a 2.58, que es el valor crtico para la
prueba de hiptesis. Dado que es una prueba de dos colas, se tendrn dos valores crticos, tal
como se indica en la siguiente figura:

83

Figura: Prueba de dos colas

La regla de decisin es aceptar la hiptesis nula (Ho), puesto que el valor estadstico de prueba
(2.19) ha cado en la zona de aceptacin de dicha hiptesis.
Paso 5
Se concluye que el llenado de los envases cumple con las polticas generales de la empresa, y
la diferencia de promedios se atribuye a variaciones aleatorias.
PRUEBA UNILATERAL
Con anterioridad de dijo que la hiptesis alternativa indica una direccin ya sea mayor que o
menor que, la prueba es de una cola. El procedimiento para demostrar la hiptesis es por lo
general igual a la prueba de dos colas, excepto que el valor crtico es diferente. Ahora se
modificar la hiptesis alternativa del problema anterior, sobre el llenado de los envases de
una factora de coca cola
H 0 : 200
Paso uno: H : 200
1
Paso dos: igual.
Paso tres: igual
Paso cuatro:
El valor crtico cambia. En el anexo C (tabla de la distribucin normal) se identifica el valor
de Z correspondiente a una probabilidad igual a 0.490 (0.5 0.01). El valor ms cercano a
0.4900 corresponde a una valor de Z igual a 2.33, que es el valor crtico para la prueba de
hiptesis. Dado que es una prueba de una cola, se tendr el valor crtico, tal como se indica en
la siguiente grfica:
Figura: Prueba una cola a la derecha

84

La regin de rechazo para una prueba de una extremidad se ubica en la cola de la derecha, y el
valor crtico es +2.33.
Paso cinco: Igual, puesto que el valor estadstico de prueba est ubicado en la zona de
aceptacin de la hiptesis nula, es decir, se est diciendo que el promedio de llenado es de
200, tal como est planteada la hiptesis nula.
A continuacin se presentan un ejemplo para que Ud. lo aborde y aplique los mtodos de
pruebas de hiptesis vistos anteriormente.
Ejercicio
El anlisis del contenido de grasa de una muestra de 40 tarros de leche en polvo de una
determinada marca dio como resultado un contenido promedio de grasa de 27.5% en peso. Si
asume que la varianza es de 0.85 y se pide un nivel de significancia del 5%; probar la
hiptesis que el contenido promedio de grasa de la leche es de 28% contra la hiptesis:
a.
El contenido de grasa es mayor que 28%.
b.
El contenido de grasa es menor que 28%.
c.
El contenido de grasa es diferente que 28%.

Sugerencia: Utilice el siguiente estadstico de prueba: Z

DESCONOCIDA LA DESVIACIN ESTANDAR POBLACIONAL


En la mayora de los casos se desconoce la desviacin estndar de la poblacin ( ) , la cual
debe calcularse en estudios previos o se estima utilizando la desviacin estndar de la muestra
(s). En estos casos se utiliza la desviacin estndar de la muestra, quedando la formula para el
estadstico de prueba as:
Z

X
S
n

Ejemplo
Una cadena grande de almacenes expide su propia tarjeta de crdito y Ud. desea saber si los
saldos promedios por crditos de los clientes son mayores que 400 unidades monetarias. El
nivel de significancia se fija en 0.05. Una revisin aleatoria de 172 clientes, revel que el
promedio por crdito de los clientes es de 407 unidades monetarias y la desviacin estndar de
la muestra es de 38 unidades monetarias. Concluye UD. que la media poblacional es mayor
que 400 unidades monetarias?
Solucin:
Las hiptesis se enuncian como sigue:
H 0 : 400
H1 : 400

85

Dado que la hiptesis alternativa se enuncia mayor que, se aplica una cola a la derecha, y
como la muestra es grande ( n >= 30), se aplica la distribucin normal estandarizada en Z.
El estadstico de prueba es:
Z

X 407 400

2.42
38
S
172
n

La regla de decisin es:


Figura: Prueba de una cola a la derecha

El valor crtico es 1.645 y la ubicacin del estadstico de prueba se encuentra en la zona de


rechazo de la hiptesis nula, por lo tanto se acepta la hiptesis alternativa.
La decisin a tomar por Ud. es que el promedio de los crditos es mayor que 400 unidades
monetarias con un grado de confianza del 95%.

3.2.2 Prueba para diferencia de medias (muestra grande).


En la mayor parte de los casos no se conoce la varianza o desviacin estndar real de ninguna
poblacin. En general la nica informacin que es posible obtener se relaciona con las medias
muestrales X 1 y X 2 , las varianzas muestrales S12 yS 22 y las desviaciones estndar de las
muestras S1 yS 2 . Si se hacen las suposiciones que las muestras se obtienen de manera
aleatoria e independiente a partir de las poblaciones respectivas que tiene una distribucin
normal y que las varianzas poblacionales son iguales, es decir, 12 22 , se puede utilizar
una prueba de distribucin normal de varianzas combinadas para determinar si existe una
diferencia significativa entre las dos poblaciones.

Recordemos que para diferencias de medias se utiliza el siguiente estadstico de prueba:


Z

( X 1 X 2 ) 1 2

12 22

n1 n2

86

Ejemplo
Una obra de construccin requiere un gran nmero de bloques de concreto. Dos empresas
abastecedoras A y B licitan para su adjudicacin, y dentro del pliego de condiciones se
estipula que la resistencia mnima es de 1.000 unidades mtricas a la resistencia, y el contrato
se adjudicar a la empresa que mayor resistencia presente su producto.
Solucin:
Paso 1: Se plantea la hiptesis nula (Ho) que no existe diferencia entre las resistencias medias
a la compresin de los bloques de concreto. La hiptesis alternativa se plantea en trminos que
hay alguna diferencia significativa entre las dos resistencias medias a la compresin.
Simblicamente se expresa as:
H0 : A B
H1 : A B
Dado que la hiptesis alternativa no indica una direccin especfica, la prueba es de dos colas
Paso 2: Se elige un nivel de significancia de 0.01. Esto equivale a cometer un error de tipo I.
Se usar una distribucin normal estandarizada en Z, razn por la cual se debe seleccionar una
muestra que al menos contenga como mnimo 30 unidades de bloque, cada una de las
empresas licitantes.
Paso 3: El estadstico de prueba a aplicar est dado por la siguiente frmula:

X1 X 2
S12 S 22

n1 n2

Suponga que Ud. seleccion una muestra de cada una de las empresas licitantes y determin
la resistencia a la compresin, con los siguientes resultados:
Cuadro 3.2 Resultados de muestra
Licitante A
Licitante B
=
1.070
X
X = 1.020
n = 81
n = 64
S = 63
S = 57
El valor del estadstico de prueba es:
Z

X1 X 2
2
1

2
2

S
S

n1 n2

1.070 1.020
2

63
81

57

50
5.01
9.98827

64

87

Paso 4
Recurdese que se seleccion un nivel de significancia del 0.01 y se utilizar una prueba de
dos colas. Los valores crticos y zonas de aceptacin para las hiptesis se presentan en la
siguiente figura:
Figura Toma decisin para prueba de hiptesis

Paso 5
El valor Z calculado queda en el rea de rechazo de la hiptesis nula, por lo tanto se concluye
que la media poblacional de la resistencia a la compresin es diferente en las dos empresas y
la diferencia no se debe al azar del muestreo, con un grado de confianza del 99%.
Ejercicio de pruebas de medias
- Se analiz el contenido de caloras de dos lotes de leche condensada de diferente marca. El
lote A constituido por 45 tarros de 100 gramos su contenido promedio de caloras fue de 320 y
una desviacin de 3. El lote B constituido por 55 tarros igualmente de 100 gramos el promedio
de caloras fue de 321.5 con una desviacin de 2.5. Existe diferencia entre los contenidos
calricos de las dos marcas de leche al nivel de significacin de 0.05?
Sugerencia: Plantear las hiptesis en funcin de hay diferencia no existe diferencia de
contenido promedio de caloras.
- El contenido medio de carbohidratos de 50 litros de leche de vaca entera cruda fue de 4.6%
con un desviacin de 0.5 y el de 50 litros de leche pasteurizada fue de 3.9% con una
desviacin de 0.4. Probar la hiptesis que el contenido de carbohidratos de la leche cruda es
mayor que el la leche pasteurizada con un alfa de 0.01.
Sugerencia: Se concluye que el contenido de la leche cruda es significativamente mayor que el
la pasteurizada con un nivel de confiabilidad del 99%

3.3. Pruebas de Hiptesis para Pequeas Muestras.


Ahora veamos el caso en que las muestras son pequeas, n 30 , pero donde la distribucin
muestral del estadstico de prueba se puede aproximar a una distribucin t student. Dicha
aproximacin es posible cuando los valores subyacentes de la poblacin son casi normalmente
distribuidos, y cuando intervienen poblaciones donde las desviaciones estndar, aunque

88

desconocidas, se sabe que son iguales. Habiendo estudiado pruebas para muestras grandes con
todo detalle, podemos restringirnos a ejemplos en donde se aplique este tipo de distribucin.
3.3.1 Prueba para media (pequea muestra)
Si tambin es razonable suponer que la poblacin tiene una distribucin normal de
probabilidad, con la distribucin t se puede hacer inferencia a cerca del valor de la media de la
poblacin.
Ejemplo
Una compaa de seguros revela que en promedio la investigacin por demandas en
accidentes y todos los trmites tiene un costo promedio de 60 unidades monetarias. Este costo
se considera exagerado comparado con el de otras compaas del mismo tipo. A fin de evaluar
el costo se seleccion una muestra aleatoria de 26 demandas recientes y se realiz el estudio
de costos. Se concluy que el costo promedio es de 57 unidades monetaria con una
desviacin estndar de 10 unidades monetarias. Con un nivel de significancia del 0.01 se
puede decir que el estudio revel un costo menor al establecido por la empresa?
Solucin:
Paso 1
La hiptesis nula se plantea en el sentido que el costo promedio es de 60 unidades monetarias.
La hiptesis alternativa que el costo es menor a 60 unidades monetarias. Esto se expresa en la
H 0 : 600
siguiente forma: H : 600
1
La prueba es de una cola a la izquierda, segn el planteamiento de la hiptesis alternativa.
Paso 2
Se usa un nivel de significancia del 0.01 con una distribucin t, en consideracin a que la
muestra en menor a 30, es decir, es una pequea muestra.
Paso 3
Utilizando los datos de la muestra, se utiliza la siguiente frmula como estadstico de prueba:
t

X 57 60

1.530
10
S
26
n

Paso 4
Los valores crticos para la distribucin t se encuentran en la tabla correspondiente (anexo
D), con 25 grados de libertad (26 1), prueba de una cola a un nivel de significancia de 0.01,
correspondiendo un valor crtico de 2.485. En el siguiente figura se indica el presente
planteamiento:

89

Figura: Prueba de una cola

Paso 5
Puesto que 1.53 se encuentra en la regin de aceptacin de la hiptesis nula a un nivel del
1% de significancia, se concluye que los costos para los tramites de seguros de accidente no se
han disminuido y se mantiene a un nivel promedio de costo de 60 unidades monetarias.
Ejemplo
Una empresa produce elementos con un promedio de 43 mm de largo. Un ajuste en las
mquinas de produccin supone que dicho estndar ha cambiado. Se quiere probar sta
hiptesis con un nivel de significancia del 0.02.
Para afrontar el problema Ud. selecciona una muestra aleatoria de 12 elementos y procede a
medir su largor con los siguientes resultados:
Cuadro 3.3 Seleccin muestra aleatoria
Elemento 1
2
3
4
5
6
Medida 42 39 42 45 43 40

7
39

8
41

9
40

10
42

11
43

12
42

Solucin:
Paso 1
H 0 : 43
Plantea sus hiptesis: H : 43
1
Como hiptesis nula que no se ha producido un cambio en las dimensiones del producto.
Como hiptesis alternativa que se ha producido un cambio en las caractersticas internas del
producto debido a los ajustes en las mquinas.
Paso 2
Se dispone a probar la hiptesis con un nivel de significancia del 0.02, utilizando la
distribucin t porque es una pequea muestra, con 11 grados de libertad aplicando el
principio de ( n- 1) y calculo para dos colar puesto que la hiptesis alternativa est planteada
desde el punto de vista de diferente.

90

Paso 3
El estadstico de prueba a utilizar es el siguiente: t

X
S
n

Procede al clculo de la media y la desviacin estndar muestral:


X

498

41.5
12

X X
n 1

35
1.78
11

Con la informacin anterior, aplica la frmula del estadstico de prueba:

X 41.5 43.0

2.92
1.78
S
12
n

Paso 4
Para aplicar la regla de decisin, muestra en el siguiente grfico el planteamiento anterior:
Figura: Prueba de dos colas

Paso 5
La hiptesis nula que la media poblacional es 43 mm se rechaza a un nivel de significancia del
0.02 y se acepta la hiptesis alternativa, concluyendo que los ajustes en las mquinas s
causaron un cambi en la calidad de control en el largor de los diferentes elementos que se
producen.
Anteriormente se analiz ampliamente la prueba de hiptesis para cuando las muestra son
pequeas, es decir, el tamao de la muestra es menor a 30. A continuacin se propone un
ejercicio de aplicacin, para que Ud. los desarrolle atendiendo las sugerencias dadas.
Ejemplo
Un fabricante de pastas alimenticias sostiene que el contenido medio de protenas del producto
es de 10.7. Un anlisis de una muestra de 8 paquetes dio como resultado un contenido medio
de 10 con una desviacin de 1. Se puede aceptar como verdadera la afirmacin del fabricante
a un nivel de 0.01?

91

X
Sugerencia: Utilizar el siguiente estadstico de prueba: t S
n

Solucin:
H0: = 10,7 y H1: 10,7
Un ensayo bilateral con un nivel significativo de 0.01 el valor critico con 7 grados de libertad
es igual a 2,988 (ver tabla de t-student)
10 10,7
0,7
Segn el estadstico: t

1,98
1
0,3535
8
Como el estadstico (1,98) es menor que el valor crtico (2,988) se acepta la hiptesis nula.

3.3.2 Prueba para dos medias mustrales (pequeas muestras)


Una prueba que utiliza la distribucin t tambin puede aplicarse para comparar dos medias
muestrales que tienen las siguientes caractersticas:
1.
Las poblaciones deben de distribuirse normalmente.
2.
Las poblaciones deben de ser independientes.
3.
Las varianzas de las poblaciones deben de ser iguales.
4.
Las muestras tienen menos de 30 observaciones.
5.
Las desviaciones estndar de las poblaciones no se conocen.
Cuando se est frente a estas caractersticas, el estadstico de prueba a utilizar es el siguiente:
t

Donde:
X1 y X 2

n 1 yn
2
1

S yS
G.L.

( X 1 X 2 ) 1 2
2
1

S n1 1 S 22 n2 1 1 1


n1 n2 2

n1 n2

Las medias de las muestras


2
2
2

Los tamaos de las muestras


Las varianzas de las muestras
Grados de libertas, igual a = n1 n2 2

Ejemplo
Se ha propuesto realizar un examen de estadstica a dos grupos de estudiantes, con el
propsito de saber si los grupos tienen similares conocimientos sobre pruebas de hiptesis.
Para ello Ud. seleccion el grupo A compuesto de 5 estudiantes de educacin a distancia y el
grupo B compuesto por 6 estudiantes de educacin presencial, y los someti a la prueba,
dando como resultado los siguientes tiempos en minutos:

92

Cuadro: prueba para dos grupos


Educacin
a Educacin
distancia
presencial
2
3
4
7
9
5
3
8
2
4
3
Probar con un nivel de significacia del 0.10 si existe alguna diferencia de habilidad en los
conocimientos de los dos grupos.
Solucin:
Paso 1: Las hiptesis las plantea en los siguientes trminos:
Ho : 1 2
H1 : 1 2
La hiptesis nula consistente en que los dos grupos no tienen alguna diferencia en la habilidad
de conocimiento, y la hiptesis alternativa en que existe diferencia entre los grupos sobre la
habilidad en la aplicacin de los conocimientos.
Paso 2: Prueba la hiptesis con un nivel de significancia del 10%, utilizando la distribucin t
student porque las muestras son menores que 30, con 9 grados de libertad (5+6 2) y prueba
de dos colar porque la hiptesis alternativa est planteada en funcin de diferente.
Paso 3 Para el clculo del estadstico de prueba se requiere estimar las medias de los grupos y
sus varianzas, los cuales se presentan en el siguiente cuadro:
Cuadro:Resultados para los grupos de estudiantes
Grupo estudiantes a distancia
Grupo presencial
Media = 4
Media = 5
Varianza = 8.5
Varianza = 4.4
Muestra = 5
Muestra = 6

X1 X 2
2
1

2
2

S n1 1 S n2 1 1 1


n1 n2 2

n1 n2

45
8.55 1 4.46 1 1 1

5 6
562

0.6620

Paso 4: La regla de decisin se presenta en la siguiente grfica:

93

Figura: Pruebas para comparacin de dos medias

Paso 5: La decisin es no rechazar la hiptesis nula debido a que el valor del estadstico de
prueba 06620 ha cado en la zona de aceptacin de dicha hiptesis, concluyendo que no
existe diferencia en la habilidad de aplicacin de conocimientos entre los estudiantes a
distancia y los estudiantes de presencial, con un nivel de significancia del 10%.

3.3.3 Prueba de hiptesis para observaciones pareadas o relacionadas.


La caracterstica principal para aplicar este tipo de prueba, es que las muestras sean
dependientes y el tamao de cada muestra sea inferior a 30 elementos seleccionados.
Ejemplo:
Un grupo de alumnos registra un ndice de puntuacin en estadstica, que se considera muy
bajo para aceptarlos al siguiente nivel. Proceden a tomar un curso de nivelacin, obteniendo
los siguientes registros antes y despus del curso. Con un nivel de significancia del 0.05
probar si el curso de nivelacin mejor las condiciones del grupo.
Antes
128
Despus 135

105
110

119
131

140
142

98
105

123
130

127
131

115
110

122
125

145
149

En estas condiciones hay un par de ndices de eficiencia para cada miembro del grupo, antes y
despus del curso,; ste conjunto de pares es lo que se denomina muestra por pares. La prueba
de hiptesis que se realiza para determinar si hay diferencia entre los ndices antes y despus
del curso de nivelacin, es lo que denomina prueba de diferencia por pares. Obsrvese que las
dos muestras, una antes y una despus, dependen entre s, debido a que los mismos alumnos
estn en ambas pruebas, por tanto son dependientes.
La muestra est constituida por la diferencia entre los registros de puntuacin antes y despus
del programa. As, la media de las diferencias entre los registros de rendimiento, se designa
mediante d . Se presenta a continuacin el procedimiento de la prueba:

94

Solucin:
Ho : d 0
Paso 1: H : 0
1
d
La hiptesis nula plantea que no hay diferencia de eficiencia despus del curso. La hiptesis
alternativa plantea que el programa de nivelacin mejor el nivel de los estudiantes.
Paso 2
Se usa un nivel de significancia del 5%, la muestra seleccionada es de 10 estudiantes
considerada pequea muestra, la distribucin de probabilidad a utilizar es la t-student , con
n 1 grados de libertad.
Paso 3
t

El estadstico de prueba a utilizar es:

d
Sd
n

Donde:
d
Sd
n
G.L

:es la media de la diferencia entre las observaciones por pares.


:es la desviacin estndar de las diferencias entre las observaciones por pares.
:es el nmero de observaciones por pares.
:son los grados de libertad (n 1)

Para determinar el calculo del estadstico de prueba se requiere conocer la media de las
diferencias y su desviacin estndar, para lo cual procedemos a su clculo utilizando el
siguiente cuadro:
Cuadro: Calculo estadstico sobre diferencia de medias
Muestra
Registro antes Registro
Diferencia d
despus
1
128
135
7
2
105
110
5
3
119
131
12
4
140
142
2
5
98
105
7
6
123
130
7
7
127
131
4
8
115
110
-5
9
122
125
3
10
145
149
4
Sumas
46

Diferencia
cuadrado
49
25
144
4
49
49
16
25
9
16
386

d
d n
2

d
n

46
4.60
10

Sd

n 1

386

al

462

10
10 1

4.40

Aplicando la frmula, se obtiene:


95

4 .6
d

3.30
4 .4
Sd
10
n

Paso 4
El valor crtico de t para esta prueba de una cola a la derecha, es 1.833 que se obtiene en la
tabla de la distribucin t (anexo D), ubicando en la columna de la izquierda 9 grados de
libertad y recorriendo a la derecha hasta la columna de una cola con 0.05 nivel de
significancia. En la siguiente grfica se indica lo expuesto:
Figura: Prueba de hiptesis por pares

Paso 5
Como el valor t (3.30) est en la regin de rechazo de la hiptesis nula, entonces se acepta la
hiptesis alternativa y se concluye que el programa de adiestramiento para los alumnos fue
eficaz para aumenta su eficiencia.
3.4. Prueba de Hiptesis para Proporciones.
Se entiende por proporcin, la porcin relativa o porcentaje que expresa la parte de la
poblacin o muestra que tiene un atributo particular de inters como el resultado comparativo
de contar algo, Se cuenta el nmero de partes defectuosas; se cuenta el nmero de votantes por
la preferencia de un candidato. As la prueba de proporcin implica niveles nominales de
medida.

3.4.1 Prueba para una proporcin


Para demostrar una proporcin muestral se requiere cumplir con ciertos principios binomiales,
tales como:
1.
Los datos recolectados son el resultado de un conteo.
2.
El resultado de un experimento se clasifica en una de las dos categora
mutuamente excluyentes: un xito o un fracaso.
3.
La probabilidad de xito se mantiene constante.
4.
Los intentos para realizar cada experimento son independientes.
5.
El tamao de la muestra debe ser tan grande para que se d la siguiente
condicin: (n)(p)>5 y (n)(1-p)>5

96

Para realizar una prueba de hiptesis a fin de evaluar la magnitud de la diferencia entre la
proporcin muestral
p y la proporcin poblacional ( P ), se puede usar el siguiente
estadstico de prueba:

PP
P (1 P )
n

donde:
P
es la proporcin muestral.
P
es la proporcin poblacional.
n
es el tamao de la muestra.
De otra manera, en lugar de examinar la proporcin de xitos en una muestra como en el caso
anterior, es posible estudiar el nmero de xitos en una muestra, para determinar el nmero de
xitos esperados o hipotticos en la poblacin, se utiliza el siguiente estadstico de prueba:

X n p
n p q

donde:
X
es el nmero de xitos en la muestra.
P
es la proporcin hipottica de xitos.
PRUEBA UNILATERAL
Ejemplo
Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al menos el 80%
de los votos del barrio donde vive. Dado su inters decide hacer una encuesta en el barrio con
una muestra de 2.000 personas, para ver la posibilidad y 1.550 dieron respuesta favorable por
sus aspiraciones. Pruebe la hiptesis de favorabilidad, con un nivel de significancia del 0.05.
Solucin:
Antes de realizar el procedimiento de los cinco pasos, veamos si cumple la condicin de:
(n)(p)>5
(n)(1-p)>5

(2.000)(0.8)>51.600>5
(2.000)(0.2)>5400>5

Cierto
Cierto

Paso 1
La hiptesis nula se plantea diciendo que Ud. s tiene el 80% de favorabilidad de voto en su
barrio y la hiptesis alternativa en que no alcanza a tener este porcentaje de favorabilidad de
voto. Simblicamente se expresa como sigue:
Ho : P 0.80
H1 : P 0.80

Paso 2
La distribucin de probabilidad a utilizar es la normal estandarizada en Z, con un nivel de
significancia del 5%, con una cola a la izquierda.

97

Paso 3
El estadstico de prueba a utilizar es: Z

PP
P(1 P)
n

Donde:
P
es la proporcin muestral.
P
es la proporcin poblacional.
n
es el tamao de la muestra.
P (1 P )
P
n

es el error estndar de la proporcin poblacional.

Reemplazando los diferentes valores en la ecuacin se tiene:

PP

P (1 P )
n

1.550
0.80
0.025
0.775 0.80
2.000

2.80
0.0089443
0.80(1 0.80)
0.00008
2.000

Paso 4
La regla de decisin se toma sobra la base de un valor critico calculado a partir de la tabla de
distribucin Z, con un rea de 0.4500 (0.5000-0.0500)
Cuadro: Prueba de hiptesis de una proporcin

Paso 5
Como el valor Z (-2080) est en la regin de rechazo de la hiptesis nula, entonces se acepta
la hiptesis alternativa y se concluye la favorabilidad de voto es menos al 80%.

98

PRUEBA BILATERAL
Ejemplo
Probar al nivel de significancia del 0.01 la aseveracin que el 55% de las familias que
planean adquirir una residencia en Melgar desean su ubicacin en un condominio. Para su
estudio Ud. toma una muestra aleatoria de 400 familias que planean comprar una residencia en
Melgar, de las cuales 228 familias desean en un condominio.
Solucin:
Paso 1
La hiptesis nula se plantea diciendo que el 55% de las familias desean adquirir residencia en
un condominio en Melgar.
Ho : P 0.55
H1 : P 0.55

Paso 2
La distribucin de probabilidad a utilizar es la normal estandarizada en Z, con un nivel de
significancia del 1%, con dos colas.

Paso 3 Z

PP

P (1 P )
n

280

0.55
0.02
400

0.80
0.55(1 0.55) 0.0248747
400

Paso 4
La regla de decisin se toma sobre la base del siguiente grafico:
Figura: Prueba de proporcin de dos colas

Paso 5
La hiptesis nula que la proporcin verdadera es del 55% no es rechazada a un nivel de
significancia del 1%, concluyendo que el 55% de las familias planean adquirir residencia
vacacional en Melgar lo desean en un condominio.
A continuacin se proponen dos ejercicios para que los desarrolle aplicando las sugerencias
propuestas:

99

Ejemplo:
Se lanza una moneda 200 veces y se obtienen 105 caras. Si el nivel de significancia es de 1%
probar la hiptesis que la probabilidad de caras es de contra la hiptesis:
a.
Que es mayor de .
b.
Que es menor de .
c.
Que es diferente de .
Sugerencia: En este caso utilice las propiedades de la distribucin binomial donde:

np 200 1 2 100

n p q 2001 2 1 2 7.07

X n p
n p q

Ejemplo
Un fabricante de un empaque para harinas garantiza que tiene una efectividad de 95% en la
proteccin contra la humedad durante un perodo de 6 meses. Se observ una muestra de 100
paquetes encontrndose resultados positivos en 85 paquetes. Comprobar si la afirmacin del
fabricante es verdadera con un nivel de significancia de 0.05.
Sugerencia: Utilizar prueba de una proporcin.
3.4.2 Prueba de hiptesis para diferencias entre dos proporciones
Se presenta a continuacin un ejemplo donde se emplea la prueba de proporcin para dos
poblaciones, utilizando el siguiente estadstico de prueba:

( P1 P2 ) P1 P2
PC (1 PC ) PC (1 PC )

n1
n2

Donde:
n1 Es la cantidad seleccionada en una muestra.
n2 Es la cantidad seleccionada en la otra muestra.
X X2
Es la media ponderada de las proporciones muestrales.
PC 1
n1 n2
X1
Es la cantidad de xitos de la primera muestra.
X2
Es la cantidad de xitos de la segunda muestra.
P1 yP2 Proporcin de xitos de la poblacin uno y dos respectivamente.
Ejemplo
Una fbrica de perfumes ha desarrollado un nuevo producto. Varias pruebas de comparacin
indican que el perfume tiene un buen potencial en el mercado. Sin embargo el departamento
de mercadotecnia y publicidad quieren planear una estrategia de manera que el producto
llegue e impresione al sector ms grande posible del pblico comprador. Una de las preguntas
es si prefiera el perfume una proporcin mayor de mujeres jvenes o una proporcin mayor de

100

mujeres maduras. Por tanto, existen dos poblaciones: una que consta de mujeres jvenes y otra
de damas maduras. Se us una prueba estndar de aroma. Se seleccionaron aleatoriamente
damas y se les pidi que olieran varios perfumes, incluyendo el que suelen usar, y por
supuesto el nuevo perfume. La persona que realiza la prueba es la nica que conoce el
nombre de los perfumes. Cada mujer selecciona el perfume que le agrada ms.
Solucin:
Paso 1
La hiptesis nula se plantea diciendo que no hay diferencia entre la proporcin de mujeres
jvenes y maduras que prefieren el nuevo perfume. La hiptesis alternativa se plantea que las
dos proporciones no son iguales.
Ho : P1 P2
H1 : P1 P2
Se designa P1 (Psubuno) como la proporcin de mujeres jvenes y P2 (Psubdos) como la
proporcin de mujeres maduras.
Paso 2: Se decidi un nivel de significancia del 0.05.
Paso 3: Los planes son tomar una muestra al azar de 100 mujeres jvenes designada por n1
(nsubuno) y una muestra de 200 mujeres mayores designada como n subdos. Los resultados
una vez hecha el experimento dio los siguientes resultados: de las 100 mujeres jvenes 20
eligieron el nuevo perfume, designando este valor como X subuno; y de las 200 mujeres
maduras 100 prefirieron el nuevo perfume, designando este valor como X subdos.
La proporcin ponderada, da como resultado:

PC

20 100 120
X1 X 2

0.40
100 200 300
n1 n2

P1 P2
PC (1 PC ) PC (1 PC )

n1
n2

20
100
0.30
100
200

5.0
0.06
0.40(1 0.40) 0.40(1 0.40)

100
200

Paso 4
Los valores crticos para un nivel de significancia del 5% son 1.96 y +1.96. Igual que en los
otros casos, la siguiente grafica establece la regla de decisin:

101

Figura: prueba de dos proporciones

Paso 5
El valor de Z calculado de 5.0 se encuentra en el rea de rechazo de la hiptesis nula. Por
tanto, la hiptesis que las proporciones son iguales se rechaza a un nivel del 5% de
significancia.
Ejercicio: Diferencia de proporciones
Dos lotes de frutas conformados cada uno por 250 unidades son tratados y almacenados en
iguales condiciones salvo que el lote No 1 est a temperatura ligeramente inferior que el lote
No 2. Pasado un tiempo se encuentra que el lote No 1 hay 225 frutas sanas y en el lote No 2
hay 200 sanas. Probar la hiptesis que la temperatura ms baja favorece la conservacin de las
frutas al nivel de significacin de 0.05.
Ho : P1 P2
Paso 1: H : P P
1
1
2
Paso 2: Utilizando la distribucin de probabilidad normal con ensayo unilateral a la derecha
con un nivel significativo de 0.05, el valor critico es de 1.645.
Paso 3: Z

P1 P2
PC (1 PC ) PC (1 PC )

n1
n2

PC

0.90 0.80
0.10

3.13
(0.85)(0.15) (0.85)(0.15) 0.0319

250
250

X 1 X 2 225 200

0.85
250 250
n1 n2

102

Figura: Prueba de dos proporciones

Como 3.12>1.645 se rechaza la hiptesis nula y se acepta la hiptesis alternativa.


Paso 5
La temperatura ms baja favorece la conservacin de las frutas.
3.5. Pruebas de hiptesis para la varianza
Como su nombre lo indica, consiste en comparar tres o ms medias de una muestra para
identificar su homogeneidad o variabilidad. esta tcnica estadstica, normalmente es utilizada
para analizar resultados en la investigacin con diseos experimentales y cuasiexperimentales; muchas veces necesitamos comparar dos o ms distribuciones que
corresponden a variaciones de una misma variable dependiente, afectada por una o ms
variables independientes.
Comparacin de Varianzas de Dos Poblacionales:
Su utilidad radica en determinar si una poblacin normal tiene ms variacin que otra
poblacin que se considera tambin normal. Como ejemplo se pueden mencionar, si dos
mquinas dedicadas a producir cierto artculo de precisin pueden ser confiables en el control
de calidad, es decir, el producto tiene el mismo largor, el mismo dimetro y las variaciones
presentadas son similares.

Ejemplo 16
La tasa media de rendimiento de dos tipos de acciones se pueden apreciar en el siguiente
cuadro, se desea saber si el rendimiento promedio es diferente a un nivel de significancia del
0.10.
Acciones
Tipo A
Tipo B

Rendimiento
promedio
56
58

Desviacin
estndar
12
5

Tamao de la
muestra
7
8

103

Ho : 12 22

Paso 1:

H1 : 12 22

La variacin de los rendimientos promedios de las acciones es igual como la hiptesis nula.
La variacin de los rendimientos de las acciones es diferente como hiptesis alternativa.
Paso 2: Se selecciona un nivel de significancia de 0.01 utilizando la distribucin F.
Paso 3: El valor del estadstico de prueba sigue una distribucin F, con la siguiente relacin:

S12 12 2
2 5.76
S 22
5

Se acostumbra a colocar el mayor valor en el numerador, de tal forma que la relacin siempre
ser por lo menos igual a uno.
Paso 4
El valor crtico se obtiene del Anexo F, para lo cual se reproduce una parte de la tabla. Debido
a que utiliza una prueba de dos colas, el nivel de significancia para cada cola ser de:

0.10 0.05 .
2

Grados de libertad para el numerador: n 1 = 7-1 = 6


Grados de libertad para el denominador: n 1 : 8 1 = 7
Para encontrar el valor crtico, se incorpora parte de la tabla del Anexo F:
Cuadro: Grados libertad numerador denominador

G.L
Denominador
1
2
3
4
5
6
7
8
9
10

GRADOS LIBERTAD
NUMERADOR
5
6
7

230
19.3
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33

239
19.4
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07

234
19.3
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22

2.7
19.4
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14

104

Paso 5: Dado que el valor de la distribucin F (5.76) se encuentra a la derecha del valor crtico
(3.87), se acepta la hiptesis alternativa y se concluye que los rendimientos promedios de las
acciones son diferentes.
EJERCICIOS COMPLEMENTARIOS
1. La secretaria de salud quiere saber si esta en lo cierto, cuando afirma que la proporcin de
fumadores en su localidad, para personas mayores de 16 aos es del 40%. La secretara
lleva a cabo una muestra de 600 personas mayores de 16 aos, de las cuales 210 son
fumadoras. Pruebe la hiptesis de que la proporcin de fumadores mayores de 16 aos es
diferente del 40%, para un nivel de significancia de 0.05.
2. A nueve pacientes que sufren de la misma enfermedad fsica, pero de lo contrario
comparables, se les pidi que llevaran a cabo cierta tarea como parte de un experimento.
El tiempo promedio requerido para realizar la tarea fue de 7 minutos, con una
desviacin estndar de 2 minutos. Probar la hiptesis nula de que el promedio de la
poblacin () es de 10 minutos con un nivel de significancia de 10%.
3. Una muestra de 100 pacientes con la enfermedad "A", admitidos en un hospital de
enfermedades crnicas, permanecieron en el hospital como trmino medio 35 das. Otra
muestra de 100 pacientes con la enfermedad "B" permaneci en promedio 28 das.
Si las desviaciones estndar para las dos poblaciones son estimadas en 10 y 15
respectivamente.
Proporcionan estos datos evidencia suficiente que indique que la permanencia promedio
en el hospital para pacientes con la enfermedad "A" es algo diferente a la permanencia
promedio para los pacientes con la enfermedad "B"? con un nivel de significancia de 1%
4. Una muestra de 25 nios de 10 aos proporcionaron un peso medio y una desviacin
estndar de 36.5 Kg. y 5 Kg., respectivamente. Suponiendo una distribucin normalmente
repartida. Proporcionan estos datos evidencia suficiente como para indicar que "" es
diferente de 37.5? Considere un nivel de significancia de 5%

5. Supongamos que se quiere estudiar la efectividad de una dieta y se nos proporciona la


siguiente informacin referente a los pesos, antes y despus en una muestra al azar de 8
mujeres adultas con edades de 35 a 40 aos o ms (datos en libras):
Mujeres N
Antes x
Despus y

137 130 124 138 149 140 168 152


132 121 126 130 147 141 159 147

Probar al nivel del 5% que la dieta fue efectiva.


6. Una encuesta de 64 profesionales de una institucin hospitalaria revel que el tiempo
promedio para la accin de cierta droga es de 5 horas, con una desviacin tpica de 4
horas. Sirven estos datos de soporte a la hiptesis de que el tiempo promedio de accin
para este medicamento est por debajo de 6 horas? Con una significancia de 5%

105

3.6

Aplicaciones en Excel y SPSS.1

A.
Excel
Excel dispone de funciones que permiten realizar contrastes de hiptesis de igualdad de
medias y varianzas, de independencia y ajuste de la chi cuadrado y otros contrastes. A
continuacin se presenta la sintaxis de estas funciones:
Cuadro: Funciones de pruebas de hiptesis
PRUEBA. CHI (rango Realiza las pruebas de independencia y ajuste de la CHI
1; rango 2)
CUADRADO para los valores actuales (definidos por rango
1) y esperados dados (definidos por rango 2). Calcula el
valor de la CHI CUADRADO y el p-valor del contraste.
PRUEBA F (x, y)
Realiza la prueba de igualdad de varianzas para dos
muestras x e y, calculando la probabilidad de la igualdad.
PRUEBA T( x; y)
Realiza la prueba T de Student de igualdad de medias para
dos muestras x e y, calculando la probabilidad de la
igualdad. El parmetro n puede valer 1 2, segn el nmero
de colas de la T. El parmetro tipo vale 1 si los datos son
pareados, vale 2 si las varianzas de las muestras se suponen
iguales, y vale 3 si las varianzas de las muestras se suponen
desiguales.
PRUEBA Z (x; a; b)
Realiza la prueba de que la observacin a provenga de la
poblacin cuya muestra es x, siendo b la desviacin tpica.
La funcin devuelve la probabilidad de dicho evento.
B.

SPSS

Ejemplo 2.17
Un agente de seguros vende plizas a cinco individuos todos de la misma edad. De acuerdo
con las tablas actuariales, la probabilidad de que una persona con esa edad viva 30 aos ms
es de 3/5. Determine la probabilidad que dentro de 30 aos vivan:
a.
Al menos 3 individuos.
b.
Como mucho dos individuos.
Dado que la situacin de cada individuo es que viva o que no viva, y una de las dos
alternativas se debe de presentar, la situacin de cada individuo se ajusta a una variable de
Bernoulli con probabilidad de xito (vivir 30 aos ms) igual a 3./5 = 0.6. Al considerar los 5
individuos, se esta ante una variable X Binomial con n = 5, p = 0.6. Se designa F(X) como la
funcin de distribucin, en donde para el literal a, habr de calcularse P(X>=3).
Para calcular la probabilidad pedida se selecciona transformar, calcular (previamente es
necesario tener cargado un fichero cualquiera en memoria como se indica en la siguiente
figura..
Figura: Editor de SPSS

106

Se trata de identificar la distribucin Bernoulli, que solicita la cantidad y la probabilidad para


calcular la probabilidad acumulada para los parmetros solicitados. En la figura siguiente se
detalla la funcin desplegada en la ayuda.
Figura: Funcin de distribucin acumulada

En la siguiente figura se muestra la pantalla como resultado de la seleccin relacionada con el


clculo de la variable.
Figura: Bernoulli

107

3.6.1 Actividades de aprendizaje.


Excel contiene varias herramientas de anlisis tiles para realizar contrastes de hiptesis. La
opcin anlisis de datos del men herramientas le lleva al cuadro de dialogo de la siguiente
figura:
Figura:Ventana de anlisis de datos

Observe que puede realizar contrastes de pruebas t para medias de dos muestras emparejadas,
para dos muestras suponiendo varianzas iguales, para dos muestras suponiendo varianzas
desiguales y prueba z para medias de dos muestras.

PRUEBA T PARA MEDIAS DE DOS MUESTRAS ENPAREJADAS


Es posible ejecutar una prueba T de Student de dos muestras pareadas para determinar si las
medias de las dos muestras son iguales suponiendo que las varianzas de ambos conjuntos de
datos son iguales. Esta prueba generalmente se utiliza cuando un par natural de observaciones
en las muestras, como por ejemplo, cuando un grupo de muestra se somete dos veces a prueba,
antes de un experimento y despus de este. Si elige dicha opcin en el cuadro de dialogo
aparece la siguiente figura:

Figura: Ventana de prueba t de dos muestras

108

Rango para la variable 1 y 2: Se introduce la referencia de celda correspondiente al primer y


segundo rango de datos que desea analizar. El rango debe constar de una nica fila o una
nica columna.
Diferencia hipottica entre medias: Se introduce el nmero cero para indicar, que segn la
hiptesis, las medias de las muestras son iguales.
Rtulos: Activa la casilla si la primera fila o columna del rango de entrada contiene rtulos y
la desactiva si carece de rtulos. El programa genera los rtulos de datos correspondientes
para la tabla de resultados.
Alfa: Se introduce el nivel de significancia para la prueba, valor que debe estar comprendido
entre el rango de cero y uno. El nivel alfa es un nivel de importancia relacionado con la
probabilidad de que haya un error de tipo I (rechazar una hiptesis verdadera).
Rango de salida: Se introduce la referencia correspondiente a la celda superior izquierda de la
tabla de resultados y el programa determina el tamao del rea de resultados y muestra un
mensaje si la tabla de resultados reemplaza datos ya existentes.
En cuanto a las opciones de salida, se presenta En una hoja nueva para insertar una hoja en
el libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja de clculo.
En un libro nuevo para crear un nuevo libro y pegar los resultados en una hoja del libro
creado.
En el siguiente ejemplo de muestras emparejadas suponga que en un experimento de 6 lotes de
terreno, la mitad de cada lote fue sembrado con una semilla resistente y la otra mitad con
semilla corriente. Los resultado al momento de la recoleccin fue el siguiente en Kilos:
Semilla resistente
84
76
104
103
91
90

Semilla corriente
72
70
90
94
93
90

Se desea probar si existe alguna diferencia significativa entre las semillas. En el presente
ejemplo de muestras apareadas se tiene la opcin de salida utilizando despus de haber
registrado la informacin:

109

Figura:Resultados de prueba de muestras pareadas

De acuerdo con los resultados se rechaza la igualdad de medias para el contraste de una cola
puesto que el valor crtico de T (2,01504918) es menor que el valor del estadstico de prueba t
(2,47152458), es decir, esta ubicado en la regin critica o de rechazo de la hiptesis nula.
Adems, la probabilidad o p-valor (0.02821228) es menor que el nivel alfa propuesto de 0.05.
Observando los resultados para el contraste de dos colas, se acepta la igualdad de medias,
puesto que el valor crtico de t (2.57057764) es mayor que el valor del estadstico de prueba t
(2.47152458), es decir, cae fuera de la regin crtica o de rechazo, adems, la probabilidad o
p-valor (0.05642456) es mayor ligeramente al nivel alfa estipulado de 0.05.
PRUEBA T PARA
DESCONOCIDAS.

DOS

MUESTRAS

SUPONIENDO

VARIANZAS

IGUALES

En Excel es posible ejecutar una prueba t de Student en dos muestras para determinar si sus
medias son iguales suponiendo que las varianzas de ambos conjuntos de datos son
desconocidas e iguales. Esta prueba se conoce con el nombre de prueba t homocedstica. En el
cuadro de dilogo de Anlisis de datos se elige prueba t para dos muestras suponiendo
varianzas iguales. El siguiente ejemplo permite entender el contraste, suponga que se estn
utilizando ampollas de la marca A durante muchos aos, pero se contempla el cambio a la
marca B debido a un mejor precio. Se afirma que la marca B es tan bueno como el A y a fin
de contrastar dicha afirmacin se toman las siguientes muestras de cada una de las marcas y se
verifica el tiempo en horas de efecto y si se admite que no existe competencia entre las dos
marcas, se trata de probar la hiptesis de que el efecto en horas de las ampollas de la marca B
es igual a las de la marca A.
El cuadro de dialogo para la prueba se muestra a continuacin:

110

Figura: Prueba t para dos muestras

La salida correspondiente a las opciones de la prueba t para dos muestras suponiendo


varianzas iguales se muestran en la siguiente figura:
Figura: Resultados prueba t dos muestras

En el ejemplo de las ampollas marca A y B se puede apreciar en el cuadro anterior que se


rechaza la igualdad de medias, tanto para el contraste de una cola como para el contraste de
dos colas, puesto que ambos valores crticos de t (1.7396064 y 2.1098185) son menores que el
valor del estadstico de prueba t (2.5235223), es decir, caen dentro de la regin crtica o de

111

rechazo. Adems las dos probabilidades o p-valores (0.0109339 y 0.0218678) son menores
que el alfa propuesto de 0.05.
PRUEBA T PARA DOS MUESTRA SUPONIENDO VARIANZAS DESIGUALES Y
DESCONOCIDAS.
En Excel es posible ejecutar una prueba t Student en dos muestras para determinar si sus
medias son iguales, suponiendo que las varianzas de ambos conjuntos de datos son
desconocidas y desiguales. Esta prueba se conoce con el nombre de prueba t heterocedstica.
Si en el cuadro de dialogo de Anlisis de datos se elige la prueba t para dos muestras
suponiendo varianzas desiguales, se obtiene el siguiente cuadro de dilogo:
Figura: Ventana para prueba t de dos muestras

Para entender la prueba de t para dos muestras suponga que un ingeniero qumico quiere
analizar la cantidad de nicotina de dos marcas diferentes de cigarrillos (X y Y) para lo cual
dispone de la informacin que se presenta junto con el cuadro de salida de la prueba:
Figura: Resultados para prueba t de dos muestras

112

En el ejemplo del contenido de nicotina para las dos marcas de cigarrillos, se rechaza la
igualdad promedio de nicotina, tanto para el contraste de una cola como para el contraste de
dos colas, puesto que ambos valores crticos de t (1.7396064 y 2.1098185) son menores que el
valor estadstico de prueba t (2.5156445), es decir, caen dentro de la regin crtica o de
rechazo. Adems las dos probabilidades o p-valores (0.011112 y 0.0222241) son menores que
el nivel alfa propuesto de 0.05.
CONTRASTE
CONOCIDAS.

Z PARA DIFERENCIAS DE MEDIAS SUPONIENDO VARIANZAS

En Excel tambin es posible ejecutar una prueba Z de la normal en dos muestras para
determinar si sus medias son iguales, suponiendo que las varianzas de ambos conjuntos de
datos son conocidas. Si en el cuadro de dilogo Anlisis de datos se elige la opcin Prueba
Z para medias de dos muestras, suponiendo que las cifras que se registran corresponden al
anlisis de protenas realizadas a una misma variedad de trigo cosechada en dos distritos
diferentes, y se desea contrastar si existe alguna diferencia significativa en la cantidad
promedio de protena en los dos distritos, se obtiene el siguiente cuadro de dilogo:
Figura: Ventana para prueba z de dos muestras

La opcin de salida se muestra en el siguiente cuadro u corresponde a las opciones de la


prueba Z para medias de dos muestras:
Figura: Resultados de una prueba Z para dos muestras

113

En el presente ejemplo de las muestras de trigo de los dos distritos, se acepta la igualdad del
contenido promedio de protenas, tanto para el contraste de una cola como para el contraste de
dos colas, puesto que ambos valores crticos de Z ( 1.64485348 y 1.95996279) son mayores
que el valor estadstico de prueba Z (0.19377279), es decir, cae fuera de la regin crtica o de
rechazo. Adems, la probabilidad o p-valor (0.42317692) es mayor que el nivel alfa
preestablecido de 0.05.

3.6.2 Otras aplicaciones en Excel y SPSS.


A. Excel
GENERACIN DE NMEROS ALEATORIOS
Excel dispone de funciones para la obtencin de nmeros aleatorios independientes, extrados
segn una distribucin dada, utilizando herramientas de anlisis. Si en el cuadro de dilogo
Anlisis de datos de la figura 2.5 elige Generacin de nmeros aleatorios de la figura
2.6.
Figura: Ventana de anlisis de datos

Figura: Generacin de nmeros aleatorios

En el cuadro de nmero de variables introduzca el nmero de columnas de valores que desee


incluir en la tabla de resultados; si no introduce valor alguno, el programa rellenar todas las

114

columnas del rango de salida que se haya especificado. En el cuadro de Cantidad de nmeros
aleatorios introduzca el nmero de puntos de datos que dese ver; si no introduce algn
nmero el programa rellenar todas las columnas del rango de salida que haya especificado.
En el cuadro de Distribucin haga clic en distribucin estadstica que desee utilizar para
crear los valores aleatorios
Las distribuciones posibles son:
Uniforme: caracterizada por los lmites inferior y superior. Se extraen las
variables con probabilidades iguales de todos los valores del rango.
Normal: Caracterizada por una media y una desviacin estndar. Una
aplicacin normal utiliza una media cero y una desviacin estndar de uno para
la distribucin estndar normal.
Bernoulli: Caracterizada por la probabilidad de xito (valor P) en un ensayo
dado. Las variables aleatorias de Bernoulli tiene un valor cero uno; por
ejemplo, puede trazarse una variable aleatoria uniforme en el rango 0...... Si la
variable es menor o igual que la probabilidad de xito, se asigna el valor uno a
la variable aleatoria de Bernoulli; en caso contrario se le asigna el valor de
cero.
Binomial: Caracterizada por una probabilidad de xito (valor P) durante un
nmero de pruebas; por ejemplo, se puede generar variables aleatorias de
Bernoulli de nmero de pruebas, cuya suma es una variable aleatoria binomial.
1
Poisson: Caracterizada por un valor lambda, igual a
. La distribucin
Media
de Poisson se utiliza con frecuencia para caracterizar el nmero de incidencias
por unidad de tiempo; por ejemplo, el ritmo promedio al que llegan los
vehculos a una garita de peaje.
Frecuencia relativa: Caracterizada por un lmite inferior y superior, un
incremento, un porcentaje de repeticin para valores y un ritmo de repeticin
de la secuencia.
Discreta: Caracterizada por un valor y el rango de probabilidades asociado. El
rango debe contener dos columnas. La columna izquierda debe contener
valores, y la derecha probabilidades asociadas con el valor de esa fila. La suma
de las probabilidades debe ser igual a uno
En el campo de parmetros introduzca un valor o varios valores para caracterizar la
distribucin seleccionada.- En el campo Iniciar con escriba un valor opcional a partir del
cual se generan los nmeros aleatorios. En el cuadro de Rango de salida introduzca la
referencia correspondiente a la celda superior izquierda de la tabla de resultados. Haga clic en
aceptar y se muestra la salida correspondiente a la opcin de generacin de nmeros aleatorios
OBTENCIN DE MUESTRA ALEATORIA SIMPLE
Adicionalmente Excel permite obtener una muestra aleatoria simple con reposicin de una
poblacin numerada dada como rango de entrada. En el cuadro de dilogo Anlisis de datos
se elige Muestra como se indica en el cuadro 2.7, se obtiene el cuadro de dilogo de la

115

muestra de la figura 2.8. A continuacin se explica la funcionalidad de todos los campos del
cuadro de dilogo de la muestra.
Figura: Ventana de anlisis de datos

Figura: Ventana del dialogo para la muestra

Rango de entra: Introduzca la referencia correspondiente al rango de datos que contenga la


poblacin de valores de los que desee extraer una muestra.
Rtulos: Active sta casilla si la primer afila y la primera columna del rango de entrada
contiene rotulo. Desactive si el rango de entrada carece de rotulo.
Mtodo de muestreo: Haga clic en el peridico o aleatorio para indicar el intervalo de
muestreo que desee.
Periodo: Introduzca el intervalo en el que desee realizar la muestra. El valor n del perodo del
rango de entrada y cada valor n del perodo siguiente se copian en la columna de resultados.
El muestreo termina cuando se llegue al final del rango de entrada.
Nmero de muestra: Introduzca el nmero de valores aleatorios que desee en la columna de
resultados. Cada valor se extrae de una posicin aleatoria del rango de entrada, y puede
seleccionarse cualquier nmero ms de una vez.
Rango de salida: Introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados. Los datos se escriben en una sola columna debajo de la celda. Si
selecciona Peridico, el nmero de valores de la tabla de resultados es igual al nmero de
valores del rango de entrada dividido por la tasa de muestreo. Si selecciona Aleatorio, el
nmero de valores de la tabla de resultados es igual al nmero de muestras.

116

En hoja nueva: Hace clic en sta opcin para insertar nueva hoja en e libro actual y pegar los
resultados, comenzando por la celda A1 de la nueva hoja de clculo. Para darle un nombre a la
nueva hoja de clculo, escrbalo en el cuadro.
En libro nuevo: Haga clic en sta opcin para crear un libro nuevo y pegar los resultados en
una hoja nueva del libro creado.
Al pulsar aceptar en la figura 2.8, se obtiene la muestra aleatoria simple con sin reposicin.

B.

SPSS

Ordenar casos
Para ordenar una variable aleatoria de un archivo en SPSS, elija en los mens: datos,
seleccionar casos como se indica en la figura:
Figura: Editor de datos SPSS

Al hacer clic en ordenar datos aparece la siguiente figura que permite ordenar por la variable
en que se est interesado, para el caso se ha seleccionada la edad.
Figura:

117

Seleccionar una muestra aleatoria


En la barra de men elija datos, y selecciona casos como se indica en la figura:
Figura: Seleccin de casos

Al pulsar clic en seleccionar casos se logra la siguiente figura:

Al lado derecho de la figura selecciona muestra aleatoria de casos y pulsando muestra le


obtiene la siguiente figura:
Figura: Seleccin casos muestra aleatoria

El mtodo de muestreo le permite introducir el porcentaje o el nmero de casos, que para el


caso se selecciona el 10% y hace clic en aceptar, donde se puede observar en la vista de datos
la seleccin de la muestra correspondiente al 10% del total de la muestra.

118

Actividades de aprendizaje.
Ejercicio
Generar 20 nmeros aleatorios distribuidos uniformemente en el intervalo (0,1). Generar
igualmente 20 nmeros aleatorios entre 50 y 100.
Desarrollo: En la primera fila escribe en A1 nmero de orden; En A2 escribe
ALEATORIO (0,1) y en A3 ALEATORIO (50,100), como se indica en la siguiente pantalla:
Figura 2.14 Ventana Excel de entrada de informacin

Aunque no es necesario en este caso, se inicia introduciendo los 20 primeros nmeros


naturales en el rango A2:A21 aunque solo sea para usarlos como referencia. En la celda B2
introduce la frmula =ALEATORIO(), y en la celda C2 introduce la frmula
=ALEATORIO.ENTRE(50;100). En la figura 2.14 se present la estructura de frmulas, y los
resultados obtenidos al arrastrar hacia abajo 20 lugares ambas frmulas.
Ejercicio:
Generar 15 nmeros aleatorios distribuidos segn una variable de Poisson de media 4 y segn
una binomial(40,1/10)
Desarrollo:
En el men Herramientas de Excel elige Anlisis de datos, a continuacin selecciona
Generacin de nmeros aleatorios y rellena la pantalla de entrada como se indica en la
figura 2.7 y 2.8, obteniendo los resultados de la figura 2.9. Se observa que los rangos de los
dos conjuntos de nmeros aleatorios son parecidos, puesto que una binomial (n,p) puede
aproximarse por una Poisson de parmetros np, siempre que np 5 y p 1
para el caso
10
del enunciado.

119

Figura: Ventana variable Poisson

Figura: Ventana variable binomial

Figura: Resultados ejercicio 2

120

Resumen
Cuando las personas toman decisiones lo hacen con base en creencias que tienen en relacin a
su concepto de realidad. Cada una de estas creencias origina una hiptesis, que es una
proposicin avanzada con posibilidad de ser verdadera. La prueba de hiptesis es un mtodo
sistemtico de evaluar creencias sobre la realidad que requiere de la confrontacin de una
creencia con una evidencia y decidir si puede mantenerse como razonable o descartarse por
insostenible, e intervienen 5 pasos principales.
El primer paso es la formulacin de dos hiptesis opuestas, la hiptesis nula simbolizada por
H 0 y la hiptesis alternativa simbolizada por H1 siendo ambas mutuamente excluyentes y
tambin colectivamente exhaustivas, las cuales se pueden expresar en varias formas, mientras
que la hiptesis nula puede ser expresada como exacta o inexacta, la alternativa siempre se
expresa como inexacta de dos o una cola.
El paso dos es la determinacin del nivel de significancia y por supuestamente el tipo de
distribucin de probabilidad a utilizar, con el propsito de fijar los puntos crticos de la
prueba, sea para una prueba de una cola o de dos colas.
El paso tres es la seleccin del estadstico de prueba a calcular a travs de una muestra
aleatoria simple tomada de la poblacin de inters para establecer la probable verdad o
falsedad de la hiptesis nula.
El paso cuatro es la confrontacin con la regla de decisin, que consiste en aceptar o rechazar
la hiptesis nula. El rechazo errneo de una hiptesis nula que en realidad es verdadera se
llama error tipo I y ocurre con una probabilidad de . La aceptacin errnea de una hiptesis
nula que en efecto es falsa se llama error tipo II y ocurre con una probabilidad . Dado el
tamao muestral de n, cualquier cosa que reduzca har aumentar en forma automtica.
Las dos probabilidades complementarias 1 con respecto a y 1 con respecto a , se
conocen respectivamente como el nivel de confianza y la potencia de la prueba de hiptesis.
La relacin entre los errores tipo I y tipo II se pueden describir con ayuda de la
correspondiente curva.
El paso 5 es la toma de la decisin con relacin a la hiptesis nula planteada. Los
procedimientos modernos de pruebas de hiptesis an estn sujetos a controversia
considerable y los crticos presentan preocupaciones por las violaciones serias de
suposiciones.

121

CAPITULO CUATRO
4. ANLISIS DE VARIANZA
Introduccin.
En esta unidad se prosigue con el anlisis de pruebas de hiptesis. Recuerde que en captulo
anterior se examin la teora general de la prueba de hiptesis y se describi el caso en el que
fue seleccionada una muestra grande a partir de la poblacin. Se emple la distribucin Z
como base para determinar si es razonable concluir que una media calculada a partir de una
muestra, proviene de una poblacin hipottica. Adems se prob si dos medias muestrales
provienen de poblaciones iguales. Tambin se efectuaron pruebas de una y dos muestras para
relaciones proporcionales utilizando la distribucin normal como entidad estadstica de
prueba. Se utiliz la distribucin t como entidad estadstica de prueba para muestras
pequeas (con menos de 30 observaciones)
Cuando se desea conocer la homogeneidad que existe entre tres o ms medias muestrales, se
procede a determinar la variabilidad entre esas medias, tcnica que se conoce como anlisis
de varianza. Es decir, cuando productos o individuos son sometidos a tratamientos
determinados para ver cmo stos influyen en resultados o comportamientos, lo ms
aconsejable es utilizar la tcnica de anlisis de varianza.
El objetivo del anlisis de varianza es determinar cuales son las variables independientes de
importancia en un estudio, y en qu forma interactan y afectan la respuesta.
Objetivo general.
Reconocer la importancia principios en que se basa y campos de aplicacin de la tcnica de
Anlisis de Varianza.
Objetivo especfico.
Comprender la nocin general del anlisis de varianza.
Realizar una prueba de hiptesis para determinar si dos varianzas muestrales
provienen de poblaciones iguales.
Probar e interpretar hiptesis aplicando el anlisis simple de varianza.
Establecer y organizar datos en una tabla de ANOVA de una y de dos direcciones.
Plantear, probar e interpretar hiptesis de anlisis de varianza de dos factores de
diseo de bloque aleatorizado.
Plantear, probar e interpretar hiptesis de anlisis de varianza de dos factores con
interaccin o diseo de factorial.
Definir los trminos tratamientos y bloques.
Dar a conocer el manejo de la herramienta de Anlisis de varianza en Excel.
4.1. Generalidades.
Como su nombre lo indica, el ANALISIS DE VARIANZA, consiste en comparar tres o ms
medias de una muestra para identificar su homogeneidad o variabilidad.

122

Del anlisis de varianza, podemos decir que esta tcnica estadstica, normalmente es utilizada
para analizar resultados en la investigacin con diseos experimentales y cuasiexperimentales; muchas veces necesitamos comparar dos o ms distribuciones que
corresponden a variaciones de una misma variable dependiente, afectada por una o ms
variables independientes.
Tericamente es posible dividir la variabilidad del resultado de un experimento en dos partes:
la originada por factores o tratamientos que influyen directamente en el resultado del
experimento, y la producida por el resto de factores desconocidos o no controlables, que se
conoce con el nombre de error experimental
Un modelo de anlisis de varianza es de efectos fijos cuando los resultados obtenidos slo son
vlidos para esos determinados niveles del factor estudiado y lo que ocurra a otros niveles del
factor puede ser diferente.
Un modelo de anlisis de varianza es de efectos aleatorios cuando los resultados obtenidos
son vlidos para cualquier nivel del factor estudiado.
Un modelo es replicado si el experimento se repite varias veces para cada nivel del factor; en
caso contrario se dice que el modelo es por unidad de casilla.
SUPUESTOS DEL ANLISIS DE VARIANZA
Para cada poblacin la variable de respuesta est normalmente distribuida.
La varianza de la variable respuesta es la misma para todas las poblaciones.
Las observaciones deben ser independientes.
4.2. Comparacin Mltiple de Medias Muestrales.
El anlisis de varianza se usa para probar la igualdad de K medias poblacionales y la forma
general del planteamiento de las hiptesis es:
H o : 1 2 ... K
H 1 : No todas las medias de la poblacin son iguales.

Donde: j = Media de la j-sima poblacin.


Si supone que se ha tomado una muestra aleatoria simple de tamao n j de cada una de las K
poblaciones, se tiene:
X ij Valor de cada observacin i para el tratamiento j.
n j Cantidad de observaciones en el j - simo tratamiento.
X j Media de la muestra del j - simo tratamiento.
S2j Varianza de la muestra del j - simo tratamiento.
S j Desviacin estndar de la muestra del j - simo tratamiento.
La media general de las muestra, est representada por X , y es la suma de todas las
observaciones divida entre la cantidad total de las mismas, expresada de la siguiente forma:
123

nj

X
X

ij

j 1 i 1

nt

Donde: nt n1 n2 ... nK
Si el tamao de cada muestra es n, nT kn , la ecuacin de la media general se reduce a:
K

nj

X ij
X

j 1 i 1

nj

j 1 i 1

nt

X ij

j 1

En otras palabras, cuando los tamaos de muestra son iguales, la media general muestral es
justamente el promedio de las medias de las K muestras.
Ejemplo:
Suponga que una empresa tiene tres dependencias diferentes en donde produce tubos de
iluminacin, y desea verificar el control de calidad en cuanto a duracin se refiere de las
bombillas, y para ello toma una muestra de 6 unidades de cada factora y las somete a desgaste
hasta que dejan de iluminar con los siguientes resultados en horas:
Observacin
1
2
3
4
5
6
XJ

Planta 1
85
75
82
76
71
85
79

Planta 2
71
75
73
74
69
82
74

Planta 3
59
64
62
69
75
67
66

S J2

34

20

32

SJ

5.83

4.47

5.66

nJ

18

474

444

396

1314

total

73

iJ

J !

Solucin:
La media general es igual a:
3

X
X

J 1

nJ

79 74 66 219

73
18
3

Se observa que se obtienen las medias para cada tratamiento (79,74,66) y una media general
(73). Para llevar a cabo la prueba de la igualdad de las medias de la poblacin, se subdivide la
variacin total en dos mediciones:
Diferencia entre los grupos.
Diferencia dentro de los grupos.

124

La varianza de la muestra total se particiona en la varianza dentro de las plantas y la varianza


entre las plantas, tal como se indica en el siguiente grfico:
Figura 5.1 Componentes de la variacin total
Variacin
total (VT)

Variacin
dentro del
grupo (VDG)

Variacin total (VT) = X ij X


j 1 i 1

Variacin entre
grupo (VEG)

= VT

X X 85 732 75 732 ... 71 732 75 732 ...


ij
6

VT

i 1

J 1

X
X

59 732 64 732 946

j 1 i 1

ij

La gran media o media general.

n
X ij es la i-sima observacin del grupo, nivel o tratamiento j.
n j es el nmero de observaciones del grupo, nivel o tratamiento j.

n es el total del nmero de observaciones en todos los grupos combinados.


K es el nmero de grupos, niveles o tratamientos del factor de inters.
k

Variacin dentro del grupo (VDG) = X ij X j

= VDG

j 1 i 1

85 79 2 75 792 ... 71 742 75 742 ...


VDG
2
2
j 1 I 1 59 66 64 66 .... 430
3

X ij es la i-sima observacin del grupo, nivel o tratamiento j.

X j es la media de la muestra del grupo, nivel o tratamiento j.


K

Variacin entre grupos (VEG) =

n
j 1

= VEG

2
2
2
VEG n6 X X 679 73 674 73 666 73 516

J 1

125

K= es el nmero de grupos, niveles o tratamientos que se estn comparando.


n j es el nmero de observaciones del grupo, nivel o tratamiento j.
X j es la media de la muestra del grupo, nivel o tratamiento j.
X es la media general o gran media.
Compruebe que la variacin total sea igual a la sumatoria de la variacin entre y dentro de los
grupos.
Puesto que K niveles estn siendo comparados, existen (K-1) grados de libertad asociados con
la suma de cuadrados entre los grupos, niveles o tratamientos. Como cada uno de los K
niveles contribuye con ( n j 1 ) grados de libertad, existen (nk) grados de libertad asociados
con la suma de cuadrados dentro de los grupos.
Si cada suma de cuadrados se divide entre sus grados de libertad asociados, se obtienen tras
varianzas o trminos cuadrticos medios, como se indica en el siguiente cuadro:
Cuadro: Componentes del anlisis de varianza
Variacin
Suma cuadrados Grados
libertad
K
2
Entre
(K-1)
nj X j X
tratamiento

j 1

Dentro o error

(n-K)

VDT
B
n k

(n-1)

VT
n 1

ij

X j

ij

j 1 i 1

Total

X
j 1 i 1

Cuadrado
medio
VET
A
K 1

Distribucin
F
A
B

Los resultados para el problema de anlisis es el siguiente:


Cuadro: Resultados del anlisis de varianza
Variacin
Suma cuadrados Grados
libertad
Entre
516
(K-1)= 2
tratamiento
Dentro o error
430
(n-K)=15
Total

946

Cuadrado
medio
516
258.00
2
430
28.67
15

Distribucin
F
258
8.99
28.67

(n-1)=17

En el anexo F Tabla de Distribucin F determina el correspondiente valor crtico para el


numerador (k-1= 3-1=2) y el denominador (n-K = 18-3=15), con una probabilidad de error
tipo 1 o un nivel de significancia del 5%, que corresponde a F0.05 3.68 , significando que si
se tuviera que seleccionar un valor al azar de una distribucin F con 2 grados de libertad en el
numerador y 15 en el denominador, slo el 5% de las veces se obtendra un valor mayor que
3.68. Adems la teora del anlisis del varianza indica que si es cierta la hiptesis nula, la
relacin entre los cuadrados medios entre y dentro de los tratamientos seria un valor dentro de
esa distribucin, tal que se rechaza si, el valor de dicha relacin es mayor que el valor crtico:

126

Rechaza H 0 si

A
Valor crtico
B

Para el caso la relacin es igual a 8.99 mayor que el valor crtico 3.68, entonces se tienen
pruebas suficientes para rechazar la hiptesis nula consistente en que las medias de las tres
poblaciones son iguales. En otras palabras el anlisis de varianza apoya la conclusin que las
medias para la duracin de las bombillas es diferente en las tres plantas.
El grfico para dicho planteamiento es el siguiente:
Figura: Decisin del anlisis de varianza

El valor de la relacin es superior al valor crtico, por tal razn se rechaza la hiptesis nula
consistente en que las medias poblacionales sean iguales.
4.3. Anlisis de Varianza de un Factor.
El anlisis de varianza simple se presenta cuando se tiene un solo factor estudiado en sus
distintos niveles que influyen sobre una variable respuesta que mide el resultado del
experimento, y el resto de los factores conforman el error experimental influyendo sobre la
variable respuesta de manera no controlable. El factor se presenta con I niveles, y dentro de
cada nivel se analiza una serie de observaciones del experimento en control (unidades
experimentales) y su efecto sobre la variable respuesta, es decir, para cada nivel se repite el
experimento varias veces (replicacin).
El anlisis de varianza descompone la variabilidad del resultado de un experimento en
componentes independientes (variacin total descompuesta en variaciones particulares). Como
ejemplo se puede considerar los rendimientos de un mismo cultivo en parcelas diferentes, que
aunque labradas en las mismas condiciones, producen cosechas que son distintas. La
variabilidad de rendimientos es producida por factores o tratamientos controlables (abono,
riego, etc.), donde cada factor o tratamiento puede presentar diferentes niveles (diferentes
cantidades o calidades de abono, distinta intensidad de riego); tambin puede ser producida
por otros factores o tratamientos no controlables (humedad relativa, clima, plagas, etc.).
As, X ij es la observacin j-sima de la variable respuesta relativa al j-simo nivel de factor, y
en el ejemplo anterior, X ij es el rendimiento obtenido (variable respuesta) bajo el nivel i del
factor (abono) en la observacin j-sima (Para cada nivel i de factor se repite el clculo de
rendimiento ni veces para recoger el efecto del error experimental).
Se representa por ui la parte de X ij debida a la accin del factor.

127

Se representa por uij la variacin causada por todos los factores no controlables (error
experimental).
En consideracin a lo anterior el valor de la variable respuesta X ij , se debe a la variacin
debida al factor que se esta analizando y a la variacin de los otros factores no controlables,
por tanto se puede expresar que:
X ij ui uij
Se supone que uij es una variable normal de media cero y varianza constante.
En esta seccin se considera el anlisis de varianza de un solo factor , en el cual solo
interviene en el experimento un solo tipo de tratamiento. Cuando se desea contrastar las
hiptesis sobre la diferencia global entre tres o ms medias de poblacin, se aplica la
distribucin de probabilidad F encontrando en cociente de dos varianzas calculadas a partir de
los datos experimentales. El modelo lineal en que se basa el mtodo de anlisis de varianza de
un solo factor es:
X iJ i ij donde:

X ij : es la i - sima observacin del j - simo grupo experimental.

la gran media de todas las poblaciones j del tratamiento.Es una constante


i efecto del tratamiento en la poblacin j. Son variables aleatorias independientes.
iJ error aleatorio asociado a la - sima observacin de tratamiento de la poblacin j.
Entre estas tres componentes, la gran media se comprende por s misma. El efecto i del
tratamiento o factor es la diferencia entre la gran media y la media J de la poblacin en
tratamiento J, esto es: i J
Por consiguiente, si hay J tratamientos en un experimento, la suma de todos los J efectos de
los tratamientos debe ser igual a cero:
J

J 1

J 1

J
J

J J 0
J 1

El ltimo trmino iK refleja la variabilidad dentro de cada una de las poblaciones en


tratamiento, y su presencia se atribuye al proceso aleatorio, y se interpreta como lo resultante
de la diferencia entre el resultado observado y la media de la poblacin del tratamiento:
iJ X iij j

El valor esperado o la esperanza de ij es igual a cero.


El modelo se basa en las siguientes suposiciones:
Admite que los errores aleatorios ij tienen una distribucin normal para cada
poblacin en tratamiento J.

128

Admite que los errores iJ se distribuyen independientemente tanto entre


poblaciones en tratamiento como dentro de ellas.
Acepta que la varianza 2 del error permanece constante para cada una de las
poblaciones.
Un ejemplo numrico sencillo contribuye a la comprensin de las relaciones anteriormente
expresadas en las frmulas.
Ejemplo:
Suponga que dispone de un conjunto de rboles clasificados por altura (en metros) y por
especie, segn los siguientes datos:
Cuadro: Registro de altura de un conjunto de rboles
Especie

Altura

Especie

Altura

Especie

Altura

8.52

8.52

8.13

6.45

6.43

7.17

7.41

6.21

8.40

7.15

7.07

8.87

8.73

8.83

6.12

7.55

8.53

8.91

6.54

7.84

8.81

7.74

8.59

7.40

8.65

7.41

8.19

8.81

8.94

8.56

Solucin:
Para ajustar la informacin a un modelo de anlisis de varianza, se considera como variable
respuesta la altura de los rboles en metros, y como nico factor la variable cualitativa
especie con cinco niveles (A, B, C, D, E). Dado que se tiene un modelo de un solo factor,
se desea probar si las variadas especies de rboles tienen igual o diferente promedio de
altura con un nivel de significancia del 1%.
Primero se estiman las medias para cada una de las especies y la media total, conforme al
siguiente cuadro:
Cuadro: Registro de estadsticos para diferentes especies
Especie A

Especie B

Especie C

Especie D

Especie E

8.52
7.15
6.43
6.21
8.13
6.12

6.45
8.73
8.52
8.83
8.53
8.94

7.41
8.65
8.81
8.59
8.87
8.81

7.55
7.74
7.84
7.41
7.40

6.54
7.07
7.17

Total

129

Sumas

42.56

8.40
8.91
8.19
8.56
84.06

Promedio

7.093

8.406

8.523

7.588

6.926

7.707

Observaciones

10

30

37.94

20.78

236.48

nj

X
X

51.14

j 1 i 1

nt

ij

8.52 7.15 ... 6.45 8.76 ... 7.41 8.65 ... .... 236.48

7.882666
30
30

Variacin total (VT) =

ij

j 1 i 1

VT 8.52 7.88 ... 6.12 7.88 ... 7.07 7.88 7.17 7.88 24.0741867
k

Variacin dentro del grupo (VDG) =

ij

X j

j 1 i 1

VDG 8.52 7.09 ... 6.45 8.406 ... 7.41 8.523 .... 7.17 6.926 11.9584533

Variacin entre grupos (VEG) =

n
j 1

VEG 7.093 7.88 8.406 7.88 .... 6.926 7.88 12.1157333

Para calcular el estadstico de prueba perteneciente a la distribucin F , se resume en el


siguiente cuadro:
Cuadro: Clculos del cuadro de anlisis de varianza
Variacin

Suma cuadrados
12.1157333

Grados
libertad
(K-1)= 4

Cuadrado
medio
3.0289

Entre
tratamiento
Dentro o error
Total

11.9584533
24.0741867

(n-K)=25
(n-1)=29

0.4783

Distribucin
F
6.332

130

En el anexo F Tabla de Distribucin F determina el correspondiente valor crtico para el


numerador (k-1= 5-1=4) y el denominador (n-K = 30-5=25), con una probabilidad de error
tipo 1 o un nivel de significancia del 1%, que corresponde a F0.01 4.18 . Para el caso la
relacin es igual a 6.332 mayor que el valor crtico 4.18, entonces se tienen pruebas
suficientes para rechazar la hiptesis nula consistente en que las medias de las cinco
variedades de rboles son iguales. En otras palabras el anlisis de varianza apoya la
conclusin que las medias para la altura de las diferentes especies de rboles es diferente.

Pruebas a posteriori
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las posibles medias
que podra ser diferente al rechazar la hiptesis.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el rango
(diferencia entre medias) de todos los pares de muestras como estadstico y dicho rango debe
superar un cierto valor llamado mnimo rango significativo para considerar la diferencia
significativa.
La principal diferencia con respecto a la t de Student radica en que usan MSE como estimador
de la varianza, es decir un estimador basado en todas las muestras.
Ejercicios
1.- Un inspector de un distrito escolar quiere estudiar el ausentismo de los profesores de
diversos grados escolares. Se seleccionaron muestras aleatorias de profesores en escuelas
primarias, secundarias, y preparatorias, y el nmero de das de ausencia el ao anterior fue
como sigue:
Primaria
7
4
10
6
5

Secundaria
13
14
9
8
7
10

Preparatoria
7
2
6
9
9

Con un nivel de significancia de .025, determine si hay una diferencia en el ausentismo entre
los diversos grados.
2.- El propietario de una distribuidora de combustible pretende investigar la rapidez con la
cual le pagan sus facturas en tres reas suburbanas. Se seleccionaron muestras de clientes en
cada zona y se registr el nmero de das entre la entrega y el pago de la factura, con los
siguientes resultados:

131

rea 1
8
18
14
20
12
14
15
16

rea 2
10
16
28
25
7
17

rea 3
32
8
16
27
17
20
19
21
20

Con un nivel de significancia de .025, determine si hay una diferencia en la rapidez con que
pagan las facturas en estas tres reas.
3.- Un agrnomo desea estudiar el rendimiento (en libras) de cuatro variedades diferentes de
calabacitas. Se dividi una parcela en 16 lotes y se asignaron cuatro lotes al azar a cada
variedad. Los resultados del experimento (en libras) fueron
Calabacita
redonda
86
74
88
76

Calabacita
comn
40
48
54
46

Calabaza
alargada
30
36
42
34

Calabacita
rayada
48
54
42
56

Con un nivel de significancia de .01, determine si hay una diferencia en el rendimiento de las
diferentes variedades de calabacitas.
4.- Un distribuidor de automviles nuevos quiere estudiar la cantidad de dinero aplicado a la
compra de equipo opcional en automviles de tamao grande. Se seleccion una muestra de
20 compras. Los sujetos se dividieron en las siguientes clasificaciones por edades: 18-24, 2529, 30-39, 40-59, 60 y ms. La cantidad de equipo opcional comprado (en miles de pesos) se
organiz en grupos de edad como sigue:

18-24
6.31
4.27
5.75

25-29
7.64
5.36
3.85
6.24

Edad
30-39
8.37
9.26
10.16
6.48
7.86

40-59
11.23
10.64
8.32
9.00
7.53

60 y ms
6.74
7.36
5.12

Con un nivel de significancia de .05, determine si hay una diferencia en la cantidad de dinero
aplicado a la compra de equipo opcional en automviles nuevos entre los diferentes grupos de
edad.

132

5.- Los alumnos de la clase de mercadotecnia calificaron el desempeo del profesor como
excelente, bueno, malo y psimo. Las calificaciones que dieron los estudiantes al profesor
fueron comparadas con sus calificaciones finales del curso de mercadotecnia. Lgicamente, se
pensara que en general, los estudiantes que calificaron al profesor con excelente tendran una
calificacin final mucho ms alta que los que lo calificaron como bueno, malo o psimo. Esto
supondra tambin que quienes calificaron al docente como psimo obtendran las
calificaciones mas bajas. Se seleccionaron muestras de calificaciones finales de los alumnos
por cada tipo de calificacin dada al maestro.

Excelente
94
90
85
80

Calificaciones finales de la clase de Mercadotecnia


Bueno
Malo
75
70
68
73
77
76
83
78
88
80
68
65

Psimo
68
70
72
65
74
65

Se pretende determinar si hay una diferencia estadstica entre la calificacin promedio


obtenida por los estudiantes de acuerdo a la calificacin otorgada al maestro. Utilice un nivel
de significancia de .01
6.- En un esfuerzo por determinar la ms efectiva manera de ensear principios de seguridad
a un grupo de empleados de una compaa, cuatro diferentes mtodos fueron tratados. Veinte
empleados fueron asignados aleatoriamente a cuatro grupos. El primer grupo recibi
instruccin programada en folletos y trabajaron a lo largo del curso a su propio paso. El
segundo grupo atendi lecturas. El tercer grupo observ presentaciones en televisin, y el
cuarto fue dividido en pequeos grupos de discusin. Al final de las sesiones, una prueba fue
aplicada a los cuatro grupos. Los resultados fueron:

Calificaciones
Instruccin
programada
6
7
6
5
6

Lecturas

Televisin

8
5
8
6
8

7
9
6
8
5

Grupos de
discusin
8
5
6
6
5

Pruebe en el nivel de significancia de .05 si hay o no diferencia entre las cuatro medias.
7.- Una revista para consumidores esta interesada en saber si existe o no alguna diferencia en
la duracin promedio de cuatro marcas diferentes de pilas para radios de transistores. Se prob
una muestra aleatoria de cuatro pilas de cada marca, con los siguientes resultados (en horas):

133

Marca 1
12
15
18
10

Marca 2
14
17
12
19

Marca 3
21
19
20
23

Marca 4
14
21
25
20

Con un nivel de significancia de .05, pruebe si hay alguna diferencia en la duracin promedio
de estas cuatro marcas de pilas para radios de transistores
4.4 Anlisis de Varianza con Dos Factores (Diseo de Bloques Aleatorizados).
Con frecuencia interesa analizar los efectos de dos tipos de factores o tratamientos. Suponga
que un experimento incluye dos tipos de factores: el uno llamado C (lo que sugiere columna)
consistente en K tratamientos diferentes, y el otro, denominado F (lo que sugiere fila)
consistente en J tratamientos diferentes. Se admite que respecto al j-simo tratamiento de F y
el K-simo tratamiento de C, existen cuatro componentes as:
X ijK i j ijk donde:

La gran media de X independiente del tratamiento.


i Efecto del tratamiento i.
j Efecto del tratamiento j.
ijk Error aleatorio asociado a la i - sima observacin en la combinacin del tratamiento j y k.

La varianza total de la muestra se particiona en la varianza entre las filas, varianza entre
columnas, varianzas entre la j x k, y las varianzas del error aleatorio. Para este modelo, los
clculos del anlisis de la varianza para las sumas de los cuadrados son idnticos a los
realizados en el modelo de un solo factor, tan solo que se calculan variaciones para el factor
de fila, de columna y para el error aleatorio. De manera anloga, los grados de libertad y los
cuadrados medios son los mismos. A continuacin se indica el cuadro resumen para el
anlisis de varianza de dos factores:
Cuadro: Anlisis de varianza para dos factores
Fuente Suma de los cuadrados, SC
de
variaci
n
Entre
2
C
los
X . j X
VEC

grupos

j 1
o
column
as (j)
Entre
2
r
los

VEF c X i. X
bloques

i 11
o filas

Grados de Media
Libertad, cuadrtica,
gl
MC

c 1

r 1

Relacin
F

MCA

VEC
c 1

MCA
MCE

MCB

VEF
r 1

MCB
MCE

134

(i)
Error
2
c
r
de

muestre VE X ij X . j X i. X
j 1 i 1
o, E
c

Total, T

VT X ij X

j 1 i 1

r 1c 1

MCE

VE
r 1c

rc 1

La definicin de los trminos del cuadro son los siguientes:


X ij Valor del bloque i - simo para el tratamiento del grupo i - simo.
X i La media de todos los valores en el bloque i.
X j La media de todos los valores para el tratamiento del grupo j.
c

ij

X La sumatoria de los valores de todos los bloques y de todos los grupos,

j 1 i 1

equivalente al gran total.


r El nmero de bloques.
c El nmero de grupos.
n Nmero total de observaciones.

Para contrastar los efectos de los factores en el modelo, se construye un estadstico que se
compara los cuadrados medios, que bajo la hiptesis nula sigue una distribucin F.
Ejemplo:
Suponga que existen cuatro parcelas diferentes las cuales son sometidas sucesivamente a seis
tipos de insumos y se piensa que la produccin es afectada por el tipo de insumo y
mantenimiento a que es sometida. Se desea probar los diferentes tratamientos afectan la
produccin por parcela, y la produccin es la siguiente:
Cuadro: Rendimientos en kilos por parcela
Tratamiento
RENDIMIENTO EL KILOS
Parcela
Parcela 2 Parcela
1
3
A
70
61
82
B
77
75
88
C
76
67
90
D
80
63
96
E
84
66
92
F
78
68
98
Totales
465
400
546
Medias
77.50
66.67
91.00

Parcela 4

Total

Medias

74
76
80
76
84
86
476
79.33

287
316
313
315
326
330
1.887

71.75
79.00
78.25
78.75
81.50
82.50
78.625

135

Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y los promedios
por tratamientos o bloques ( insumo y manteniendo), as como la gran media se indican en el
cuadro.
Adems de las estadsticas representadas en el cuadro, se tiene:
r 6;
c 4;
n rc 24
c

X
X

j 1 i 1

ij

rc

1.887
78,625
24

Para determinar los resultados del experimento de diseos de bloques aleatorizados con fines
ilustrativos, se hacen los siguientes clculos:
c

Variacin Total de Cuadrados: VT X ij X


j 1 i 1

VT 70 78,625 77 78,625 ... 86 78,625 2.295,63


2

Variacin entre grupos o columnas: VEC r X . j X


j 1
2

VEC 6 77.5 78,625 66.67 78,625 ... 79.33 78,625 1.787,46


2

Variacin entre bloques o filas: VEF c X i. X


i 11

VEF 4 71.75 78,625 79 78,625 ... 82.5 78,625 238,38


c

Variacin del error de muestreo: VE X ij X . j X i. X


j 1 i 1

VE 70 77.5 71.75 78,625

77 77.50 79.00 78,6252

.
.
2

86 - 79.33 - 82.50 78,625


244.79

Para calcular los medios o promedios cuadrticos, se calculan as:

136

MCA

VEC 1.787,46

595,82
c 1
4 1

MCB

VEF 283.38

56,676
r 1
6 1

MCE

VE
224.79
224.79

14,986
r 1c 1 6 14 1
15

Los clculos anteriores se pueden resumir en el siguiente cuadro:


Cuadro: Resultados del anlisis de varianza para dos factores
Fuente
Suma de Grados
Cuadrado medio F
cuadrados libertad
(varianza)
Entre grupos
595.82
1.787.46
VEC

1.787.46
4-1=3
14,986
3
595,820
39,758
Entre Bloques
56,676
283.38
F
VEF
283.38
6-1=5
14,986
5
56,676
3,782
Error

Total

224.79

(6-1)(4-1)=15

2.295.63

(6)(4)-1=23

224.79
15
14,986

VE

Adems de los registros anteriores, en las tablas ANOVA de los diferentes paquetes de
software estadsticos, incluyen el p-valor que consiste en la probabilidad de obtener un
estadstico F igual o mayor a la obtenida dado que la hiptesis nula sea verdadera, es decir, si
el p- valor es menor que el nivel especificado de significancia , la hiptesis nula es
rechazada. Para nuestro caso se utiliza la informacin contenida en el cuadro anterior.
Si se desea probar las diferencias entre los rendimientos de las parcelas con un nivel de
significancia del 5%, la regla de decisin consiste en rechazar la hiptesis nula
H o : 1 2 3 4 si el valor F calculado es mayor que 3.29 (Ver anexo F con 3 grados
de libertad en el numerados y 15 grados en el denominador). Para el caso F = 39,758 es mayor
que el valor crtico 3.29, entonces se rechaza la hiptesis nula y se llega a la conclusin que
existe evidencia de una diferencia entre la produccin promedio de las diferentes parcelas,
como se puede apreciar en el siguiente grfico:

137

Figura: Regin de aceptacin de hiptesis

Como una verificacin de la efectividad de la utilizacin de insumos, se puede probar la


diferencia de efectividad de los diferentes insumos aplicados. La regla de decisin utilizando
un nivel de significancia del 5%, sera la de rechazar la hiptesis nula
H o : 1 2 3 4 5 6 si el valor F calculado excede a 2.90 (Ver anexo F con 5
grados de libertad en el numerados y 15 grados en el denominador). Para el caso el valor F =
3,782 es mayor al valor crtico, lo que se concluye que la utilizacin de los diferentes insumos,
produce diferencia significativa entre los promedio de produccin para las parcelas, y que la
conformacin de dichos bloques es ventajosa para reducir el error experimental, situacin que
se presenta en el siguiente grfico:
Figura: Regin de aceptacin de hiptesis

4.5. Anlisis de Varianza de Dos Factores con Interaccin. (Diseo Factorial).


Se ha visto hasta ahora el anlisis de varianza de una direccin o el modelo de diseo
completamente aleatorizado, despus el modelo de diseo de bloque aleatorizado, y en la
presente seccin el anlisis de varianza de dos factores con interaccin.
Con el propsito de desarrollar el procedimiento de la prueba F, se define a continuacin los
siguientes trminos:

138

X ijk Valor de la k - sima observacin del nivel i del factor A t del nivel j del factor B.
Xij Suma de los valores de la celda ij (las observaciones del nivel i del factor A y del nivel j del factor B.
X i.. Suma de los valores de la hilera i del factor A.
X.j. Suma de los valores de la columna j del factor B.
GT Gran total de todos los valores en todas las hileras y columnas.
r Nmero de niveles del factor A.
c Nmero de niveles del factor B.
n ' Nmero de valores(replicas) para cada celda.
n Nmero total de observaciones del experimento (con n r.c.n '

Con fines ilustrativos se hacen planteamientos tanto conceptuales como de clculos para la
descomposicin de la variacin total necesaria para el desarrollo del procedimiento de la
prueba F. Debido a la gran cantidad de clculos se recomienda que dicho proceso sea llevado
por el paquete de software analizado ms adelante.
Tabla resumen para el anlisis de varianzas de dos vas con ms de una observacin por clula
se resume en el siguiente cuadro:
Cuadro: Resumen de anlisis de varianza de dos vas
Fuente de
variacin
Entre
grupos de
tratamiento
A
Entre
grupos de
tratamiento,
B
Interaccin
entre
factores A y
B.

Suma de los cuadrados, SC


2

X 2 GT
VEGA i..'
rcn '
i 1 cn
r

VEGB

X .2j.

j 1

rn '

VEAB
i 1 j 1

j 1

X .2j .
rn '

2
GT

rcn '

X ij2

X i2..
'
n'
i 1 cn

Grados de Media cuadrtica, Relacin


libertad, gl MC
F
VEGA
MCA
MCA
F
r 1
r 1
MCE

c 1

MCB

BEGB
c 1

r 1c 1

MCC

VEABI
MCI
F
r 1c 1
MCE

MCE

VE
rc n ' 1

MCB
MCE

GT 2
rcn '

r
c n'
r
c X2
Error
de
ij .
2
muestreo, E VE X ijk '
i 1 j 01 k 1
i 1 j 1 n
'
r
c n
Total, T
GT 2
VT X ijk2
rcn '
i 1 J 1 K 1

'

rcn 1

rcn ' 1

Ejemplo:
Para ilustrar el modelo factorial de dos factores, suponga que UD como dueo y propietario de
una cadena de supermercados esta interesado en saber el efecto de la colocacin de los
139

estantes en la venta de un producto. Para ello estudia 4 posibles lugares distintos donde
colocar los estantes: Colocacin normal entre el pasillo(A), colocacin ingreso del pasillo (B),
colocacin a la entrada del pasillo con impulsadora (C) y colocacin normal con propaganda
(D). Se toman ventas aleatorias en las jornadas de la maana, tarde y noche y los resultados
de las ventas semanales se resumen en la siguiente tabla:
Cuadro: Colocacin de productos en un estantes durante jornadas
JORNADA
COLOCACIN ESTANTE
A
B
C
D
Totales
Maana
45
56
65
48
451
50
63
71
53
Tarde
57
69
73
60
539
65
78
80
57
Noche
70
75
82
71
622
78
82
89
75
Totales
365
423
460
364
1.612
Medias
60.83
70.50
76.67
60.67
Se tiene las siguiente informacin:
X .1. 365
X 1.. 451
r 3
X .2. 423
c4
X 2.. 539
X .3. 460
X 3.. 622
n' 2
X .4. 364

Medias
56,375
67,375
77,750

67,167

X 11. 95

X 21. 122

X 31. 148

X 12. 119

X 22. 147

X 31. 157

X 13. 136

X 23. 153

X 33. 171

X 14. 101

X 24. 117

X 34. 146

GT 1.612
r

n'

2
ijk

452 50 2 ... 752 111.550

i 1 j 1 k 1

X i2.. 4512 5392 6222

110.100,75

'
42
i 1 cn
r

X .2j .

rn

'

3652 4232 460 2 3642


109.375
32

j 1

i 1 j 1

GT 2
rcn'

X ij2.
n'

952 119 2 ... 146 2


111.292
2

1.612 2
108.272.66
342

140

Variacin Total de Cuadrados:


r

n'

VT X ijk2
i 1 J 1 K 1

GT 2
rcn '

111.550 108.272.66 3.277.34

Variacin entre grupos del tratamiento A:


2

VEGA
i 1

X i2.. GT

110.100.75 108.272.66 1.828.09


cn'
rcn '

Variacin entre grupos del tratamiento B:


c

VEGB
j 1

X .2j .

2
GT

rn '

rcn '

109.375 108.272.66 1.102.34

Variacin entre los factores A y B:


r

VEAB
i 1 j 1

X ij2

X i2.. c X . j . GT

'

'
n'
rcn '
i 1 cn
j 1 rn
r

111.292 - 110.100.75 - 109.375 108.272.66 88.91


Variacin del error de muestreo:
r

n'

VT X

2
ijk

i 1 J 1 K 1

GT

rcn '

111.550 111.292 258

Para el clculo de las varianzas se utilizan las siguientes relaciones:

MCA

VEGA 1.828.09

914.045
r 1
3 1

MCB

BEGB 1.102.34

367.447
c 1
4 1

MCC

VEABI
88.91

14,818
r 1c 1 3 14 1

MCE

VE
258

21.5
'
rc n 1 34 2 1

Los clculos anteriores se resumen en el siguiente cuadro:

141

Cuadro: Resumen de anlisis de varianza de dos vas


Fuente
de Suma de los Grados
de
variacin
cuadrados,
libertad, gl
SC
Entre grupos de
1.828.09
3 1 2
tratamiento A
Entre grupos de
1.102.34
4 1 3
tratamiento, B
Interaccin entre
88.91
factores A y B.
3 14 1 6
Error
de 258
342 1 12
muestreo, E
3.277.34
Total, T
342 1 23

Media
cuadrtica,
MC

Relacin F

914.045

42.51

367.447

17.09

14.818
21.5

0.69

Si utiliza un nivel de significancia del 0.05 y se prueba la diferencia entre las ventas en las
diferentes jornadas (maana, tarde, noche), la regla de decisin es la rechazar la hiptesis
nula ( H 0 : 1 2 ... r ) si el valor calculado para F (42.51) es mayor que 3.49 (observar
anexo F para 2 grados de libertad en el numerador y 12 grados de libertad en el denominador);
se rechaza la hiptesis nula y se llega a la conclusin que existe evidencia que entre las
diferentes jornadas las ventas en promedio son diferentes.
As mismo si utiliza un nivel de significancia de 0.05 para probar si existe alguna diferencia
entre la ubicacin de los estantes, la regla de decisin es rechazar la hiptesis nula
( H 0 : 1 2 ... c ), si el valor calculado F (17.09) es mayor que 3.49 (observar anexo F
para 3 grados de libertad en el numerador y 12 grados de libertad en el denominador); se
rechaza la hiptesis nula y se concluye que existe una diferencia entre los promedios de ventas
para la colocacin de los diferentes estantes en el almacn.
Finalmente se puede probar si existe algn efecto de interaccin entre el factor A (ventas en
las diferentes jornadas) y el factor B (colocacin de los estantes). Utilizando un nivel de
significancia del 5%, la regla de decisin es rechazar la hiptesis nula
( ABij 0, para todo i y j ), si el valor calculado F (0.69) es mayor que 3.0 (observar anexo F
para 6 grados de libertad en el numerador y 12 grados de libertad en el denominador); no se
rechaza la hiptesis nula y se concluye que no existe evidencia de un efecto de interaccin
entre las jornadas del da y la colocacin de los estantes.
INTERPRETACIN DE LOS EFECTOS DE LA INTERACCIN
Se ha realizado hasta ahora las pruebas para la significacin del factor A, del factor B y de la
interaccin, corresponde entender en mejor forma el concepto de interaccin, si se grafica las
medias, empleando la siguiente frmula:

X ij

X ij
n'

142

95
47.5
2
119

2
136

2
101

50.5
2

122
2
147

2
153

2
117

148
74.0
2
157

78.5
2
171

85.5
2
146

73.0
2

X 11.

X 21.

61.0

X 31.

X 12.

X 22.

73.5

X 32.

76.5

X 33.

58.5

X 34.

X 13.
X 14.

X 23.
X 24.

Se procede a graficar las ventas semanales promedio de cada jornada y de cada colocacin de
la estantera, como se indica a continuacin:
Figura: Ventas de producto en tres jornadas

Ventas

Ventas Jornada maana-tardenoche


90
85
80
75
70
65
60
55
50
45
40

A
B
C
D

Maana

Tarde

Noche

Jornada

Las cuatro lneas representan las colocaciones de las estanteras aparecen apuntando casi
representando en la misma direccin, lo que significa que la diferencia en las ventas entre las
cuatro colocaciones de los estantes es virtualmente la misma para las ventas de las diferentes
jornadas. En otras palabras, no existe interaccin entre los dos factores (jornada y estantera),
como claramente se evidenci en la prueba F vista anteriormente.
Cual es la interpretacin si se presenta el efecto de interaccin? En tal situacin, algunos
niveles del factor A responden mejor con ciertos niveles del factor B; por ejemplo, suponga
que algunas colocaciones en los estantes fueran mejor para las jornadas. Si este fuera el caso,
las lneas de la figura no estaran apuntando en la misma direccin que las hace casi paralelas
y el efecto de interaccin sera estadsticamente significativo, y por consiguiente, las
diferencias entre las diferentes localizaciones de estantes no seran las mismas para las
diferentes jornadas
Ejercicios
1.- Un psiclogo industrial querra determinar el efecto del consumo de bebidas alcohlicas
sobre la capacidad mecanogrfica de un grupo de secretarias. Se asignaron en forma aleatoria
cinco secretarias a cada uno de los tres niveles de consumo y a cada una de las tres diferentes
bebidas. Se dieron a cada secretaria las mismas instrucciones para mecanografiar la misma
pgina. Se registr el nmero de errores cometido por cada secretaria con los siguientes
resultados

143

Consumo de alcohol
1 onza
2 onzas
3 onzas
Tequila Brandy Ron Tequila Brandy Ron Tequila Brandy
2
3
4
7
5
9
10
8
5
4
4
5
6
4
6
7
3
4
4
6
4
8
10
8
6
5
4
3
4
2
12
13
4
5
4
9
7
11
12
10

Ron
12
5
12
11
12

Con un nivel de significancia de .01, pruebe las siguientes hiptesis:

Es diferente la cantidad de errores dependiendo de la cantidad de bebida.

Es diferente la cantidad de errores dependiendo del tipo de bebida.

Es diferente la cantidad de errores dependiendo de la interaccin de las dos


variables.

2.- El gerente de menudeo de una cadena de tiendas desea determinar si la ubicacin del
producto tiene o no algn efecto sobre la venta de juguetes de peluche en forma de animales.
Se van a considerar tres ubicaciones diferentes en el pasillo: frente, centro y atrs. Se
seleccion una muestra de 18 tiendas y se hizo una asignacin aleatoria en seis tiendas para
cada ubicacin en el pasillo. Los juguetes estaban presentados en cuatro figuras de animales
diferentes. Al final de un periodo de prueba de una semana las ventas de los productos fueron
como sigue:

osos
86
72
54
40
50
62

frente
perros gatos
81
76
77
82
49
44
45
50
45
40
67
72

len
71
87
39
55
35
77

osos
20
32
24
18
14
16

centro
perros gatos
16
19
36
32
20
23
22
18
10
13
20
16

len
24
29
28
15
18
13

osos
46
28
60
22
28
40

Atrs
perros gatos
51
56
24
20
65
68
18
16
33
34
36
36

len
56
21
66
19
30
41

Con un nivel de significancia de .01 pruebe las siguientes hiptesis:

Las ventas en las diferentes ubicaciones del pasillo son diferentes

Las ventas de las diferentes figuras de animales son diferentes

Las ventas son diferentes debido a la interaccin de las dos variables.

3.- El departamento de nutricin de cierta universidad lleva a cabo un estudio para determinar
si hay diferencia o no en el contenido de cido ascrbico entre tres diferentes marcas de
concentrado de jugo de naranja. Se hacen cuatro pruebas de los tres tipos de concentrado de
jugo de naranja que fue congelado durante tres periodos de tiempo diferentes (en das). Los
resultados, en miligramos de cido ascrbico por litro, son los siguientes:

144

MARCA
RICA
BUENA
BARATA

0
52.6
49.8
56.0
49.6
52.5
51.8

54.2
46.5
48.0
48.4
52.0
53.6

TIEMPO ( DAS )
3
49.4
49.2
42.8
53.2
48.8
44.0
44.0
42.4
48.0
47.0
48.2
49.6

7
42.7
40.4
49.2
42.0
48.5
45.2

48.8
47.6
44.0
43.2
43.3
47.6

Utilice un nivel de significancia de .05 para probar la hiptesis de que:

Los contenidos de cido ascrbico por marca de jugo son diferentes

Los contenidos de cido ascrbico por tiempo de congelamiento son diferentes

Los contenidos de cido ascrbico son diferentes debido a la interaccin de las dos
variables.

4.- Se estudia el comportamiento de tres camadas de ratas bajo dos condiciones ambientales
en una prueba de laberinto. Las calificaciones de error para las 48 ratas se registran a
continuacin:
Ambiente

Camada
Brillante
Mezclada
Lenta

28
12
36
83
101
94

Libre
22
25
23
10
33
41
14
76
33 122
56
83

36
86
22
58
35
23

72
48
60
89
136
120

Restringido
25
32
91
31
35
83
126 110
38
64
153 128

93
19
99
118
87
140

Utilice un nivel de significancia de .05 para probar la hiptesis de que:

Las calificaciones de error para las camadas son diferentes

Las calificaciones de error para los ambientes son diferentes

Las calificaciones de error son diferentes debido a la interaccin de las dos variables
5.- Considere la combinacin de dos factores en la eliminacin de mugre en cargas estndar
de lavandera. El primer factor es la marca del detergente, X, Y o Z. El segundo factor es la
temperatura del agua, caliente o tibia. El experimento se replica seis veces. La respuesta es el
porcentaje de eliminacin de mugre. Los datos son los siguientes:

145

Temperatura

Marca
X
Y
Z

85
78
90
92
85
87

Caliente
88
75
78
92
60
88

80
72
76
76
70
68

82
75
86
88
76
55

Caliente
83
75
88
76
74
57

85
73
76
77
78
54

Utilice un nivel de significancia de .05 para probar la hiptesis de que:

Los porcentajes de eliminacin de mugre son diferentes dependiendo del detergente.

Los porcentajes de eliminacin de mugre son diferentes dependiendo de la temperatura.

Los porcentajes de eliminacin de mugre son diferentes debido a la interaccin de las


dos variables.

6.- Los puntajes obtenidos en una prueba de rendimiento motor hecha a dos grupos de
estudiantes que participan en deportes universitarios, el primer grupo est formado por
estudiantes que practicaron deporte en la preparatoria, mientras que el segundo esta formado
por estudiantes que no practicaron deporte en la preparatoria. Los puntajes obtenidos por
ambos grupos son los siguientes:
GRUPO 1
GIMNASIA
FUTBOL
55
56
59
40
63
59
58
70
50
52
52
43
69
28
77
37
60
51

GRUPO 2
GIMNASIA
FUTBOL
58
86
48
55
58
65
54
56
51
55
42
32
79
45
45
32

Utilice un nivel de significancia de .01 para probar la hiptesis de que:

El rendimiento motor es diferente dependiendo del grupo

El rendimiento motor es diferente dependiendo del deporte

El rendimiento motor es diferente debido a la interaccin de las dos variables.

7.- La asociacin de egresados de la escuela Mao Meno, sospecha que sus miembros
reciben en promedio un sueldo inferior al ingreso de los egresados de la escuela Much A.
Money. Para comprobarlo se obtuvieron muestras de egresados de ambas escuelas. La
informacin que se obtuvo fue la siguiente: (en miles de pesos)

146

MAO MENO
MUCH A. MONEY
CRIMINOLOGA PSICOLOGA CRIMINOLOGA PSICOLOGA
5.0
3.2
5.5
7.5
5.5
3.5
3.5
5.5
4.5
4.5
9.5
4.5
3.5
8.2
3.4
8.5
7.5
6.6
6.8
3.2
Utilice un nivel de significancia de .01 para probar la hiptesis de que:

El ingreso es diferente dependiendo de la escuela

El ingreso es diferente dependiendo de la carrera

El ingreso es diferente debido a la interaccin de las dos variables.

8.- En una secundaria se formaron al azar dos grupos de estudiantes, formados por alumnos de
todos los grados. En un grupo se utiliz un nuevo mtodo de enseanza. En el otro se
utilizaron los mtodos tradicionales. Las calificaciones al final del curso fueron las siguientes:
MTODO TRADICIONAL
MTODO NUEVO
PRIMERO SEGUNDO TERCERO PRIMERO SEGUNDO TERCERO
8
9
8.5
8
8
7.5
6.5
10
10
7
10
8.5
7
8
9
5
10
7.5
8
7
8.5
8
9
8
6
7.5
8
7
8.5
9
8
8
8
7.5
9
9
Utilice un nivel de significancia de .025 para probar la hiptesis de que:

Las calificaciones son diferentes dependiendo del mtodo

Las calificaciones son diferentes dependiendo del grado

Las calificaciones son diferentes debido a la interaccin de las dos variable

- Aplicaciones en Excel y SPSS.


A.

ANOVA EN EXCEL
Siguiendo con el mismo ejercicio desarrollado anteriormente y que hace relacin con
el rendimiento de las acciones, se tiene nuevamente el enunciado:
Ud. como analista financiero desea determinar si hay diferencia en la tasa promedio de
rendimiento de cuatro tipos de acciones: de servicios pblicos, de comercio, de
industria y de la banca. Para ello se obtuvo la siguiente la informacin muestral:

147

Cuadro: Rendimientos de 4 tipos de acciones


Rendimientos Promedios por tipo de accin
Meses
Servicios(A) Comercio(B)
Industria(C)
1
94
75
70
2
90
68
73
3
85
77
76
4
80
83
78
5
88
80
6
68
7
65

Banca(D)
68
70
72
65
74
65

Utilizando un nivel e significancia del 0.01, pruebe si existe diferencia en la tasa media de
rendimiento de los cuatro tipos de acciones.
Paso 1. Ingrese la siguiente informacin en una hoja Excel:
Figura: Registro de informacin

Paso 2:En el men de Excel haga clip en herramientas y seleccione anlisis de datos.
Figura: Ventana desplegada de herramientas

Paso 3:Selecciona anlisis de varianza de un factor y hace clip en aceptar.

148

Figura: Ventana de anlisis de datos

Paso 4:Aparece un cuadro de dialogo como el siguiente:


Figura: Ventana de anlisis de varianza de un factor

Paso 5:En rango de entrada selecciona los valores registrados en la hoja de excel:
Figura: Registro de informacin

Paso 6: Selecciona rtulos en la primera fila.

149

Figura: Registro de informacin

Paso 7:Seleccione un alfa de 0.01 y rango de salida en donde quiere ubicar la informacin:
Figura: Seleccin del nivel alfa

Paso 8: Hace clip en aceptar y le aparece la siguiente informacin:


Figura: Resultados del anlisis de varianza

Observe que la informacin aqu registrada es igual a la que se calculo en la tabla ANOVA
realizada en los cuadros anteriores:

150

El valor de la distribucin F es igual a 8.99 y el valor crtico es igual a 5.09. La suma de los
cuadrados toman el nombre de entre grupos denominados anteriormente tratamientos. y
dentro de los grupos denominados anteriormente errores.
De esta forma el anlisis de varianza de un factor aplicando la hoja electrnica de Excel
resulta ser muy sencillo.

B.

ANOVA en SPSS

Para obtener un anlisis de varianza de un factor elija en los men Analizar; Comparar
medias; ANOVA de un factor como se indica en la siguiente figura.
Figura: ANOVA de un factor

Seleccione una o ms variables independientes y seleccione una sola variable de factor


independiente, como se indica en la figura. Se pretende analizar el precio actual segn el
factor de titulacin del estrato.
Figura: ANOVA de un factor

151

Haciendo clic en el botn contrastes permite dividir las sumas de cuadrados Inter. grupos en
componentes de tendencia. En polinomio se puede contrastar la existencia de tendencia en la
variable dependiente a travs de los niveles ordenados de la variable de factor. Por ejemplo se
puede contrastar si existe una tendencia lineal (creciente o decreciente) de un precio a travs
de los niveles ordenados del estrato. En coeficientes se pueden elegir contrastes a priori
especificados por el usuario que sern contrastados mediante el estadstico T; si introduce un
coeficiente para cada grupo (categora) de la variable factor y se pulsa aadir despus de cada
entrada. Cada nuevo valor se aade al final de la lista de coeficientes. Para especificar
conjuntos de contrastes adicionales, pulse en siguiente para desplazarse entre los conjuntos de
contrastes.

Figura: ANOVA Contrastes

Haciendo clic en continuar y aceptar se presenta la tabla de ANOVA, como se indica en la


siguiente figura con un valor F de 1.148
ANOVA

Intergrupos
Intragrupos
Total

Suma de
cuadrados
198123,71
6
10144438,
614
10342562,
330

Media
gl
cuadrtica
39624,74
5
3
34504,89
294
3

F
1,148

Sig.
,335

299

Actividades de aprendizaje.
Las actividades de aprendizaje estn orientadas a desarrollar los ejercicios vistos
anteriormente pero no en forma manual, sino utilizando las herramientas de Excel para el
anlisis de varianza de un factor, anlisis de varianza con dos factores o de diseo de bloques
aleatorizados y finalmente anlisis de varianza de dos factores con interaccin o de diseo
factorial.

152

Anlisis de varianza de un factor:


Suponga que dispone de un conjunto de rboles clasificados por altura (en metros) y por
especie, segn los siguientes datos:
Cuadro: Registro de informacin sobre alturas en metros de rboles
Especie A Especie B Especie C Especie D Especie E
8.52
7.15
6.43
6.21
8.13
6.12

Total

Sumas

42.56

6.45
8.73
8.52
8.83
8.53
8.94
8.40
8.91
8.19
8.56
84.06

Promedio

7.093

8.406

8.523

7.588

6.926

7.707

10

30

Observaciones 6

7.41
8.65
8.81
8.59
8.87
8.81

7.55
7.74
7.84
7.41
7.40

6.54
7.07
7.17

51.14

37.94

20.78

236.48

Ingrese los datos en la hoja como se indica en el siguiente cuadro:


Figura: Registro de informacin en hoja de Excel

En el cuadro de dialogo de anlisis de datos elija Anlisis de varianza de un factor y rellene


el cuadro de dialogo como se indica en la siguiente figura:

153

Figura: Registro de informacin en ventana

Pulse aceptar y obtiene los siguientes resultados:


Figura: Resultados del anlisis de varianza de un factor

Como el p-valor del test de Fisher (0.00115963) de igualdad de todas las medias de os niveles
es menor que 0.05, existen diferencias significativas entre las alturas medias de los rboles de
diferentes especies al 95% de confianza. Por otra parte el valor crtico (2.75871059) es menor
que el valor del estadstico F (6.33220127), lo que corrobora la aceptacin de la hiptesis de
alturas medias distintas para las diferentes especies de rboles al 95% de confianza y
corrobora los mismos valores calculados en igual ejemplo visto anteriormente en anlisis de
varianza de un solo factor, el cual se muestra a continuacin:
Cuadro: Resultados de anlisis de varianza de un factor
Variacin
Suma
Grados
Cuadrado
cuadrados
libertad
medio
12.1157333
(K-1)= 4
3.0289
Entre
tratamiento
(n-K)=25 0.4783
Dentro o error 11.9584533
24.0741867
(n-1)=29
Total

Distribucin
F
6.332

154

Podr darse cuenta que los resultados son idnticos, teniendo como ventaja el uso de la
herramienta, un ahorro considerable de tiempo y menor riesgo a equivocarse.
Anlisis de varianza con dos factores (diseo de bloques aleatorizados).
Suponga que existen cuatro parcelas diferentes las cuales son sometidas sucesivamente a seis
tipos de insumos y se piensa que la produccin es afectada por el tipo de insumo y
mantenimiento a que es sometida. Se desea probar los diferentes tratamientos afectan la
produccin por parcela, y la produccin es la siguiente:
Cuadro: Registro de informacin sobre rendimientos en parcelas
Tratamiento
RENDIMIENTO EL KILOS
Parcela 1 Parcela 2 Parcela 3 Parcela 4 Total
A
70
61
82
74
287
B
77
75
88
76
316
C
76
67
90
80
313
D
80
63
96
76
315
E
84
66
92
84
326
F
78
68
98
86
330
Totales
465
400
546
476
1.887
Medias
77.50
66.67
91.00
79.33

Medias
71.75
79.00
78.25
78.75
81.50
82.50
78.625

La herramienta realiza un anlisis de varianza de dos factores con una sola muestra por grupo,
comprobando la hiptesis segn la cual las medias de dos o ms muestras son iguales
(extradas de poblaciones con la misma media). En el cuadro de dialogo de Anlisis de
datos elige la opcin Anlisis de varianza de dos factores con una sola muestra por grupo,
se obtiene el siguiente cuadro de dialogo:
Figura: Venta de ANOVA de dos factores

Despus de dar la opcin de aceptar se tienen los siguientes resultados:

155

Figura: Resultados sobre anlisis de varianza de dos factores

El p-valor es menor a un nivel de significancia del 0.05, por tal razn los rendimientos
medios son diferentes para las parcelas como para la utilizacin de los diferentes tipos de
insumos. De otra parte el valor estadstico de prueba F es superior al valor crtico afirmando la
conclusin anterior. Los resultados son los mismos a los calculados anteriormente y que
nuevamente se muestran a continuacin:
Cuadro: Resultados de anlisis de varianza de dos factores
Fuente
Suma de Grados libertad Cuadrado medio F
cuadrados
(varianza)
Entre grupos
595.82
1.787.46
VEC
F
1.787.46
4-1=3
14,986
3
595,820
39,758
Entre Bloques
56,676
283.38
F

VEF

283.38
6-1=5
14,986
5
56,676
3,782
Error

Total

224.79

(6-1)(4-1)=15

2.295.63

(6)(4)-1=23

224.79
15
14,986

VE

Anlisis de Varianza de Dos Factores con Interaccin. (Diseo factorial):


Suponga que UD como dueo y propietario de una cadena de supermercados esta interesado
en saber el efecto de la colocacin de los estantes en la venta de un producto. Para ello estudia

156

4 posibles lugares distintos donde colocar los estantes: Colocacin normal entre el pasillo(A),
colocacin ingreso del pasillo (B), colocacin a la entrada del pasillo con impulsadora (C) y
colocacin normal con propaganda (D). Se toman ventas aleatorias en las jornadas de la
maana, tarde y noche y los resultados de las ventas semanales se resumen en la siguiente
tabla:
Cuadro: Colocacin de productos
JORNADA COLOCACIN ESTANTE
A
B
C
Maana
45
56
65
50
63
71
Tarde
57
69
73
65
78
80
Noche
70
75
82
78
82
89
Totales
365
423
460
Medias
60.83
70.50
76.67

D
48
53
60
57
71
75
364
60.67

Totales
451

Medias
56,375

539

67,375

622

77,750

1.612
67,167

El problema se relaciona con un diseo de dos factores con medidas repetitivas o replicas de
dos veces, puesto que se toman dos muestras en cada jornada de cada una de las colocaciones
de los estantes. La variable respuesta son las ventas semanales obtenidas, y los dos factores
son la jornada y la colocacin del estante. Para resolver el problema se introducen los datos tal
como se indica a continuacin:
Figura: Registro de informacin

A continuacin en el cuadro de dialogo de anlisis de datos elige la opcin Anlisis de


varianza de dos factores con varias muestras por grupo, y rellena el cuadro de dialogo como se
indica en la siguiente figura:
Figura: Ventana de anlisis de varianza

157

Pulsa aceptar y obtiene los siguientes resultados:


Figura: Resultados de anlisis de varianza de dos factores

A la vista de los p-valores obtenidos, se concluye que es significativa la diferencia entre las
jornadas porque el p-valor (3.5787E-06) es menor que 0.05; igualmente es significativa la
diferencia entre la colocacin de los estantes porque el p-valor (0.00012489) es menor que el
nivel e significancia 0.05; no es significativa la diferencia entre la interaccin de los factores
porque el p-valor (0.66276957) es mayor al nivel de significancia del 0.05. Podr darse
cuenta, que los resultados utilizando la herramienta de Excel son idnticos, a los trabajados
manualmente en el ejercicio desarrollado anteriormente, como se indica en el siguiente
cuadro:
Cuadro: Resultados de anlisis de varianza de dos factores
Fuente
de Suma de los Grados
de Media
variacin
cuadrados, SC libertad, gl
cuadrtica, MC
Entre grupos de 1.828.09
914.045
3 1 2
tratamiento A
Entre grupos de 1.102.34
367.447
4 1 3
tratamiento, B

Relacin F
42.51
17.09

158

Interaccin
88.91
entre factores A
y B.
Error
de 258
muestreo, E
Total, T
3.277.34

3 14 1 6

14.818

342 1 12

21.5

0.69

342 1 23

Cuadro elaborado manualmente en ejercicio anterior para anlisis de varianza de dos factores.
Auto evaluacin
- Para los siguientes enunciados indique si es cierto o falso. Si es falso, corrjalo
* La distribucin F esta positivamente sesgada
* La distribucin F se basa en dos conjuntos de grados de libertad.
* Un tratamiento es una fuente de variacin en los datos.
* Para el procedimiento de ANOVA, las poblaciones deben ser positivamente
sesgadas.
* Rechazar la hiptesis nula en un procedimiento ANOVA, indica que difieren
todos los pares de medias.
* Si el nivel de significancia es de 0.05 y existen 3 grados de libertad en el
numerador y 12 en el denominador, el valor crtico de F es iguala 3.49
* Si existen 4 tratamientos, el nmero de grados de libertad en el numerador de F es
tambin de 4.
* Una variable de bloque es una fuente de variacin similar a una variable
de
tratamiento.
* Existe una familia de distribuciones F, es decir, hay una distribucin para
17 y
14 grados de libertad, y otra para 6 y 4 grados de libertad.
- Durante los ltimos meses el operario A ha producido un promedio de 9
componentes
defectuosos con una desviacin estndar de 2 piezas
defectuosas. El operario B ha
tenido un promedio mensual de 8.5 componentes defectuosos con una desviacin estndar de
- piezas en
el
mismo perodo.- Al nivel de significancia de 0.05, es posible concluir
que hay
ms variacin mensual en el nmero de componentes
defectuosos
que se atribuye al operario A?
- Se han seleccionado 20 personas las cuales aleatoriamente se han
distribuido en 4
grupos de 5 personas cada uno, para adelantar una instruccin con 4 profesores diferentes. Al
final se cada sesin se aplic una
prueba con una calificacin de hasta 10 puntos y los
resultados
fueron los
siguientes:
Instructor A
6
7
6
5
6

Instructor B
8
5
8
6
8

Instructor C
7
9
6
8
5

Instructor D
8
5
6
6
5

Pruebe al nivel de significancia del 0.05 que no hay diferencia entre los promedios para los 4
grupos.
- Se distribuyen 3 clases de jabones: A, B y C. Las ventas mensuales en unidades monetarias
se indican en la siguiente tabla:

159

Mes
Enero
Febrero
Marzo
Abril
Mayo

Jabn A
7
11
13
8
9

Jabn B
9
12
11
9
10

Jabn C
12
14
8
7
13

Utilizando un nivel de significancia de 0.05, aplique el procedimiento


para demostrar si:
* Las ventas medias para los diferentes tipos de jabones son iguales.
* Las ventas medias son iguales para cada uno de los cinco meses.

ANOVA

Resumen.
Se ha indicado cmo se usa el anlisis de varianza para ver si existe diferencias significativas
entre las medias de varias poblaciones o tratamientos. Adems se introdujo el diseo de
experimentos para un factor, el anlisis de varianza de dos factores mediante el diseo de
bloques aleatorizados y finalmente el anlisis de varianza de dos factores con interaccin
mediante el diseo factorial. El objetivo principal de formar bloques en el diseo de bloques
aleatorizado es eliminar fuentes extraas de variacin a partir del trmino de error. Ese
agrupamiento da como resultado un mejor estimado de la varianza verdadera del error, y una
mejor prueba para determinar si las medias de poblacin o tratamiento del factor difieren
apreciablemente.
En el anlisis de varianza de un solo factor, la estimacin se basa en la variacin entre los
tratamientos; ese estimador permite contar con un estimado insesgado slo si todas las medias
poblacionales son iguales. Calculando la relacin de ese estimador mediante el estadstico F,
se llega a establecer una regla de rechazo para determinar si se rechaza la hiptesis nula que
hace relacin a que si las medias poblacionales o de tratamientos son iguales. En todos los
diseos de experimento vistos, el agrupamiento o reparticin de la suma de cuadrados y de los
grados de libertad en sus diversas fuentes permite calcular los valores adecuados para el
anlisis de varianza y sus pruebas.

160

4.6 Anlisis de Covarianza


El anlisis de la covarianza es una tcnica estadstica que, utilizando un modelo de regresin
lineal mltiple, busca comparar los resultados obtenidos en diferentes grupos de una variable
cuantitativa, pero "corrigiendo" las posibles diferencias existentes entre los grupos en otras
variables que pudieran afectar tambin al resultado (covariantes).
Para una muestra de n elementos , con sus correspondientes parejas de valores de datos
X 1 , Y1 , X 2 , Y2 , etc , la covarianza de la muestra se define mediante la siguiente ecuacin:
Covarianza de la muestra S XY

X Yi Y

n 1

En la frmula cada valor de X i est aperado con uno de Yi . En la frmula el producto de la


desviacin de cada X i respecto a su media X de la muestra, por la desviacin de Yi respecto
a su correspondiente media Y , divida entre la suma de n 1.
Ejemplo:
Suponga que se desea comparar la cantidad de comerciales con el volumen de ventas diarias,
para lo cual se dispone de la siguiente informacin:
Cuadro: Cantidad de comerciales y nivel de ventas
Cantidad
Da
Volumen ventas
comerciales
1
2
50
2
5
57
3
1
41
4
3
54
5
4
54
6
1
38
7
5
63
8
3
48
9
4
59
10
2
46
El diagrama de dispersin para la informacin suministrada es:

161

Figura: Diagrama de dispersin

VENTAS

DIAGRAMA DE DISPERSIN
80
60
40
20
0
0

COMERCIALES

Para medir la intensidad de la relacin lineal entre la cantidad de comerciales X, y el volumen


de ventas Y, se calcula la covarianza de la muestra aplicando
la anterior ecuacin:
Cuadro: Clculos para la covarianza
Xi
Yi
2
5
1
3
4
1
5
3
4
2
30

50
57
41
54
54
38
63
48
59
46
510

S XY

X
-1
2
-2
0
1
-2
2
0
1
-1
0

X Yi Y
n 1

Y Y
i

-1
6
-10
3
3
-13
12
-3
8
-5
0

X Yi Y
1
12
20
0
3
26
24
0
8
5
99

99
11
10 1

La ecuacin para calcular la covarianza de una poblacin de tamao N se parece a la


anteriormente descrita, pero con distinta notacin para indicar que se est trabajando con la
poblacin:
Covarianza de una poblacin: XY

X Yi Y

Interpretacin de la covarianza
Para auxiliar en la interpretacin de la covarianza de la muestra, se hace necesario tomar en
cuenta la siguiente figura:
Figura: Particin del diagrama de dispersin
162

VENTAS

PARTICIN DEL DIAGRAMA DE


DISPERSIN

100
II

III

IV

50
0
0

COMERCIALES

La figura es la misma del diagrama de dispersin pero con una recta vertical en X = 3 (el valor
de la X ) y una recta horizontal que corresponde a Y = 51 ( el valor de Y ). En la grfica se
presentan cuatro cuadrantes: los puntos del cuadrante I corresponden a valores de
X i superiores a la X y a valores de Yi mayores que Y ; los puntos del cuadrante II a valores
de X i menores a la X y a valores de Yi mayores que Y , y as sucesivamente. Entonces el

valor de X i X Yi Y debe ser positivo para los puntos ubicados en el cuadrante I, negativo
para puntos del cuadrante II, positivo para del cuadrante III y negativo para los ubicados en el
cuadrante IV.
Si el valor de S XY es positivo, los puntos de mxima influencia sobre S XY deben estar en los
cuadrantes I y III. Por consiguiente un valor positivo de S XY , indica una asociacin lineal
positiva entre X y Y, esto es, al aumentar el valor de X, el de Y aumenta. Sin embargo, si el
valor de S XY es negativo, los puntos de mayor influencia sobre S XY estn en los cuadrantes II
y IV; por consiguiente, un valor de S XY negativo, indica una asociacin lineal negativa entre
X y Y; esto es, al aumentar el valor de X, el valor de Y disminuye. Por ltimo, si los puntos se
distribuyen uniformemente en los cuadrantes, el valor de S XY ser cercano a cero, indicando
que no existe asociacin lineal entre X y Y. La siguiente figura muestra los valores de S XY
que se pueden esperar con tres tipos distintos de diagrama de dispersin.
Figura: Interpretacin de la covarianza

163

En la figura anterior se observa que el diagrama de dispersin sigue el patrn de la primera


figura anterior, y desde luego, se espera que el valor de la covarianza de la muestra es
positivo, con S XY 11 .
De conformidad con todo lo anterior, parecera que un valor positivo grande de la covarianza
indica una fuerte relacin lineal positiva y que un valor negativo grande indica una fuerte
relacin lineal negativa. Sin embargo, un problema usando la covarianza como medida de
intensidad de relacin lineal, el valor de la covarianza depende de las unidades de medida de
X y Y. Por ejemplo, suponga que interesa la relacin entre la altura (X) y el peso (Y) de
ciertos individuos. Cuando la altura se expresa en centmetros se obtienen valores numricos
mucho mayores X i X que cuando se expresa en metros. As con la altura expresada en

centmetros, se obtiene un mayor valor en el numerador expresado por X i X Yi Y y


con l una mayor covarianza, cuando de hecho no hay diferencia en la relacin. Para evitar
dicha dificultad se utiliza el coeficiente de correlacin, que igualmente mide la relacin entre
dos variables.
4.7. Coeficiente de Correlacin:
Para los datos de una muestra, se define el coeficiente de correlacin Pearson del momento del
producto de conformidad con la siguiente frmula:
S
rXY XY
S X SY
En donde:
rXY Coeficient e de correlaci n de la muestra.
S XY Covarianza de la muestra.
S X Desviacin estndar muestral de X.
SY Desviacin estndar muestral de Y.
La anterior ecuacin indica que el coeficiente de correlacin del momento del producto de
Pearson para datos de la muestra (que generalmente se le denomina coeficiente de correlacin
de la muestra) se estima dividiendo la covarianza de la muestra entre el producto de la
desviacin estndar de X por la desviacin estndar de Y.
Para calcular el coeficiente de correlacin de la muestra para el ejemplo que se est analizando
(ejemplo 7.2), se estima las desviaciones estndar de la muestra para las dos variables.
2

SX

SY

Y Y

n 1

20
1.4907
9

n 1

566
7.9303
9

Como S XY 11 estimado anteriormente, el coeficiente de correlacin de la muestra es:


11
S
0.93
rXY XY
S X SY 1.4907 7.9303

164

En ocasiones cuando se dispone de calculadora, se prefiere utilizar las siguiente frmula, en


consideracin a que no es necesario calcular las desviaciones estndar, evitando cometer
errores de redondeo.
X Y
220 690
X iYi i i

3
n

rXY
2
2
2

X i Y 2 Yi 14 6 3500 90
2

X
3
3
n i
n
i

40

1
2 800
Se observa que el coeficiente de correlacin de la muestra para este conjunto de datos es igual
a 1.

En general se puede demostrar que so todos los puntos de un conjunto de datos caen en una
lnea recta con pendiente positiva, el valor del coeficiente de correlacin es +1, que
corresponde a una relacin lineal positiva perfecta entre las dos variables X y Y. Si los puntos
de un conjunto de datos estn en una recta que tiene pendiente negativa , el coeficiente de
correlacin de la muestra es de -1, que corresponde a una relacin lineal negativa perfecta
entre las variables X y Y.
Suponga ahora que para cierto conjunto de datos, existe una relacin lineal positiva entre X y
Y, pero que esa relacin no es perfecta, el valor de rXY es menor que 1, lo que indica que los
puntos del diagrama de dispersin no estn todos es una lnea recta. A medida que los puntos
se desvan de una relacin lineal perfecta, el valor de rXY se hace ms pequeo. Un valor de
rXY igual a cero indica que no existe relacin lineal entre X y Y, y los valores de rXY cercanos
a cero sealan una relacin lineal muy dbil.
Para el conjunto de datos del ejemplo 7.2 correspondiente a la cantidad de avisos publicitarios
y el nivel de ventas se ha obtenido un rXY = +0.93, llegando a la conclusin que existe una
relacin lineal positiva entre la cantidad de anuncios comerciales y las ventas,
especficamente, un aumento en la cantidad de anuncios se asocia con un incremento en las
ventas.

- Actividades con Excel y SPSS


A.

Excel

Regresin mltiple
Ejemplo:
Se considera las variables demanda, precio, ingreso y nivel de precipitacin de alcachofas, con
siguientes registros:
Demanda
Precio
Ingreso
Precipit

11
20
8.1
42

16
18
8.4
58

11
22
8.5
35

14
21
8.5
46

13
27
8.8
41

17
26
9.0
56

14
25
8.9
48

15
27
9.4
50

12
30
9.5
39

18
28
9.9
52

165

Ajustar a esta informacin a un modelo adecuado que ajuste la demanda en funcin del precio,
el ingreso y el nivel de precipitacin.
En la opcin Anlisis de datos del men de herramientas le lleva a la ventana de dialogo
Anlisis de datos y en la funciones para anlisis selecciona Regresin como se indica en la
siguiente figura.
Figura: Anlisis de datos para regresin

El cuadro de dialogo permite realizar un ajuste de regresin mltiple como se indica en la


siguiente figura.
Figura: Regresin

Al pulsar aceptar se obtiene la salida numrica que incluye los estadsticos de regresin,
cuadro del anlisis de varianza del modelo, estimadores, contrastes de significacin de F y T
con sus correspondientes p - valores asociados, intervalos de confianza para los parmetros y
para las predicciones al 95% y residuos, como se indica en la siguiente figura.

166

Figura: Resultados del anlisis

En la siguiente figura se presenta el grfico de cada variable independiente contra los residuos
que sirve para detectar problemas de no colinealidad, heterocedasticidad y autocorelacin en
el modelo de ajuste. Lo ideal es que todas las grficas presenten una estructura aleatoria de sus
puntos, como lo puede observar para las curvas de regresin pertenecientes al ingreso y al
precio, no as para la curva de la precipitacin.
Figura: Grafico de curvas de regresin

Demanda

Precipit Curva de regresin ajustada


20
10
0

Demanda
0

20

40

60

80

Pronstico Demanda

Precipit

Demanda

Ingreso Curva de regresin ajustada


20
10
0

Demanda
0

10

15

Pronstico Demanda

Ingreso

167

Demanda

Precio Curva de regresin ajustada


20
10
0

Demanda
0

10

20

30

Pronstico Demanda

40

Precio

En la siguiente figura se presenta el grfico para detectar la hiptesis de normalidad del


modelo, la cual cumple con el principio.
Figura: Grafico de probabilidad normal

Demanda

Grfico de probabilidad normal


20
10
0
0

20

40

60

80

100

Muestra percentil

En las siguientes figuras se presenta el grfico de cada variable independiente contra los
valores predichos, que sirve para detectar problemas de heterocedasticidad. Lo ideal es que
todas las grficas presenten una estructura aleatoria de puntos.
Figura: Grafico de Residuales

Residuos

Precipit Grfico de los residuales


1
0
-1 0
-2

10

20

30

40

50

60

70

Precipit

Residuos

Ingreso Grfico de los residuales


1
0
-1 0
-2

10

12

Ingreso

168

Residuos

Precio Grfico de los residuales


1
0
-1 0
-2

10

15

20

25

30

35

Precio

Anlisis de Covarianza
A continuacin se presenta una relacin de funciones de Excel para correlacin, regresin y
variables multidimensionales.
Figura 7.19
COVAR

Devuelve la covarianza, o promedio de los productos de las


desviaciones para cada pareja de puntos de datos definida por:
1 n
Cov x, y x j x y j j
n j 1
COEFICIENTE DE Devuelve el coeficiente de correlacin entre dos rangos de celdas
definidos por los argumentos matriz1 y matriz2 definida por:
CORRELACIN
Cov x, y
px , y
x y
Devuelve el cuadrado del coeficiente de correlacin de momento
del producto Pearson mediante los puntos de datos de conocido y
y conocido x definido por:
n xy x y
r
2
2
n x 2 x n y 2 y

Coeficiente R^2

B.

SPSS

Regresin mltiple
Si se continua con el ejemplo anterior para realizar el desarrollo en SPSS del modelo de
regresin lineal, a continuacin se transcribe el enunciado:
Se considera las variables demanda, precio, ingreso y nivel de precipitacin de alcachofas, con
siguientes registros:
Demanda
Precio
Ingreso
Precipit

11
20
8.1
42

16
18
8.4
58

11
22
8.5
35

14
21
8.5
46

13
27
8.8
41

17
26
9.0
56

14
25
8.9
48

15
27
9.4
50

12
30
9.5
39

18
28
9.9
52

Ajustar a esta informacin a un modelo adecuado que ajuste la demanda en funcin del precio,
el ingreso y el nivel de precipitacin.

169

Se comienza con la introduccin de la informacin en el editor de SPSS con los nombres de


demanda, precio, ingreso y precipitacin. Para estimar el modelo ingresa a la barra de men;
Regresin; Lineal como se aprecia en la siguiente figura.
Figura: matriz de datos

En la barra de men selecciona Analizar; Regresin; Lineal como se observa en la siguiente


figura.
Figura: Regresin

Rellena la pantalla de entrada del procedimiento regresin como se indica en la siguiente


figura.
Figura: Variable de anlisis

Hace clic en el botn guardar y rellena la ventana como se indica en la siguiente figura, para
guardar los residuos estudentizados como una nueva variable.

170

Figura: Variable estudentizado

Al pulsar aceptar la variable ser_1 que contiene los residuos se incorpora en el editor de SPSS,
como se puede observar en la siguiente figura.
Figura: matriz de datos con residuales

A continuacin se halla la matriz de correlaciones de las variables independientes y los


residuos rellenando la pantalla de entrada del procedimiento Correlaciones divariadas tal
como se indica en la siguiente figura.
Figura: Correlaciones

171

Rellenando la ventana de correlaciones vibariadas como se indica en la siguiente figura.


Figura: Variable de anlisis

Al pulsar aceptar se obtiene la matriz de correlaciones como se indica en la siguiente figura,


en la cual se indica la fuerte correlacin de los residuos con las variables independientes, lo
que viola uno de los principios o supuestos esenciales del modelo de regresin.
Figura Correlaciones
Studentized INGRES
PRECIO
Residual
O
PRECIO

Correlacin de
1
Pearson
Sig. (bilateral)
.
N
10
Studentized
Correlacin de
-,034
Residual
Pearson
Sig. (bilateral)
,926
N
10
INGRESO
Correlacin de
,868(**)
Pearson
Sig. (bilateral)
,001
N
10
** La correlacin es significativa al nivel 0,01 (bilateral).

-,034

,868(**)

,926
10

,001
10

-,023

.
10

,950
10

-,023

,950
10

.
10

Ante este problema, para ajustar el modelo se utiliza el procedimiento Regresin por Mnimos
cuadrados de dos fases como se indica en la siguiente figura.

172

Figura: Anlisis de regresin

Rellenando la pantalla de entrada como resultado del anterior procedimiento se logra la


siguiente figura.
Figura: Mnimos cuadrados en dos fases

Se utiliza como instrumentos la variable predictora ingresos en consideracin a que los niveles
de ingreso sean usados para predecir niveles de precios. Al pulsar aceptar se obtienen las
siguientes figuras.

173

Figura: Resultados

Auto evaluacin
- Cul es la forma general de una ecuacin de regresin mltiple con dos
variables
independientes?
- Se estudio una muestra de personas selectas viudas para determinar su grado de
satisfaccin en su vida actual. Se utiliz un ndice de
satisfaccin para
medir dicha
cualidad, estudiando 6 factores: La edad
en el momento del primer matrimonio ( X 1 ,
ingreso diario X 2 , nmero de hijos vivos X 3 , valor de los bienes posedos X 4 , estado
de salud
expresado en ndice X 5 , y nmero promedio de actividades sociales por
semana X 6 . Suponga que la
ecuacin de regresin mltiple es:
Y ' 16.24 0.017 X 1 0.0028 X 2 42 X 3 0.0012 X 4 0.19 X 5 26.8 X 6
*Cul es el ndice estimado de satisfaccin de una persona que se cas por primera
vez a los 18 aos, tiene un ingreso diario de $26.500, tres hijos vivos, bienes por $150.000,
un ndice de estado de salud de 14.1, y
2.5
actividades sociales por semana en
promedio?
* Qu proporcionara ms satisfaccin; un ingreso adicional de $10.000 al da, o
dos actividades sociales ms por semana?
- Un estudio del departamento de transito a cerca de la velocidad y la
distancia recorrida
para automviles medianos arroj los siguientes datos:

174

Velocidad 30
Distancia 28

50
25

40
25

55
23

30
30

25
32

60
21

25
35

50
26

55
25

* Trace el correspondiente diagrama de dispersin.


* Qu indica el diagrama de dispersin a cerca de la relacin entre las variables?
* Calcule e interprete la covarianza de la muestra de datos
* Calcule e interprete el coeficiente de correlacin de la muestra de datos.

Resumen.
El anlisis de regresin mltiple es una tcnica que utiliza diversas variables independientes
(en lugar de una sola) para estimar el valor de una variable dependiente; el anlisis de
correlacin mltiple mide la intensidad de asociacin entre todas estas variable. A diferencia
del anlisis de regresin simple, el anlisis de regresin mltiple permite ejercer el control
estadstico sobre factores externos y determinar la influencia de cualquier variable
independiente X i en la variable dependiente (Y) para valores especficos constantes de otras
variables que pudieran afectar a Y. La tcnica de regresin mltiple son extensiones sencillas
de las de regresin simple. En presencia de dos variables explicativas, se plantea una ecuacin
de regresin mltiple de la siguiente forma:

Y b0 b1 X 1 b2 X 2

Los bi son los coeficiente de regresin mltiple que dan el cambio parcial en la variable
dependiente Y que esta asociada con un cambio unitario en una variable independiente cuando
la otra se mantiene constante. A partir de la ecuacin de regresin mltiple de tres variables
como la citada anteriormente, se calcula el error estndar, se hacen las inferencias sobre la
base de los supuestos, tambin se logra probar la significancia completa de una regresin
mltiple por medio del anlisis de varianza, en la cual se prueba que todos los coeficientes de
regresin reales son diferentes de cero y por tanto, las variables independientes ayudan a
explicar la variacin de la variable dependiente.
En todo el contenido se usaron los resultados del paquete estadstico de Excel para llamar la
atencin que los programas estadsticos de computo son un medio realista de llevar a cabo
numerosos clculos que requiere el anlisis de regresin mltiple.
Se present el coeficiente de determinacin mltiple como medida de la bondad del ajuste de
la ecuacin de regresin que termina la proporcin de la variacin de la variable dependiente
que se puede explicar con la ecuacin de regresin. El coeficiente ajustado de determinacin
mltiple es una medida parecida a la bondad de ajuste, que toma en cuenta la cantidad de
variables independientes y con ello evita sobreestimar el impacto al agregar ms variable
independiente.
Se describi la prueba F y la prueba t como mtodos para determinar estadsticamente si la
relacin entre las variables es significativa,. La prueba F se aplica para determinar si existe
una relacin significativa entre la variable dependiente y el conjunto de variables
independientes. La prueba t se utiliza para determinar si existe una relacin significativa entre
la variable dependiente y una variable individual independiente

175

CAPITULO CINCO
5. PRUEBAS NO PARAMETRICAS
Introduccin
Uno de los problemas ms difciles para el principiante y para el investigador experimentado,
es decidir cul de las pruebas estadsticas es la ms adecuada para analizar un conjunto de
datos. La aplicacin de la estadstica en el anlisis de datos es muy amplia y las reas en las
que se aplica son diversas, desde las ciencias exactas hasta las ciencias sociales. La seleccin
de la prueba estadstica necesaria para el caso, depende de varios factores, en primer lugar se
debe saber cul es la escala con la que se estn midiendo los datos que se analizarn, pues no
se puede aplicar la misma prueba estadstica para el caso en que la variable de inters sea el
peso de un producto que cuando lo es la profesin del usuario de un producto.
Queremos introducir en este parte la nocin de pruebas no paramtricas como aquellas que no
presuponen una distribucin de probabilidad para los datos, por ello se conocen tambin como
de distribucin libre. En la mayor parte de ellas los resultados estadsticos se derivan
nicamente a partir de procedimientos de ordenacin y recuento, por lo que su base lgica es
de fcil comprensin. Cuando trabajamos con muestras pequeas (n < 10) en las que se
desconoce si es vlido suponer la normalidad de los datos, conviene utilizar pruebas no
paramtricas, al menos para corroborar los resultados obtenidos a partir de la utilizacin de la
teora basada en la normal.
En estas tcnicas, solamente se necesitan conocimientos elementales de matemticas, pues los
mtodos son relativamente ms sencillos que en las pruebas paramtricas. En estas pruebas,
tambin se tienen supuestos, pero son pocos y no tienen que ver con la naturaleza de la
distribucin de la poblacin, por lo que a estas tcnicas tambin se les conoce como de libre
distribucin.
En general el nico supuesto que se debe cumplir en la mayora de las pruebas no
paramtricas para confiar en ellas, es que la muestra haya sido seleccionada en forma
probabilstica.
Las pruebas que se mencionarn son las que se podran necesitar con mayor frecuencia, se
mencionarn sus principales caractersticas y aplicaciones.

Objetivo general.
Contrastar la validez de hiptesis o conjetura sobre la relacin entre variables y sobre las
distribuciones de probabilidad terica que adoptan dichas variables, sin sujetarse a los
condicionamientos de la validez de supuestos paramtricos.

Objetivos especficos.

Examinar que se entiende por hiptesis y por prueba de hiptesis No paramtricas.


Realizar pruebas No paramtricas para una variable y para datos pareados

176

Realizar pruebas sobre la bondad de ajustes de variables a distribuciones de


probabilidad terica de carcter cuantitativas.
Realizar pruebas de hiptesis para datos que se encuentran en una escala nominal u
ordinal con aplicacin de la distribucin chi- cuadrado.
Realizar pruebas sobre la relacin entre dos y ms variables poblacionales.

5.1 Generalidades
Las pruebas de hiptesis hacen inferencias respecto a los parmetros de la poblacin, como la
media. Estas pruebas paramtricas utilizan la estadstica paramtrica de muestras que
provinieron de la poblacin que se est probando. Para formular estas pruebas, hicimos
suposiciones restrictivas sobre las poblaciones de las que extraamos las muestras. Por
ejemplo: suponamos que las muestras eran grandes o que provenan de poblaciones
normalmente distribuidas. Pero las poblaciones no siempre son normales.
Los estadsticos han desarrollado tcnicas tiles que no hacen suposiciones restrictivas
respecto a la forma de las distribuciones de las poblaciones. stas se conocen como pruebas
sin distribucin, o pruebas no paramtricas. Las hiptesis de una probabilidad no paramtrica
se refieren a algo distinto del valor de un parmetro de poblacin
Ventajas de los mtodos no paramtricos.
1.

No requieren que hagamos la suposicin de que una poblacin est distribuida en


forma de curva normal u otra forma especfica.
2.
Generalmente, son ms fciles de efectuar y comprender.
3.
Algunas veces, ni siquiera se requiere el ordenamiento o clasificacin formal.
Desventajas de los mtodos no paramtricos.
1.
2.

Ignoran una cierta cantidad de informacin


A menudo, no son tan eficientes como las pruebas paramtricas. Cuando usamos
pruebas no paramtricas, efectuamos un trueque: perdemos agudeza al estimar
intervalos, pero ganamos la habilidad de usar menos informacin y calcular ms
rpidamente.

5.2 Prueba del Chi Cuadrado 2


La prueba de chi cuadrado puede emplearse para comparar frecuencias de dos o ms grupos,
como en muchas otras aplicaciones. Se utiliza en esta forma, para hacer referencia al ensayo
como prueba de chi cuadrado para la independencia. Su versatilidad es una de las razones por
la cual los investigadores usan esta prueba con tanta frecuencia.
Esta prueba se denomina como Ji-cuadrado, derivada de la letra griega mayscula Ji que se
escribe y que se lee chi, el cuadrado se debe a que la suma de las diferencias entre los
valores observados y esperados cuyo valor sea igual a 0, por lo tanto, se hace necesario
elevarlos al cuadrado, para cuantificar la diferencias.
La distribucin normal se utiliza en todos aquellos casos en que el experimento ofrece dos
resultados posibles; cuando se presentan ms de dos resultados debe aplicarse la prueba de

177

chi-cuadrado, frecuentemente usada para probar hiptesis concernientes a la diferencia entre


un conjunto de frecuencias observadas de una muestra y un conjunto correspondiente de
frecuencias tericas o esperadas.
Cuando se trabaja con variables cualitativas podemos estar interesados en saber si las dos
variables que clasifican a los individuos de una poblacin estn relacionadas o no. Por esta
razn trabajamos con una muestra representativa de la poblacin y dos variables cualitativas
cuya relacin queremos estudiar. Si al final de nuestro estudio concluimos que ambas
variables no estn relacionadas, decimos con un determinado nivel de confianza previamente
fijado, que son independientes.
A menudo nos formulamos preguntas referentes a las relaciones entre dos variables
cualitativas, por ejemplo: Existen diferencias en la recuperacin de pacientes sometidos a
distintos tratamientos? Existen diferencias entre hombres y mujeres respecto a sus hbitos
alimenticios?

El estadgrafo de la prueba chi cuadrado 2


Con el fin de resolver este tipo de situaciones aplicamos la prueba de chi-cuadrado 2 , que
presenta las siguientes caractersticas:
Intervienen dos o ms variables cualitativas.
Su valor slo puede ser positivo.
Hay una familia de distribuciones de esta clase, una para cada grado de libertad.
Las distribuciones tienen sesgo positivo, pero conforme aumenta el nmero de grados
de libertad, la distribucin se aproxima a la de tipo normal.
Las variables presentan dos o ms modalidades.
Los datos se presentan en frecuencias que se tabulan en tablas de contingencia o tablas
de doble entrada.

El estadgrafo de prueba es:


(O - E) 2
=
.
E
2

Ejemplo:
Si un ingeniero de control de calidad toma una muestra de 10 neumticos que salen de una
lnea de ensamblaje y l desea verificar sobre la base de los datos que siguen, los nmeros de
llantas con defectos observadas en 200 das, si es cierto que el 5% de todos los neumticos
tienen defecto; es decir, si el muestrea una poblacin binomial con n = 10 y = .05
Solucin:
1. Establecer la hiptesis: Ho: La poblacin es binomial y Ha: La poblacin no es
binomial

178

2. Establecer la estadstica de prueba


3.

Establecer la estadstica de prueba


k

oi

f ei
f ei

i 1

Oi =
Ei =
K =
m=
4.

Valor observado en la i-simo celda.


Valor esperado en la i-simo celda.
Categoras o celdas.
Parmetros

Definir el nivel de significancia y la zona de rechazo

g,l = k- m 1 = (3 0- 1) =
5.99
Nivel de significancia = 0.05
2
2
Zona de rechazo = { / 5.99)
m = 0 porque no se necesito estimar ningn parmetro
2

oi

f ei

f ei

i 1

5. Calculo de la estadstica de prueba


Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades
utilizaremos la formula de la binomial
f ( x ) nx x ( 1 ) n x
Donde n = 10

f (0)

= 0.05
10
0

0.05

( 1 0.05)10 0 = .599

1
10 1
f (1) 10
1 0.05 ( 1 0.05)
= .315

y la probabilidad de 2 ms = 1.0 - .599 - .315 = .086


Ahora ya podemos encontrar las frecuencias esperadas:
200 ( .599) = 119.8
200(.315) = 63
200 (.086) = 17.2

Al aplicar la formula se tiene:


179

(138 119.8) 2 (53 63.0) 2 (9 17.2) 2

119.8
63
17.2
= 8.26

6. Como 8.26 es mayor que 5.99,se rechaza la hiptesis nula con un nivel de significancia de
0.05.
7. Conclusin: Se concluye que el porcentaje verdadero de neumticos con defecto no es el
5%.
5.3. Prueba de Kolmogorov-Smirnov:
La nica premisa que se necesita es que las mediciones se encuentren al menos en una escala
de intervalo. Se necesita que la medicin considerada sea bsicamente continua. Adems
dicha prueba es aplicable cualquiera sea el tamao de la muestra.
Compara las funciones de distribucin terica y emprica (slo vlido para variables
continuas).
Caractersticas de la prueba
La prueba de K-S de una muestra es una hiptesis de bondad de ajuste. Esto es, se interesa en
el grado de acuerdo entre la distribucin de un conjunto de valores de la muestra y alguna
distribucin terica especfica. Determina si razonablemente puede pensarse que las
mediciones mustrales provengan de una poblacin que tenga esa distribucin terica. En la
prueba se compara la distribucin de frecuencia acumulativa de la distribucin terica con la
distribucin de frecuencia acumulativa observada. Se determina el punto en el que estas dos
distribuciones muestran la mayor divergencia.
Se trata de un mtodo no paramtrico sencillo para probar si existe una diferencia significativa
entre una distribucin de frecuencia observada y otra frecuencia terica. Es otra medida de la
bondad de ajuste de una distribucin de frecuencia terica.
Se basa en la comparacin de distribuciones acumuladas: la distribucin acumulada de los
datos observados y la distribucin acumulada terica correspondiente al modelo elegido.
Hiptesis
Ho: La distribucin observada se ajusta a la distribucin terica.
F(x) = Ft(x) para todo x.
H1: La distribucin observada no se ajusta a la distribucin terica.
Ft(x): es la funcin terica. Esta puede ser por ejemplo la funcin normal con cierta media y
varianzas conocidas.
Estadstico de prueba
D = mxima
Sn(x): es la funcin de distribucin emprica.

180

Tiene varias ventajas: es una prueba poderosa y fcil de utilizar, puesto que no requiere que
los datos se agrupen de determinada manera.
Es particularmente til para juzgar qu tan cerca est la distribucin de frecuencias observada
de la distribucin de frecuencias esperada, porque la distribucin de probabilidad Dn depende
del tamao de muestra n, pero es independiente de la distribucin de frecuencia esperada (Dn
es una estadstica de distribucin libre).
Para calcular la estadstica K-S, simplemente se elige Dn (la desviacin absoluta mxima
entre las frecuencias observadas y tericas).
Una prueba K-S siempre debe ser una prueba de un extremo.
Luego se busca el valor crtico en la tabla, para las n observaciones, considerando el nivel de
significancia adoptado.
Si el valor de la tabla es mayor que el valor de Dn, entonces aceptaremos la hiptesis nula.

SUGERENCIAS:

La prueba de Kolmogorov puede usarse con muestras muy pequeas, en donde no se


pueden aplicar otras pruebas paramtricas.
Podemos usar la prueba de Kolmogorov para verificar la suposicin de normalidad
subyacente en todo anlisis de inferencia.
Si bien constituye una prueba de implementacin sencilla, tenga en cuenta que carga
con las desventajas de los mtodos no paramtricos en general, en el sentido de producir
resultados menos precisos que los procedimientos convencionales.
Cuando trabaje con muestras pequeas, recuerde usar la frecuencia cumulada
experimental.
El procedimiento general para realizar esta prueba para valores agrupados en
intervalos de clase es el siguiente:
1) Especificar la distribucin nula es f0(x,), y estimar sus parmetros si es necesario.
2) Organizar la muestra en una distribucin de frecuencia, en intervalos de clase.
3) Con base en la distribucin observada de frecuencia, se calcula la distribucin
acumulativa Sn(Xi) = mi/n, siendo Xi el lmite superior del intervalo de clase, y mi el
nmero de valores de la muestra menores o iguales que Xi. Sn(Xi) corresponde
simplemente a la frecuencia relativa acumulada hasta el intervalo i.
4)
Se
calcula
la
funcin
de
distribucin
terica
FXi).
5) Para cada intervalo de clase se calcula la diferencia entre F (Xi ) y Sn (Xi), y se
busca la mxima Dmax = Max | FX (Xi) - Sn (Xi), i = 1, 2, ..., k.
6) Se busca en la tabla el valor crtico Dmaxp(,n) con el nivel de significancia . Si
el valor observado Dmax es menor o igual que el valor crtico, entonces se acepta la
hiptesis nula de que no existen diferencias significativas entre la distribucin terica
y la distribucin dada por los resultados muestrales, es decir, que los valores generados
siguen la distribucin que se haba supuesto.
Cuando la muestra es pequea y/o los valores no se van a organizar en intervalos de
clase el procedimiento es similar, slo que el paso 2 se cambia por "ordenar los valores
de la muestra" en forma ascendente, de menor a mayor", y en los pasos 3 y 4 se
calculan las funciones de distribucin terica y emprica para cada valor de la muestra.

181

Ejemplo.
Considere de nuevo el ejemplo de la prueba de habilidad aplicada a un grupo de 80empleados.
Mediante la prueba de Smirnov Kolomogorov. Con un nivel de significancia del 5%, pruebe
la hiptesis de que los puntajes obtenidos siguen una distribucin norma.
Solucin.
De la tabla construida para realizar la prueba chi cuadrado tomaremos la informacin
pertinente y la complementaremos con la informacin faltante, relativa al clculo de Sn(Xi).
Los clculos se muestran a continuacin.

El valor crtico para n = 80 valores y un nivel de significancia del 5% es


Dmaxp(0.05,80) = 1.36/
= 0.152. Como la diferencia mxima observada fue de
0.0236 no hay razn para dudar que los puntajes se puedan aproximar mediante una
distribucin normal.

Ejemplo: Prueba de Smirnov - Kolmogorov - Valores agrupados. En la tabla siguiente se


presentan los clculos para realizar la prueba S-K para la muestra de 100 nmeros aleatorios
generados mediante un generador congruencial multiplicativo con a = 899, C = 0 y M =
32768, usados para la prueba chi cuadrado.
Solucin:

182

La diferencia mxima observada es Dmax(x) = 0.09 y el valor crtico para un nivel de


significancia del 1% es de 1.63/
= .163. Como Dmax(x) < D(0.01,100) no
podemos rechazar la hiptesis nula y debemos concluir que la muestra tomada del
generador de nmeros aleatorios proviene de una distribucin uniforme (0,1).

5.4. Prueba de Wilcoxon de los Rangos con Signo


Esta prueba nos permite comparar nuestros datos con una mediana terica. Llamemos M0 a la
mediana frente a la que vamos a contrastar nuestros datos, y sea X1, X2 .. Xn los valores
observados. Se calcula las diferencias X1-M0, X2-M0, ..., Xn-M0. Si la hiptesis nula fuera
cierta estas diferencias se distribuiran de forma simtrica en torno a cero.
Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se ordenan de
menor a mayor, asignndoles su rango (nmero de orden). Si hubiera dos o ms diferencias
con igual valor (empates), se les asigna el rango medio (es decir que si tenemos un empate en
las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos R+ la suma de
todos los rangos de las diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la
suma de todos los rangos correspondientes a las diferencias negativas. Si la hiptesis nula es
cierta, ambos estadsticos debern ser parecidos, mientras que si nuestros datos tienen a ser
ms altos que la mediana M0, se reflejar en un valor mayor de R+, y al contrario si son ms
bajos. Se trata de contrastar si la menor de las sumas de rangos es excesivamente pequea para
ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es
excesivamente grande.
5.4.1 Prueba de Wilcoxon para contrastar datos pareados
El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de parejas de
valores, por ejemplo antes y despus del tratamiento, que podemos denominar (X1,Y1),
(X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-Y2, ... ,
Xn-Yn y las ordenaremos en valor absoluto, asignndoles el rango correspondiente.
Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos
negativos R-. Ahora la hiptesis nula es que esas diferencias proceden de una distribucin
simtrica en torno a cero y si fuera cierta los valores de R+ y R- sern parecidos.
Ejemplo
Para muestras pequeas utilizando la prueba de dos colas:
Un investigador desea comparar el grado de hiperactividad en obesos cuando estn en un
programa para bajar de peso (dieta) y sin programa para bajar de peso.
Eleccin de la prueba estadstica.
Se tienen dos muestras dependientes y, por el tipo de medicin, es posible listarlas en una
escala ordinal.
Planteamiento de la hiptesis.

Hiptesis alterna (Ha). Existe diferencia significativa entre el grado de hiperactividad


en obesos cuando estn en un programa de dieta y sin el programa de dieta.

183

Hiptesis nula (Ho). No existe diferencia significativa entre el grado de hiperactividad


en obesos cuando estn en un programa de dieta y sin el programa de dieta, esto es
debido al azar.

Nivel de significacin.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Aplicacin de la prueba estadstica.
Con base a los pasos, se obtienen las diferencias observadas en los incrementos de
hiperactividad en obesos, estando en un programa de dieta o no. Estos valores podrn tener
signos positivos y negativos, los cuales quedaran abolidos al ordenarse los rangos y stos los
adoptan.

Sumatoria de T = 15.5
El valor T de la prueba de Wilcoxon obtenido se compara con los valores crticos de la tabla T
en pruebas de rangos sealados de pares iguales de Wilcoxon, y se puede apreciar que para ser
significativo (es decir, por debajo de 0.05, que fue el nivel de significancia), requiere que este
0.05 sea menor; por lo tanto, la probabilidad es mayor que 0.05.
tc = 15.5
tt = 8
Para dos colas = = 0.05
N= 10
tc tt rechaza Ho
Decisin.
En virtud de que la probabilidad es mayor que 0.05, se acepta Ho y se rechaza Ha.
Interpretacin.
Las diferencias en el incremento o disminucin de la hiperactividad en personas obesas con
dieta o sin dieta, no son significativas. Estadsticamente resultan iguales, en razn de que
pueden ser diferencias dadas al azar.

184

5.5. Prueba de Mann-Whitney para muestras independientes


La prueba de Mann-Whitney puede utilizarse para probar la hiptesis nula de que las
medianas de dos poblaciones son iguales. Se supone que las dos poblaciones tienen la misma
forma y dispersin, porque tales diferencias tambin podran conducir al rechazo de la
hiptesis nula. Es necesario que los valores de las dos muestras aleatorias independientes
estn al menos en la escala ordinal.
Las dos muestras se combinan en un conjunto ordenado, en el que cada valor muestral se
identifica segn el grupo muestral original. Los valores se clasifican entonces de menor a
mayor, asignando el rango 1 al menor valor muestral observado. En caso de valores iguales, se
les asigna el rango medio. Si la hiptesis nula es cierta, el promedio de los rangos de cada
grupo muestral debera ser aproximadamente igual. La estadstica calculada para efectuar esta
prueba se denomina U, y puede basarse en la suma de los rangos de cualquiera de las dos
muestras aleatorias, de este modo:

Donde
n1 = tamao de la primera muestra
n2 = tamao de la segunda muestra
R1 = suma de los rangos de la primera muestra
R2 = suma de los rangos de la segunda muestra
Dado que n1 > 10, n2 > 10 y la hiptesis nula sea cierta, la distribucin de muestreo de U
es aproximadamente normal, con los siguientes parmetros:

Por lo tanto, la estadstica de prueba para probar la hiptesis nula de que las medianas de
dos poblaciones son iguales es

Donde U es igual a U1 o U2.


En situaciones en las que n1 < 10, n2 < 10 o tanto n1 como n2 < 10, la distribucin normal
de probabilidad no puede emplearse en esta prueba. No obstante, en libros de texto
especializados en estadstica no paramtrica se dispone de tablas especiales de la
estadstica U para esas pequeas muestras.
Ejemplo:
Suponga que queremos saber cul es el efecto de un material con sentido sobre la memoria. Se
le pide a un grupo de seis sujetos que se aprenda de memoria un material sin sentido, y a otro
grupo de seis sujetos que se aprenda de memoria un material con sentido. La memoria se
medir por el nmero de palabras recordadas y predecimos que los puntajes de recuerdo sern
ms altos para la condicin 2.

185

Solucin:
Condicin 1
(material sin
sentido)
Puntajes

Rango (1)

Condicin 2
(material con
sentido)
Puntajes

Rango (2)

3
4
2
6
2
5

3
4
1.5
7.5
1.5
5.5

9
7
5
10
6
8

11
9
5.5
12
7.5
10

22

T1=23

45

T2=55

U = N1N2 + Nx(Nx + 1)/2 Tx


Donde:
N1: Muestra 1
N1 = 6
N2: Muestra 2 N2 = 6
Tx: Mayor de total de rangos Tx = T2 = 55
Nx: Nmero de sujetos con el grupo de mayor total de rangos Nx = N2 = 6
Reemplazando U = 6 x 6 + ( 6 x 7)/2 55
= 36 + 21 55
= 2
El valor de U tabulado al nivel del 5% es de 7. Por lo tanto no podemos rechazar la hiptesis y
aceptar que no existe una diferencia significativa a favor de un mayor recuerdo del material
con sentido.

5.6. Prueba H de Suma de Rangos o Prueba de Kruskal-Wallis para comparar k


muestras independientes
Cuando se tiene inters o necesidad de probar una hiptesis nula en la que se afirma que k
tratamientos son iguales o que k muestras aleatorias independientes provienen de poblaciones
idnticas, siendo k > 2, la prueba estadstica que se realizara dentro de la estadstica
paramtrica sera el anlisis de varianza de un sentido y para la prueba se utilizara la
distribucin F; sin embargo, cuando la escala es ordinal o se desconfa del supuesto de que las
muestras provienen de poblaciones con forma de distribucin normal, se puede utilizar esta
prueba para muestras independientes. La hiptesis alternativa sera que al menos dos
poblaciones tienen una distribucin diferente.
La prueba de Kruskal-Wallis sirve para probar la hiptesis nula de que varias poblaciones
tienen las mismas medianas. As, es el equivalente no paramtrico del diseo completamente
aleatorizado de un factor de anlisis de varianza. Se supone que las diversas poblaciones
tienen la misma forma y dispersin para que la hiptesis anterior sea aplicable, ya que
diferencias en forma o dispersin podran tambin conducir al rechazo de la hiptesis nula. Es

186

necesario que los valores de las diversas muestras aleatorias independientes estn al menos en
la escala ordinal.
Las varias muestras son vistas primeramente como un conjunto de valores, y cada valor de
este grupo combinado se clasifica de menor a mayor. En caso de valores iguales, se les asigna
el rango medio. Si la hiptesis nula es cierta, el promedio de los rangos de cada grupo
muestral debera ser ms o menos igual. La estadstica de prueba calculada se denomina H y
se basa en la suma de los rangos de cada una de las varias muestras aleatorias, de la siguiente
manera:

donde N = tamao de muestra combinado de las diversas muestras (ntese que en este caso N
no designa al tamao de la poblacin)
Rj . = suma de los rangos de la jsima muestra o grupo de tratamiento
nj. = nmero de observaciones de la jsima muestra
Dado que el tamao de cada grupo muestral sea de al menos nj 5 y la hiptesis nula sea
cierta, la distribucin de muestreo de H es similar a la distribucin X2 con g1 = K - 1, donde K
es el nmero de tratamientos o grupos muestrales. El valor de X2 que aproxima el valor crtico
de la estadstica de prueba es siempre el valor de la cola superior. Este procedimiento de
prueba es anlogo a la cola superior de la distribucin F que se emplea en el anlisis de
varianza.
En el caso de rangos empatados, la estadstica de prueba H debe corregirse. El valor corregido
de la estadstica de prueba se denomina HC y se calcula en la siguiente forma:

Donde tj representa el nmero de puntajes empatados en la jsima muestra.


El efecto de esta correccin es incrementar el valor de la estadstica H calculada. En
consecuencia, si el valor no corregido de H conduce al rechazo de la hiptesis nula, no hay
necesidad de corregir este valor para el efecto de rangos empatados.
Ejemplo:
Un investigador desea probar que los directores escolares son caractersticamente ms
autoritarios que los maestros de clase. Toma 17 maestros y los divide en tres grupos: maestros
orientados a la enseanza (permanecern en la enseanza), maestros orientados hacer
directores y directores. Se les aplica una prueba de autoritarismo. Su hiptesis supone que los
tres grupos diferirn con respecto a los promedios en la escala de autoritarismo)
Puntaje de autoritarismo de los tres grupos:
Profesores orientados a la

Profesores orientados a ser

enseanza

Directores

96

82

Directores

115

187

128

124

149

83

132

166

61

135

147

101

109

180

171

177

Rango de autoritarismo de los tres grupos:


Profesores orientados a la

Profesores orientados a ser

Directores

enseanza

Directores

13

10

14

11

12

17

15

16

R1= 37

R2=53

R3=63

Realice los clculos Los clculos del estadstico H de prueba y compare este con el valor
crtico al 5% de nivel de significacin.
5.7. Introduccin a la Inferencia Bayesiana
La inferencia bayesiana es un tipo de inferencia estadstica en la que las evidencias u
observaciones se emplean para actualizar o inferir la probabilidad de que una hiptesis pueda
ser cierta. El nombre "bayesiana" proviene de uso frecuente que se hace del Teorema de Bayes
durante el proceso de inferencia.
La incertidumbre y la imprecisin son connaturales en el proceso de razonamiento. La lgica
establece unas reglas de inferencia a partir de las cuales se construye el sistema de
razonamiento deductivo, en el que una proposicin de terminada es considerada como cierta o
falsa, sin que se admitan grados entre estos dos extremos. Los mtodos de razonamiento
aproximado, entre los que se encuentran los mtodos bayesianos, aportan modelos tericos
que simulan la capacidad de razonamiento en condiciones de incertidumbre, cuando no se

188

conoce con absoluta certeza la verdad o falsedad de un enunciado o hiptesis, e imprecisin,


enunciados en los que se admite un rango de variacin.
Entre los mtodos de razonamiento aproximado se encuentran los mtodos bayesianos,
basados en el conocido teorema de bayes. Todos ellos tienen en comn la asignacin de una
probabilidad como medida de credibilidad de las hiptesis. En este contexto, la inferencia se
entiende como un proceso de actualizacin de las medidas de credibilidad al conocerse nuevas
evidencias. Matemticamente se trata de obtener las probabilidades de las hiptesis
condicionadas a las evidencias que se conocen. La actualizacin de las probabilidades
condicionadas hiptesis a las evidencias se fundamenta en la aplicacin del Teorema de
Bayes. La diferencia entre los distintos mtodos bayesianos, modelos causales y redes
Bayesiana, estriba en las hiptesis de independencia condicional entre hiptesis y evidencias.
Dichas relaciones se expresan comnmente mediante un grafo dirigido aciclco.
La inferencia bayesiana es una inferencia estadstica en la que se utiliza la evidencia o las
observaciones para actualizar o inferir nuevamente que una hiptesis puede ser verdadera. El
nombre "bayesiano" proviene del uso frecuente del teorema de Bayes en el proceso de
inferencia. El teorema de Bayes ha sido derivado de la obra del Reverendo Thomas Bayes.
Evidencia y creencias cambiantes
La inferencia bayesiana utiliza aspectos del mtodo cientfico que implica recolectar evidencia
que se considera consistente o inconsistente con una hiptesis dada. A medida que la
evidencia se acumula, el grado de creencia en una hiptesis se va modificando. Con evidencia
suficiente, a menudo podr hacerse muy alto o muy bajo. As, los que sostienen la inferencia
bayesiana dicen que puede ser utilizada para discriminar entre hiptesisen conflicto: las
hiptesis con un grado de creencia muy alto deben ser aceptadas como verdaderas y las que
tienen un grado de creencia muy bajo deben ser rechazadas como falsas. Sin embargo, los
detractores dicen que este mtodo de inferencia puede estar afectado por un prejuicio debido a
las creencias inciales que se deben sostener antes de comenzar a recolectar cualquier
evidencia.
Ejemplos de inferencia
Un ejemplo de inferencia bayesiana es el siguiente:
Durante miles de millones de aos, el sol ha salido despus de haberse puesto. El sol se ha
puesto esta noche. Hay una probabilidad muy alta (o 'Yo creo firmemente que' o 'es verdad
que') el sol va a volver a salir maana. Existe una probabilidad muy baja (o 'yo no creo de
ningn modo que' o 'es falso que') el sol no salga maana.
La inferencia bayesiana usa un estimador numrico del grado de creencia en una hiptesis an
antes de observar la evidencia y calcula un estimador numrico del grado de creencia en la
hiptesis despus de haber observado la evidencia. La inferencia bayesiana generalmente se
basa en grados de creencia, o probabilidades subjetivas, en el proceso de induccin y no
necesariamente declara proveer un mtodo objetivo de induccin.
Definiciones formales
A pesar de todo, algunos estadsticos bayesianos creen que las probabilidades pueden tener un
valor objetivo y por lo tanto la inferencia bayesiana puede proveer un mtodo objetivo de
induccin. (Vermtodo cientfico.) El teorema de Bayes ajusta las probabilidades, dada una
nueva evidencia, de la siguiente manera:

189

Donde
H0 representa una hiptesis, llamada hiptesis nula, que ha sido inferida antes de que la nueva
evidencia, E, resultara disponible.
P(H0) se llama la probabilidad a priori de H0. P(E | H0) se llama la probabilidad condicional de
que se cumpla la evidencia E dado que la hiptesis H0 es verdadera. Se llama tambin la
funcin de verosimilitud cuando se expresa como una funcin de E dado H0.
P(E) se llama la probabilidad marginal de E: la probabilidad de observar la nueva evidencia E
bajo todas las hiptesis mutuamente excluyentes. Se la puede calcular como la suma del
producto de todas las hiptesis mutuamente excluyentes por las correspondientes
probabilidades condicionales:

P(H0 | E)
se llama la probabilidad posteriori de H0 dado E. El factor P(E | H0) / P(E) representa el
impacto que la evidencia tiene en la creencia en la hiptesis. Si es posible que se observe la
evidencia cuando la hiptesis considerada es verdadera, entonces este factor va a ser grande.
Multiplicando la probabilidad a priori de la hiptesis por este factor va a resultar en una gran
probabilidad a posteriori dada la evidencia. En la inferencia bayesiana, por lo tanto, el teorema
de Bayes mide cunto la nueva evidencia es capaz de alterar la creencia en la hiptesis.
Establecimiento de la Inferencia
Los estadsticos bayesianos sostienen que aun cuando distintas personas puedan proponer
probabilidades a priori muy diferentes, la nueva evidencia que surge de nuevas observaciones
va a lograr que las probabilidades subjetivas se aproximen cada vez ms. Otros, sin embargo,
sostienen que cuando distintas personas proponen probabilidades a priori muy diferentes, las
probabilidades subjetivas a posteriori pueden no converger nunca, por ms evidencias nuevas
que se recolecten. Estos crticos consideran que visiones del mundo que son completamente
diferentes al principio pueden seguir siendo completamente diferentes a travs del tiempo por
ms evidencias que se acumulen.
Multiplicando la probabilidad anterior P(H0) por el factor P(E | H0) / P(E) nunca se podr
obtener una probabilidad superior a 1. Ya que P(E) es al menos mayor que
que permite la igualdad

, lo

(vase probabilidad conjunta), reemplazando

P(E) con
en el factor P(E | H0) / P(E) esto dejar una probabilidad posterior de
1. TPor lo tanto, la probabilidad posterior no llegar a ser mayor que uno slo si P(E) fuese
menor que

lo que nunca es cierto.

La probabilidad de E dado H0, P(E | H0), puede ser representada como una funcin de su
segundo argumento, lo que puede hacerse proporcionando un valor. Tal funcin se denomina
funcin de verosimilitud; es funcin de H0 dado E. Una proporcin de dos funciones de
verosimilitudes que se denomina proporcin de verosimilitud, . Por ejemplo:

190

La probabilidad marginal P(E), puede ser representada adems como la suma de los productos
de todas las probabilidades de las hiptesis exclusivas mutuamente y que corresponden a
probabilidades condicionales:
resultado, se puede reescribir el teorema de Bayes como:

. Como

Con dos evidencias independientes E1 y E2, la inferencia bayesiana se puede aplicar


iterativamente. Se puede emplear la primera evidencia para calcular la primera probabilidad
posterior y emplear sta en el clculo de la siguiente probabilidad y continuar de esta forma
con las dems. La independencia de evidencias implica que:

Aplicando el teorema de Bayes de forma iterativa, implica

Empleando los ratios de verosimilitud, se puede encontrar que

,
Esta iteracin de la inferencia bayesiana puede ser expandida con la inclusin de ms
evidencias. La inferencia bayesiana se emplea en el clculo de probabilidades en la toma de
decisin. Se emplean en las probabilidades calculadas en la teora de clculo de riesgos, en la
denominada funcin de prdida que refleja las consecuencias de cometer un error.

191

GLOSARIO.
TABLA DE ANLISIS DE VARIANZA:
Tabla que se usa para resumir los clculos y
resultados del anlisis de varianza. En las columnas se indican la fuente de variacin, la suma
de cuadrados, los grados de libertad, el cuadrado medio y los valores F.
REPARTICIN O PARTICIN:
Proceso de asignar la suma total de cuadrados y los
grados de libertad a los diversos componentes.
PROCEDIMIENTO DE COMPARACIN MLTIPLE: Procedimientos estadsticos para
llevar a cabo comparaciones estadsticas entre pares de medias poblacionales o de
tratamientos.
FACTOR:

Sinnimo de la variable de inters en un experimento.

TRATAMIENTO:

Distintos niveles de un factor.

EXPERIMENTO DE UN SOLO FACTOR:Un experimento donde solo interviene un factor


con k poblaciones o tratamientos.
UNIDAD EXPERIMENTAL: Los objetos de inters en el experimento.
DISEO TOTALMENTE ALEATORIZADO:
Diseo de experimento en el que los
tratamientos se asignan aleatoriamente a las unidades experimentales.
CUADRADO MEDIO:
La suma de los cuadrados divida entre los grados de libertad
correspondientes. Esta cantidad se usa en la relacin F para determinar si existe diferencias
significativas entre las medias poblacionales.
AGRUPAMIENTO EN BLOQUES: Proceso de usar las mismas o semejantes unidades
experimentales para todos los tratamientos. El objeto del agrupamiento en bloques es eliminar
una fuente de variacin del termino de error, y en consecuencia, obtener una prueba mas
poderosa para investigar una diferencia entre promedios de poblacin o de tratamientos.
DISEO DE BLOQUE ALEATORIZADO: Diseo
agrupamiento en bloques.

de

experimento

EXPERIMENTO FACTORIAL:
Diseo de experimentos
conclusiones estadsticas acerca de dos o ms factores.

que

donde

permite

se

llegar

usa

REPLICACIN:
O repeticin, es la cantidad de veces que aparece cada condicin
experimental en un experimento.
INTERACCIN:
Efecto producido cuando los niveles de un factor interactan con los de
otro factor, influyendo sobre la variable respuesta.
COEFICIENTE DE DETERMINACIN MLTIPLE:
Medida de bondad de ajuste de la
ecuacin estimada de regresin mltiple. Se puede interpretar como la proporcin de variacin
en la variable dependiente que es explicado mediante la ecuacin estimada de regresin.

192

COEFICIENTE AJUSTADO DE DETERMINACIN MLTIPLE.


Medida de bondad
de ajuste para la ecuacin estimada de regresin mltiple, que ajusta teniendo en cuenta la
cantidad de variables independientes en el modelo, y en consecuencia evita sobre estimar el
impacto de agregar ms variables independientes.
ECUACIN ESTIMADA DE REGRESIN MLTIPLE: Es el estimado de la ecuacin de
regresin mltiple, basado en los datos de la muestra y en el mtodo de los mnimos
cuadrados.
ECUACIN DE REGRESIN MLTIPLE: Ecuacin matemtica que relaciona el valor
esperado o valor medio de la variable dependiente con los valores de las variables
independientes
MTODO DE LOS MNIMOS CUADRADOS:
Mtodo para determinar la ecuacin
estimada de regresin. Minimiza la suma de residuales elevados al cuadrado.
MODELO DE REGRESIN MLTIPLE: Ecuacin matemtica que describe cmo se
relaciona la variable dependiente (Y) con las variables independientes X i y un trmino que
se denomina error ui .
MULTICOLINEALIDAD:
independientes.

Trmino

REGRESIN MLTIPLE:
independientes.

Anlisis de regresin donde se manejan dos o ms variables

que

describe

la

correlacin

entre

variables

RESIDUAL: Es la desviacin que existe entre el valor observado de la variable dependiente


y el valor estimado de la misma.

193

BIBLIOGRAFA.
CANAVOS, George. Estadstica y Probabilidad. Mc Graw Hill. Mexico 1.998
DEVORE, Jay. Probabilidad y estadstica. Quinta edicin. Thomsom-Learning. Mxico
2.001
CHRISTENSEN, Howard B. (1999). Estadstica Paso a Paso. Mxico: Editorial Trillas.
JONHSON, Richard. Probabilidad y Estadstica para Ingenieros. Printece mall Mxico
1.997
MONTGOMERY, Douglas. Estadstica y Probabilidad. Segunda edicin. Limusa. Mxico,
2.002
PEA, Daniel. Estadstica, Modelos y Mtodos. Vol. 1. Alianza Editorial. Madrid 1.988
ROSS, Sheldon. Probabilidad y Estadstica para Ingenieros. Segunda Edicin. Mc Graw Hill.
Mxico 2.001
CASAS, J.M. (1997). Inferencia Estadstica. Centro de Estudios Ramn Areces, Madrid.
SARABIA, J.M. (2000). Curso Prctico de Estadstica. Segunda Edicin. Civitas, Madrid.
SARABIA, J.M. (2002). Apuntes de Inferencia Estadstica.
SARABIA, J.M., PASCUAL, M. (2002). Prcticas de Inferencia Estadstica.
CASAS, J.M., SANTOS, J. (1999). Estadstica Empresarial. Centro de Estudios Ramn
Areces, Madrid.
CUADRAS, C.M. (1983). Problemas de Probabilidades y Estadstica. Tomo II. PPU,
Barcelona.
MENDENHALL, W., REINMUTH, J.E. (1993). Estadstica para Administracin y
Economa. Grupo Editorial Iberoamericana, Mxico.
PEA, D. (2001). Fundamentos de Estadstica. Alianza Editorial, Madrid.
RUIZ-MAYA, L., MARTN PLIEGO, F.J. (2001). Estadstica II: Inferencia. Segunda
Edicin. AC, Madrid.

194

Sitios Web
http://www.itchihuahuaii.edu.mx/academico/CB/MEG/estadistica.htm
http://posgrado.e.ipb.upel.edu.ve/EAplicada/Estadistica%20Aplicada.htm
http://posgrado.e.ipb.upel.edu.ve/EAplicada/Curso.htm
http://www.umh.es/asignaturas/fichasignatura.asp?asi=7999
http://ice.unizar.es/uzinnova/jornadas/pdf/95.pdf
http://www.fcnym.unlp.edu.ar/catedras/estadistica/programa2002.html#2
http://aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php?inpopup=true&id=3
http://aprendeenlinea.udea.edu.co/portal/
http://egkafati.bligoo.com/content/view/182409/Del_como_y_porque_ensenar_estadistica.htm
l
http://metro40.edv.uniovi.es/metroweb/charlas/Estadistica.pdf
http://www.uned.es/experto-metodos-avanzados/
http://aprendeenlinea.udea.edu.co/lms/moodle/course/view.php?id=322

http://server2.southlink.com.ar/vap/PROBABILIDAD.htm
http://es.wikipedia.org/wiki/Probabilidad
http://www.terra.es/personal2/jpb00000/pprobjunio99.htm
http://www.fvet.edu.uy/estadis/probabilidad.htm
http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/matematicas-28.html
http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/Estadistica/inde
x.html

195

Vous aimerez peut-être aussi