Vous êtes sur la page 1sur 141

CURSO BREVE DE ESTADSTICA

COLECTIVO DE AUTORES:
MSc. Manuel Ernesto Acosta Aguilera

Prof. Asistente

MSc. Luis Pia Len

Prof. Auxiliar

MSc. Daysi Espallargas Ibarra

Prof. Auxiliar

mernesto@fec.uh.cu
luisp@fec.uh.cu

daysi@fec.uh.cu

DPTO. ESTADSTICA - INFORMTICA


FACULTAD DE ECONOMA
UNIVERSIDAD DE LA HABANA
2008

NDICE

INTRODUCCIN A LA ESTADSTICA ..................................................................................... 3


OBJETIVOS DEL CURSO ............................................................................................................ 4
TEMA I: MTODOS DESCRIPTIVOS......................................................................................... 5
1.1: Definicin de poblacin y muestra. Clasificacin de las variables. Organizacin de los datos.
Tablas de frecuencias. Grficos...............................................................................................................5
1.2: Medidas descriptivas o estadgrafos. Estadgrafos de posicin ms usados: media, mediana
y moda. Estadgrafos de dispersin ms usados: varianza, desviacin tpica y coeficiente de
variacin.....................................................................................................................................................16

TEMA II: PROBABILIDADES. .................................................................................................. 28


2.1: Introduccin a los fenmenos y experimentos aleatorios. Espacio muestral y sucesos.
Clasificacin de sucesos. Definicin clsica de Probabilidad. Definicin estadstica de
Probabilidad...............................................................................................................................................28
2.2: Axiomatizacin de la Probabilidad. Reglas de clculo de probabilidades. Probabilidad
condicional. Independencia de sucesos. ..............................................................................................35

TEMA III: DISTRIBUCIONES TERICAS DE PROBABILIDAD.......................................... 41


3.1: Definicin de variable aleatoria. Funcin de probabilidad univariada: casos discreto y
continuo. Funcin de distribucin. Media y varianza de variables aleatorias. ................................41
3.2: Distribucin binomial: caractersticas y uso. Distribucin de Poisson: caractersticas y uso.
.....................................................................................................................................................................49
3.3: Distribucin normal o de Gauss. Distribucin chi-cuadrado. Distribucin t de Student.
Distribucin F de Fisher...........................................................................................................................58

TEMA IV: MUESTREO Y ESTIMACIN ................................................................................. 74


4.1. Conceptos bsicos: Poblacin y Muestra. Muestreos aleatorios: Muestreo Aleatorio Simple.
Uso de la tabla de nmeros aleatorios para efectuar un muestreo aleatorio. ................................74
4.2 Estimadores. Propiedades deseables para un buen estimador. Estimacin puntual.
Distribucin muestral. Distribucin muestral de la media tanto con varianza (2) conocida como
desconocida. Distribucin muestral de las proporciones y de la varianza. .....................................80
4.3: Error mximo permisible y tamao de muestra necesario para la estimacin de y p.
Estimacin por intervalos de confianza. ...............................................................................................89

TEMA V: PRUEBAS DE HIPTESIS ........................................................................................ 98


5.1. Conceptos bsicos. Desarrollo general de pruebas de hiptesis. Pruebas para medias en
una poblacin............................................................................................................................................98
5.2: Tamao del error tipo II. Funcin de potencia. Tamao de la muestra. ................................112
5.3: Pruebas no paramtricas: Prueba chi-cuadrado de la bondad de ajuste para verificar
normalidad. Prueba chi-cuadrado para verificar el supuesto de independencia. Tablas de
contingencia. ...........................................................................................................................................119

TEMA VI: ANLISIS DE VARIANZA.................................................................................... 129


6.1: Conceptos bsicos del anlisis de varianza. Modelo de clasificacin simple. Supuestos del
mtodo. ....................................................................................................................................................129

BIBLIOGRAFA BSICA:........................................................................................................ 140

PRESENTACIN
A los estudiantes:
Este texto ha sido elaborado por un colectivo de profesores de Estadstica de la Facultad de Economa de
la Universidad de La Habana, para contribuir a un mejor estudio de los temas correspondientes a esta
asignatura en las carreras de perfil econmico y social, en general, particularmente en la Licenciatura en
Economa.
El objetivo del estudio de la Estadstica en cualquier carrera es dotar al alumno de algunos elementos que
le servirn para trabajar con conjuntos de datos, describir situaciones de inters, hacer inferencias sobre
la base de observaciones y evaluar hiptesis relacionadas con alguna circunstancia prctica; adems,
pueden iniciarse en el estudio de los fenmenos y experimentos aleatorios, estableciendo el vnculo entre
los conocimientos y habilidades de los contenidos de la Estadstica Descriptiva, la Teora de las
Probabilidades y la Estadstica Inferencial.
Debe sealarse que la Estadstica es eminentemente prctica, sin embargo, se necesita del conocimiento
de la teora que la sustenta para la correcta aplicacin de las frmulas de clculo y los modelos que
intentan representar la realidad existente.
En el texto se detallan los objetivos generales del curso y la distribucin del mismo en los seis temas en
que est subdividido. Tambin se incluyen los objetivos especficos de cada una de las unidades
didcticas que conforman los distintos temas. Adems, se desarrolla sucintamente el contenido de la
asignatura, el cual aparece disperso en otros textos que se refieren en la bibliografa bsica. Finalmente,
se brindan ejemplos demostrativos de todos los aspectos abrdados, y se han aadido ejercicios para que
sirvan de autoevaluacin.
Es aspiracin de los autores que estos apuntes para el estudio de Estadstica sean de utilidad tanto para
sus destinatarios iniciales como para estudiantes de otras carreras y modalidades de estudio.
Los Autores.
La Habana, 2008

INTRODUCCIN A LA ESTADSTICA
El vocablo estadstica (con minscula) se utiliza para denominar cualquier coleccin
sistemtica de datos, por ejemplo: natalidad o mortalidad en un pas o provincia, resultados
peridicos en cierto deporte, cifras de produccin de una empresa, pasajeros transportados
durante un perodo, enfermos recuperados con ciertos medicamentos
Las estadsticas son tan antiguas como las sociedades humanas, pero la Estadstica como
ciencia (con mayscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades.
La Estadstica como ciencia puede definirse como un conjunto de principios y mtodos que
se han desarrollado para analizar datos numricos, utilizando las probabilidades; sus
mtodos se clasifican en:

Mtodos descriptivos (Estadstica Descriptiva)


Describen el comportamiento de los datos estadsticos, se ocupan de la recoleccin,
organizacin, reduccin, tabulacin y presentacin de la informacin.

Inferencia estadstica (Estadstica Inferencial)


Estudia y concluye sobre un fenmeno basndose en el anlisis e investigacin de una
parte del mismo, por lo que constituye una poderosa herramienta para la investigacin
cientfica.

OBJETIVOS DEL CURSO


1. Clasificar las variables en cualitativas, cuantitativas discretas y cuantitativas continuas.
Organizar los datos u observaciones de diferentes variables (discretas y continuas) en
tablas de frecuencias. Construir grficos de barras (histogramas) y polgonos de
frecuencias. Calcular e interpretar los principales estadgrafos o medidas de posicin y
de dispersin. Aplicar e interpretar resultados obtenidos mediante algn paquete de
cmputo estadstico.
2. Diferenciar entre determinismo y aleatoriedad. Definir el espacio muestral de un
experimento o fenmeno aleatorio. Calcular la probabilidad de ocurrencia de un
suceso utilizando la definicin clsica y la estadstica. Aplicar las propiedades o
teoremas derivados de la definicin axiomtica de probabilidad. Aplicar las definiciones
de probabilidad condicional e independencia. Aplicar e interpretar los fundamentos de la
teora de probabilidades en la solucin de problemas.
3. Asociar a la nocin de variable aleatoria (tanto discreta como continua), los conceptos
de funcin de probabilidad, funcin de distribucin o acumulacin, y caracterizar
estas funciones mediante la esperanza, valor esperado o media terica, y la varianza
terica. Identificar y caracterizar las distribuciones probabilsticas: Binomial, Poisson,
Normal, Chi-Cuadrado, t Student y F de Fisher. Calcular probabilidades asociadas a las
distribuciones anteriores haciendo uso de las tablas correspondientes.
4. Identificar los conceptos bsicos de poblacin, muestra, muestreo, parmetro y
estimador. Caracterizar el Muestreo Aleatorio Simple (MAS) y el Muestreo Irrestricto
Aleatorio (MIA). Obtener muestras aleatorias simples mediante la tabla de nmeros
aleatorios. Aplicar la distribucin muestral de la media, la varianza y la proporcin en la
estimacin puntual y por intervalos de los parmetros correspondientes (, 2 y p), as
como tambin a la obtencin de una medida probabilstica del error y del tamao de la
muestra requerido para la estimacin de los mismos.
5. Identificar los conceptos bsicos asociados a las pruebas de hiptesis: hiptesis nula
e hiptesis alternativa, regin crtica o de rechazo y nivel de significacin.
Diferenciar entre los errores de tipo I y tipo II. Identificar y emplear distintas pruebas
paramtricas para una poblacin: de media (con varianza conocida y desconocida), de
proporciones, y de varianza. Identificar y emplear las pruebas no paramtricas chicuadrado, tanto para probar normalidad, como para verificar independencia entre
variables o criterios de clasificacin. Verificar el supuesto de normalidad a travs de la
prueba Jarque-Bera, a partir de salidas del programa de cmputo EViews.
6. Aplicar el anlisis estadstico para verificar la igualdad de tres o ms medias
poblacionales a travs del anlisis de varianza. Establecer los supuestos del anlisis
de varianza.

TEMA I: MTODOS DESCRIPTIVOS


Con este tema se inicia el estudio de la parte de la estadstica que se ocupa de la recoleccin,
organizacin, resumen y presentacin de la informacin; cuestin esencial para cualquier
investigacin. El buen uso de los mtodos descriptivos ahorra tiempo y esfuerzo, facilita la
interpretacin de resultados y sirve de base incuestionable para el desarrollo de mtodos de
inferencia y prediccin: La informacin recogida durante el proceso de observacin, medicin,
entrevista, etc., suele ser dispersa, y no es hasta que la misma se organiza, procesa y presenta
adecuadamente que cobra real dimensin la misma y puede considerarse, ms all de un
conjunto de datos, verdadera informacin.

1.1: Definicin de poblacin y muestra. Clasificacin de las variables.


Organizacin de los datos. Tablas de frecuencias. Grficos.
Ya se ha dicho que los mtodos descriptivos se ocupan de la recoleccin, organizacin,
reduccin, tabulacin y presentacin de la informacin en un estudio o investigacin dados.
Durante este proceso siempre se hace referencia de alguna manera a conceptos bsicos en el
contexto de la Estadstica, como son:
Poblacin: Coleccin de individuos o elementos que representan el objeto de inters (seres
vivos o inanimados).
Tamao de la poblacin: Cantidad de elementos que abarca la poblacin. En casi todos los
textos se representa con el smbolo N.
Censo: Observacin y estudio de todos los elementos que componen la poblacin.
Muestra: Cualquier subconjunto de la poblacin tomado para su estudio.
Muestreo: Procedimiento mediante el cul se extrae una muestra.
Tamao de muestra: Cantidad de elementos contenidos en la muestra. En casi todos los
textos se representa con el smbolo n.
Variable o caracterstica: Es el signo o detalle que interesa caracterizar en la poblacin.
Para organizar los datos muchas veces es til conocer qu tipo de variables stos miden. Con
este fin, las variables pueden clasificarse en:
Cualitativas: Tambin llamadas atributos, y se refieren a cualidades tales como: calidad
(bueno, regular, malo), sexo, color del pelo o de los ojos, estado civil, nivel escolaridad, etc.
Cuantitativas: Se refieren a cantidades tales como costos, estaturas, pesos, ingresos, nmero
de hijos, etc. A la vez, se distinguen dos tipos de datos o variables cuantitativos:

Variables Discretas: Son aquellas que tienen valores prohibidos dentro de su intervalo
de definicin, o sea, toman valores determinados, predefinido. Generalmente
representan valores enteros asociados a observaciones susceptibles de conteo.

Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su
intervalo de definicin. Generalmente representan observaciones susceptibles de
medicin. Es importante tener en cuenta que la continuidad est dada por la propia
naturaleza de variable, no porque sta se exprese con valores decimales o no, pues
esto es algo que depende de las unidades de medida utilizadas, de la precisin deseada
o de costumbres al expresar una magnitud.

TABULACIN DE DATOS (TABLAS DE FRECUENCIAS):


Segn la forma en que se presenta la informacin, se habla de:

Recoleccin simple o no organizada (datos no organizados):


Es el listado de los datos presentados en su forma primaria, es decir, tal como fueron
obtenidos durante el proceso observacin o medicin en la muestra o poblacin.

Recoleccin organizada o tabulacin (datos organizados):


Es el ordenamiento de la informacin en tablas, denominadas tablas de frecuencias o
distribuciones de frecuencias, a partir de los datos primarios. Cuando los datos se
tabulan, o se organizan en las tablas de frecuencias, pueden estar no agrupados, es decir,
de manera que se leen directamente los valores observados, o agrupados, esto es, se
construyen intervalos para resumir la informacin observada.

Se dice que los datos estn organizados, pero no agrupados, cuando en las tablas de
frecuencias se ponen, organizados, todos y cada uno de los valores que toma la variable; esto
es, se colocan los datos en columnas que recogen los distintos valores de la variable y las
frecuencias (las veces) con que han aparecido tales valores.
Por su parte, se dice que los datos estn organizados y agrupados cuando en la tabla se
presentan stos no con sus valores individuales, sino en agrupaciones parciales del recorrido
de la variable, denominadas clases o intervalos de clases.
Una clase se caracteriza por un valor que es su lmite inferior y otro que es su lmite superior. El
promedio de los dos lmites, que muchas veces se toma como el valor representativo de la
clase, es llamado marca de clase. Y a la diferencia o distancia entre los lmites de la clase se le
llama ancho de clase: aunque no es obligatorio, es usual utilizar clases del mismo ancho
siempre que es posible. (Si las clases no tienen el mismo ancho, no es la altura de las barras o
rectngulos la que debe ser proporcional a las frecuencias representadas, sino su rea.)

Ni
N1
N2

Fi
F1
F2

Lk-1 - Lk

Xk

slo si hay clases


(datos agrupados)

fi
f1
f2

ni
n1
n2

Xi
X1
X2

Li-1 - Li
L0 - L1
L1 - L2

La forma general de una tabla de frecuencias es la siguiente:

nk

fk

Nk

Fk

frecuencias
complementarias

Los smbolos y definiciones correspondientes son:

Xi : representa los valores individuales de la variable (en datos no agrupados) o las marcas de
clase (en datos agrupados en clases)
Li-1 - Li : representan las clases (si los datos se agruparon), delimitadas por los lmites de clase,
el inferior (Li-1) y el superior (Li)
ni ( frecuencia absoluta ): nmero de veces que se repite el i-simo valor de la variable;
donde ni = n
n ( tamao de la muestra ): cantidad de observaciones efectuadas, es decir, nmero de
elementos contenidos en la muestra
k: representa el nmero de valores diferentes observados (datos no agrupados) o la cantidad
de clases creadas (datos agrupados)
Tambin pueden incorporarse a la tabla otras frecuencias, como:

fi ( frecuencia relativa ): proporcin de veces que se repite el i-simo valor de la variable (si se
multiplica por cien constituye un porciento); se cumple que:

fi = ni/n

y donde fi = 1

Ni ( frecuencia absoluta acumulada ): Es el nmero de observaciones menores o iguales al isimo valor de la variable, donde N1 = n1, N2 = n1 + n2, N3 = n1 + n2 + n3, y as sucesivamente
hasta Nk = n. As, se interpreta como el nmero de observaciones menores o iguales al i-simo
valor de la variable.
Fi ( frecuencia relativa acumulada ): es la proporcin (o porciento) de observaciones menores

o iguales al i-simo valor de la variable, siendo F1 = f1, F2 = f1 + f2, F3 = f1 + f2 + f3, y as


sucesivamente hasta Fk = 1.
Generalmente se agrupan las observaciones correspondientes a variables continuas, ya que
estas son las que pueden tomar cualquier valor en un intervalo, y prcticamente es imposible
considerar todos y cada uno de los valores que toma la variable, como s ocurre con las
variables discretas.
No obstante no se puede decir rotundamente que no se agrupan en clases las variables
discretas y s las continuas, porque esto depende de la cantidad de datos que se tiene y del tipo
de anlisis que se va a hacer. As, se podra presentar la situacin de que se tiene una variable
discreta que toma tantos valores diferentes que es necesario agruparla; o el caso de que se
tiene una variable continua para la cual todas las observaciones constituyen valores enteros y
se pueden recoger entonces en una tabla de frecuencia con datos no agrupados.
Por todo ello, cuando se insiste en que las variables discretas se presentan en tablas de
frecuencia sin agrupar, y las variables continuas en tablas de frecuencias agrupadas, esto es
ante todo con fines metodolgicos.

PROPIEDADES DE LAS FRECUENCIAS:


De la definicin de las distintas frecuencias se deduce que stas son siempre nmeros no
negativos, y pueden considerarse como propiedades de las mismas las siguientes:
1. ni 0

Ni 0

6. Fk = 1

2. ni = n

7. N1 = n1

3. fi = 1

8. F1 = f1

4. 0 fi 1

9. n1 = N1 N2 N3 ... Nk

0 Fi 1

10. f1 = F1 F2 F3 ... Fk

5. Nk = n

AGRUPACIN DE LOS DATOS EN CLASES:


La agrupacin de datos en clases incluye muchas cuestiones subjetivas, como facilidad o
conveniencias de agrupacin, diversidad de criterios o necesidades de la investigacin; e
incluso puede depender de la propia naturaleza de los datos.
Se debe considerar tambin que la agrupacin de datos siempre conlleva un grado de
prdida de informacin, pues ya no se cuenta con todos y cada uno de los valores de la
variable sino con los intervalos creados; no obstante, esta prdida de informacin en general no
es significativa para el anlisis global.
Algunas de las formas en que se presentan los intervalos de clases son:
Caso A
10
15
20

14,9
19,9
24,9

Caso B
10
15,1
20,1

15
20
25

Caso C
10
15
20

15
20
25

Las variantes A y B se utilizan con el objetivo de que no se repita el mismo valor de un lmite de
clase, de manera que para una observacin dada sea inequvoca (nica) la pertenencia a una
clase; pero en cualquiera de los dos casos hay infinitos valores posibles entre el cierre de una
clase y el inicio de la otra, es decir, entre 14,9 y 15 (caso A) y lo mismo entre 15 y 15,1 (caso
B). Por ello muchos autores e investigadores prefieren la variante C, donde el valor que cierra
una clase es el mismo que abre la siguiente, y se suele recurrir al siguiente convenio: cuando
una observacin coincide con un lmite de clase se incluye en la clase donde dicho lmite
es el lmite superior, es decir, se consideran los intervalos de clase como abiertos al inicio y
cerrados al final, as: ( Li-1 ; Li ]
Tambin existen los intervalos abiertos atendiendo al tipo de informacin que se puede
presentar:

Abierto en la
primera clase

Abierto en la
ltima clase

menos de 10
10
20
20
30
30
40
40
50

0
10
10
20
20
30
30
40
ms de 50

Abierto en la
primera y en la
ltima clase
menos de 10
10
20
20
30
30
40
ms de 50

Es til tener en cuenta adems que no siempre los intervalos podrn ser de igual amplitud, sin
embargo es recomendable que estos tengan el mismo ancho si es posible ello, para lograr
mayor facilidad en las interpretaciones, representaciones y clculos.
Entre los mtodos seguidos para crear las clases, dos son los ms utilizados:
1. Definir, a partir del uso que se har de la informacin, el ancho de clases que se emplear,
y con esto ver cuntas clases surgen.
2. Definir, a partir de la cantidad de datos disponibles, la cantidad de clases que se crearn, y
a partir de ah calcular el ancho que debern tener las mismas.
Los pasos que se deben dar para agrupar los valores observados segn el segundo mtodo
pueden resumirse como sigue:
1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valor mximo
y el mnimo de la variable: R = Xmax - Xmin
2. Definir el nmero de intervalos o clases (k): La prctica indica que menos de 4 5 clases
suele ser muy poco y que en general ms de 20 clases puede ser excesivo, es decir, ni tan
pocos, que se pierda demasiada informacin, ni tantos que parezca que no se han
agrupados los datos ( 4 k 20 )
3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de los
datos entre la cantidad de clases que se decidi usar, aproximado convenientemente y
siempre por exceso: c R/k
4. Crear las clases, partiendo del valor mnimo observado (xmin) o un valor inferior, y sumando
sucesivamente el ancho de clases (c) determinado.
5. Clasificar la variable en las distintas clases, para lo cual se puede hacer un tarjado,
obteniendo las frecuencias absolutas correspondiente (ni).
6. Calcular las restantes frecuencias deseadas: relativas (fi), absolutas acumuladas (Ni) y
relativas acumuladas (Fi).
7. Determinar las marcas de clases (Xi), valores que representarn a sus respectivas clases.

REPRESENTACIN GRFICA DE LOS DATOS:


Otra manera de presentar los datos de manera de que brinden informacin a primera vista es
una representacin grfica de los mismos, y entre los grficos ms usados se encuentran:

Grficos de barras o histogramas


Constan de dos ejes; un eje horizontal, donde se distribuyen los valores observados de la
variable (datos no agrupados) o sus lmites de clases (datos agrupados), y un eje vertical
9

donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes. En el


punto correspondiente a cada observacin o clase se levanta una barra cuya altura indica el
valor de la frecuencia observada. Si los datos estn agrupados en clases las barras
conforman rectngulos contiguos, y el grfico suele ser denominado histograma.

Polgonos de frecuencias
Son similares a los grficos de barras, y tienen la misma funcin, aunque actualmente se
utilizan menos que aquellos. Constan de tambin de dos ejes, con la diferencia de que en el
eje horizontal, si los datos estn agrupados en clases se distribuyen no sus lmites de clase
sino sus marcas de clase. En cualquier caso, sobre el punto correspondiente a cada
observacin o marca de clase se hace una marca a la altura de la frecuencia observada, y
posteriormente estas marcas se unen con trazos rectos, formando una lnea poligonal.

Grficos circulares o de pastel


Parten de subdividir un crculo en tantos sectores como valores distintos (datos no
agrupados) o clases (datos agrupados en clases) se tiene, de manera que la amplitud
angular del sector, y por tanto su rea, es proporcional a la frecuencia absoluta
correspondiente (y consecuentemente tambin a la relativa).

EJEMPLO 1 (Datos no agrupados):


Se tiene los datos recopilados acerca de la variable X: nmero de ausencias a clase que tienen
los estudiantes de un grupo.
0
3
4
2

1
2
3
2

2
1
2
3

2
4
0
0

1
2
0
3

Datos en su forma primaria (sin organizar)

Qu tipo de variable es esta?:

Variable cuantitativa discreta.

Construccin de la tabla o distribucin de frecuencias:


Al tratarse de una variable discreta (un conteo siempre tomar valores enteros) y con pocos
valores diferentes, no parece necesario crear clases para agrupar los datos.
En este caso k = 5 (son cinco los valores distintos de X: 0, 1, 2, 3 y 4).
Para facilitar el conteo de las observaciones se suele hacer algn tipo de marcas, a lo cual se le
llama tarjado.

nmero de
ausencias
Xi
0
1
2
3
4

tarjado
////
///
///////
////
//

cantidad de
estudiantes
ni
4
3
7
4
2
n = 20

proporcin de
estudiantes
fi
0,20
0,15
0,35
0,20
0,10

Ni
4
7
14
18
20

Fi
0,20
0,35
0,70
0,90
1,00

10

Interpretacin de las distintas frecuencias:

ni indica las veces que se repite el valor de la variable, as:


n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias.
n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias.

fi indica el porciento de veces que se repite el valor de la variable, as:


f4 = 0.20 indica que el 20% de los estudiantes tienen 3 ausencias
f5= 0.10 indica que el 10% de los estudiantes tienen 4 ausencias

Ni indica el nmero de observaciones menores o iguales al valor de la variable, as:


N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como mximo) 1 ausencia
N3 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias

Fi indica el porciento de observaciones menores o iguales al valor de la variable, as:


F2 = 0.35 indica que el 35% de los estudiantes tienen hasta 1 ausencia.
F3 = 0.70 indica que el 70% de los estudiantes tienen hasta 2 ausencias.

Representacin grfica:
A partir de la tabla de frecuencias se puede construir cualquiera de los grficos siguientes:
grfico de barras

ni

polgono de frecuencias

ni
8
7
6
5
4
3
2
1
0

8
7
6
5
4
3
2
1
0
0

4 xi

4 xi

diagrama circular
4
10%

0
20%

3
20%

2
35%

1
15%

11

EJEMPLO 2 (Datos agrupados):


Los siguientes valores corresponden al registro del consumo de gasolina de una flota de 50
taxis, en litros, un da dado:
46
43
28
26
29

39
28
30
23
30

34
30
26
30
48

33
27
21
43
47

32
32
37
40
23

36
42
39
36
31

41
30
25
21
24

26
31
33
38
38

32
34
47
31
35

36
41
28
38
36

Qu tipo de variable es sta?


Aunque los datos observados son todos enteros la variable es continua, por su propia
naturaleza (de hecho, un taxi podra haber consumido 24,75 litros de gasolina).

Se tiene n = 50 taxis (tamao de la muestra).

Determinacin del recorrido:


R = Xmax - Xmin = 48 - 21 = 27

Definicin del nmero de clases a usar:


Para 50 observaciones podran usarse 5, 6, 7 u 8 clases, segn decisin de quien va a
organizar los datos.
Sea en este caso k = 6.

Determinacin del ancho de clases:


c R/k
R/k = 27/6 = 4,5 5
c=5
(El valor R/k = 4,5 se redondea a 5 porque no tendra sentido en este caso hacer los
intervalos de amplitud decimal, ya que complicara, en vez de facilitar, la interpretacin y el
trabajo con la informacin; ntese que esta aproximacin fue a un valor superior al
verdadero cociente, es decir, por exceso.)

Creacin de las clases:


Se podra partir del valor Xmin = 21, pero resulta ms cmodo comenzar ligeramente por
debajo de l, en 20, de manera que la primera clase sea desde 20 a 20 + c (ya se tiene c =
5), o sea, de 20 a 25; la segunda de 25 a 30, sin incluir el 25 (lmite inferior y extremo
abierto) e incluyendo el 30 (lmite superior y extremo cerrado), y as sucesivamente hasta la
sexta clase (k = 6), que sera desde 45 (extremo abierto) a 50 (extremo cerrado).

Determinacin de las marcas de clases (Xi):


Siendo el promedio de los lmites de clase se tiene que: Xi = (Li Li-1)/2
As:
X1 = (20 + 25)/2 = 45/2 = 22,5
X2 = (25 + 30)/2 = 55/2 = 25,5 X2 = X1 + c
Y as sucesivamente

Clasificacin de la variable y clculo de las distintas frecuencias:


Para ello se puede hacer previamente un tarjado
Se debe tener en cuenta, adems, el convenio de que si una observacin coincide con un
lmite de clase, se incluye en la clase donde dicho lmite est como lmite superior; as,
12

todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30, no
en la que va de 30 a 35.

clases
(Li-1; Li]
20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50

tarjado
Xi
22,5
27,5
32,5
37,5
42,5
47,5

ni
///// /
6
///// ///// ///
13
///// ///// /
11
///// ///// /
11
/////
5
////
4
n = 50

fi
0,12
0,26
0,22
0,22
0,10
0,08
1,00

Ni
6
19
30
41
46
50

Fi
0,12
0,38
0,60
0,82
0,92
1,00

Interpretacin de las distintas frecuencias:

n2 = 13: indica que hay 13 taxis que consumieron entre 25 y 30 litros de gasolina, o que
consumieron como promedio 27,5 litros (utilizando la marca de clases)

f3 = 0,22: indica que el 22% de los taxis consumieron entre 30 y 35 litros de gasolina, o que
consumieron 32,5 litros como promedio.

N4 = 41: indica que 41 taxis consumieron HASTA 40 litros de gasolina, o un mximo de 40


litros. (Las frecuencias acumuladas se interpretan utilizando el lmite superior del intervalo,
nunca con la marca de clases.)

F5 = 0,92: indica que el 92% de los taxis consumi HASTA 45 litros de gasolina, o un
mximo de 45 litros.

Representacin grfica:
histograma

ni

ni

polgono de frecuencias

14
12
10
8
6
4
2
0

14
12
10
8
6
4
2
0
20

25

30

35

40

45

50

X (clases)

22,5

27,5

32,5

37,5

42,5

47,5 i
X

EJERCICIOS DE AUTOEVALUACIN
1.- Ponga 3 ejemplos de variables discretas y 3 de variables continuas
2.- Qu quiere decir organizar los datos?
3.- Cmo se forma una tabla de frecuencias?
13

4.- A partir de los siguientes datos, que representan el nmero de habitaciones de 50 viviendas
del municipio Plaza, que se estn visitando para estudiar el grado de hacinamiento, construya
una distribucin de frecuencias e interprete 3 frecuencias absolutas y relativas simples y 3
frecuencias absolutas y relativas acumuladas.
3
4
2
3
4

2
3
3
2
4

3
2
2
2
3

4
1
1
3
3

3
1
2
4
2

5
2
2
1
2

2
5
2
1
2

1
2
3
5
1

3
3
3
2
1

2
1
4
3
2

5.- Es absolutamente privativo de las variables discretas la organizacin de los datos


directamente a partir de los valores observados, o considera que una variable continua tambin
podra organizarse de esta forma? Explique.
6.- Qu pasos se deben dar para conformar una tabla de frecuencia?
7.- En casos de datos agrupados se cumple que: ni = n y fi = 1? Fundamente su respuesta.
8.- Cmo se determina el recorrido de la variable?
9.- Se agrupan en intervalos de clase slo las variables continuas?
10.- Cmo determinara el nmero de intervalos o clases a considerar en una tabla de
frecuencias?
11.- En que casos utilizara intervalos de amplitud diferentes?
12.- Si una observacin le coincide con un lmite de clases, dnde la pondra y por qu?
13.- Investigados los precios por habitacin de 50 hoteles del pas se ha obtenido los siguientes
resultados (en cientos de pesos):
7
5
4
3
7

3
7.5
5
4
8

5
3
3
7
7.5

4
7
5
4
7

5
10
10
7
7.5

7
15
3
5
8

4
5
4
4
7

7.5
7.5
5
7
7

8
12
7
10
12

5
8
5
7.5
8

a) Diga qu tipo de variable es.


b) Construya la distribucin de frecuencias para esta variable.
14.- Realizada una encuesta en una regin del pas, se han agrupados los establecimientos
hoteleros por el nmero de cuartos, obtenindose la siguiente distribucin:
cuartos
0 100
100 200
200 300
300 400

# de hoteles
25
37
12
22
14

400
500
600
700

500
600
700
800

21
13
5
3

a.- Determine el nmero de establecimientos hoteleros con ms de 300 cuartos.


b.- Determine el porcentaje de establecimientos que tienen ms de 100 cuartos y hasta 400.
c.- Represente grficamente la distribucin.
d.- Que tipo de variable es sta?
e.- Por qu, siendo ese el tipo de variable, la tabla de frecuencia es de esta forma?

15

1.2: Medidas descriptivas o estadgrafos. Estadgrafos de posicin ms usados:


media, mediana y moda. Estadgrafos de dispersin ms usados: varianza,
desviacin tpica y coeficiente de variacin.
La organizacin de los datos y el anlisis del comportamiento de los mismos mediante tablas o
grficos, aportan una informacin inicial sobre la poblacin en estudio, pero no suelen ser
suficiente para describir a la misma. Sin embargo, es posible la obtencin de ciertas cantidades
numricas, denominadas estadgrafos o estadsticos, que caracterizan mejor el conjunto de
datos.
Un estadgrafo o estadstico es una medida descriptiva que resume alguna de las principales
caractersticas de un conjunto de datos, como puede ser la tendencia central, la dispersin o la
forma. Precisamente atendiendo al tipo de resumen que brindan los estadgrafos, stos suelen
clasificarse.
Cuando un estadgrafo es calculado a partir de todos los datos poblacionales, es decir, no en
una muestra sino en toda la poblacin, se dice que es un parmetro poblacional.

1.2.1- ESTADGRAFOS O MEDIDAS DE POSICIN O TENDENCIA


Los llamados estadgrafos de posicin son medidas que informan sobre el centro de la
distribucin (tendencia central) o sobre valores significativos de sta.
La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un
punto central y por lo general es posible encontrar algn tipo de valor promedio que describa
todo el conjunto. Un valor tpico descriptivo como ese, es una medida de tendencia central. Con
frecuencia se utilizan, como las ms importantes medidas de tendencia central, la media
aritmtica, la mediana, la moda y la media geomtrica.
No obstante, aunque menos usadas, tambin se recurre en muchos casos a otras estadgrafos
de posicin que no son medidas de tendencia central, como las cuantilas, entre las que se
encuentran las cuartilas, las decilas y los percentiles, que son aquellos valores que dividen el
conjunto de datos en cuatro, diez y cien partes iguales, respectivamente.

MEDIA ARITMTICA (O MEDIA)


La media aritmtica, ms frecuentemente denominada slo media, es el promedio o medida
de tendencia central que se utiliza con mayor frecuencia. Se define como la suma de todos los
valores de la variable dividida entre el nmero de elementos, dicho en otras palabras, es lo que
comnmente se conoce como promedio.
La media se representa:
en la muestra, por x
en la poblacin, por (la letra griega miu)
en definiciones y demostraciones, por M(x)
A partir de la propia definicin se deduce que la media en una muestra puede calcularse como:

16

x=

xi
n

x=

1
xi
n

(definicin)

EJEMPLO:
Sea X las calificaciones de un estudiante:
X: 5 4 3 4 5 3 5 5
Su promedio es, por tanto:
34
1
1
= 4,25
x = x i = (5 + 4 + 3 + 4 + 5 + 3 + 5 + 5 ) =
8
8
n
Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable (Xi) se
repite una determinada cantidad de veces (ni), y por tanto, la expresin matemtica derivada de
la definicin de la media debe modificarse, como se muestra, multiplicando cada valor por su
respectiva frecuencia.

x=

1
x in i
x = x in i x = x i f i

n
n

(en datos tabulados)

EJEMPLO 1 (caso de datos no agrupados, continuacin):


Calcular el promedio de inasistencias para los 20 estudiantes del grupo analizado:
Xi
0
1
2
3
4

ni
4
3
7
4
2

fi
0,20
0,15
0,35
0,20
0,10

Ni
4
7
14
18
20

Fi
0,20
0,35
0,70
0,90
1,00

Xini
0
3
14
12
8
37

x=

1
37
= 1,85
x in i =
n
20

Nota: Es usual, cuando se efectan clculos utilizar


la propia tabla de frecuencia, creando columnas
auxiliares, como se ve, para facilitar los mismos.

EJEMPLO 2 (caso de datos agrupados, continuacin):


Calcular el consumo promedio diario de gasolina de los 50 taxis de la flota.
clases

Xi

ni

fi

Xini

20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50

22,5
27,5
32,5
37,5
42,5
47,5

6
13
11
11
5
4

0,12
0,26
0,22
0,22
0,10
0,08

135,0
357,5
357,5
412,5
212,5
190,0
1665,0

x=

1
1665
= 33,3
x in i =
50
n

(O sea, el consumo promedio en el da fue


de 33,3 litros por auto.)

Nota: Para los clculos de la media en datos agrupados en clases se utilizan las marcas de
clase, y salvo eso, la expresin matemtica empleada no se diferencia del caso en que los
17

datos no estn agrupados. Algo a tener en cuenta en este sentido es que si existen intervalos
abiertos, como a veces se presenta la primera o la ltima clase, la media no se puede calcular
a menos que se modifiquen los mismos.
PROPIEDADES Y CARACTERSTICAS DE LA MEDIA:
Algunas propiedades importantes y con utilidad prctica de la media son:
1. M(k) = k (La media de una constante es igual a la propia constante.)
2. M(kx) = k M(x) (La media de una constante por una variable es igual a la constante por
la media de la variable.)
3. M(k + x) = k + M(x) (La media de una constante ms una variable es igual a la
constante ms la media de la variable.)
4. M(x1 + x2) = M(x1) + M(x2) (La media de la suma de dos variables es igual a la suma de
las medias de ambas variables.)
5. M(x - x ) = 0 (La media de las desviaciones con respecto a la media es igual a cero.)
6. M(x - x )2 = mnimo. (La media del cuadrado de las desviaciones con respecto a la
media al cuadrado es un mnimo.)
Cabe especificar que se le llama desviaciones a la diferencia entre los valores de una variable y
un valor fijo; cuando este valor fijo es la propia media de la variable, se le llama desviaciones
con respecto a la media.
De la quinta propiedad citada se deduce que la media es el centro de gravedad o el punto de
equilibrio de la distribucin, o sea, el valor que correspondera a una distribucin equitativa para
todas las observaciones.
Una caracterstica notable en la media es que sta se ve afectada por la ocurrencia de
valores extremos, esto quiere decir que si hay algunos valores atpicos en el conjunto, estos
arrastran consigo el valor de la media; as, valores atpicos muy grandes conducirn a una
media mayor que la real del conjunto, mientras que valores muy pequeos provocarn que la
media sea menor que la real.

MODA
La moda se define como el valor mas frecuente en un conjunto de datos, es decir, el valor
modal es el de mayor frecuencia. Se denota por Mo(x) y puede no existir en una distribucin
(distribucin amodal), o existir ms de una (distribucin multimodal).
La moda cobra especial importancia en datos de tipo cualitativo, pues en ellos es imposible
calcular otros estadgrafos de posicin, como la media. Esto no quita que tambin para datos
cuantitativos suele ser de inters conocer el valor modal, que se utiliza en ocasiones como
medida de tendencia central.

18

Para determinar la moda a partir de datos primarios suele ser conveniente organizar primero
estos, conformando lo que se llama un arreglo ordenado.
EJEMPLO:
Sean las calificaciones de tres estudiantes:
A: 3 4 3 4 5 4 5 4 4
B: 3 4 5 4 5 4 5 5 4

C: 3 4 3 4 5 4 5 5 3

Organizando primeramente los datos se tiene:


A: 3 3 4 4 4 4 4 5 5
B: 3 4 4 4 4 5 5 5 5
C: 3 3 3 4 4 4 5 5 5

Mo(A) = 4 (conjunto unimodal)


Mo(B) = { 4 ; 5 } (conjunto bimodal)
Mo(C) = (conjunto amodal)

Nota: Para el estudiante C ninguna nota es ms frecuente que las dems, por eso
no tiene valor modal.

En datos tabulados es muy sencillo encontrar el valor o valores modales, pues son aquellos que
presentan la mxima frecuencia absoluta.
EJEMPLO 1 (caso de datos no agrupados, continuacin):
Determinar la moda de inasistencias para los 20 estudiantes del grupo analizado:
Xi
0
1
2
3
4

ni
4
3
7
4
2

fi
0,20
0,15
0,35
0,20
0,10

Ni
4
7
14
18
20

Fi
0,20
0,35
0,70
0,90
1,00

nmod = 7 (frecuencia modal)


Mo(X) = 2

Nota: La frecuencia modal es 7, porque la cantidad de inasistencias que ms ocurre, que son
dos, se repite 7 veces en la muestra (o un 35% de las veces).
Cuando se trabaja con datos agrupados en clases, es sencillo determinar la clase o clases
modales existentes, y para muchos fines esto es suficiente. Pero si se quiere indicar un valor
modal dentro de la clase modal, se ha determinado, atendiendo a cuestiones geomtricas, que
el mismo puede obtenerse a partir de la expresin:

Mo ( x ) = L mod 1 + c
Siendo:
Lmod-1:
c:
nmod:
nmod-1:

(n mod

n mod n mod 1
n mod 1 ) + (n mod n mod +1 )

el lmite inferior de la clase modal


el ancho de la clase modal (que en general es el de todas las clases)
la frecuencia absoluta de la clase modal
la frecuencia absoluta de la clase anterior a la modal
19

nmod+1: la frecuencia absoluta de la clase siguiente a la


EJEMPLO 2 (caso de datos agrupados, continuacin):
Calcular el valor modal para el consumo diario de gasolina de los 50 taxis de la flota.
clases
20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50

Xi
22,5
27,5
32,5
37,5
42,5
47,5

ni
6
13
11
11
5
4

fi
0,12
0,26
0,22
0,22
0,10
0,08

nmod = 13
clase modal: 25 - 30

Para determinar un valor modal puntual se parte de la clase modal:

Mo ( x ) = L mod 1 + c

Mo ( x ) = 25 + 5

(n mod

n mod n mod 1
13 6
= 25 + 5
(13 6 ) + (13 11)
n mod 1 ) + (n mod n mod +1 )

7
= 25 + 3,89 = 28,89
9

CARACTERSTICAS DE LA MODA:
A diferencia de la media, la moda no se afecta ante la presencia de valores extremos.
La moda, como se ha visto, no tiene necesariamente que existir, ni tiene que ser nica.
Adems, la moda puede ser definida en forma relativa, aunque es menos frecuente este uso,
llamando valor modal a aquel donde exista un mximo relativo en la distribucin de frecuencias,
esto es, donde: ni 1 < ni >ni + 1

MEDIANA
La mediana se define como el valor central de un grupo de datos ordenados, o sea, como aquel
valor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 %
de las observaciones. Se denota por Me(x).
Para calcular la mediana a partir de un conjunto de datos en su forma primaria, es necesario
antes ordenarlos; despus, se puede buscar la posicin del valor mediano en el arreglo
ordenado, atendiendo al nmero de observaciones, segn las dos siguientes reglas:
Regla 1: Si el tamao de la muestra es un nmero impar, la mediana est representada
por el valor numrico correspondiente a la posicin del centro de las observaciones
ordenadas.

20

Regla 2: Si el tamao de la muestra es un nmero par, entonces el valor mediano,


ser la semisuma o promedio de los dos valores centrales de las observaciones
ordenadas. (Esto, estrictamente hablando, es un convenio adoptado, pues cualquier
valor entre los dos valores centrales podra ser considerado como un valor mediano)
EJEMPLO:
Sean las calificaciones de un estudiante en dos semestres:
SI: 5 3 5 4 4 5 5
SII: 5 3 5 4 4 5 5 4
Ordenando los datos, se tiene:
SI:

3 4 4 5 5 5 5

Me(x) = 5

SII: 3 4 4 4 5 5 5 5

Me(x) = (4 + 5)/2 = 4,5

Para determinar la mediana en datos tabulados pero sin agrupar en clases se puede proceder
de la siguiente manera:
1. Determinar la fraccin n/2, que ubica el centro de la distribucin.
2. Encontrar la denominada frecuencia mediana, que es la primera frecuencia absoluta
acumulada que iguala o supera a n/2 (representada por Nmed); y entonces:

Si Nmed > n/2, Me(x) = Xmed


(Es decir, si la frecuencia mediana encontrada supera a n/2, la mediana es el valor
de X al que le corresponde dicha frecuencia en la tabla)

Si Nmed = n/2, Me(x) = (Xmed + Xmed+1)/2


(Es decir, si la frecuencia mediana encontrada coincide con n/2, la mediana es el
promedio del valor de X al que le corresponde dicha frecuencia en la tabla con el
valor de X siguiente)

EJEMPLO 1 (caso de datos no agrupados, continuacin):


Determinar la mediana para las inasistencias de los 20 estudiantes del grupo analizado:
Xi
0
1
2
3
4

ni
4
3
7
4
2

fi
0,20
0,15
0,35
0,20
0,10

Ni
4
7
14
18
20

Fi
0,20
0,35
0,70
0,90
1,00

n/2 = 10
Nmed = 14 ( >10 )
Me(X) = 2
Nota: La frecuencia mediana es 14, porque es la primera
frecuencia absoluta acumulada que sobrepasa a n/2 = 10.

21

En el caso de datos agrupados en clases, se determina ante todo una clase mediana, como
aquella cuya frecuencia absoluta acumulada sobrepasa a n/2; y si quiere un valor mediano,
sobre esa clase se aplica la siguiente expresin:

n N
med1
Me( x ) = L med1 + c 2
nmed
Siendo:
Lmed-1:
c:
Nmed-1:
nmed:

el lmite inferior de la clase mediana


el ancho de la clase modal (que en general es el de todas las clases)
la frecuencia absoluta acumulada hasta la clase anterior a la mediana
la frecuencia absoluta de la clase mediana

EJEMPLO 2 (caso de datos agrupados, continuacin):


Calcular el valor mediano para el consumo diario de gasolina de los 50 taxis de la flota.

clases

Xi

ni

Ni

20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50

22,5
27,5
32,5
37,5
42,5
47,5

6
13
11
11
5
4

6
19
30
41
46
50

Nmed = 30
clase mediana: 30 - 35

n Nmed1
25 19
6
Me( x ) = Lmed1 + c 2
= 30 + 5
= 30 + 5 = 30 + 2,73 = 32,73
nmed
11
11
CARACTERSTICAS DE LA MEDIANA:

La mediana no se ve afectada por datos extremos, es por ello que cuando stos existen ella
es ms representativa que la media como medida de tendencia central.

1.2.2- ESTADGRAFOS O MEDIDAS DE DISPERSIN


A pesar de toda la informacin que brindan los estadgrafos de posicin, no basta con ellos para
caracterizar un conjunto de datos:
Tngase por caso dos empresas que reportan el mismo promedio de recaudaciones
mensuales, siendo que una de ellas esto se debe a que todos los meses ha recaudado esa
misma cantidad, mientras que la otra ha oscilado bastante en sus recaudaciones alrededor de
ese valor medio, habiendo recaudado unos meses mucho ms que dicho valor, pero otros,
mucho menos; de esta manera, no puede decirse que ambas empresas tiene el mismo
comportamiento, a pesar de que han coincidido en el valor de la recaudacin media mensual: la
primera de ellas es mucho ms estable en su comportamiento que la segunda Esto sera til
conocerlo a travs de alguna medida resumen, junto con el valor de la media.

22

Precisamente, los estadgrafos de dispersin son medidas que describen cmo se distribuyen
los datos alrededor de alguno de sus valores representativos, principalmente alrededor de su
media.
Por tanto, las medidas de posicin no dicen mucho si no estn acompaadas de medidas de
dispersin o variabilidad, porque a travs de estas ltimas es que se puede determinar si la
medida de posicin es significativa o representativa de la distribucin.
Entre las medidas de dispersin ms empleadas destacan la varianza, la desviacin tpica y el
coeficiente de variacin.

VARIANZA
La varianza de un conjunto de datos se define como la media o promedio del cuadrado de las
desviaciones de la variable respecto a su media. Por sus propiedades, es la medida de
dispersin ms usada, y base para el clculo de otras.
La varianza se representa:
en la muestra, por S2
en la poblacin, por 2 (la letra griega sigma, al cuadrado)
en definiciones y demostraciones, por V(x)
De la definicin de la varianza se desprende que sta, en una muestra, puede calcularse como:

(x i x )
n

S2 =

S2 =

1
2
(x i x )
n

(definicin)

EJEMPLO:

Sea X las calificaciones de un estudiante:


X: 5 4 3 4 5 3
El promedio es: x = 4
Por tanto, la varianza es:

1
1
2
2
2
2
2
2
2
(x i x ) = (5 4 ) + (4 4 ) + (3 4 ) + (4 4 ) + (5 4 ) + (3 4 )
n
6
1
4
2
2
S 2 = 12 + 0 2 + ( 1) + 0 2 + 12 + ( 1) = = 0,67
6
6

S2 =

Al trabajar con datos tabulados debe tenerse en cuenta, al igual que en los clculos de la
media, que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y por
tanto, la expresin matemtica derivada de la definicin debe modificarse, como se muestra:

23

(x i x ) n i
S =
n
2

S2 =

1
2
2
(x i x ) n i S 2 = (x i x ) fi
n

(en datos tabulados)

EJEMPLO 1 (caso de datos no agrupados, continuacin):

Calcular la varianza en las inasistencias para los 20 estudiantes del grupo analizado:
Xi
0
1
2
3
4

ni
4
3
7
4
2

fi
0,20
0,15
0,35
0,20
0,10

Ni
4
7
14
18
20

Fi
0,20
0,35
0,70
0,90
1,00

(x i x )2 ni

Se tiene que: x = 1,85


Por tanto:

13,6900
2,1675
0,1575
1
30,55
2
2
5,2900 S = n (x i x ) n i = 20 = 1,53
9,2450
30,5500
Nota: Algunos clculos se han organizado utilizando la propia tabla de frecuencias.
EJEMPLO 2 (caso de datos agrupados, continuacin):

Calcularla varianza para el consumo diario de gasolina de los 50 taxis de la flota.


clases

Xi

ni

(x i x )2 ni

20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50

22,5
27,5
32,5
37,5
42,5
47,5

6
13
11
11
5
4
n=50

703,7334
441,8557
7,5779
191,2779
420,4445
803,1556
2568,0450

Se tiene que: x = 33,3


Por tanto:

S2 =

1
2568 ,045
2
= 128 ,4
(x i x ) n i =
n
50

PROPIEDADES Y CARACTERSTICAS DE LA VARIANZA:

Algunas propiedades importantes y con utilidad prctica de la varianza son:


1. V(x) 0 (La varianza es un nmero no negativo.)
2. V(k) = 0 (La varianza de un grupo de datos constante es igual a cero.)
3. V(x k) = V(x) (La varianza de la suma de los valores de una variable ms una
constante es igual a la varianza de la variable.)
4. V(kx) = k2 V(x) (La varianza del producto de los valores de una variable por una
constante es igual a la constante al cuadrado por la varianza de la variable.)
La varianza, dada la manera en que se define y calcula, se expresa en unidades cuadrticas
respecto a la variable de la que procede, y esto hace que no se le pueda dar una interpretacin
realista a dicho estadgrafo.

24

No obstante, la varianza, por la misma forma en que se define y calcula, indica el grado de
dispersin de los datos; se dice que es una medida de dispersin absoluta: mientras mayor es
la varianza en un conjunto de observaciones, mayor es su dispersin; por el contrario, si una
varianza nula indica que todas las observaciones coinciden en un mismo valor.

DESVIACIN TPICA O ESTNDAR


Puesto que la varianza pierde interpretacin por estar su resultado en unidades cuadrticas,
resulta conveniente contar con otro estadstico que basado en el valor de la varianza sirva para
dar una medida de la dispersin en las mismas unidades o dimensiones en que estn
expresados los datos y este estadstico es la desviacin tpica.
La desviacin tpica o desviacin estndar se define como la raz cuadrada positiva de la
varianza. Se denota por S en la muestra y por en la poblacin:

S = S2
EJEMPLO:

Sea X el precio de venta, en centavos, los distintos jabones de una marca dada:
X: 40 35 45 50 40
El precio promedio para la marca es: x =

La varianza es: S 2 =

1
40 + 35 + 45 + 50 + 40
= 42
xi =
n
5

1
130
2
= 26 2
(x i x ) =
n
5

Por tanto, la desviacin estndar es: S = S 2 = 26 = 5,1

La desviacin tpica es una magnitud no negativa, y con el misma interpretacin que la varianza
en cuanto a medida de dispersin absoluta, pero no cumple las restantes propiedades
matemticas de aquella, pues la extraccin de la raz no lo permite.

COEFICIENTE DE VARIACIN
En ocasiones resulta necesario contar con un estadgrafo que refleje la dispersin sin depender
de la magnitud de las observaciones, esto es que sea un valor relativo. Esta necesidad surge
generalmente cuando se comparan las dispersiones entre varios conjuntos expresados en
unidades diferentes, o incluso entre variables expresadas en las mismas unidades pero con
diferencias significativas en sus valores medios. Este estadstico es el denominado coeficiente
de variacin.
El coeficiente de variacin se define como el cociente de la desviacin tpica entre la media. Se
denota por CV(x), y en forma matemtica puede expresarse:

25

CV( x ) =

Sx
x

Del coeficiente de variacin se dice que es una medida de dispersin relativa, por carecer de
unidades, o una medida de la variabilidad de los datos. Muchas veces su valor se multiplica por
100, para expresar el resultado en porciento.
EJEMPLO:

Sea cuenta con datos del peso y la estatura de un grupo de 20 nios entre 8 y 10 aos,
y se desea saber cul de las dos variables tiene mayor variabilidad.
X: estatura (cm)

Y: peso (kg)

X = 155 cm
S 2X

Y = 42 kg
2

S 2Y = 20 kg2
S Y = 4,5 kg

= 110 cm
S X = 10,5 cm

En este caso no tiene sentido decir que hay mayor dispersin en trminos absolutos en
la estatura, por el hecho de que la desviacin estndar para dicha variable es 10,5
mientras que para el peso es 4,5, pues las unidades en que estn expresadas ambas
no son comparables. Aqu cobran especial importancia los coeficientes de variacin,
que quedan:
CV( X) =

10,5
= 0,068 = 6,8%
155

CV( Y ) =

4,5
= 0,107 = 10,7%
42

De ello resulta que hay mayor variabilidad en el peso (10,7%) que en la estatura de los
nios (6,8%).

EJERCICIOS DE AUTOEVALUACIN
1.- Qu indican las medidas de tendencia central?
2.- Cmo se define la media aritmtica? Cules son sus propiedades?
3.- Qu desventajas se le pudiera atribuir a la media?
4.- Cmo se define la mediana?
5.- Cul de los dos estadsticos, media y mediana, considera que es mejor para representar el
promedio? Explique su respuesta.
6.- Cmo se define la moda?
7.- En que casos considera til utilizar la moda?

26

8.- Qu indican las medidas de dispersin?


9.- Cmo se define la varianza? Mencione algunas de sus propiedades.
10.- Cmo interpretara el resultado de la varianza?
11.- Cmo se define la desviacin tpica? Cmo la interpretara en general?
12.- Cundo y porqu utilizara la desviacin tpica en vez de la varianza?
13.- Cmo se define el coeficiente de variacin? Cmo se interpreta este coeficiente?
14.- Cules son las ventajas del coeficiente de variacin sobre la desviacin tpica?
15.- Un fabricante de pilas para linternas tom una muestra de 13 piezas de la produccin de un
da y las utiliz de forma continua hasta que comenzaron a fallar. El resultado en horas de
funcionamiento fue:
342, 426, 317, 545, 264, 451, 1049,

631, 512, 266, 492, 562, 298

a.- Calcule la media, la mediana y la moda. Qu medidas descriptivas parecen ser las mejores
y cuales las peores? Por que?
b.- Calcule la varianza, la desviacin tpica y el coeficiente de variacin.
c.- Utilizando la informacin anterior qu se aconsejara al fabricante si l deseara anunciar
que sus bateras duran 400 horas?
16.- Examinando los registros de cuentas mensuales de una empresa que vende
libros por correo, el auditor toma una muestra de 20 de esas cuentas no pagadas
(dadas en cientos de pesos). Los adeudos de la empresa eran:
a.- Calcule la media, la mediana y la moda.
b.- Calcule la varianza y el coeficiente de variacin e interprete los resultados.
c.- A que conclusin llegara acerca de la empresa conociendo que tiene 370
facturas pendientes de pago.

Li-1
10
15
20
25
30

Li
15
20
25
30
35

ni
4
6
7
2
1

27

TEMA II: PROBABILIDADES.


2.1: Introduccin a los fenmenos y experimentos aleatorios. Espacio muestral y
sucesos. Clasificacin de sucesos. Definicin clsica de Probabilidad. Definicin
estadstica de Probabilidad.
La Teora de las Probabilidades surge en el siglo XVII, relacionada con problemas de los juegos
de azar, y entre sus principales precursores estuvo el matemtico Pascal, junto con Fermat,
Huygens y Bernoulli; algo despus se sum la importante contribucin de De Moivre, Gauss,
Laplace y Poisson. Esta teora se encarga del estudio de las leyes que rigen el comportamiento
de los fenmenos aleatorios, y es la base de la inferencia estadstica, de ah la necesidad de su
estudio si se quiere pasar de la mera descripcin al trazado de predicciones.
Para desarrollar la teora de las probabilidades es preciso establecer la barrera entre el
determinismo y la necesario aleatoriedad o azar:
Un fenmeno o experimento es determinista cuando se puede predecir con total exactitud el
resultado del mismo a partir del conocimiento de las condiciones iniciales; as, los fenmenos y
experimentos de que se ocupan ciencias exactas como la fsica y la qumica son deterministas.
Un fenmeno o experimento es, por el contrario, aleatorio cuando no se puede predecir con
exactitud el resultado del mismo aunque se conozcan las condiciones iniciales; esto es lo que
por lo general ocurre en el campo de las ciencias econmicas y sociales.
Segn lo dicho, si se va a dejar caer un dado desde una altura determinada, el hecho de que se
conozca cul es la altura permitira determinar antes y con exactitud, sobre la base de leyes
fsicas, con qu velocidad llegar el dado al suelo, lo que hace de sta una observacin
determinista; sin embargo, no sera posible predecir con total certeza qu cara del dado
quedar hacia arriba, siendo esta otra una observacin aleatoria.
Se plantea que la estadstica es la tecnologa del mtodo cientfico que proporciona
instrumentos para la toma de decisiones, cuando estas se adoptan en ambiente de
incertidumbre y siempre que pueda ser medida en trminos de probabilidad. Luego es una
ciencia que estudia los fenmenos aleatorios.
La probabilidad, en una aproximacin intuitiva, puede definirse como una medida cuantitativa de
que las posibilidades pueden llegar a ser realidades.

TERMINOLOGA ASOCIADA A LOS EXPERIMENTOS ALEATORIOS:


Para llegar a una definicin ms rigurosa de lo que lo que es probabilidad resulta til dominar
algunos conceptos vinculados justamente con lo no medible con exactitud, con lo aleatorio:
Espacio muestral: Es el conjunto formado por todos los posibles resultados de un
experimento o fenmeno aleatorio. Se suele representar con S, mayscula, y utilizando la
notacin de la Teora de Conjuntos. La cantidad de elementos (puntos muestrales) que
conforman el especio muestral es denominada tamao del espacio muestral, y se
representa como N(S).

Ej. 1: Lanzamiento de una moneda...

S: { C ; E } donde C: Cara E: Escudo


28

N(S) = 2
S: { 1, 2, 3, 4, 5, 6 }
N(S) = 6

Ej. 2: Lanzamiento de un dado...

Cuando el experimento consta de observaciones sucesivas (a esto se le denomina experimento


de muestreo), el espacio muestral es la combinacin de los posibles resultados en cada una de
las observaciones, y para determinar el mismo se pueden utilizar los llamados diagramas de
rbol. En un diagrama de rbol se ordenan las diferentes observaciones y se establecen los
posibles resultados para cada observacin atendiendo a las observaciones anteriores.
Ej. 3: Lanzamiento de dos monedas

S: { CC ; CE ; EC ; CC }
N(S) = 4
El espacio muestral puede ser finito o infinito segn el conjunto tenga un nmero finito o infinito
de elementos (puntos muestrales).
Punto muestral: Es cada uno de los resultados posibles de un experimento o fenmeno
aleatorio.
Suceso o evento: Cualquier caracterstica observada como resultado de un experimento o
fenmeno, y es aleatorio si tiene tanto posibilidad de ocurrir o como de no ocurrir; o sea, es una
coleccin cualquiera de puntos muestrales. Se utilizan letras maysculas para representarlos,
exceptuando la S.

Para establecer relaciones de sucesos con el espacio muestral o entre ellos mismos se utilizan
los diagramas de Venn. En un diagrama de Venn se suele representar el espacio muestral
como un rectngulo, y dentro de este, con crculos u otras formas geomtricas los diferentes
sucesos de inters, as:

S
A

Ejemplos de sucesos, en el experimento del lanzamiento de un dado son:


A: Que salga el 6.
B: Que salga un nmero > 3
C: Que salga un nmero 2
D: Que salga un nmero par
E: Que salga un nmero impar
F: Que salga un nmero primo
G: Que salga un nmero < 10
H: Que salga un nmero > 6

A={6}
B = { 4; 5; 6 }
C = { 1; 2 }
D = { 2; 4; 6 }
E = { 1; 3; 5 }
F = { 1; 2; 3; 5 }
G = { 1; 2; 3; 4; 5; 6 } (= S )
H = (conjunto vaco)
29

Los sucesos pueden clasificarse atendiendo a diferentes criterios; as, en dependencia de la


cantidad de puntos muestrales que lo constituyen se habla de sucesos simples y compuestos:
Suceso simple: Es aquel que consta de un solo punto muestral. (En el ejemplo anterior,
el suceso A.)
Suceso compuesto: Es aquel que tiene dos o ms puntos muestrales. (En el ejemplo
anterior, los sucesos del B al G.)

Atendiendo a su ocurrencia, se puede hablar de sucesos seguros o ciertos y de sucesos


imposibles o nulos:
Suceso seguro o cierto: Es aquel cuya ocurrencia es inevitable, que siempre va a
ocurrir. (En el ejemplo anterior, el suceso G: al lanzar un dado siempre saldr un nmero
del 1 al 6.) Los sucesos seguros coinciden con el espacio muestral.
Suceso imposible o nulo. Es aquel que nunca ocurrir. (En el ejemplo anterior, el
suceso H.) Los sucesos imposibles constituyen conjuntos vacos.

Adems, en funcin del vnculo de un suceso o evento con otros existen las siguientes
denominaciones:
Subevento: A es un subevento o subsuceso de B si todos los puntos muestrales de A estn
incluidos en B, o sea, A B. (En el ejemplo anterior: A B, A D, C F, E F.)

AB
Sucesos complementarios: Un suceso es complementario de otro suceso A, si est
formado por todos los puntos del espacio muestral que no estn incluidos en A; se dice
entonces que ese suceso es el complemento de A, y se denota por A' o Ac. (En el ejemplo
anterior se tiene para A = { 6 } que el complemento es A = { 1; 2; 3; 4; 5}.)

Sucesos excluyentes: Dos sucesos se dice que son mutuamente excluyentes si la


ocurrencia de uno excluye la ocurrencia del otro, por lo tanto dichos sucesos no tienen puntos
en comn. (En el ejemplo anterior son excluyentes A y C, B y C, D y E.)

30

Nota: Un caso particular de sucesos excluyentes son los complementarios. Todos los
sucesos complementarios son excluyentes; lo contrario no necesariamente ocurre.
Sucesos no excluyentes: Dos sucesos son no excluyentes si pueden ocurrir
simultneamente, es decir, si tienen puntos en comn. (En el ejemplo anterior son no
excluyentes A y B, C y D, B y D, C y E, etc.)

Sucesos exhaustivos: Se dice que dos sucesos son colectivamente exhaustivos cuando la
ocurrencia de ambos abarca el espacio muestral. (En el ejemplo anterior son no exhaustivos:
D y E, D y F.)

Nota: Un caso particular de sucesos exhaustivos son los complementarios. Todos los
sucesos complementarios son exhaustivos; lo contrario no necesariamente ocurre.

OPERACIONES ENTRE SUCESOS:


Para establecer la relacin entre diferentes sucesos se recurre a las operaciones definidas por
el lgebra booleana en la propia Teora de Conjuntos, entre ellas, las ms usadas son:

Interseccin o producto: La interseccin de los sucesos A y B da como resultado un


suceso que consiste en la ocurrencia simultnea de ambos, es decir, que contiene los
puntos muestrales contenidos a la vez en A y en B. Se denota por A B AB.

Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un nmero mayor que
3) y D = { 2; 4; 6 } (que salga un nmero par), la interseccin es el suceso dado por que
salga un nmero par y mayor que tres, es decir: B D BD = { 4; 6 }

B D BD

31

Unin o suma: La unin de dos sucesos A y B da como resultado un suceso que


consiste en la ocurrencia de al menos uno de los dos sucesos, es decir que contiene
todos los puntos muestrales contenidos en A o en B (o en ambos). Se denota por A B
A + B.

Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un nmero mayor que
3) y D = { 2; 4; 6 } (que salga un nmero par), la unin es el suceso dado por que salga
un nmero par o mayor que tres, es decir: B D = { 2; 4; 5; 6 }

BD

Complemento o negacin: El complemento de un suceso A da como resultado su


suceso complementario, es decir, que no ocurra A. Se denota como A Ac.

Ej.: En el lanzamiento del dado, siendo C = { 1; 2 } (que salga un nmero menor o igual
que 2), el complemento unin es el suceso dado por que salga un nmero mayor que 2,
es decir: C = { 3; 4; 5; 6 }

C Cc

DEFINICIN CLSICA DE PROBABILIDAD:


En el siglo XIX, concretamente en el ao 1812, Laplace formula la que es conocida como
definicin clsica de probabilidad, que establece que:
Si S es un espacio muestral finito y todos los puntos muestrales son equivalentes o igualmente
representativos, entonces la probabilidad de ocurrencia de cualquier suceso A definido en S
puede calcularse como el cociente del nmero de resultados favorables al suceso A (tamao
del suceso) entre el nmero de resultados posibles (tamao del espacio muestral), as:

P( A ) =

N( A )
N(S)

Ejemplos:
La probabilidad de obtener el nmero 6 al lanzar un dado ser:
A: Que salga el 6.
N(A) = 1
P(A) = 1/6 = 0,167

La probabilidad de obtener un nmero par ser:


D: Que salga un nmero par
N(D) = 3

P(D) = 3/6 = 0,5

32

La definicin clsica tambin se conoce como definicin a priori de probabilidad, porque no es


necesario realizar el experimento para calcular la probabilidad de ocurrencia. Esta definicin
tiene las siguientes limitaciones:
1. No puede ser aplicada a espacios muestrales infinitos.
2. No puede ser aplicada cuando los puntos muestrales no son equiprobables, o lo que es
lo mismo, igualmente probables.

DEFINICIN ESTADSTICA DE PROBABILIDAD:


Debido a las limitaciones que confronta la definicin clsica de probabilidad, se comenzaron a
realizar experimentos con los juegos de azar, surgiendo el concepto de regularidad
estadstica. Se le llama regularidad estadstica a la estabilidad que presentan las frecuencias
relativas asociadas a un suceso al considerar un gran nmero de veces un experimento bajo las
mismas condiciones; por ejemplo, si una moneda se lanza un gran nmero de veces (500, 1000
veces), se observar que aproximadamente el 50% de estas veces sale cara, y mientras ms
lanzamientos se haga ms tender este valor al 50%.
A partir de la regularidad estadstica, surge la definicin estadstica de probabilidad que plantea:
Si el nmero de observaciones (n) tiende a infinito, la frecuencia relativa asociada a un suceso
A (fA), alcanza un cierto valor lmite o ideal, y entonces puede asociarse a un nmero P(A)
equivalente a la probabilidad de ocurrencia de A, as:
P( A ) = lim

nA
= lim f A
n n

Ejemplo: Un arquero ha acertado 70 veces en un blanco de un total de 100


intentos, y se quiere conocer la probabilidad de que haga blanco en un nuevo tiro.

Sea A: acertar en el blanco


Se tiene que n = 100 y nA = 70.
Entonces:
P(A) = 70/100 = 0,70
O sea, se espera que el arquero haga blanco un 70% de las veces que tire.
La definicin estadstica o frecuencial adems se conoce como definicin a posteriori de
probabilidad, porque si no se realiza el experimento no se puede calcular la misma. Esta
definicin tambin tiene limitaciones, dadas por lo siguiente:
No siempre es posible repetir un experimento un mismo nmero de veces bajo las
mismas condiciones.

PROPIEDADES DE LA PROBABILIDAD:
La probabilidad, como medida de la posibilidad de ocurrencia de un suceso, cumple las
siguientes propiedades:

P(A) 0
P(S) = 1

33

Lo anterior implica que: 0 P(A) 1


Nota: Es comn multiplicar las probabilidades por 100 para expresarlas porcentualmente, y de
esta forma, lgicamente, resultar un nmero (un valor porcentual) entre 0 y 100.

EJERCICIOS DE AUTOEVALUACIN
1.- Qu es un experimento aleatorio?
2.- Puede calcularse probabilidad a partir de un experimento determinista?. Explique.
3.- Cules son los sucesos mutuamente excluyentes?
4.- Cules son los sucesos complementarios?
5.- Explique la diferencia entre unin e interseccin y proporcione un ejemplo de cada uno.
6.- Cmo se define la probabilidad clsicamente? Bajo que condiciones puede aplicarse?
7.- Cmo se define la probabilidad estadstica o frecuencialmente?
8.- Cules son las limitaciones de ambas definiciones?
9.- En una amplia red metropolitana se seleccion una muestra de 500 entrevistados para
determinar diversas informaciones relacionadas con el comportamiento del consumidor.
Entre las preguntas hechas se encontraba: disfruta ir de compras?. De 240 hombres 136
contestaron que s; de 260 mujeres 224 contestaron que s.
a.- De un ejemplo de un evento simple.
b.- Cul es el complemento de disfrutar ir de compras?
c.- Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria ...
c.1
sea hombre?
c.2
disfrute ir de compras?
c.3
sea mujer?
c.4
no disfrute ir de compras?
c.5
sea mujer y disfrute ir de compras?
c.6
sea hombre y no disfrute ir de compras?
c.7
sea hombre y disfrute ir de compras?
c.8
sea mujer o disfrute ir de compras?
c.9
sea hombre o no disfrute ir de compras?

34

2.2: Axiomatizacin de la Probabilidad. Reglas de clculo de probabilidades.


Probabilidad condicional. Independencia de sucesos.
Existen mltiples situaciones complejas en las que es necesario o deseable conocer la
probabilidad de ocurrencia de un determinado suceso, y donde la aplicacin directa de alguna
de las definiciones de este concepto parece prcticamente imposible; de ah que la teora en
torno a las probabilidades continuase desarrollndose para encontrar solucin a estos casos,
dando lugar a numerosos teoremas y reglas.
Dadas las limitaciones que presentan las dos definiciones previas, en 1933 se axiomatiza la
probabilidad a partir de la formulacin de tres axiomas bsicos. Entonces, si S es un espacio
muestral y A un suceso definido en S, se dir, que todo suceso A definido en S est asociado a
un numero real P(A), llamado probabilidad de A, el cual cumplir con los siguientes axiomas:
1. P(A) 0
2. P(S) = 1
3. P(A1 A2 A3 ... Ak) = P(A1) + P(A2) + ... + P(Ak) si los k sucesos son excluyentes
o lo que es lo mismo si para cada par Ai y Aj se tiene que AiAj = siendo i j.

TEOREMAS ASOCIADOS AL CLCULO DE PROBABILIDADES:


De los axiomas establecidos para la probabilidad se derivan algunos teoremas que encuentran
aplicacin directa en el clculo de probabilidades, entre los ms usados estn:
Teorema 1:

La probabilidad de un suceso imposible o nulo es cero: P() = 0

Teorema 2:

Si A es un subconjunto de B entonces P(A) P(B)

Teorema 3:

La probabilidad del suceso complementario al


suceso A es igual a la probabilidad del espacio
muestral, que es igual a 1 ( P(S) = 1 ), menos la
probabilidad de A.
P(A') = 1 - P (A)

Teorema 4:

La probabilidad de que ocurra A y no ocurra


B ser:
P(AB') = P(A) - P(AB)

Teorema 5:

La probabilidad de que ocurra la unin de dos sucesos, A y B, ser:


P(A B) = P(A) + P(B) - P(AB)
Este teorema es conocido como regla de la
unin. El mismo puede generalizarse para
ms de dos sucesos; por ejemplo, la regla de
la unin referida a tres sucesos queda:
35

P(A B C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)


Teorema 6:

La probabilidad de que no ocurra ninguno de


dos sucesos, A y B, ser:
P(AB) = 1 - P(A B)

Ejemplo: De un grupo de 1000 habaneros: 420 leen Granma, 105 leen Juventud
Rebelde y 45 leen ambos peridicos.
a.- Cul es la probabilidad de seleccionar aleatoriamente un habanero del grupo
y lea Granma o Juventud Rebelde.
b.- Qu probabilidad hay de que el habanero seleccionado no lea ninguno de los
peridicos?
c.- Qu probabilidad hay de que lea slo Granma?

Sean los sucesos:


G: leer Granma
J: leer Juventud Rebelde.
Se tiene:
N(S) = 1000
N(G) = 420, por tanto:
N(J) = 105, por tanto:
N(GJ) = 45, por tanto:

P(G) = 0,42
P(J) = 0,105
P(GJ) = 0,045

a.- P(G J) = P(G) + P(J) + P(GJ) = 0,42 + 0,105 - 0,045 = 0,48


b.- P(G J)' = 1 - P(G J) = 1 - 0,48 = 0,52
c.- P(GJ') = P(G) - P(GJ) = 0,42 - 0,045 = 0,385

PROBABILIDAD CONDICIONAL:
Muchas veces surge la necesidad de calcular la probabilidad de ocurrencia de un suceso
asumiendo la ocurrencia de otro, que puede ser llamado condicionante; esto quiere decir que ya
no interesa la totalidad del espacio muestral, sino slo aquella parte o subconjunto de aquel que
coincide con la realizacin del suceso condicionante. La probabilidad as calculada se le llama
probabilidad condicional.
Para representar la probabilidad condicional de un suceso A respecto a otro B (condicionante o
condicin) se utiliza la el smbolo P(A/B), que se lee probabilidad de A dado B, o probabilidad
de A si ocurre B.
Matemticamente se puede calcular la probabilidad condicional como el cociente de la
probabilidad de interseccin de los dos sucesos entre la probabilidad del suceso condicionante:

36

P( A / B) =

P( AB)
P(B)

Tambin se puede calcular la probabilidad condicional directamente a partir del tamao de los
sucesos:
N( AB)
P( A / B) =
N(B)
Ejemplo: En una escuela de idiomas se ha visto que el 70% de los estudiantes termina
bien el primer ao de Ingls, y que un 59,5% termina bien los dos aos de estudio. Se
quiere determinar la probabilidad de que un estudiante termine bien el segundo ao.

Sean los sucesos:


A: terminar bien el 1er ao de Ingls
B: terminar bien el 2do ao de Ingls
Entonces:

P(B / A ) =

Se sabe que:
P(A)=0,70
P(AB)=0,595

P( AB) 0,595
=
= 0,85
P( A )
0,70

REGLA DEL PRODUCTO:


Si A y B son sucesos definidos en S, la probabilidad de AB, de acuerdo a la definicin de
probabilidad condicional, se puede expresar como:
P(AB) = P(A) P(B/A)
P(AB) = P(B) P(A/B)
De la misma forma:
P(ABC) = P(A)P(B/A)P(C/AB)
Luego la regla del producto expresa la probabilidad de que ocurran A y B en un orden
determinado: P(AB)=P(A)P(B/A) que primero salga A y en segundo lugar salga B
P(AB)=P(B)P(A/B) que primero salga B y en segundo lugar A
Si no interesa el orden, sino que salga una vez A y una vez B, entonces se tienen que expresar
las dos combinaciones posibles que hay:
P(AB) = P(A1 B2 ) + P(B1 A2 )
Ejemplo. De una urna que contiene 4 esmeraldas y 1 brillante, se extraen 2 piedras, una a una,
sin reposicin. Calcule la siguiente probabilidad.
a.- Que la 1ra piedra sea esmeralda y la 2da brillante.
b.- Que las dos piedras sean esmeraldas
c.- Solo una sea esmeralda.
Solucin: como es sin reposicin las extracciones, entonces los sucesos son dependientes,
adems que piden orden.
a.- P(E1 B2 )= P(E)P(B/E)
= 4/5 . 1/4
= 4/20 = 1/5 = 0.20
b.- P(E1 E2)= 4/5 . 3/4
= 16/20 = 6/10 = 0.6
c.- P(E1 B2 B1 E2) = P(E)P(B/E) + P(B)P(E/B)

37

= 4/5 . 1/4 + 1/5 . 4/4


= 4/20 + 4/20 = 8/20 = 4/10 = 0.4

INDEPENDENCIA DE SUCESOS:
Dos sucesos A y B se llaman independientes, cuando la probabilidad de ocurrencia de uno de
ellos, no depende de la ocurrencia o no del otro.
Dos sucesos son independientes si se cumple alguna de las siguientes igualdades:
1. P(A/B) = P(A)
2. P(B/A) = P(B)
3. P(AB) = P(A) P(B)
Se debe aclarar que slo se puede comprobar independencia a travs de esta ltima frmula si
se tienen las 3 probabilidades y comprobar si la interseccin es igual al producto de la
probabilidad de ambos sucesos.
Un ejemplo de independencia es el siguiente: Si se lanza una moneda dos veces, la
probabilidad de que salga cara en el primer lanzamiento, no depende de que salga cara o no en
el segundo lanzamiento.
Ejemplo:

Si una caja contiene 100 piezas de las cules 20 son defectuosas y se extraen aleatoriamente 2
piezas una a una (con reposicin). Cul ser la probabilidad de obtener una pieza defectuosa
en la primera extraccin?:
P=20/100=0.20
Y cul ser la probabilidad, en la segunda extraccin, de obtener tambin una pieza
defectuosa?
P=20/100=0.20, es decir exactamente igual, esto es debido a que se repuso la primera pieza.
Por tanto, cuando las observaciones son con reposicin se puede considerar que son
independientes, pues lo que ocurre en la segunda extraccin es independiente de lo que
ocurre en la primera (y as con las sucesivas, si hay ms). Pero si no se repone, es decir,
se hacen las observaciones sin reposicin la probabilidad de cada observacin
depende de las anteriores.

Si de la caja de 100 piezas en la primera extraccin sale una pieza defectuosa, la probabilidad
de pieza defectuosa en la segunda extraccin, sin reponer la primera pieza tomada, ser 19/99;
pero si lo que sale en la primera extraccin es una pieza en buen estado, entonces la
probabilidad de pieza defectuosa en la segunda extraccin ser 20/99.
Generalmente para los juegos de azar, es fcil decidir si dos sucesos son independientes o no.
Para otros experimentos aleatorios, se debe tener ms cuidado.
Ejemplo. Si se tienen 3 sucesos definidos en un espacio muestral S y se conoce que:
P(A)=0.40 P(B)=0.42 P(C)=0.15 P(A/B)=0 P(A/C)=0 P(C/B)=0
38

Diga si:
a.- A y B son independiente
b.- A y C son mutuamente excluyentes
c.- B y C son independientes
d.- A y B son equiprobables
a.- P(A/B) = P(A) ya que para que A y B sean independientes se debe cumplir esta relacin.
Pero P(A/B) = 0 y P(A) = 0.40 luego son diferentes por tanto no son independiente.
b.- Para que sean mutuamente excluyentes se debe cumplir que P(AC)=0, ya que al no tener
elementos comunes(AC), la interseccin es igual al conjunto vaco.
Como P(A/C)=0 eso implica que P(AC)=0 ya que P(A/C)=P(AC)/P(C) por lo tanto los sucesos
A y C son mutuamente excluyentes.
c.- P(B/C) = P(B)
cualquiera de las dos.

P(C/B) = P(C) ya que para que sean independientes se debe cumplir


P(C/B) = P(C)
0 0.15

Por tanto, no son independientes.

d.- Para que sean equiprobables se debe cumplir que P(A) = P(B), pero:
P(A) = 0.40 P(B) = 0.42, por tanto no son equiprobables.

EJERCICIOS DE AUTOEVALUACIN
1.- Cules son los axiomas sobre los que descansa la teora axiomtica de la probabilidad?
2.- Diga al menos 3 propiedades de la definicin axiomtica de probabilidad.
3.- Cundo dos sucesos son independientes?
4.- Cundo dos sucesos son mutuamente excluyentes?
5.- Un embarque de 10 muecos contiene 3 muecos y 7 muecas.
a.- Si se seleccionan dos muecos, sin reposicin, cul es la probabilidad de que:
a1.- sean dos muecas?
a2.- haya una mueca y un mueco?
a3.- el primer mueco seleccionado sea una mueca y el segundo un mueco?.
b.- compare la respuesta a.2 y a.3 y explique porque son diferentes.
6.- Con referencia al ejercicio 9 de la autoevaluacin de la semana anterior.
a.- Supngase que el entrevistado seleccionado sea mujer. Cul es entonces la
probabilidad de que no disfrute ir de compras?
b.- Supngase que el entrevistado seleccionado disfruta ir de compras. Cul es la
probabilidad de que sea un hombre?
c.- Son estadsticamente independiente disfrutar ir de compras y el sexo de la persona?
Fundamente su respuesta.
d.- Cul es la probabilidad de que un entrevistado, seleccionado en forma aleatoria...
d.1.- Sea mujer o disfrute ir de compras?
39

d.2.- Sea hombre o no disfrute ir de compras?


d.3.- Sea hombre o mujer?
Utilice para el inciso d las propiedades de la definicin axiomtica de probabilidad.
7.- A partir de una investigacin realizada, se supo que el 70% de los hombres son fumadores;
y que padecen afecciones respiratorias dado que son fumadores un 50%. Adems se conoci
que no siendo fumadores, dado que padecen de afecciones existen un 40%, Si se realiza el
experimento de seleccionar un individuo del grupo al azar, diga:
a.- Probabilidad de que no sea fumador.
b.- Probabilidad de que sea fumador y padezca de afeccin pulmonar.
c.- Probabilidad de que fume dado que padece de los pulmones.
d.- Probabilidad de que no padezca de afecciones pulmonares dado que fuma
e.- Probabilidad de que padezca de afeccin respiratoria.

40

TEMA III: DISTRIBUCIONES TERICAS DE PROBABILIDAD


3.1: Definicin de variable aleatoria. Funcin de probabilidad univariada: casos
discreto y continuo. Funcin de distribucin. Media y varianza de variables
aleatorias.
En este tema que se estudiarn las distribuciones tericas de probabilidad, que son modelos
tericos basados en las probabilidades, establecidos para describir el comportamiento de
variables en cuyos valores hay incidencias aleatorias, y que se utilizan atendiendo a las
caractersticas de la situacin existente.
Se dice que una variable es aleatoria si sobre cuyos valores influye de alguna manera la
aleatoriedad o azar.
Una manera ms matemtica de expresarlo es la siguiente: una variable aleatoria "X" es una
aplicacin definida en un espacio muestral S, que toma valores reales, o sea es la
transformacin del espacio muestral en un conjunto numrico, mediante X.
La mayor parte de las variables aleatorias se pueden expresar numricamente, y por tanto son
clasificables igualmente en discretas y continuas: son discretas las que toman un conjunto finito
-o infinito, pero numerable- de valores; son continuas las que pueden tomar cualquier valor real
de un intervalo.
Ejemplo:
Experimento: lanzamiento de una moneda dos veces.
El espacio muestral es: S = { CC EE CE EC }
Si lo que interesa es conocer la cantidad de caras que pueden aparecer, se define
entonces la variable aleatoria X: nmero de caras que aparecen, siendo su espacio
muestral o dominio de definicin:
X = { 0, 1, 2 }
Como para una variable aleatoria es imposible saber con exactitud qu valor tomar en un
momento dado, para describir el comportamiento de las mismas se recurre al uso de las
probabilidades...
Cuando se conocen caractersticas o se efectan estudios sobre el comportamiento de una
variable, se puede desarrollar algn modelo que brinde una descripcin probabilstica de la
misma, el cual tendr adems implcito un grupo de condiciones que debe cumplir la variable.
Todo modelo as desarrollado se basa en lo siguiente:
9 Una funcin de probabilidad: f(x)
9 Una funcin de distribucin: F(x)
9 Parmetros (medidas numricas descriptivas)

FUNCIN DE PROBABILIDAD:
Una funcin de probabilidad es la correspondencia que se establece entre los valores, o
intervalos de valores, de una variable aleatoria y la probabilidad de ocurrencia de stos. Se
denota por f(x).
41

Si la funcin de probabilidad [f(x)] es discreta tambin se le denomina funcin de cuanta, y


muchos autores la representan entonces como p(x). Para que sea una funcin de probabilidad,
la funcin de cuanta, debe cumplir las siguientes propiedades:
1.- f (x) 0

2.- f (x) = 1

Ahora bien, si la funcin de probabilidad [f(x)] es continua se le denomina funcin de


densidad. Para que sea una funcin de probabilidad, la funcin de densidad, deben cumplirse
las siguientes propiedades:
Xmax

1.- f (x) 0

2.-

f ( x)dx = 1

3.- P(a < x b) = f ( x )dx

Xmin

4.- P (X = Xk) = 0

Esta ltima propiedad nos indica que para variables continuas la probabilidad de tomar un valor
puntual es nula, y esto conlleva que para las variables continuas se cumpla lo siguiente:
b

f ( x )dx = P(a x b) = P(a < x b) = P(a x < b) = P(a < x < b)


a

(Por tanto, en el caso continuo no importa si las desigualdades son estrictas o no,
pues da igual: un punto por s mismo no influye, no aporta probabilidad.)

FUNCIN DE DISTRIBUCIN:
Existe otra funcin que est ntimamente relacionada con las funciones de probabilidad, la cual
se denomina funcin de distribucin o funcin de acumulacin probabilstica, y se denota
por F(x).
La funcin de distribucin recoge la probabilidad de que la variable tome valores menores o
iguales al valor dado, es decir, acumula las probabilidades hasta un valor dado (xk). Esto,
matemticamente, quiere decir que:
F(xk) = P(X Xk)
Toda funcin de distribucin cumple las siguientes propiedades:
1. lim F( x ) = 0
X

2. lim F( x ) = 1

3. 0 F(x) 1

4. x1 x2 F(x1) F(x2) (Es decir, es una funcin no decreciente.)


5. x1 < x2 P(x1 < x x2) = F(x2) - F(x1)
Para las funciones de distribucin correspondientes a variables discretas, se cumple que:
F( x k ) =

Xk

f(x )
i

Xmin

Y de la quinta propiedad general citada se deriva, en el caso discreto, que:

42

P(x1 < x x2) = F(x2) - F(x1)


P(x1 x x2) = F(x2) - F(x1) + f (x1)
P(x1 < x < x2) = F(x2) - F(x1) - f (x2)
P(x1 x < x2) = F(x2) - F(x1) + f (x1) - f (x2)
Debe mencionarse que la funcin de distribucin es ms usada en el caso de variables
continuas que en el de las discretas, pues para estas ltimas resulta ms cmodo trabajar
directamente con la funcin de cuanta.
Para funciones de distribucin correspondientes a variables aleatorias continuas se cumple que:
Xk

F( x k ) = f ( x) dx

Xmin

F( x )
= f(x)
x

Adems, teniendo en cuenta que la probabilidad puntual en variables continuas es nula, de la


quinta propiedad general citada se deriva para este caso, con fines prcticos, lo siguiente:
P(x xk) = P(x < xk) = F(xk)
P(x xk) = P(x > xk) = 1 - F(xk)
P(x1 x x2) = P(x1 < x < x2) = P(x1 < x x2) = P(x1 x < x2) = F(x2) - F(x1)
Ejemplos:

1.- Un determinado experimento aleatorio tiene como funcin de probabilidad la relacin:


x +1
f(x) =
para x = { 0, 1, 2, 3 }
10
Se pide:
a.- Verificar las propiedades de f(x)
b.- P(x >1)
c.- F(1)
d.- Probabilidad de que x tome por lo menos valor 1
e.- Probabilidad de que x tome a lo sumo valor 2
Solucin:
a.- Propiedad f (x) 0
f (x0)= 1/10; f (x1)= 2/10; f (x2)= 3/10; f (x3)= 4/10; por tanto f (x) > 0
Propiedad que la suma de f (x) desde 0 a 3 = 1
f (x)= 1/10[(1+0)+(1+1)+(1+2)+(1+3)] = 10/10 = 1

b.- P(x > 1) =

f (x ) = (1+2)/10 + (1+3)/10 = 3/10 + 4/10 = 7/10=0.7


x=2

c.- x f (x)
0 1/10
1 2/10

F(x)
1/10
3/10

F(1) = 3/10 = 0.3 esto nos indica que x es menor


igual a 1.

43

2 3/10 6/10
3 4/10 10/10
Nota: Como se ve, si la variable es discreta F(x), se determina de la mismo que Fi, es
decir las frecuencias relativas acumuladas.
3

d.- P(x 1) = f (x) = 1 - f (x = 0) = 1 - 1/10 = 9/10 = 0.9


x=1

Tambin se podra hacer, sumando, en vez de por el complemento:


= 1/10[(1+1) + (1+2) + (1+3) ] =
= 1/10 (2 + 3 + 4) = 9/10 = 0.9
2

e.- P(x 2) = f (x) = 1 - f (x = 3) = 1 - 4/10 = 6/10 = 0.6


x=0

Tambin se podra hacer sumando en vez de por el complemento:


= 1/10[(1+0) + (1+1) + (1+2)] =
= 1/10 (1 + 2 + 3) = 6/10 = 0.6
2.-Sea f (x) = 1/18(3 + 2x) una funcin de densidad para 2 < x < 4
a.- Verifique si se cumplen las propiedades de f (x)
b.- Calcule P(x < 3)
c.- P(x 3)
d.- P(x = 3)
e.- Halle F(x)
f.- Calcule P(2 < x 3) haciendo uso de la F(x)
Solucin:
4

a.- f (x) = 1/18

(3 + 2x)dx = 1/18[ 3x + 2x /2 ]= 1/18[(12+16) - (6+4)]


2

= 1/18 (28 - 10) = 18/18 = 1


3

b.- P(x < 3)= 1/18

(3 + 2 x)dx

= 1 / 18(3x + 2x 2 / 2] = 1 / 18[(9 + 9) - (6 + 4)]

= 1/18 (18 - 10) = 8/18 = 4/9 = 0.44


4

c.- P(x 3)=1/18

(3 + 2 x)dx

= 1 / 18(3x + 2x 2 / 2] = 1 / 18[(12 + 16) - (9 + 9)]

=1/18(28 -18) = 10/18 = 5/9 = 0.55


d.- P(x=3) = 0
xk

e.- F(x) = 1/18

(3 + 2 x)dx

= 1 / 18(3x + 2x 2 / 2] = [(3xk + x 2 k ) - (6 + 4)]

= 1/18(3xk + x2k - 10) por tanto F(x) ser:


F(x) = 1/18 (x2 + 3x - 10)

f.- P(2 < x 3) = F(3) - F(2) = [1/18(9+9-10) ] - [1/18(4+6-10) ]


44

= 1/18(8 - 0) = 8/18 = 4/9 = 0.44

MEDIDAS NUMRICAS DE RESUMEN ASOCIADAS A VARIABLES ALEATORIAS:


Las medidas numricas de resumen asociadas a variables aleatorias permiten sintetizar la
informacin de forma tal que ofrecen las caractersticas generales del fenmeno en estudio, es
decir, sus rasgos principales. Tienen su equivalente en los estadgrafos que se utilizan para
caracterizar conjuntos de observaciones o muestras, y en este caso se conocen como
parmetros de las variables.
Entre los parmetros ms usados estn la media, como medida de posicin, y la varianza como
medida de dispersin.
MEDIA O ESPERANZA MATEMTICA

El valor medio de una variable aleatoria, se denomina media terica, valor esperado o
esperanza matemtica, y se denota por E(x) .
La media o valor esperado de una variable aleatoria se puede considerar como su promedio
ponderado sobre todos los resultados posibles siendo las "ponderaciones" la probabilidad
relacionada con cada uno de los resultados.
El clculo del valor esperado est en dependencia si se est trabajando con variables
aleatorias discretas o continuas. En el caso de las variables aleatorias discretas, esta medida de
resumen se puede obtener multiplicando cada posible de la variable, xi, por su probabilidad
correspondiente, P(xi) o f(xi), y despus sumando los productos resultantes, as:
= E (x) = x f(x)
En el caso de las variables aleatorias continuas, esta medida de resumen se obtiene integrando
el producto de la variable x por su funcin de probabilidad, desde el valor mnimo de la variable,
xmin, hasta su valor mximo, xmax, de la siguiente forma:
Xmax

= E( x ) =

x f ( x) dx

Xmin

Propiedades de la media o valor esperado:

1.- La esperanza de una constante es igual a la propia constante:

E (k) = k

2.- La esperanza del producto de una constante por una variable es igual a la constante por la
esperanza de la variable:
E (kx) = k E (x)
3.- Si x1, x2 , ... , xn son variables aleatorias entonces:

E ( xi ) = E (x)

4.- La esperanza de la suma (o resta) de una constante y una variable es igual a la constante
ms la suma (o resta) de la esperanza de x:

45

E (k x) = k E (x)

5.- Si la media poblacional es igual a la esperanza de x, entonces la esperanza de las


desviaciones con respecto a la media es igual a cero:
E (x - )= 0
6.- Si x e y son variables aleatorias independientes entonces, la esperanza del producto de "x" e
"y" es igual al producto de la esperanza de "x" y de la esperanza de "y":
E (xy) = E (x) E (y)
7.- La esperanza del producto de la suma de n, variables y constantes es igual a la suma del
producto de las "n" constantes por las esperanza de las variables.
E (C1x1 + C2x2 + ... + Cnxn ) = C1E (x1) + C2E (x2) + ... + CnE (xn)
VARIANZA

La varianza es igual a la esperanza de las desviaciones con respecto a la media, al cuadrado:


V(x) = E (x - )2
Tambin se simboliza por 2 (sigma al cuadrado, letra griega). Esta definicin hace un tanto
difcil el clculo de la varianza, ya que como se dijo anteriormente en el clculo de la esperanza,
la variable, es lo que est dentro del parntesis, y en este caso lo que est dentro del
parntesis, es (x - )2.
Por lo tanto para el clculo de la varianza para una variable aleatoria discreta sera:
V(x) = (x - )2 f(x)
Y en el caso de variables aleatorias continuas sera:
x max

V( x ) =

( x )

f ( x )dx

x min

Haciendo transformaciones matemticas se puede llegar a obtener una frmula de clculo para
la varianza que es mucho ms cmoda.
V(x) = E (x2) - [E (x)]2 en el caso de la variable discreta la:
xn

E(x ) = x f (x) y en el caso de variables continua E(x )=

f ( x )dx

x1

Propiedades de la varianza:

1.- La varianza de una variable es igual o mayor que cero:


2.- La varianza de una constante es igual a cero:

V(x) 0

V(k) = 0

46

3.- La varianza del producto de una constante por una variable es igual a la constante al
cuadrado por la varianza de la variable:
V(kx) = k2 V(x)
4.- La varianza de la suma de una constante ms una variable es igual a la varianza de la
variable:
V(k+x) = V(x)
5.- Si x1 , x2 , ...xn son variables aleatorias independientes, entonces la varianza de la suma de
"n" variables es igual a la suma de las varianza de las variables:
V( xi) = V(xi)
6.- La varianza de la suma del producto de "n" variables por "n" constantes es igual a la suma
del producto de las "n" constantes al cuadrado por las varianzas de las variables:
V(C1 x1 + C2 x2 + ... + Cn xn) = C 21 V(x1) + C22 V(x2) + ... + C2n V(xn)
Ejemplo 1.- La funcin de una variable aleatoria x, esta dado por:

x:
1
2
3
4
f(x): 1/6 1/3 1/6 1/3
Calcular el valor esperado de x y su varianza.
Solucin:
Primeramente se debe definir si es una variable aleatoria discreta o continua, ya que en
dependencia del tipo de variable as ser su clculo. En este caso es discreta, se sabe, porque
la variable toma valores definidos: 1, 2, 3, y 4.

Para los clculos se necesitarn los productos x f (x) y x2 f (x), que se pueden tabular:
x:
f(x):
x f(x)
x2 f(x)

1
1/6
1/6
1/6

2
1/3
2/3
4/3

3
1/6
3/6
9/6

4
1/3
4/3
16/3

Entonces:
E (x)= = x f (x) = 1/6 + 2/3 + 3/6 + 4/6 = (1+4+3+8)/6 = 16/6 = 2,66
V(x)= E(x2) - [E(x)]2
E(x2) = x2 f (x) = 1/6 + 4/3 + 9/6 + 16/3 = (1+ 8 + 9 + 32)/6 = 50/6 = 8.33
V(x)= E(x2) - [E(x)]2 = 8.33 - 2,662 = 8.33 - 7.07 = 1.26
Ejemplo 2.- Si f (x) = x/2 para 0 < x < 2
a.- Cul ser el valor de la varianza de x?
b.- Hallar E(x+3)
c.- Hallar E(2x2)
d.- Cul ser el valor de V(2x)?
e.- Cul es el valor de la desviacin tpica de x?

47

Solucin:
Qu tipo de variable es esta? La forma de presentar el recorrido de la variable x, indica que
es una variable continua.
2

2
1 2
1 x3
18
8 4
x dx = = 0 = = = 1.33
a.- E( x ) = x f ( x )dx =
20
2 3
23
6 3
0

2
1 3
1 x4
E( x ) = x f ( x )dx =
x dx =
20
2 4
0
2

1 16
16
=
0 =
=2

8
0 2 4

V(x) = E (x2) - [E (x)]2 = 2 - 1.332 = 2 - 1.77 = 0.23


b.- E(x+3) = E (x) + 3 = 1.33 + 3 = 4.33
c.- E(2x2) = 2 E(x2) = 2 2 = 4
d.- V(2x) = 22 V(x) = 4 (0.23) = 0.92
e.- = 2 = 0,23 = 0.48

EJERCICIOS DE AUTOEVALUACIN
1.- Qu entiende por variable aleatoria? A qu se denomina funcin de probabilidad? Cmo
se denomina a la funcin de probabilidad de una variable aleatoria discreta y cmo a la de una
variable continua? Cmo se define la funcin de distribucin?
2.- A partir de la definicin de funcin de distribucin como determinara las siguientes
probabilidades para una variable aleatoria discreta y para una variable aleatoria continua:
a.- P(x xk)
b.- P(x > xk)
c.- P(x1 x < x2)
d.- P(x1< x x2)
e.- P(x1 < x < x2)
f.- P(x1 x x2)

48

3.2: Distribucin binomial: caractersticas y uso. Distribucin de Poisson:


caractersticas y uso.
Entre las distribuciones probabilsticas ms usadas asociadas a variables aleatorias discretas
cabe citar las siguientes: Bernoulli, binomial, binomial negativa, geomtrica, hipergeomtrica y
Poisson

DISTRIBUCIN BINOMIAL
La distribucin Binomial es una de las distribuciones discretas ms utilizadas. Su nombre se
debe a la relacin que tiene la misma con el desarrollo del binomio:

(p + q)n =

Cnx p x qn x

x =0

n x n x
p q

x =0 x
n

n!

x!(n x )! p q

x n x

x =0

n
Donde el smbolos Cnx y son equivalentes y se leen combinatoria de n con x, siendo:
x
n
n!
C nx =
x x! (n x )!
La distribucin binomial est relacionada con la distribucin de Bernoulli, que es la distribucin
de una variable aleatoria que toma solamente valores cero y uno (fracaso y xito) al realizar una
nica observacin y verificar si ocurri o no un suceso de inters. Sin embargo existen con
frecuencia experimentos de carcter repetitivos en que interesa registrar la ocurrencia o no
ocurrencia de un suceso.
Distribucin Binomial: Antecedentes: Los experimentos son con reposicin, o independientes.
1.- Definicin de la variable:

X: cantidad de xitos (veces que ocurre un suceso de inters) en n pruebas.


X = 0, 1, 2, ... , n
2.- Caractersticas:
Se realizan "n" pruebas (nmero finito de observaciones).
El resultado de cada observacin se puede clasificar en una de dos categoras
mutuamente excluyentes y colectivamente exhaustiva, denominadas xito (ocurrencia
del suceso de inters) y fracaso (no ocurrencia del suceso).
Las pruebas son independientes.
La probabilidad de xito es constante de una observacin a otra (p) (igualmente lo ser
entonces la probabilidad complementaria del fracaso (q), siendo q= 1 - p

n
3.- Funcin de Probabilidad: f ( x ) = p x qn x
x

f ( x) =

n!
p x qn x
x! (n x )!

49

4.- Funcin de Distribucin: F( x k ) =

xk

f ( x)
x min

5.- Parmetros:

= E(x) =

xf( x ) = np

2 = V(x) = E(x2) - [E(x)]2 = npq

x =0

6.- Representacin: X B (n, p)

La distribucin binomial queda definida por dos parmetros: "n" y "p", y cada vez que se
especifican estos parmetros se tiene un caso particular de distribucin binomial. La
notacin anterior se lee: X sigue una distribucin binomial con parmetros n y p.
7.- Forma: Una distribucin binomial puede ser simtrica o asimtrica (sesgada).
Siempre que p = 0.5, la distribucin binomial ser simtrica, sin tomar en cuenta que tan
grande o pequeo sea el valor de n. Sin embargo, cuando p es diferente de 0.5, la
distribucin ser sesgada. Cuanto ms cerca se encuentre p de 0.5 y mayor sea el
nmero de observaciones n, menos sesgada ser la distribucin, por otra parte, con
una p pequea la distribucin tendr un gran sesgo a la derecha y para una p muy
grande la distribucin tendra un gran sesgo a la izquierda.

La distribucin BINOMIAL ha sido utilizada en numerosas aplicaciones, como:


- EN JUEGOS DE AZAR.
Qu probabilidad hay de que, al tirar un dado 10 veces salga el 6 al menos cinco veces?
- EN EL CONTROL DE LA CALIDAD DE UN PRODUCTO.
Qu probabilidad hay de que en una muestra de 20 conos de hilo del mismo tipo ninguno
est defectuoso, si el 10% de todos los conos de hilo producido en cierta planta son
defectuosos?
- EN LA EDUCACION.
Qu probabilidad tiene un estudiante de aprobar un examen de 5 preguntas de opcin
mltiple (cada una de ellas contiene 4 opciones) si adivina en cada pregunta? (Aprobar se
define como lograr correcto el
60% de las preguntas; es decir, acertar por lo menos 3
preguntas)
- EN LAS FINANZAS.
Cul es la probabilidad de que cierta accin mostrar un aumento en su precio al cierre, en
una base diaria durante 10 sesiones (consecutivas) de operaciones, si en realidad los cambios
de precios en el mercado accionario son aleatorios?
Los clculos de probabilidad a partir de la funcin, pueden llegar a ser muy laboriosos, en
especial cuando aumenta n, por ello se han desarrollado tablas con los valores de esta
distribucin para diferentes combinaciones de n y p, y un fragmento de estas tablas puede
consultarse en la Seleccin de tablas estadsticas.
La tabla de la binomial tiene en la primera fila los valores de p; en la primera columna los
valores de n y en la segunda columna los valores de x, pero estn representados en ella por
una k.

50

Sin embargo debe tenerse en cuenta que no estn todos y cada uno de los valores de p que
se necesitan; y hay casos en que, al ser p > 0.5, sera necesario redefinir el clculo en trminos
de la variable complementaria (el fracaso), para la cual de xito es la q, y buscar entonces en
la tabla los valores equivalentes de x (esto se ver concretamente en un ejemplo).

Si se quiere tener el resultado de la probabilidad se combinan los valores de n y p y dentro de


ellos se busca el valor de x que se necesita digamos que se tiene una distribucin binomial
donde n = 2 y p = 0.15 y se quiere obtener la probabilidad de un xito, o sea, P(x = 1); esta se
obtiene donde se interceptan el valor de p = 0.15 y x = 1 (dentro de n = 2), que en este caso es
igual a 0.2550.
Ejemplo 1.
En la industria rayonera de Matanzas se est realizando una investigacin acerca de la
disciplina laboral.
Las estadsticas demuestran que el 5% de los obreros son ausentistas, si se selecciona una
muestra aleatoria de 5 trabajadores. Calcule la probabilidad que:
a.- 2 de ellos sean ausentistas.
b.- entre 3 y 5 sea ausentistas.
c.- de que todos asistan.
d.- al menos 4 sean ausentistas
Solucin
Aqu se puede observar que la distribucin binomial se ajusta, ya que:
- el resultado se puede clasificar en xito y fracaso (ausentistas y no ausentistas
respectivamente)
- las pruebas son independientes, es decir que un obrero sea ausentista es independiente de
que otro lo sea.
- n es finito (se analizarn 5 trabajadores).
- p es constante (el 5% de los trabajadores son ausentistas).

51

Por tanto puedo decir que X B(5 ; 0,05)


X: nmero de obreros ausentistas de 5
a.- P (x = 2) = f(2) = C 25 0.05 2 0.95 3 = 10(0.0025)(0.8574) = 0.0214
5!
5 4 3!
n!
ya que C nx =
= C 52 =
=
= 10
(n x )! x!
3! 2! 2 1 3!
Sin embargo esto se resuelve muy fcil utilizando la tabla, buscando para n = 5, y para
una p = 0.05 y dentro de ellos x = 2 donde se interceptan se obtiene este valor
encontrado, es decir 0.0214. Luego, podemos concluir que nicamente ser necesario
hacer el clculo a travs de la funcin de probabilidad cuando no exista en la tabla la
probabilidad de xito que se tiene (p)
b.- P(3 x 5) = f(3) + f(4) + f(5) = 0.011 + 0 + 0 =0.011
c.- P (x=0) = f(0) = 0.7738
d.- P (x 4) = f (4) + f (5) = 0 + 0 = 0
Tambin si no se tuviese la tabla habra que sustituir en la funcin de probabilidad los valores y
resolverla.
Ejemplo 2.
La probabilidad de que un avin de combate regrese de una misin sin sufrir daos es de 0.85
y se envan 4 aviones a una misin, hallar la probabilidad de que:
a.- De 2 a 4 regresen sin sufrir averas.
b.- Al menos 3 regresen sin sufrir daos.
c.- A lo sumo dos regresen sin sufrir daos.
d.- Probabilidad de que todos regresen daados.
e.- Cul es el promedio de aviones que no debe sufrir daos?
Solucin:
X: nmero de aviones de combate que regresan sin sufrir daos.
X B(n ; p) n = 4
p = 0.85 q = 0.15.

Como en la tabla no est p = 0.85 > 0.5 habra que usar la funcin y sustituir los valores en ella
para calcular las probabilidades deseadas. No obstante, se puede utilizar la variable
complementaria de X y replantear los clculos en trminos de esto, con la equivalencia
adecuada entre X y X.
X: # de aviones de combate que regresan daados
n=4
px = qx = 0.15

Para buscar la equivalencia entre lo que pide el problema y como se tiene expresada la
variable se puede hacer una tabla que ayude a ver claramente lo que se va a calcular.
Aviones sin sufrir daos (x): 0 1 2 3 4
4 3 2 1 0
Aviones con daos (x):
Que regrese 1 avin sin sufrir dao es lo mismo que decir que regresen 3 daados; que
regresen 3 aviones sin sufrir daos es lo mismo que decir que regrese 1 avin daado
O sea, se busca la equivalencia entre la variable original y su complemento.
52

a.- P(2 x 4) P(x 2) = f (0) + f (1) + f (2) = 0.5220 + 0.3685 + 0.0975 = 0.9880
b.- P(x 3) P(x 1) = f (0) + f (1) = 0.5220 + 0.3685 = 0.8905
c.- P(x 2) P(x 2) = f(2) + f(3) + f(4) = 0.0975 + 0.0115 + 0.0005 = 0.1095
d.- P(x = 4) = 0.005 (Esta pregunta est realizada directamente en trminos de la variable
complementaria, de ah que no haya que buscar equivalencia.)
e.- np = 4(0,85) = 3.4 =
npq = 0.85(0.15)(4) = 0.1275(4) = 0.51 = 2

DISTRIBUCIN DE POISSON
Esta distribucin se refiere a aquellas situaciones en las cuales el suceso ocurre repetidamente,
pero al azar, es decir sin seguir una periodicidad dada, se produce aleatoriamente.
A la ocurrencia del suceso se le denomina cambio.
Estos cambios pueden ocurrir en el tiempo, o en puntos aleatorios, o en una lnea de espera; es
decir pueden formularse en funcin del tiempo, unidades de longitud, rea o volumen etc..
El inters estar centrado en: nmero de cambios que ocurren en un intervalo dado. Ejemplos:
Nmero de barcos que llegan al puerto de la Habana en una semana; nmero de negocios que
cierran, por semana, en Ciudad de la Habana.
1.- Definicin de la variable:

X: cantidad de cambios u ocurrencias aleatorias que se producen en un intervalo (t I) de


otra variable
X : 0, 1, 2, ...,
2.- Caractersticas: Sin antecedentes, importancia para su uso en programacin Matemtica.

- Los cambios u ocurrencias observados son independientes entre s.


- El promedio de ocurrencias o cambios en intervalos de tamao fijo es constante () (rapidez
de cambio constante en el tiempo o en el espacio)
- La probabilidad de observar dos o ms cambios xitos en un intervalo suficientemente
pequeo es cero.
3.- Funcin de probabilidad: f ( x ) =

e x
x!

es el promedio (histrico) de cambios en un intervalo unitario "t I"


e es la constante de Euler (2.71828)
4.- Funcin de Distribucin: F( x k ) =

xk

f (x)
x min

53

5.- Parmetros:
=
Coinciden numricamente aunque por supuesto est expresada en
2 =
unidades lineales y 2 en unidades cuadrticas.
6.- Simblicamente se expresa como:
X P ( )

Esta distribucin queda definida por un solo parmetro, .


Forma:
La distribucin de Poisson estar sesgada hacia la derecha cuando es pequea. Se
acercar a la simetra (con su punto ms alto en el centro) segn aumente .
Ejemplos: Supngase que se estudian las llamadas recibidas por hora en una central
telefnica. Cualquier llamada que se reciba es un evento discreto en un punto dado
durante un intervalo continuo de una hora.
En una hora se recibirn 180 llamadas como promedio. Ahora si se dividiera el intervalo
de una hora en 3600 intervalos consecutivos de un segundo, se tendra:

= 180/3600 = 0.05/segundos
1.- La cantidad esperada (o promedio) de llamadas recibidas en cualquier intervalo de un
segundo sera 0.05, es decir sera estable.
2.- La probabilidad de recibir ms de una llamada en cualquier intervalo de una fraccin
de segundo es cero.
3.- Recibir una llamada en un segundo dado no tiene efecto (o sea, es estadsticamente
independiente) sobre recibir otra llamada en cualquier otro intervalo de un segundo.
De la misma forma que para la distribucin binomial, la distribucin de Poisson se encuentra
tabulada, encontrndose su tabla en la Seleccin de Tablas estadsticas.
La tabla de la Poisson tiene en la primera fila los valores de , y en la primera columna los
valores de x designados en esta tabla por k. En ella aparecen grupos de valores para valores de
desde 0.1 hasta 8, estando estos grupos definidos hasta donde "x" puede tomar valores,
proporciona los valores de con aproximacin hasta la dcima.
Se debe sealar que para clculos con valores de mayores de 8 se puede acudir a la tabla de
la funcin exponencial, en la columna de exponentes negativos (e-x), que est en la pgina 20
de la Seleccin de tablas estadsticas; y sustituir luego en la frmula de la funcin de Poisson el
valor correspondiente.

54

Ejemplo 1
Una pizarra telefnica recibe 480 llamadas en una hora, pero no puede recibir ms de 12
llamadas en un minuto.
Determine:
a.- La probabilidad de que se produzcan 10 llamadas en un minuto.
b.- La probabilidad de que la pizarra quede saturada en medio minuto (30 segundos).
c.- La probabilidad de que se produzcan a lo sumo 1 llamada en un minuto dado.
d.- La probabilidad de que se produzcan ms de 2 llamadas en un minuto.
e.- El nmero de llamadas esperadas en cinco minutos.
Solucin:
x: # de llamadas que se reciben en un minuto
0 = 480 llamadas/hora (promedio histrico conocido)
Nota: Para los clculos posteriores se debe convertir el promedio conocido a las mismas
unidades de los intervalos de inters, en este caso pasar de llamadas por hora a
llamadas por minuto.

0 = 480 llamadas/hora = 480 llamadas / 60 minutos = 8 llamadas/min


Nota: para cada clculo de probabilidades que interese se debe atender tambin al
intervalo (I) en el que se efecta el conteo de ocurrencias, pues si no coincide con el
55

intervalo asociado al promedio histrico, es necesario calcular el promedio ()


correspondiente a dicho intervalo, lo cual se hace multiplicando el tamao del intervalo
por el promedio histrico.
a. I = 1 min (por tanto = 0 = 8 ), y lo buscado es:
P(x =10) = f (10) = 0.0993
b. I = min (por tanto = 0/2 = 4 ). Lo buscado ahora es P(x > 12), porque como la pizarra
no puede recibir ms de 12 llamadas en un minuto, quedara saturada si recibe ms de 12...
P(x >12) = 1 - P(x 12) = 1 - [ P(x=0) + P(x=1) + P(x=2) + P(x=3) +.... + P(x =12) ]
= 1 - 0.9997 = 0.0003
Nota: Se debe tener en cuenta que en la distribucin de Poisson "x" toma valores desde
0 hasta infinito, por tanto NUNCA SE PUEDE CALCULAR DIRECTAMENTE P(x > Xk) ni
P(x Xk), cualquiera sea Xk, sino que siempre en estos casos hay que trabajar con el
complemento. Y al hacer esto, si la igualdad est en la parte izquierda de la expresin
no debe estar en la derecha, que es su complemento; y si la igualdad no est en la parte
izquierda, debe estar en la derecha.

c. I = 1 min (por tanto = 0 = 8 )


P(x 1) = f (0) + f (1) = 0.0003 + 0.0027 = 0.0030
d. I = 1 min (por tanto = 0 = 8 )
P(x > 2) = 1 - P(x 2 ) = 1 - [f (0)+ f (1)+ f (2)] = 1 (0.0030 + 0.0027 + 0.0107)
= 1 0.0137 = 0.9860
e. I = 5 min (por tanto = 50 = 40 )

= = 40 llamadas

Ejemplo 2
Sea una distribucin de Poisson donde f (0) = 0.00674
Se pide:
a.- Hallar el valor de
b.- Calcular la probabilidad de que X = 0 , en un intervalo 1,5 veces el original.
Solucin:

e 0
0!
Pero: 0 = 1 y 0! = 1 (por propiedad del factorial).

a.- Se sabe que f (0) =

Por tanto: f(0) = e-


Entonces, basta con encontrar qu valor de cumple que e-=0.00674 (para ello se puede usar
la tabla de e-x que est en la pgina 20 de la seleccin de tablas estadsticas).
Y se obtiene que e-5 = 0.00674, lo que implica que = 5.
b.- I = 1,5 I0, por tanto = 1,5 0 = 1,5 5 = 7,5
P(X = 0) = f (0) = 0,0006

56

EJERCICIOS DE AUTOEVALUACIN
1.- Qu expresa la variable X en una distribucin binomial, y cul es su recorrido? Cuales son
las caractersticas de la distribucin binomial? Qu parmetros la definen? Cul es su media
y cul su varianza?
2.- Qu expresa la variable X en una distribucin de Poisson, y cul es su recorrido? Cuales
son las caractersticas de una distribucin de Poisson? Qu parmetros definen la distribucin
de Poisson? Qu representa en la distribucin de Poisson? Cul es la media y la varianza
en la distribucin de Poisson?
3.- Sobre la base de la experiencia anterior, la impresora principal del centro de cmputo de
cierta universidad funciona adecuadamente el 90% del tiempo. Si se hace una muestra aleatoria
de 10 inspecciones:
a.- Cul es la probabilidad de que la impresora principal funcione en forma apropiada...
a.1.- exactamente nueve veces?
a.2.- por lo menos nueve veces?
a.3.- cuando ms 9 veces?
a.4.- ms de 9 veces?
a.5.- menos de 9 veces?
b.- Cuantas veces se puede esperar que funcione en forma apropiada la impresora
principal?
4.- El nmero promedio de automviles que se detienen por minuto para tomar gasolina en
cierta gasolinera perteneciente a CUPET de Ciudad de la Habana es 1.2. Cul es la
probabilidad de qu en determinado minuto se detengan...
a.- menos de dos automviles?
b.- ms de tres automviles?
c.- menos de dos automviles ms de tres?
d.- dos tres automviles para tomar gasolina?
e.- al menos dos automviles?

57

3.3: Distribucin normal o de Gauss. Distribucin chi-cuadrado. Distribucin t de


Student. Distribucin F de Fisher.
Luego de estudiar dos distribuciones de probabilidad discreta se prestar atencin a las
funciones continuas de densidad de probabilidad, las que surgen por algn proceso de medicin
en diversos fenmenos de inters o como transformaciones de otras variables.
Los modelos continuos tienen aplicaciones importantes en los negocios y en las ciencias
sociales, adems de en la Ingeniera y la Fsica.
Entre las distribuciones probabilsticas ms usadas con variables aleatorias continuas cabe citar
las siguientes: uniforme, exponencial, normal, chi-cuadrado, tStudent y F de Fisher.
En las distribuciones continuas tiene una marcada importancia la funcin de distribucin ya que
a partir de sus propiedades es factible calcular fcilmente probabilidades, as:
P(X Xk) = F(X)
P(X > Xk) = 1 - F(X)
P(a < X b) = F(b) - F(a)
(No obstante, en variables continuas no hay diferencia si el signo es < , o si es > , ya que
la probabilidad de un valor puntual es nula.)
Para aquellas distribuciones continuas de amplio uso, lo que se recoge en tablas son valores de
la funcin de distribucin (F).

DISTRIBUCIN NORMAL O DE GAUSS


Muchas de las tcnicas utilizadas en estadstica aplicada se basan en la distribucin Normal o
de Gauss.
1.- CARACTERISTICAS:
- Tiene la forma de una campana boca a bajo.
- Es simtrica con respecto a X =
- La funcin est definida en todo el eje X
- La funcin tiene un mximo en X = = Me = Md
- Tiene dos puntos de inflexin en + y -
- Su variable aleatoria asociada tiene rango infinito ( < < )
2.- FUNCION DE PROBABILIDAD

f ( x) =

1
2

1 x

Donde: e = 2.71828 y =3.14159

3.- FUNCION DE DISTRIBUCIN


F( x k ) =

xk

f ( x )dx

58

4.- PARAMETROS: La media en esta distribucin es y la varianza es 2 por lo que la misma


queda definida por estos dos parmetros ya que "e" y " " son constantes matemticas.
5.- REPRESENTACION
X (, )

Por lo tanto, habr tantas curvas normales como valores o combinaciones particulares de y
haya.
Toda distribucin normal con media y desviacin tpica tiene la caracterstica de tener el
rea bajo la curva de su funcin de densidad, distribuida de la siguiente forma:
1. P( < < +) = 68.27% del rea bajo la curva normal
2. P( 2 < < +2) = 95.45% del rea bajo la curva normal
3. P( 3 < < +3) = 99.73% del rea bajo la curva normal
A estas tres expresiones se les llaman comnmente reglas de las 3 sigmas.
Como es una variable continua para calcular probabilidad se tendra que integrar la funcin de
X, en el intervalo que se quiere hallar la probabilidad.
La nica forma de hacer una tabla para evitar este clculo sera estandarizando la variable, es
decir cualquier variable aleatoria normal X, se convierte en una variable aleatoria estandarizada
"Z" que siempre tendra como media cero y desviacin tpica 1; y as se tendra la posibilidad
de tabular los resultados.
Pues bien Z N (0 ; 1) y su funcin de probabilidad es: f ( z ) =
Donde: Z =

1
2

1
Z2
2
e

59

La estructura de la tabla normal es la siguiente: En la primera columna se tienen los valores de


Z, hasta la aproximacin de la dcima y en la primera fila la aproximacin de la centsima.
Como se dijo anteriormente en esta tabla estn registrados los valores de la funcin de
distribucin, por tanto son valores acumulados, es decir la probabilidad acumula desde menos
infinito (-) hasta el valor de Z que se busca; dichas probabilidades estn en el cuerpo de la
tabla.
En el folleto de seleccin de tablas estadsticas, la tabla aparece estructurada de manera que
en una primera mitad aparecen los valores de Z negativos, o sea los correspondientes a la cola
izquierda de la distribucin, y en una segunda mitad se presentan los valores de Z positivos,
correspondientes a la cola derecha.
Nota: Queda claro, no obstante, que cualquier valor de probabilidad, independientemente del
signo de Z, ser positivo.

60

As para una Zk = -2,82 la probabilidad acumulada es 0,0024, es decir, esa es la probabilidad de


que la variable Z tome algn valor entre menos infinito y Zk = -2,82.
Igualmente, para Zk= 2,64 la probabilidad acumulada es 0,9959, lo que indica que una variable
Z tiene un 99,59% de tomar algn valor menor o igual a 2,64.
Ejemplo 1: (Ejercicio 324, pgina 223 del Laboratorio)
En una distribucin normal con = 23 y 2 = 25, hallar:
a.- P(X < 23,5)
e.- P(25 < X < 30)
b.- P(X > 10)
f.- P(X < 20)
c.- P(X >23)
g.- P(X < 25)
d.- P(8 < X < 21)
Solucin:
Ante todo, se debe observar que se conoce la varianza (2 = 25), y por tanto la desviacin tpica
para la variable es = 5.

a.- P(X < 23,5) = P(Z < (23,5 - 23)/5) = P(Z < 0,5/5) = P(Z < 0,1) = Fz(0,1) = 0,5398
b.- P(X > 10) = 1 - P(X < 10)= 1 - P(Z < (10-23)/5)= 1 - P(Z < -13/5)
= 1 - P(Z < -2,6) = 1 - Fz(-2.6) = 1 - 0.0047 = 0.9953
c.- P(X > 23) = 0.50 Esto no hay ni que buscarlo en la tabla porque el rea bajo la curva es 1
por tanto de la mitad al final de la distribucin ser la mitad, (0.50) pero adems, en este punto
"Z" es igual a cero, y buscando Z=0 dara tambin Fz(0) = 0.50
d.- P(8 < X < 21) = P[(8-23)/5 < Z < (21-23)/5]= P(-15/5 < Z < -2/5)=
= P(-3 < Z < -0.4)= Fz(-0.4) - Fz(-3) =

61

= 0.3446 - 0.0013 = 0.3433


e.- P(25 < X < 30) = P[(25-23)/5 < Z < (30-23)/5]= P(2/5 < Z < 7/5)=
= P(0.4 < Z < 1.4) = Fz(1.4) - Fz(0.4) =
= 0.9192 - 0.6554 = 0.2638
f.- P(X < 20) = P(Z < (20-23)/5) = P(Z < -3/5) = P(Z < -0.6) =
= Fz(-0.6) = 0.2743
g.- P(X < 25) = P(Z < (25-23)/5) = P(Z < 2/5) = P(Z < 0.4) =
= Fz(0.4) = 0.6554
Ejemplo 2: (Variante del problema 332, pgina 226, del Laboratorio)
El llenado de las cajas de talco en la fbrica de una empresa de perfumera se hace
automatizadamente, de forma que el peso neto de las cajas se distribuye normalmente, siendo
el peso promedio de 15 onzas con una desviacin tpica de 0,8 onzas.
a) Qu probabilidad hay de que una caja tenga un peso neto inferior a 13 onzas?
b) Qu proporcin de las cajas tendr pesos netos superiores a 16 onzas?
c) Qu proporcin de las cajas tendr pesos netos entre 15 y 16 onzas?
d) Cul es el peso mximo del 20% de las cajas menos pesadas?
e) Cul es el peso mnimo del 10% de las cajas ms pesadas?
Solucin:
Sea X el peso neto de las cajas de talco: X N (15 ; 0,8)

Al tratarse de una variable con distribucin normal, se debe estandarizar la misma en cada
clculo para hacer uso de la tabla.
a) P(X < 13) = P(Z < (13 - 15)/0,8) = P(Z < -2,5) = Fz(-2,5) = 0,0062
En este caso, al tratarse de la
probabilidad acumulada hasta un
punto (z=-2,5), el resultado es
directamente el valor que aparece
en la tabla para la z.

b) P(X > 16) = P(Z > (16 -15)/0,8) = P(Z > 1,25)= 1 - P(Z 1,25) = 1 - Fz(1,25)
= 1 0,8944 = 0,1056
(El 10,6% de las cajas tendr pesos netos mayores de 16 onzas.)
Aqu, al tratarse de la probabilidad
por encima de un punto (zk=1,25),
el resultado se debe calcular
usando la regla del complemento,
o sea, restando a la probabilidad
bajo toda la curva (que es 1) la
acumulada hasta el punto zk, que
es la que brinda la tabla.

62

c) P(15 < X < 16) = P[(15 -15)/0,8 < Z < (16 -15)/0,8] = P(0 < Z < 1,25)
= Fz(1,25) - Fz(0) = 0,8944 0,5 = 0,3944
(El 39,4% de las cajas tendrn pesos netos entre 15 y 16 onzas.)
En este caso, al tratarse de la
probabilidad en un intervalo, el
resultado se debe calcular como
la diferencia de lo acumulado
hasta el lmite superior (z=1,25)
menos lo acumulado hasta el
lmite inferior (z=0).
Debe destacarse aqu que la probabilidad acumulada hasta el extremo inferior no era
necesario calcularla, pues dicho extremo coincide con el valor de la media de la variable
(=15, z=0 para la variable estandarizada), y conociendo que la distribucin normal es
simtrica respecto a su media se deduce que hasta el punto X= (z=0) se acumula un 50%
de probabilidad.
d) Para resolver esto lo primero es ubicar las cajas menos pesadas, que son aquellas ubicadas
en la cola o extremo izquierdo de la curva. De ellas interesan las que representan el 20%
del total, y se quiere determinar el peso (Xk) que acota superiormente a ese 20% de cajas;
por tanto, puede plantearse que:
P(X < Xk) = 0,20
Entonces, de la misma manera se
tiene que:
P(Z < Zk) = 0,20
Y una forma de representar ese
valor Zk es:
Zk = Z0,20
Con esto se quiere decir que es el
valor de de una variable Z que ha
acumulado un 20% de probabilidad.
Encontrar mediante la tabla el valor de Z que acumula un 20% de probabilidad implica
buscar en el interior de la misma el nmero ms cercano a 0,20 (que es 0,2005), y de su
encabezado de fila y columna se llega a que:
Zk = Z0,20 = -0,84
x
Conocido el valor Zk se puede hallar Xk, despejando de: Z =

Xk = Zk + = -0,84 0,8 + 15 = 15 0,672 = 14,328


Se concluye, pues, que el peso mximo para el 20% de las cajas menos pesadas es de
14,328 onzas.
e) Ahora interesan las cajas ms pesadas, que son las ubicadas en la cola o extremo derecho
de la curva, y de ellas importa las que representan el 10% del total. O sea, se quiere

63

determinar el peso (Xk) que acota inferiormente a ese 10% de cajas; y puede plantearse
que:
P(X > Xk) = 0,10
As, se tiene tambin que:
P(Z > Zk) = 0,10
Pero esto no constituye un valor de
probabilidad acumulada, pues la
probabilidad acumulada es la que
est por debajo del punto, y para Zk
sera, haciendo uso de la regla del
complemento:
:

P(Z < Zk) = 1 - 0,10 = 0,90


Zk = Z1-0,10 = Z0,90

Buscando en la tabla el valor de Z que acumula un 90% de probabilidad se encuentra que el


valor ms cercano a 0,90 en el interior de la misma es 0,8997, y de su encabezado de fila y
columna se llega a que:
Zk = Z0,90 = 1,28
Y despejando Xk:

Xk = Zk + = 1,28 0,8 + 15 = 15 + 1,024 = 16,024

Se concluye, pues, que el peso mnimo para el 10% de las cajas ms pesadas es de 16,024
onzas.
TEOREMA CENTRAL DEL LMITE

Hay un importante teorema asociado a la distribucin normal, en el que descansa la gran


importancia y el poder de aplicacin de esta distribucin, que recibe el nombre de Teorema
Central del Lmite. Este teorema establece que si se tiene un grupo de variables que siguen
una misma distribucin, la suma y la media de estas variables tienden a una distribucin normal
cuando el nmero de variables se hace grande.

DISTRIBUCIN CHI-CUADRADO
Esta distribucin fue introducida por Helmert en 1876.
Si Z1, Z2,..., Zv, son variables aleatorias normalmente distribuidas e independientes con media
cero y varianza 1, la suma de sus cuadrados, se representan en general por 2 (letra griega chi,
o ji, al cuadrado) y donde:
2 = Z12 + Z22 + ... + Z v2
A la distribucin probabilstica asociada a esta nueva variable se le llama distribucin jicuadrado, siendo su funcin de densidad:

64

f ( x ) = K ( 2 )/ 2 e -x/2
y (x ) = 0

Cuando x > 0
cuando x 0

En esta funcin (nu), representa los llamados grados de libertad de la distribucin, y K es una
constante que depende de .
Qu son los grados de libertad? Los grados de libertad constituyen la cantidad de valores
independientes que admite un conjunto de observaciones a partir de determinadas condiciones
que tiene que cumplir dicho conjunto. As, si se dice que una variable tiene n -1 grados de
libertad esto indica que solo n -1 de los valores de la muestra estn libre para variar. Se puede
demostrar este concepto de la forma siguiente.
Caso ilustrativo:
Suponga que se tiene una muestra de 5 elementos de la que se sabe que la media
es igual a 20. Cuantos valores diferentes se necesitaran conocer antes de poder
obtener el resto?
n
X i = 100
El hecho de que n = 5 y de que X = 20 tambin indica que:

i =1

Por lo tanto una vez que se conocen 4 valores el quinto no tendr "libertad de variar",
puesto que la suma tiene que ser 100. Digamos que 4 de los valores son: 18, 24, 19, y
16, el quinto solo puede ser 23 para que todos sumen 100.
Una variable chi cuadrado est definida para cualquier valor real positivo, o sea: 2 0. La
distribucin 2 es asimtrica, deformada a la derecha, y tiene como = y 2 =2.
Para > 2 la curva (x) de la chi-cuadrado tiene un mximo en x = ( - 2)

Cuando (nu) es grande ( > 30) la distribucin 2 se puede aproximar a la distribucin normal.
Obsrvese que la distribucin depende de un slo parmetro: los grados de libertad, .
xk

La funcin de distribucin viene dada por: F ( x) =

f ( x)dx
0

Esta funcin est tabulada para distintos valores de los grados de libertad.
Estructura de la tabla: Tabla limitada para algunos valores de los grados de libertad. El rea o
probabilidad acumulada se encuentra en la primera fila y en la primera columna los grados de
libertad; en el cuerpo de la tabla estn los valores de la variable chi-cuadrado.

65

Nota: Como lo que est tabulado es la funcin de distribucin, la tabla brinda el


rea (o probabilidad acumulada) desde cero hasta un punto.
Ejemplo:
Se conoce que una variable en estudio tiene una distribucin 2, resuelva las siguientes
proposiciones:
a.- Diga el valor de P(2(17) < 27.6)
b.- Halle P(5.7 < 2(17) < 21.6)
c.- Calcule P (2(17) >10.1)
d.- Hallar Xk si P(2(17) > 2k) = 0.8
e.- Calcule la P(7.56 < 2(17) < 16.3)
f.- Hallar los grados de libertad que satisfacen P(2 > 8.9) = 0.99
g.- Determinar qu valores 21 y 22 alrededor de 2(21) = 20.3 forman probabilidades de reas
centrales.
Solucin:
a.- P(2(17) < 27.6) = F2(27.6) = 0.95 (por definicin de F(x))
Se busca en la tabla a partir de = 17 el valor 27.6 y el valor que le corresponde en
la fila superior, al subir por la columna, es la probabilidad buscada.

b.- P(5.7 < 2(17) < 21.6) = F2(21.6) - F2(5.7) = 0.80 - 0.005 = 0.755
c.- P(217) > 10.1) = 1 - P(2(17) < 10.1) = 1 - F2(10.1)
= 1 - 0.10 = 0.90
Esto se puede deducir del grfico, pues lo que
se quiere no es la probabilidad acumulada

66

hasta 10.1, sino de ah en adelante, por lo que se puede utilizar la regla del
complemento.

d.- P(2(17) > Xk) = 0.8 ===> P(2(17) < Xk) = 0.20 por tanto Xk = 12
e.- P(7.56 < 2(17) < 16.3) = F2(16.3) - F2(7.56) = 0.50 - 0.025 = 0.475
f.- P(2 > 8.9) = 0.99 ===> P(2 < 8.9) = 0.01 por tanto = 21
Esto se obtiene recorriendo los valores de 20.01 y donde est 8.9 un valor prximo
a l, y se busca el grado de libertad que le corresponde a este valor.
g.- Puntos 21 y 22 simtricos que forman un rea central con 2(21) = 20.3 son:

21

22

17,2
15,4
13,2
11,6
10,3
8,9
8,03

23,9
26,2
29,6
32,7
35,5
38,9
31,4

Probabilidades
acumuladas
F(21)
F(22)
0,30
0,70
0,20
0,80
0,10
0,90
0,05
0,95
0,025
0,975
0,01
0,99
0,005
0,995

Probabilidad
central

0,40
0,60
0,80
0,90
0,95
0,98
0,99

DISTRIBUCIN T'STUDENT:
Es una distribucin continua de considerable importancia prctica, muy utilizada en la teora de
muestras pequeas, con la que se trabajar en el campo de la inferencia. De momento, el
estudio de la misma se circunscribe al manejo de la tabla, ya que su aplicacin se ver
posteriormente
La distribucin t'Student es la distribucin de la variable: t =

Z
2

Aqu Z representa a una variable con distribucin normal estndar y 2 otra variable con
distribucin chi cuadrado; representa los grados de libertad de la chi cuadrado, que sern los
mismos que caractericen a la variable t.
La funcin de probabilidad es:

f (t ) =

K
(1 + t / ) ( +1)/ 2
2

( K es una constante que depende de )

Una variable t est definida para cualquier valor real, o sea: - < t <
En esta distribucin = 0 y 2 = /(-2), para >2. La curva de la distribucin es simtrica, como
la normal, pero un poco ms achatada que ella.

67

Cuando los grados de libertad aumentan la variable t se aproxima cada vez ms a una
distribucin normal con = 0 y = 1, es decir, tiende a la normal estandarizada (z).

La funcin de distribucin de la tStudent est tabulada, recogiendo probabilidades acumuladas


desde - hasta un punto.
Estructura de la tabla: Est limitada para algunos valores de los grados de libertad, que estn
ubicados en la primera columna. El rea o probabilidad acumulada se encuentra en la primera
fila, y en el cuerpo de la tabla estn los valores de la variable t.

En la prctica, dada la simetra de la distribucin, se suele tabular slo valores positivos de t, o


lo que es lo mismo, las probabilidades acumuladas por encima de 0.50; as, si quiere hacer uso
de un valor negativo de t o de alguna probabilidad acumulada inferior a 0.50 se debe utilizar la
mencionada simetra.

68

La razn apuntada anteriormente, de que la funcin de distribucin est tabulada slo para
valores positivos de "t", lleva a tener que hacer algunas transformaciones cuando aparece un
percentil con signo negativo, es decir si se tiene que buscar un rea que corresponde a la cola
izquierda, evidentemente el valor de "t" es negativo, en ese caso, se le cambia el sentido del
signo de la desigualdad, lo que est apoyado en la simetra de la distribucin. De la misma
forma si se trabaja con las propiedades de la funcin de distribucin y se tiene el caso de una Ft
evaluada para algn valor de "t" negativo, como en principio cambia la desigualdad, entonces
ser [1 - Ft] (con el valor correspondiente positivo).
Ejemplo:
Se tiene una Variable aleatoria "x", con distribucin t'student, resuelva las siguientes
proposiciones:
a.- Halle P(t(17) < 0.863)
b.- Represente grficamente y calcule P(t(17) > -0.392)
c.- Resuelva P(-1.07 < t(17) < 2.9)
d.- Diga el valor de P(t(17) < - 0.534)
e.- Calcule P(-1.74 < t(17) < -0.257)
f.- Halle tk las que P(t(17) < tk) = 0.75
g.- Halle entre que valores t1 y t2 se encuentra una probabilidad central del 0.70 si t(17).
Solucin:
a.- P(t(17) < 0.863) = Ft(0.863) = 0.80
(Por definicin de F(x))
Se busca en 17 grados de libertad un valor igual o prximo a 0.863, y el valor que le
corresponde en la primera fila es la probabilidad buscada.

b.- P(t(17) > -0.392) = P(t(17) < 0.392) = Ft (0.392) = 0.65


Grficamente se puede observar lo que se desea calcular como el rea sombreada
siguiente:

Sin embargo, esto no es un valor que se puede obtener directamente de la tabla, pues
no es una probabilidad acumulada. Pero utilizando la simetra de la distribucin se tiene
un rea equivalente:

69

Y la tabla da la probabilidad acumulada desde - hasta la t positiva; por tanto, se obtiene


de esta forma la probabilidad buscada.
c.- P(-1.07 < t(17) < 2.9) = F(2.9) - F(-1.07)
= F(2.9) - [1 - F(1.07)]
= 0.995 - (1 - 0.85)
= 0.995 - 0.15 = 0.845
d.- P(t(17) < -0.534) = P(t(17) > 0.534)
= 1 - F(0.534)
= 1 - 0.70 = 0.30

(por propiedad de F(x))


(por ser "t" negativa)

(por propiedad de F(x))

e.- P(-1.74 < t(17) < -0.257) = F(-0.257) - F(-1.74)


= [1 - F(0.257)] - [1 - F(1.74)]
= (1 - 0.60) - (1 - 0.95)
= 0.40 - 0.05 = 0.35

(por ser las dos "t" negativas)

f.- P(t(17) < tk) = 0.75 ====> tk = 0.689


g.- P(t1 < t(17) < t2) = 0.7
Para buscar estos dos valores, t1 y t2, conviene graficar la distribucin, dibujando un rea
central igual a 0.70, y los 0.30 restantes se dividen para las dos colas:

Buscando esta rea se obtiene el valor de "t" positivo en la tabla (es decir de t2) y el
valor de t1 es el mismo con signo negativo, debido a la simetra de la distribucin.

DISTRIBUCIN F DE FISHER
Otra de las distribuciones importantes asociadas a la normal es la que se define como el
cociente de dos distribuciones 2 independientes, y que es llamada distribucin de probabilidad
de Fisher.
70

Sean X n2 e Y m2 variables aleatorias independientes, entonces:


F=

(2n ) / n
(2m ) / m

F(n, m)

Una variable F de Fisher est definida para valores reales positivos (F 0), y se caracteriza por
un par de grados de libertad (n ; m), que suelen ser llamados respectivamente grados de
libertad del numerador (n) y del denominador (d). Debe destacarse que: F(n, m) F(m, n)

n + m n/2 m/2

n m
2

La funcin de densidad de Fisher es: f ( x) =


x ( m 2) / 2 (m + nx) ( n + m ) / 2
n
m


2 2
1
F(m, n)
Una propiedad interesante de esta distribucin es la siguiente: F F(n, m)
F
Grficamente, la funcin de densidad de Fisher toma la forma:

Lo ms comn al tabular la distribucin de Fisher es construir diferentes tablas para los valores
de probabilidad acumulada tiles en las aplicaciones de esta distribucin. Lo que sigue es un
fragmento de la tabla para una probabilidad acumulada igual a 0,99 (lo que, en muchas
aplicaciones, como se ver ms adelante, equivale a decir un = 1%).
Estructura de la tabla: En esta tabla debe entrarse con 3 valores, el nivel de probabilidad
acumulada, el nmero de grados de libertad del numerador, que en la tabla estn en la primera
fila, el nmero de grados de libertad del denominador que estn en la primera columna (a la
izquierda).

Se presentan dos tablas separadas, una para las proporciones acumulativas del 95% y otra del
99% (F0.95 , F0.99). Tambin se marcan con el 5% y el 1 %, y estos porcentajes se refieren a la
proporcin de rea encerradas por las curvas a la derecha de los valores dados en las tablas;
as, por ejemplo, lo que indica el 1%, si n = 10 y m = 12, es que el 1% del rea bajo la curva
F10.12 est a la derecha de 4,30.

71

Ejemplo:
Si se reconoce que la variable aleatoria en estudio sigue una distribucin F de Fisher, y que se
va a tratar nicamente con probabilidades acumuladas iguales a 0.95 0.99, resuelva las
siguientes proposiciones:
a) P(F(4,15) < 3.06)
b) P(F(4,15) > 4.89)
c) El valor de xk, tal que P(F(10,20) < xk) = 0.99
d) El valor de xk, tal que P(F(12,8) > xk) = 0.95
e) P(0.2123 - F(10.12) < 4.30)
Solucin:
Puesto que las probabilidades acumuladas son del 95% del 99%, se limitar la bsqueda a
estas dos tablas. Se debe tener en cuenta que los grados de libertad del numerador (el primer
nmero del par) estn en la primera fila de la tabla, y los grados de libertad del denominador (el
segundo nmero del par) estn en la primera columna.

a) P(F(4,15) < 3.06) = 0.95


b) P(F(4,15) > 4.89) = 1 0.99 = 0.01
c) El valor de Xk, tal que P(F(10,20) < Xk) = 0.99 Xk = 3.37
d) El valor de Xk, tal que P(F(12,8) > Xk) = 0.95 Xk = 3.28
e) P(0.2123 < F(10.12) < 4.30)

72

Aqu lo que se quiere es el rea entre dos puntos. Si P(F(10, 12) < 4.30) = 0.99 y
P(F(10, 12) < 0.2123 ) = 0.01 entonces el rea tras 4.30, menos el rea tras 0.2130
nos dar el rea o probabilidad buscada, o sea:
P = 0.99 0.01 = 0.98.

EJERCICIOS DE AUTOEVALUACIN
1.- Cules son las caractersticas de la distribucin normal
2.- Qu parmetros la definen?
3.- Qu distribucin tiene Z, y cules son su media y varianza?
4.- A qu tipo de variable corresponden estos tres modelos: Normal, T'Student y Ji-Cuadrado?
5.- El anlisis estadstico de 1000 llamadas telefnicas de larga distancia realizadas desde las
oficinas centrales de la Corporacin CIMEX, seala que la duracin de estas llamadas est
distribuida normalmente con = 240 segundos y desviacin tpica igual a 40 segundos.
a.- Qu porcentaje de llamadas dur menos de 180 segundos?
b.- Cul es la probabilidad de que una llamada en particular durara entre 180 y 300 segundos?
c.- Cuantas llamadas duraron menos de 180 segundos ms de 300 segundos?
d.- Qu porcentaje de las llamadas dur entre 110 y 180 segundos?
e.- Cul es la duracin mnima del 1% de las llamadas ms largas?
6.- Determine el valor de Xo en cada uno de los siguientes casos:
a.- P(Xo < X < 26,2) = 0.98 conociendo que X sigue 212
b.- P(Xo < X < 2,76) = 0.98 conociendo que X sigue t (10)
7.- Calcule cada uno de los valores siguientes para una 2 con 25 grados de libertad:

a.- 20.90
g.- 20.975

b.- 20.10 c.- 20.95 d.- 20.05


e.- 20.99
h.- 20.025
i.- 20.995 j.- 20.80

f.- 20.01

8.- Calcule cada uno de los valores siguientes para una t con 25 grados de libertad:
a.- t0.90 b.- t0.10 c.-t0.95 d.-t0.05 e.-t0.975 f.-t0.025
g.- t0.99 h.- t0.01 i.-t0.995 j.-t0.005

73

TEMA IV: MUESTREO Y ESTIMACIN


4.1. Conceptos bsicos: Poblacin y Muestra. Muestreos aleatorios: Muestreo
Aleatorio Simple. Uso de la tabla de nmeros aleatorios para efectuar un
muestreo aleatorio.
Con este tema se inicia el estudio de la parte de la Estadstica que se ocupa de la inferencia.
Como se dijo, la Estadstica Descriptiva se ocupa de la recoleccin, organizacin, reduccin y
medicin de la informacin, mientras que la Estadstica Inferencial desarrolla tcnicas que
permiten hacer anlisis, pronsticos y llegar a conclusiones, partiendo de un grupo de
observaciones, o sea, de una muestra. Una parte importante de la aplicacin cualquier mtodo
inferencial es la adecuada seleccin de la muestra, lo cual es abordado por un gran captulo de
la Estadstica Inferencial que es la Teora del Muestreo, que se abordar brevemente aqu.
Algunos conceptos que se deben manejar para adentrarse en la Teora del Muestreo son:
Poblacin: Conjunto de individuos, elementos o cosas que se desea estudiar a partir de
algunas caractersticas que tienen en comn.
Muestra: Parte o subconjunto de la poblacin que se toma para el estudio.
Censo: Estudio de la totalidad de elementos de la poblacin.
Muestreo: Conjunto de procedimientos para tomar una muestra de una poblacin.

Ante la imposibilidad material, temporal o econmica de realizar un censo se determina tomar


una muestra, y a partir de ella estimar, es decir, dar un valor aproximado de los parmetros
que interesa estudiar.
Los mtodos de muestreo pueden ser: opinticos o aleatorios.
Muestreos opinticos o no aleatorios son aquellos en que se selecciona la muestra
atendiendo por lo general a la opinin de algn experto en el tema en estudio. Su
principal limitacin es que no permiten establecer una medida probabilstica de los
posibles errores en la estimacin.
Muestreos aleatorios son aquellos en que de alguna manera se introduce la aleatoriedad
o azar en la conformacin de la muestra, intentando eliminar la subjetividad en el
proceso; y la presencia del azar conlleva la posibilidad de emplear la Teora de las
Probabilidades en la medicin de posibles errores de estimacin. Dentro de los
muestreos aleatorios estn:
9 Muestreo Aleatorio Simple (MAS)
9 Muestreo Irrestricto Aleatorio (MIA)
9 Muestreo Sistemtico (MS)
9 Muestreo Aleatorio Estratificado (MAE)
9 Muestreo Aleatorio por Conglomerado (MAC)

74

El uso de uno u otro de los muestreos aleatorios est en dependencia de cmo se comporta la
caracterstica objeto de inters en la poblacin. Sin embargo lo ms importante para obtener
buenas estimaciones ser siempre que la muestra sea representativa de la poblacin, lo que
indica que debe usarse el mtodo de muestreo adecuado y tenerse una idea del tamao de
muestra necesario.

EL MUESTREO ALEATORIO SIMPLE (MAS)


El Muestreo Aleatorio Simple (MAS) es el procedimiento mediante el cual se eligen por sorteo n
elementos de una poblacin tamao N, haciendo las extracciones o seleccin con reposicin.
Sea una poblacin finita de tamao N, y sea X la variable o caracterstica en estudio. De esta
poblacin se pueden obtener, con reposicin, Nn muestras distintas de tamao n; y cada una de
ellas ser un conjunto de n variables independientes: x1, x2,..., xn (como la seleccin se hace
con reposicin eso equivale a que los valores de xi son independientes). Como xi es una
variable aleatoria, tendr asociada una funcin de probabilidad f (x1), f (x2),..., f(xn).
Dado lo anterior se puede llegar a una definicin ms rigurosa del MAS:
Sean x1, x2,..., xn, n variables aleatorias independientes que representan un conjunto de
valores observados de una variable poblacional X; se dice que estos valores conforman
una muestra aleatoria simple si se cumple que:

2.- f(x1,x2, ...,xn) = f(x1)f(x2)...f(xn)

(La probabilidad de que cualquier elemento de la


poblacin pase a la muestra es la misma.)
(Hay independencia entre las observaciones.)

3.- E(x1) = E(x2) = ...= E(xn) = E(x)


4.- V(x1) = V(x2) = ...= V(xn) = V(x)

El valor esperado para cada observacin, y su


varianza, son los mismos para toda la muestra.

1.- f(x1) = f(x2) = ...= f xn) = f(x)

Ejemplo: Demostracin de las propiedades del MAS

Dada una poblacin finita con 3 elementos cuyos valores en la variable son x = {1, 2, 3} se
quiere obtener todas las muestra aleatorias simples de tamao 2 y verificar sus propiedades.
Nota: El tomar una muestra de una poblacin de tamao 3 parece un absurdo, pues sta
es estudiable en su totalidad; y tambin parece absurdo tomar todas las muestras
posibles, pues es un trabajo mayor tomar todas las muestras posibles que hacer un
censo. Se trata aqu de un desarrollo terico...
Solucin:
Poblacin: X = 1, 2, 3 (N = 3)
Como hay un solo valor de cada elemento se puede plantear:

Xi f(X) X f(X) X2 f(X)


1 1/3
1/3
1/3
2 1/3
2/3
4/3
3 1/3
3/3
9/3
1
2
14/3

As: f (x) = 1/3


E(x) = x f(x) = 6/3 = 2

V(x) = E(x2) - [E(x)]2 = 14/3 - (6/3)2 = 14/3 - 36/9 =(42 -36)/9 = 6/9 = 2/3 = 0.67

75

El conjunto de todas las muestras posibles de tamao 2 es:


x1
1
1
1

x2
1
2
3

x1
2
2
2

x2
1
2
3

x1
1
2
3

f (x1)
3/9
3/9
3/9

x1
3
3
3

x2
1
2
3

Siendo:
x1 = valores que toma el 1er elemento de la muestra
x2 = valores que toma el 2do elemento de la muestra
N(S) = 9

Entonces:
x1 f(x1)
1/3
2/3
3/3
= 2

x 21 f (x1)
1/3
4/3
9/3
= 14/3

x2
1
2
3

f (x2)
3/9
3/9
3/9

x2 f(x2)
1/3
2/3
3/3
= 2

x22 f (x2)
1/3
4/3
9/3
= 14/3

Y de un anlisis bivariado, segn el espacio muestral, resulta:


X2 \ X1
1
2
3
f(x1)

1
1/9
1/9
1/9
1/3

2
1/9
1/9
1/9
1/3

3
1/9
1/9
1/9
1/3

f(x2)
1/3
1/3
1/3
1

1ra propiedad: f (x1) = f (x2) = f (x) = 3/9 = 1/3


2da propiedad:
Por tanto:

f(x1) = 1/3
f (x2) = 1/3 f (x1, x2) = 1/9
f (x1 x2) = 1/9 = f (x1)f (x2) = 1/31/3

E(x1) = x1 f(x1) = 1/3 + 2/3 + 3/3 = 2


E(x2) = x2 f(x2) = 1/3 + 2/3 + 3/3 = 2
Por tanto: E(x1) = E(x2) = E(x) = 2

3ra propiedad:

V(x1) = E(x12) - [E(x1)]2 = x12 f(x1) (2)2= 14/3 - 4 = 2/3


V(x2) = E(x22) - [E(x2)]2 = x22 f(x2) (2)2= 14/3 - 4 = 2/3
Por tanto: V(x1) = V(x2) = V(x)

4ta propiedad:

Notas:

Conviene resaltar que algunos autores (ver Canavos), al hablar del Muestreo Aleatorio
Simple (o MAS) incluyen dentro del mismo el caso con reposicin como aquel sin
reposicin; otros autores (ver Calero) diferencian estos casos y cuando no se hace
reposicin hablan de un muestreo irrestricto aleatorio (MIA). Aqu se preferir distinguirlos
separadamente.

En la prctica rara vez interesa efectuar un muestreo con reposicin, pero el estudio de
ste, dada la independencia que garantiza, es la base para cualquier otro muestreo donde
dada la no reposicin ya no habra independencia entre los elementos de la muestra, y
donde, por tanto, los clculos probabilsticos sern ms complicados. Por otra parte,
cuando la poblacin es muy grande y a la vez mucho ms grande que la muestra que se
obtendr, aunque se haga reposicin es muy poco probable que un elemento de la
poblacin salga repetido en la muestra, lo cual hace que el muestreo con reposicin
pueda verse como un caso lmite del muestreo sin reposicin cuando N es muy grande.
76

TABLA DE NMEROS ALEATORIOS

Una tabla de nmeros aleatorios es una tabla para ayudar a elegir n elementos de una
poblacin mediante "sorteo", hecha como si se introdujera una lista de nmeros en un bombo y
se fueran tomando luego algunos sin mirar; es decir, la tabla suministra un grupo de nmeros
equivalentes a los que se tomaran al azar. Estas tablas pueden ser aleatorias de forma
horizontal, de forma vertical, o de ambas formas.
Estructura de la tabla:
La tabla de nmeros aleatorios que est en la seleccin de tablas estadstica es aleatoria
solamente de forma horizontal, por tanto solo puede ser utilizada de esta forma. Esta tabla est
formada por 4 bloques de 1000 cifras, y estn numeradas las filas y columnas, en el caso de las
filas estn numeradas consecutivamente desde la 1 a la 25, mientras que las columnas estn
de cuatro en cuatro y se indica 1 - 4 5 - 8, etc., lo que indica las columna 1, 2, 3, 4 o las
columna 5, 6, 7, y 8, y as sucesivamente.

Uso de la tabla:
1.- Se enumeran de forma consecutiva los N elementos de la poblacin. (Para que cada
elemento est identificado con una etiqueta, que puede aparecer o no en la tabla de nmeros
aleatorios).

2.- Se elegir al azar, el bloque, fila y columna por donde se comenzar a tomar, en forma
consecutiva y horizontalmente los "n" nmeros aleatorios que ayudarn a conformar la muestra,
segn lo siguiente:
9 Cada nmero seleccionado debe tener tantas cifras, como cifras tenga N.
Ej.: Si N = 3000 se formarn nmeros de 4 cifras.

77

9 Si el nmero seleccionado de la tabla es > N puede ser desechado; no obstante, este


criterio obliga a trabajar ms. Otro criterio es no desecharlo tal nmero, sino transformarlo,
restndole sucesivamente N hasta obtener un nmero menor o igual a N.
Ej.: Si el nmero aleatorio encontrado es 7820 y N=3000 entonces se resta:
7820 - 3000 = 4820 3000 = 1820 <N.
9 Para garantizar que cada uno de los N elementos de la poblacin tenga la misma
posibilidad de ser seleccionado, se debe elegir un intervalo de trabajo que no sobrepase al
mayor mltiplo de N con la misma cantidad de cifras que N.
Ej.: Si N = 3000 su mayor mltiplo con la misma cantidad de cifras (4) es 9000. Al
formar nmeros de cuatro cifras, estos podrn variar entre 0001 y 9999, pero los
mayores que 9000 deben desecharse, pues a partir de 9000 hasta 9999 no hay
otros 3000 nmero, sino slo 999, y estos estaras entonces privilegiados
probabilsticamente en el muestreo, como se ve en el siguiente esquema:

3.- Finalmente, se obtiene la muestra. Para ello se toman de la poblacin los elementos cuyo
etiquetado coincide con los nmeros aleatorios generados.
Nota: En el caso de que se opte por un muestreo sin reposicin (lo que Calero Vinelo denomina
un MIA), los nmeros aleatorios repetidos tambin deben eliminarse previamente y buscar
otros.
Ejemplo: (Ejercicio 423 pgina 289 del Laboratorio de Estadstica 2da. Parte)

X: # de televisores que llegan con roturas en una semana a 20 talleres.


3 8 9 8 5 7 5 4 6 8
5 7 9 4 7 3 8 6 4 5
Seleccione una muestra aleatoria de tamao 5 (o sea, se quiere como muestra el resultado para
5 talleres), utilizando para el arranque el primer bloque, fila 3, columna 25.
Solucin:
Primeramente se etiqueta la poblacin:
31

82

93

511

712

913

84

55

76

57

48

69

810

414 715

316

817

618

419

520

Nota: Lo que semeja un exponente son las etiquetas que se le han puesto a la
poblacin, o sea, la enumeracin de sus elementos para despus elegir la muestra.
N = 20 2 cifras

78

El mayor mltiplo de 20 con 2 cifras es 80, por lo tanto el intervalo de trabajo estar
entre 01 y 80; todo valor mayor que 80 se elimina y el que est entre 20 y 80 se rectifica
restndole 20 hasta que quede un nmero del 1 al 20, que ser el que se tome como
nmero aleatorio rectificado.
nmero
aleatorio
10
03
22
11
54

nmero
elemento
aleatorio
de la
rectificado muestra
Xi
10
8
3
9
2
8
11
5
14
4

EJERCICIOS DE AUTOEVALUACIN
En lo adelante se podrn resolver preguntas como la siguiente:
Si en una poblacin se conoce que x sigue una N (10, 2) Qu podra afirmarse de la
distribucin y los parmetros de la variable aleatoria xi, que se definen en el MAS?
A esto puede responderse que cada xi sigue una distribucin normal con la misma media y la
misma varianza y que su funcin conjunta es igual al producto de las funciones de cada
variable:
f (x1, x2, ..., xn) = f (x1)f(x2) ... f(xn)

79

4.2 Estimadores. Propiedades deseables para un buen estimador. Estimacin


puntual. Distribucin muestral. Distribucin muestral de la media tanto con
varianza (2) conocida como desconocida. Distribucin muestral de las
proporciones y de la varianza.
La Teora de la Estimacin, tema que se comienza a estudiar ahora, es aquella parte de la
Inferencia Estadstica que se ocupa de los mtodos para estimar el valor de los parmetros
poblacionales.
En ocasiones ocurre que los principales parmetros poblacionales son desconocidos, y no
resulta ni posible, ni econmico, observar toda la poblacin para calcular el valor de dichos
parmetros. En tales situaciones el estadstico o el investigador tendrn que estimar dichos
parmetros sobre la base de lo que tiene posibilidad de conocer: una muestra aleatoria; de aqu
la importancia que tiene la toma correcta de la muestra.
En la Inferencia Estadstica se emplea el mtodo inductivo (de lo particular a lo general), lo que
tendr como consecuencia, que la conclusin o inferencias obtenidas tendr asociado un
grado de error o incertidumbre y es necesario por tanto estudiar los mtodos que ofrezcan una
medida confiable del mismo, y que ser expresada en trminos probabilsticos.
Se le llama estimador a cualquier funcin de "n" variables en la que, despus de sustituir los
valores muestrales, el resultado obtenido puede servir como sustituto del valor de un parmetro
poblacional.
En general es de inters poder contar con un estimador para cualquier parmetro poblacional,
como la media, la varianza, la proporcin asociada a determinados valores de la variable, etc.
Para representar un parmetro cualquiera se utiliza de forma genrica el smbolo (letra griega
sita), y $ para el estimador correspondiente (el acento circunflejo ^ denota estimacin).
Se denomina estimacin al valor numrico concreto que resulta de un estimador, cuando se
calcula ste sobre una muestra.
Como de una poblacin de tamao N, se pueden sacar muchas muestras, se deriva de ello que
las estimaciones o medidas que se determinan en cada muestra son variables aleatorias, que
pueden variar de una muestra a otra.

PROPIEDADES DESEABLES PARA UN BUEN ESTIMADOR:


La importancia de contar con buenos estimadores puede quedar clara si se analiza que las
estimaciones de los parmetros se obtendrn con una muestra que no contiene exactamente la
misma informacin que la poblacin, pues solamente es un reflejo de ella, y en ocasiones un
reflejo bastante plido, lo cual ya de por s conlleva a posibles errores. Es de desear, por tanto,
que el mtodo de estimacin usado no introduzca otros errores.
Para hablar de buenos estimadores se definen entre las cualidades que estos deben tener las
siguientes:
Ser insesgados.
Ser consistentes.
Ser eficientes.
80

INSESGADEZ

Se dice que un estimador es insesgado si se cumple que su esperanza es igual al parmetro


que estima, o sea, si:
=
E()
, se dice, que es sesgado, y se llama sesgo a
Si el estimador no es insesgado, o sea, si E()
la cantidad en que difiere el estimador del parmetro:

Sesgo = E()
Cabe preguntarse: Ser x un estimador insesgado de ?
1
E( x ) = E
n

x = n E( x ) = n E(x ) = n = n n =

O sea: E( x ) =

Por tanto x es un estimador insesgado, con lo cual, al contar con una muestra aleatoria,
la media muestral constituir una estimacin insesgada de la media poblacional.
Lo mismo puede decirse de la proporcin de elementos que cumplen determinada condicin en
una muestra como estimador para la correspondiente proporcin poblacional: es un estimador
insesgado, pues:
E(p ) = p

Con: p =

xn
x
y p= N
n
N

(Aqu X es una variable discreta, de conteo: xn indica un


conteo en la muestra y xN un conteo en la poblacin)

Hay que destacar, sin embargo, que S2 no es un estimador insesgado de 2, ya que, al aplicar
las propiedades del valor esperado se obtiene:
n 1 2
E (S 2 ) =

n
O sea, E(S2) tiene un sesgo, una diferencia, con el parmetro que estima, 2. Pero
observando a este resultado puede construirse un estimador insesgado para la varianza
poblacional, multiplicando por n y dividiendo entre (n -1) la varianza de la muestra, as:
n
n n 1 2
n

= 2
E
S2 =
E(S 2 ) =
n
1
n
1
n
1
n

Entonces, un estimador insesgado para la varianza poblacional ser:


s2 =

n
1
S 2 , que puede tambin formularse como: s 2 =
n 1
n 1

(x x )

Esta ltima manera de plantearlo muestra que el estimador de la varianza se diferencia


de la verdadera varianza de la muestra en que aquella se calcula dividiendo por n
mientras que en ste se divide por (n -1).

81

CONSISTENCIA

Se dice que un estimador es consistente si al hacerse el tamao de muestra cada vez ms


grande, de manera que n N, el estimador tiende a estar ms cerca del parmetro. En
trminos rigurosos debe decirse:
lim P(| | ) = 1 para todos los valores de y > 0

Este lmite constituye lo que se denomina convergencia en probabilidad; es decir, si un


estimador es consistente, converge en probabilidad al valor del parmetro que est intentando
estimar conforme el tamao de la muestra crece. Esto implica que la varianza de un estimador
consistente disminuye a medida que n crece y su media tiende al verdadero valor del
parmetro, es decir, se cumple que:
1.- lim E( ) =
n

2.- lim V( ) = 0
n

Bajo muestreos aleatorios simples se verifica que: x , s2 y p son estimadores consistentes.


Nota: Un estimador insesgado puede o no ser consistente.
EFICIENCIA

Se dice que un estimador es eficiente si su error cuadrtico medio es menor que el de cualquier
otro estimador con el que se le compare. Este error cuadrtico medio (ECM) se calcula como la
suma de la varianza ms el sesgo al cuadrado del estimador:

ECM ($) = V ($) + ( E ($) ) 2


As, el procedimiento tiene que ser calcular el ECM para todos los estimadores que se
propongan, y de la comparacin elegir cul es el ms eficiente.
Notas:
Todo estimador eficiente es consistente.
Si los estimadores que se comparan son todos insesgados,
ECM ($) = V ($) y el estimador eficiente ser el de menor varianza.

entonces:

ESTIMACIN PUNTUAL Y ERROR DE ESTIMACIN:


El objetivo que se persigue con una estimacin es obtener valores especficos del parmetro
desconocido, que pueden ser utilizados en su lugar. Una estimacin puntual es precisamente
eso: la evaluacin de un buen estimador en una muestra para tomar ese valor como medida
aproximada del parmetro desconocido.
En el MAS se utilizan como buenos estimadores para los parmetros ms significativos los que
siguen:

82

tipo de estudio

caracterstica medible

parmetro ( )

medida de tendencia

medida de dispersin

medida de proporcin

cuantitativo

cualitativo

estimador ( )
1
x=
x
n
1
s2 =
( x x)2
n 1
x
p = n
n

Ejemplo:
Estimar el promedio de televisores que llegan con roturas a los talleres a partir de la
muestra de tamao 5 tomada (ver ejemplo anterior); estimar tambin la varianza.

Solucin:
Xi
Xi2
8
64
9
81
8
64
5
25
4
16
= 34
=250

1
34
x=
= 6,8 = 34/5 = 6.8
n
5
(Aproximadamente 7 televisores llegan como promedio a los
talleres.)

= x =

2 = s 2 =

1
n 1

( x )2 =

n x2

n 1

250 5 6.8 2
= 4 .7
4

Es de destacar que para estimar la varianza se ha usado el estimador insesgado, es


decir, aquel en que la suma de desviaciones cuadrticas se divide por n -1. Adems,
se ha recurrido a una transformacin matemtica de la definicin del estimador, que
en muchos casos simplifica los clculos.
Se llama error de muestreo o error de estimacin (em) a la diferencia entre el valor de la
estimacin y el del verdadero valor del parmetro. (Es evidente que cuando se estima un
parmetro poblacional a partir de un estimador muestral puede haber implcito un error, que es
el error de muestreo):

em () =
Nota: Algunos autores diferencian entre el concepto de error de estimacin y el de
muestreo, calculando uno modularmente y el otro sin emplear el mdulo; otros autores
no consideran esta diferenciacin como fundamental y utilizan ambos trminos como
sinnimos, que es lo que se har ac.

El error de muestreo, al depender de una estimacin, constituye otra variable aleatoria, pues
puede variar de estimacin a estimacin. Pero adems, es un valor que no se puede conocer,
pues habra que conocer el parmetro poblacional, y si se conociera ste, no habra necesidad
de estimarlo. Esto conduce a que se plantee la necesidad de contar con una medida del error
de muestreo, que ser una medida probabilstica.

DISTRIBUCIONES MUESTRALES:
Ya se ha visto que si de una poblacin cualquiera se toman todas las muestras posibles de
tamao n, a travs del MAS, y si sobre todas ellas se calcula por ejemplo- la media muestral
83

como estimacin de la media poblacional, se obtendrn valores diferentes en el conjunto de


muestras, lo que hace que estas estimaciones constituyan variables aleatorias. Lo mismo
pasara con la varianza o cualquier otro estimador; por tanto se puede llegar a una conclusin
muy importante:
Todo estimador es una variable aleatoria, y al ser variable aleatoria tiene asociada:
9 Distribucin de probabilidad
9 Caractersticas numricas o parmetros

A las distribuciones de probabilidad de los estimadores se les denomina distribuciones


muestrales.
Es comn, una vez conocida la distribucin muestral asociada a un estimador, determinar la
media y la desviacin estndar de la distribucin, a esta ltima se le suele llamar error
estndar.
Ejemplo: La distribucin del estimador de la media ( x ) cumple lo siguiente:

E( x ) =

V( x ) = 2/n

(Ver demostracin en pgina 123 del libro de texto.)

Estas caractersticas informan que:


1.- El centro de la distribucin poblacional y de la distribucin muestral de x coinciden:
(x) = ( x )
2.- La varianza del estimador x es n veces menor que la varianza de la poblacin:
V(x) = 2 y V( x ) = 2/n

3.- La desviacin estndar o error estndar asociado a la media es: x = V( x ) =


n
(Lo cual permite concluir que a medida que n aumenta los valores de la media
muestral se concentran ms alrededor de . Falta por conocer la funcin de
probabilidad del estimador para poder sacar conclusiones respecto al error.)
Nota: El nombre de error estndar se debe a la propia manera en que se calcula ste:

1
( )2
n
De la expresin anterior se ve que el error estndar es una especie de promedio de los
errores de estimacin o muestreo ( ) , pues se calcula como la raz del promedio de
sus cuadrados, o sea, es una medida resumen del error de estimacin para el parmetro.
( ) = V ( ) =

DISTRIBUCIN MUESTRAL DE LOS PARMETROS MS USADOS:

Hay un teorema que plantea que si X tiene una distribucin normal, con media y varianza 2, y
se selecciona una muestra aleatoria tamao n por el procedimiento del MAS, entonces la media
muestral tendr tambin una distribucin normal, en este caso con media y varianza 2/n.
O sea, si X N( ,) entonces X N ( , / n )

84

Y para calcular la probabilidad de cierto comportamiento de la media, se utilizar la variable


x
estandarizada: Z =
/ n
Pero, y si X no tiene una distribucin normal?
Esto lo resuelve el Teorema Central del Lmite, que entre sus corolarios establece: si X es una
variable aleatoria con media y varianza 2, y x es la media de una muestra aleatoria simple
de tamao n, entonces la transformacin:
x
/ n

tiende una distribucin que se aproxima a la normal


estandarizada a medida que n tiende a infinito.

Esto es, si X ? ( , ) y n entonces x N ( , / n )


Nota: En la prctica se ha demostrado que siempre que n 30 la aproximacin a
la normal es buena, por lo que se utiliza este criterio para considerar que n

Hasta aqu se ha llegado a expresiones que involucran el conocimiento de la varianza (2) o la


desviacin tpica () poblacional de X. Pero, y si esta no se conoce?
Si la desviacin tpica poblacional no se conoce, a lo cual se le llama caso de desconocida,
es necesario previamente estimar sta a travs de s, su estimador insesgado y consistente
(teniendo en cuenta dividir por n -1 y no por n en el clculo). Y hay otro teorema que plantea
que si se tiene una poblacin normal, con varianza desconocida, y de la cual se ha extrado una
muestra aleatoria de tamao n, entonces se puede afirmar que:
x
t (n-1)
s/ n
As, cuando se quiere hallar la probabilidad de cierto comportamiento de la media siendo
desconocida la varianza de la poblacin si se cumple que la variable original se distribuye
normalmente-, se utiliza la distribucin t'Student.
La transformacin as obtenida para la media t =

, recibe el nombre de estadgrafo t.


s/ n
No obstante, el propio teorema central del lmite permite concluir lo siguiente: Si n , o sea,
cuando n > 30, la distribucin t'Student tiende a la normal estandarizada, esto es a Z N (0, 1),
y por tanto t se puede aproximar a travs de Z, as:

s
, o lo que es igual: t Z N (0, 1).
Si X N( , ?) y n > 30, entonces: x N ,
n

De la misma manera, utilizando tambin el teorema central del lmite se llega a que la
proporcin muestral, como estimador de la proporcin poblacional, tiende a distribuirse
normalmente cuando n > 30, o sea:

p p
pq
Si n > 30 entonces: p N p ,
N (0, 1)
, o estandarizando: z p =

n
pq / n

85

Se verifica en la prctica que esta aproximacin es realmente buena cuando el producto np > 5
y/o nq < 5.
Por otra parte, al estudiar s2 como estimador de la varianza poblacional se ve que no sigue una
distribucin normal, sino que tiene un comportamiento asimtrico. Sin embargo, hay un teorema
que plantea que para una poblacin normal se cumple que s2 tiene asociada una distribucin
chi-cuadrado con ( n -1) grados de libertad, como sigue:
(n 1)s 2
2(n -1)
2
(n 1)s 2
Debido a esto la expresin 2 =
recibe el nombre de estadgrafo chi-cuadrado.
2
Resumen de las principales distribuciones muestrales:
parmetro estimador condiciones

distribucin muestral

X N ( , )

Z=

X ? ( , )
y n > 30

Z=

x
/ n
x
/ n

N (0, 1)

N (0, 1)

t=

X N ( , ?)
X ? ( , ? )
y n > 30
2

s2

XN

n > 30

Z=

s/ n

N (0, 1)

/ n

2 =
zp =

p p
pq / n

x N ,

x N ,

t (n -1)

x N ,
n

(n 1)s 2
2(n -1)
2

N (0, 1)

pq
p N p ,

EJEMPLO 1:

Sean: X N (60 ; 4), n = 4, = 60, = 4, x =

4
4

=2

Calcular:
1.- P( x < 64) = P(Z < (64 - 60)/2) = P(Z < 2) = Fz (2) = 0.9772
2.- P( x < 62) = P(Z < (62 - 60)/2) = P(Z < 1) = Fz(1) = 0.8413
3.- P( x > 60) = P(Z > (60 - 60)/2) = P(Z > 0) = 1 - P(Z < 0) = 1 - Fz (0) = 1 - 0.5 = 0.5
4.- P(58 < x < 62) = P [(58 -60)/2 < Z < (62 -60)/2] = P ( -1 < Z < 1) = Fz(1) - Fz(-1)
= 0.8413 - 0.1587 = 0.6826

86

EJEMPLO 2:
n

Datos: n = 16,

X ini = 482 ,

i=1

a.- x =

1
n

b.- s 2 =
c.- s x =

(X
n

X ni = 60

i=1

X n = 482/16 = 30.12
i i

i=1

2
1 n
X i X ni = 60/15 = 4
n 1 i=1

s
n

2
16

2
= 0.5
4

(error promedio de estimacin o error estndar)

d.- si = 32 entonces em = ( x - ) = 30.1 - 32 = -1.9


0 .5
0 .5

< t(15) <


e.- P ( x - < 0.5) = P ( -0.5 < x - < 0.5 ) = P
2 / 16
2 / 16
= P ( -0.5/0.5 < t(15) < 0.5/0.5) = P ( -1 < t < 1) = Ft (1) - Ft (-1)
= 0.85 - (1 - 0.85) = 0.85 - 0.15 = 0.70
(Nota: Se utiliza la t'Student porque se desconoca la varianza de la poblacin.)
EJEMPLO 3:

Datos:
x: incremento del rendimiento p = 0.5, n = 100
Calculando previamente la desviacin tpica se tiene: =

pq
=
n

0 .5 0 . 5
= 0.0025 = 0.05
100

a.- P (0.40 < P < 0.55) = P [(0.40 - 0.50)/0.05 < Z < (0.55 - 0.50)/0.05]
= P (-0.10/0.05 < Z < 0.05/0.05) = P (-2 < Z < 1) = Fz(1) - Fz(-2)
= 0.8413 - 0.0228 = 0.8185
b.- = n p = 60 0.8185 = 49
EJEMPLO 4:

Calcule la probabilidad de que la varianza de una muestra de tamao 21 obtenida de una


poblacin normal con media 5 y desviacin tpica 2:
a.- Sea superior a 8
b.- Sea inferior a 5
c.- Tome valores en el intervalo (4, 8)
d.- Entre qu dos valores se mover S2 con una probabilidad central de 0.95.
Datos: n=21, =5,

=2

a.- P(s2 > 8) = 1 P(s2 < 8) = 1 - P[ (n-1)s2/2 < 20(8)/4] = 1 - P (2(20) < 160/4)
= 1 - P (2(20) < 40) = 1 - F2(20) (40) = 1 - 0.995 = 0.005

87

b.- P(s2 < 5) = P (2(20) < 20(5)/4] = P (2(20) < 100/4) = P (2(20) < 25)
= F(2) (25) = 0.80
c.- P(4 < s2 < 8) = P [20 (4)/4 < 2(20) < 20(8)/4] = P(20 < 2(20) < 40) = F2(40) - F2(20)
= 0.995 - 0.50 = 0.495
d.- P(s2a < s2 < s2b) = 0.95 (probabilidad central)
Estos valores de probabilidad central se buscan como sigue:

Luego 2a = 2(0.025) y 2b = 2(0.975) son los valores que le corresponden a s2a y s2b,
Ahora, despejando de

(2n1)

(2n1) 2
(n 1)s 2
2
se llega a: s =
=
(n 1)
2

Entonces:
s2a = 2(0.025) (4)/20 = 9.59 (4)/20 = 1.918
s2b = 2(0.975) (4/20) =34.2(4)/20 = 6.84
Por tanto, los valores s2a y s2b determinan una probabilidad central del 95% as:
P (1.1918 < s2 < 6.84) = 0.95

EJERCICIOS DE

AUTOEVALUACIN

1.- Si se desconoce la varianza de la poblacin y n < 30 Con que distribucin de probabilidad


trabajara en el clculo de la probabilidad de la media?
2.-Que supuesto se debe tener en cuenta para trabajar con la distribucin de probabilidad de
t'student?
3.- Si se desconoce la varianza de la poblacin y n > 30 Con que distribucin de probabilidad
trabajara en el clculo de la probabilidad de la media?
4.- Si se desconoce la distribucin de probabilidad que sigue la variable original y n , Cual
sera la distribucin de probabilidad de la media? Fundamente su respuesta.
5.- Qu distribucin de probabilidad tiene la proporcin muestral, y bajo cuales condiciones?
6.- Tiene la varianza muestral una distribucin normal?
7.- Con qu distribucin calculara la probabilidad de que la varianza muestral, asuma
determinados valores?

88

4.3: Error mximo permisible y tamao de muestra necesario para la estimacin


de y p. Estimacin por intervalos de confianza.
Como se sabe, cualquier estimacin puede tener asociada un error de muestreo, dado por la
diferencia entre el estimador y el parmetro, y este error no es calculable ya que en la prctica
no se conoce el verdadero valor de un parmetro que se est estimando; por ello la estimacin
puntual no permite evaluar cuan cercano est el valor estimado del correspondiente parmetro,
es decir, no permite calcular la precisin de la estimacin. Pero conociendo la correspondiente
distribucin muestral se puede tener una medida probabilstica del error. Y an ms, se puede
organizar el proceso de estimacin de manera tal que se d un intervalo posible de valores para
el parmetro (estimacin por intervalo), o que se garantice que el error de estimacin no
sobrepase un determinado valor prefijado (error mximo permisible).
Cuando se quiere estimar un parmetro, esto puede hacerse no slo mediante una estimacin
puntual, sino que puede recurrirse a una estimacin por intervalos. Una estimacin por
intervalos consiste en construir un intervalo alrededor de la estimacin puntual de manera que
se pueda garantizar que el parmetro estimado est dentro de dicho intervalo con una
probabilidad escogida de antemano; a esa probabilidad, representada como 1-, se le
denomina nivel de confianza, y al intervalo construido se le llama entonces intervalo de
confianza.

La construccin del intervalo de confianza se basa en encontrar el par de valores que delimiten
este intervalo para un nivel de confianza prefijado, lo cual se basa en la distribucin muestral del
estimador. El intervalo es, por tanto, de extremos variables, ya que sus lmites pueden cambiar
segn el resultado de la estimacin puntual sobre la muestra. El nivel de confianza lo decide el
investigador, o el estadstico; en la prctica, en estudios econmicos y sociales, los niveles de
confianza ms usados suelen ser: 0.90, 0.95, 0.98, 0.99.
Al crearse el intervalo de confianza, si 1- representa la probabilidad con que se quiere que el
mismo contenga al parmetro, representar la probabilidad de que el verdadero valor del
parmetro no est en el intervalo, y los intervalos suelen construirse de forma tal que esta
probabilidad se reparta simtricamente, como se muestra grficamente:

Utilizando el mtodo habitual para la construccin de los intervalos la reparticin simtrica de


la probabilidad a ambos lados-, cuando la distribucin muestral del estimador es a su vez
simtrica por ejemplo normal o tStudent- los lmites del intervalo resultan tambin simtricos
respecto a la estimacin puntual tomada como partida, y a la distancia desde el centro del

89

intervalo hasta cada lmite, que simboliza con la letra d, se le denomina entonces error mximo
admitido:

Entonces, en caso de estimadores con distribuciones simtricas el intervalo de confianza queda


de la forma:
= d
En la expresin anterior se utiliz el smbolo , que es una manera abreviada de indicar que lo
que sigue se resta y se suma para crear un intervalo, por tanto, el mismo intervalo de confianza
puede representarse como sigue:
[ d ; + d ]
El error mximo admitido viene a representar el mximo error que se admite cometer en la
estimacin bajo el nivel de confianza escogido, y en general se calcula como el producto de un
factor que depende del nivel de confianza, el denominado coeficiente de confianza (C1-/2), por
el error estndar del estimador:
d = C ( )
1

Los intervalos de confianza para la media y la proporcin, por tener ambos estimadores
distribuciones muestrales simtricas, se forman as:
estimador error mximo admitido
Ejemplo ilustrativo:

Sea el caso de una estimacin por intervalo para la media, siendo la varianza
poblacional () conocida, y prefijado un nivel de confianza (1 - ):
Fijar un nivel de confianza quiere decir que se exige que el error mximo permisible
cumpla con:
P( x - d ) = P (-d x - d) = 1 -
Esto equivale a decir que: P( x - > d ) =
Pero: P( x - > d ) = P( x - < -d) + P( x - > d) =

90

Y dada la simetra ambos sumandos son iguales, por lo que: P(x < d) =


, por tanto:
Ahora, si X N ( ,), se tiene que x N ,
n

d
d
Entonces:
P( x - < -d) = P z <
=
=Z

1
n 2
n

d=Z

Y despejando:

1
2

Atendiendo al ejemplo anterior, se pueden desarrollar las expresiones para los intervalos de
confianza en todos los casos de la media, y la varianza, y las proporciones. Esto se resume en
la siguiente tabla (asumiendo siempre un muestreo aleatorio simple):
parmetro estimador condiciones

X N ( , )

X ? ( , )
y n > 30
X N ( , ?)
X ? ( , ? )
y n > 30

XN

n > 30

error mximo
admisible

d=Z
1
n
2

d=Z
1
n
2
s

d = t (n1) 1

[ x d ; x + d ]

s
1

(n 1) s 2
(n 1) s 2
; 2
2

(n 1)
(n 1) / 2
1 / 2

---

d=Z

= x d

d=Z

intervalo de confianza

1
2

pq
n

p = p d

p [ p d ; p + d ]

Vale la pena anotar que en el caso de la varianza, dado que la distribucin muestral (chicuadrado) es asimtrica, no se puede hablar de un error mximo admitido, y se calculan
directamente los lmites inferior y superior del intervalo de confianza.
Adems, en los casos en que se usa la normal, que es simtrica, al hallar el lmite inferior del
intervalo es equivalente usar Z1-/2 Z/2; y lo mismo es aplicable a la tStudent.
Por otra parte, es fcil darse cuenta al examinar las expresiones para los intervalos de
confianza que:
9 Mientras ms grande es el tamao de la muestra menor es el ancho del intervalo.
9 Para niveles de confianza (1 - ) ms grandes, mayor es el ancho del intervalo.
91

Ambos resultados son lgicos ya que un tamao grande de la muestra disminuir la


varianza del estimador, y un nivel de confianza grande incrementar el valor del coeficiente
de confianza, es decir, el estadstico de la distribucin de probabilidad del estimador, lo que
dar como resultado en cada caso un intervalo ms amplio.
Finalmente, una importante aplicacin de las expresiones para los intervalos de confianza es el
empleo de stas para determinar el tamao de muestra mnimo necesario para que el error en
una estimacin no sobrepase un valor decidido de antemano. Esto se consigue despejando n
en la expresin, pues el error mximo asumido es precisamente d; los resultados usados para
un muestreo aleatorio simple son los siguientes:

Para la media
(con conocida):

n = Z 1 / 2

Para la media
(con desconocida):

n = Z 1 / 2
d

Para las proporciones:

Z1 / 2 Z1 / 2
=

n = p q
2d
d

Aqu se utiliza la Z y no la t porque esta ltima


involucra a la n en sus grados de libertad.
2

Aqu p y q son desconocidos (es


justo lo que se quiere estimar),
por eso se toma p = q = 0.5, que
matemticamente maximiza n.

Ejemplo 1:
La media y la desviacin tpica de las cargas mximas soportadas por 60 cables, estn dadas
por 12 y 0.7 toneladas, respectivamente. Se quiere hallar un intervalo de confianza para la
carga media mxima soportada por los cables, con un 95% de confianza.

Solucin:
X: carga soportada por un cable
Informacin: n = 60, x = 12, s = 0.7, (1 - ) = 0.95 ( Se asumir que X N( , ) )
s
s
Z
Entonces: = x d y d = t (n1) 1

1
n
n
2
2
Se parte del uso de la t porque la desviacin tpica poblacional es desconocida (lo que
se tiene es una estimacin puntual de la misma); no obstante, al ser n > 30, dada la
convergencia de la t a la Z, se puede usar esta ltima, que es ms cmodo.

Para obtener el coeficiente de confianza se debe ver que:


(1 - ) = 0.95 = 0.05 /2 = 0.025
(1 - /2) = 0.975
Para buscar el valor de Z0.975 se puede buscar este nmero en el interior de la tabla de la
normal estndar, y obtener Z por la intercepcin con los bordes. Pero una va ms rpida
es utilizar la tabla que est a continuacin en la seleccin de tablas (pgina 17), donde
estn las dos colas de la curva sombreadas; ah se busca simplemente el valor de por
la derecha y en la izquierda est la Z requerida.
d = 1.96

0.7
60

= 1.96

0.7
= 0.176
7.75

92

Por tanto: = 12 0.18


Y siendo: 12 + 0.18 = 12.18 y 12 - 0.18 = 11.82 , el intervalo ser: [11.82 ; 12.18 ]
Se puede decir, pues, que en el 95% de los cables el valor medio de la carga soportada est
entre 11.82 y 12.18 toneladas.

Nota: Es esencial saber interpretar adecuadamente la informacin que brinda un


intervalo de confianza: En el caso terico de contar con todas las muestras
posibles de tamao n, efectuar una estimacin por intervalo con un nivel de
confianza 1 - equivale a indicar que un (1 - )100% de todos los posibles
intervalos contendrn al parmetro, mientras que el (100)% restante sern
intervalos que no contengan al verdadero valor de dicho parmetro.

Por ejemplo, un intervalo de confianza del 90% para la


media poblacional indica que el 90% de las muestras
que se tomen (o sea, 9 de cada 10 muestras) darn
lugar a intervalos que contengan el parmetro; esto se
aprecia en el esquema mostrado, donde cada barra
horizontal representa el intervalo obtenido de una
muestra dada.

Ejemplo 2:
A continuacin se brindan los resultados de las entrevistas a 40 personas sobre su preferencia
(1) o no (0) respecto a un nuevo producto que se ha ofertado en el mercado.

0 0 1 1 0 1 0 1 0 1 1 1 0 1 0 1 1 1 0 1
1 0 1 0 1 1 0 1 1 0 0 1 1 0 1 1 0 1 1 0
a) Calcule la proporcin muestral de individuos que gustan de este producto. Interprete el
resultado.
b) Calcule la probabilidad de que el error mximo en la estimacin de esta proporcin no sea
mayor de 0.05.
c) Calcule para un nivel de confianza de 0.95 el error mximo en la estimacin de la
proporcin.
d) Determine cuntas personas deben seleccionarse para que la proporcin resultante tenga
un error no mayor de 0.01 con una probabilidad asociada de 0.99.
Solucin:
X: cantidad de personas que prefieren el nuevo producto.
n = 40
a) p =

X n 24
=
= 0.60
n
40

El 60% de las personas prefieren el nuevo producto.

93

0.05
0.05
b) P ( p$ - P 0.05) = P (-0.05 p$ - P 0.05) = P
Z
p
p

donde : p = pq / n = 0.6 0.4 / 40 = 0.0060 = 0.0775 0.078


Por tanto:
P ( p$ - P 0.05) = P (-0.05/0.078 0.05/0.078) = P (-0.641 0.641)
= Fz(0.641) - Fz(-0.641) = 0.7389 - 0.2611 = 0.4778
En el 47,78% de las muestras de tamao 40, el error que se puede cometer al estimar p no va
a ser mayor que 0.05
c) d = Z

1
2

pq
0 .6 0 .4
= Z 0.975
= 1.96 0.078 = 0.1529
n
40

En muestras de tamao 40 el error en la estimacin de la proporcin poblacional no ser


superior a 0.153, con una probabilidad de 0.95.
2

2.58
Z0.995
2

=
d) n = p q 1 / 2 =
2 0.02 = 64.5 = 4160.25 4161

d
2
d

Nota: Debe destacarse que la aproximacin de n siempre es por exceso, pues el nmero
obtenido es lo mnimo necesario para satisfacer las condiciones deseadas para la estimacin.

Ejemplo 3
La experiencia adquirida indica que la resistencia a la ruptura de las varillas de alambre
producidas por cierta fbrica sigue una distribucin normal con una resistencia media de 400 kgf
(kilogramo-fuerza) y una desviacin tpica de 16 kgf. Si se toma una muestra aleatoria de 16
varillas.
a.- Calcule la probabilidad de que el error en la estimacin de no sea mayor de 8 kgf.
b.- Determine, con una probabilidad de 0.99, el error mximo que se espera cometer al estimar
a travs de la media muestral.
c.- Diga cuntas varillas debern seleccionarse para que la media resultante tenga un error no
mayor de 2 kgf con una confiabilidad del 95%.
Solucin.
X: resistencia a la ruptura (kgf)

n = 16

16
= N (400 ; 4) , por tanto:
X N (400 ; 16), entonces x N 400 ;
16

a)

P( x - 8) = P(-8 x - 8) = P (-8/4 8/4) = P (-2 2)


= Fz(2) - Fz(-2) = 0.9772 - 0.0228 = 0.9544
En el 95,4 % de las muestras de tamaos 16 el error que se puede cometer al
estimar no va a ser mayor que 8.

b) d = Z

1
2

= Z 0.995

= 2.58 4 = 10.32

94

16

c) n = Z1 / 2 = Z0.975 = 1.96 = 246 varillas.


2
d
d

Debe significarse que con una muestra de este tamao se est garantizando que el error
en la estimacin de la resistencia media no sea mayor de 2 kgf, con una probabilidad de
certeza del 95%
Ejemplo 4
En una determinada localidad se obtuvo la siguiente muestra aleatoria, correspondiente a la
cantidad de personas por ncleos familiares en 37 viviendas:

4 2 5 6 6 5 6 6 6 7 5 5 4 4 2 8 4 6 8
5 2 2 5 5 4 3 6 7 6 5 5 5 6 5 4 6 1
Se quiere una estimacin por intervalos de la proporcin de los ncleos familiares con 4 ms
integrantes, para un nivel de confiabilidad del 90%.
Solucin:
X: Ncleos familiares con 4 ms integrantes.

Se tiene que:
p = Xn/n = 31/37 = 0.84

Y: p = pq / n = 0.84 0.16 / 37 = 0.0036 = 0.060

Entonces: p = p Z(1/2) pq / n = 0.84 1.64(0.060) = 0.84 0.0988


Por tanto el intervalo de confianza ser: 0.7412 p 0.9388
Esto indica que el 90% de las veces el valor de la proporcin muestral se encontrar entre 0.74
y 0.94
Ejemplo 5
En una muestra simple aleatoria de 64 piezas de un mismo tipo, extradas de un almacn, se
encontraron 13 piezas defectuosas. D una estimacin por intervalo con un nivel de confianza
del 95% para la proporcin de piezas defectuosas en el almacn.
Solucin:

n = 64
p = p Z(1/2)

p = 13/64 = 0.20

pq / n = 0.20 1.96 0.20(0.8) / 64 = 0.20 1.96 0.0025 = 0.20 1.96(0.05)

O sea: p = 0.20 0.098


Por tanto, el intervalo ser: 0.102 p 0.298, indicando que el 95% de las veces el verdadero
valor de la proporcin poblacional se encontrar entre 0.102 y 0.298.
Ejemplo 6
Calcule un intervalo de confianza del 95% de la varianza poblacional de una poblacin normal,
si en una muestra aleatoria de tamao 22 se obtuvo una varianza de 121.
95

Solucin:
n = 22

s2 = 121

1 - = 0.95

Como se desea un intervalo de confianza para la varianza, cuya distribucin muestral asociada
es 2, se sustituye directamente en la expresin para el intervalo de confianza:

(n 1) s 2
(n 1) s 2
2 2
; 2

(n 1)
(n 1) / 2
1 / 2

Por tanto:

(22 1)121 (22 1) 121 2541 2541


; 2
;
= 2
=

35.5 10.3
( 21)
( 21) 0.025
0.975

71.57 2 246.69

Esto indica que el 95% de las veces el valor de la varianza poblacional se encontrar entre
71.57 y 246.69.
Nota: Si se quiere sacar el intervalo de confianza de la desviacin tpica poblacional slo se le
saca la raz cuadrada al intervalo de la varianza:
8.46 15.71

EJERCICIOS DE

AUTOEVALUCIN

1.- Qu nos indica el error mximo admisible? Para que se utiliza?


2.- A partir de qu se calcula el tamao de la muestra? Cules son los criterios que se deben
tener en cuenta para determinarlo?
3.- Qu ventajas tendr una estimacin por intervalo sobre una estimacin puntual.?
4.- En que caso en la estimacin por intervalo de se trabaja con la distribucin muestral de
t'Student? Qu supuestos se deben hacer para trabajar con esta distribucin en el clculo del
intervalo de confianza de ?
5.- Con que distribucin de probabilidad se trabaja el intervalo de confianza de la proporcin
poblacional y que condiciones se deben dar? Y con que distribucin de probabilidad se trabaja
el intervalo de confianza de la varianza y desviacin tpica poblacional?.
6.- Se desea estimar el ingreso medio de una poblacin que sigue aproximadamente una
distribucin normal constituida por 10 personas y para ello se seleccion una muestra de 5
personas, recogindose de ellos lo siguiente:
ingresos: 150, 148, 152, 149, y 151
a.- Halle una estimacin puntual de y de 2.
b.- Halle una estimacin por intervalo del 95% de y de 2.
7.- Si el tamao de una muestra es de 225 unidades en una poblacin de 3000 elementos y se
conoce que la caracterstica en estudio tiene una varianza de 2 = 400, diga qu error mximo

96

admisible puede obtenerse con una confiabilidad de un 95%, para la estimacin de la media
poblacional.
8.- Se conoce que el nmero de propietarios de autos de la ciudad de la Habana es de 9000 y
se desea estimar la proporcin de ellos que se encuentran retrasados en el pago de impuesto
sobre circulacin terrestre en el mes de junio del ao 1997, con una d = 0.05, si una muestra
arroja una proporcin del 50%. Calcule el tamao de la muestra necesario para una estimacin
confiable (utilice un nivel de confianza del 95%).
9.- De una poblacin de 200 trabajadores se han muestreado 30, de los cuales 18 son
fumadores. D un estimado de la verdadera proporcin de fumadores y del total de fumadores
de dicha poblacin.
a.- En estimaciones puntuales
b.- En estimaciones por intervalo con una confianza del 99%.

97

TEMA V: PRUEBAS DE HIPTESIS


5.1. Conceptos bsicos. Desarrollo general de pruebas de hiptesis. Pruebas para
medias en una poblacin.
El desarrollo de pruebas de hiptesis forma parte de los mtodos de la Estadstica Inferencial
vinculados directamente la toma de decisiones, y como tal se utiliza en prcticamente cualquier
rama de las ciencias y la tecnologa, por ejemplo:
En la agricultura, cuando se quiere conocer si un nuevo fertilizante aumenta el rendimiento o
no.
En la educacin, cuando se quiere conocer si un mtodo de enseanza determinado,
aumenta la promocin o no.
En el deporte, cuando se quiere conocer si un estilo de juego mejora o no los resultados.
En medicina, cuando se quiere conocer si un medicamento disminuye o no el tiempo de
restablecimiento de un paciente.
Desarrollo del contenido:

Una prueba de hiptesis suele girar en torno al valor de uno o varios parmetros poblacionales
o al comportamiento de la distribucin de la poblacin, sobre lo cual se tiene alguna
suposicin previa basada en evidencia emprica o terica. Para verificar si la suposicin es
cierta o no se debe, entonces, tomar una muestra de la poblacin y calcular sobre ella una
estimacin del parmetro o parmetros en cuestin; a partir de esas estimaciones, y teniendo
en cuenta el comportamiento probabilstico de los estimadores usados, se puede llegar a una
conclusin sobre la suposicin o hiptesis de partida.

CARACTERSTICAS GENERALES DE UNA PRUEBA DE HIPTESIS:


Si el desarrollo de una prueba requiere del conocimiento de parmetros o caractersticas de la
distribucin de la poblacin, se le clasifica como prueba paramtrica; si, por el contrario, estos
datos no son requeridos, se hablar de una prueba no paramtrica.
La simbologa usada en este contexto es anloga a la que se utiliza en el contexto general de la
Teora de la Estimacin: as, con se representa el parmetro en cuestin (que puede ser , 2,
p u otro) y con o el valor histrico conocido para dicho parmetro.
En el proceso de desarrollar una prueba de hiptesis a partir de una determinada suposicin, se
busca como traducir dicha suposicin a trminos de algn parmetro o estadgrafo, y se formula
entonces lo que se llama hiptesis estadstica. En general, una hiptesis estadstica siempre
se subdivide en dos: una llamada hiptesis nula (Ho) y otra llamada hiptesis alternativa (H1).
Hiptesis nula (Ho): Es una hiptesis de diferencias nulas; lo que equivale a decir que es una
hiptesis que contiene una igualdad o algo similar.
Hiptesis alternativa (H1): Es la hiptesis que deber ser aceptada si la nula se rechaza, y
tiene asociado algn tipo de desigualdad estricta.

Al plantear el par de hiptesis nula y alternativa surge alguno de los tres casos siguientes:

98

Ho: = o ( Ho: o )
H1: > o

O sea, se quiere verificar si el valor del parmetro ha


aumentado, contraponiendo esto a que se mantiene
igual, o incluso disminuy.

Ho: = o ( Ho: o )
H1: < o

O sea, se quiere verificar si el valor del parmetro ha


disminuido, contraponiendo esto a que se mantiene
igual, o incluso aument.

Ho: = o
H1: o

O sea, se quiere verificar si el valor del parmetro ha


variado en algn sentido, contraponiendo esto a que
se mantiene igual.

Comnmente la hiptesis alternativa representa la hiptesis de investigacin, lo que se desea


verificar despus de algn cambio en el sistema en estudio, y suele ser en muchos casos la que
se formula primero; la hiptesis nula, por el contrario, se asocia a la situacin que exista hasta
el momento del cambio, a lo ya conocido; por ello es esta ltima es la que recoge la igualdad,
estricta o no.
En muchos casos Ho se formula con la intencin expresa de ser rechazada, ya que si Ho se
rechaza ello implica que H1 se acepta.
La decisin estadstica se basa en estimaciones efectuadas sobre la muestra aleatoria
tomada, todo lo cual da lugar a los siguientes conceptos:
Estadstico o estadgrafo de prueba: Es el estimador ( ), o alguna transformacin de ste,
que se utiliza para tomar una decisin respecto al comportamiento del parmetro en estudio.
Valor crtico (C o c): Es un valor numrico que se calcula a partir del dato histrico conocido y
de la distribucin probabilstica del estimador, para que el estadgrafo de prueba se compare
con l y se pueda tomar una decisin.

La necesidad del valor crtico puede entenderse por el hecho de que el estadgrafo de prueba,
al ser el resultado de una estimacin, no se debe comparar directamente con el dato histrico,
sino que se debe dejar una especie de margen para los posibles errores de estimacin.
Regin crtica regin de rechazo (W o Wc): Es el conjunto de valores del estadstico de
prueba a partir de los cuales se rechaza la hiptesis nula.

La distribucin del estadstico de prueba se divide en dos partes la regin de rechazo y la regin
de no rechazo o aceptacin, estando separadas ambas regiones por el valor crtico.
La ubicacin de la regin crtica respecto al dato histrico depende de la hiptesis alternativa, y
puede ser unilateral (a la derecha o a la izquierda) o bilateral (a ambos lados), como se
representa en los siguientes esquemas:
Caso del posible aumento: Si > c,
se rechazara H0, adoptndose H1; pero
si c, aunque sea > 0, no hay
evidencia de un aumento significativo.

99

Caso de posible reduccin: Si < c,


se rechazara H0, adoptndose H1; pero
si c, aunque sea < 0, no hay
evidencia de una reduccin significativa.
Caso de posible variacin: Si < c1
> c2, se rechazara H0, adoptndose
H1; pero si c1 c2, aun si 0, no
hay evidencia de variacin significativa.

Regla de decisin: Es una especie de traduccin al lenguaje comn de la regin crtica; en ella
se establece lo que se debe hacer, partiendo del valor crtico determinado. Esto es:

Ho: = o ( Ho: o )
H1: > o

Se rechaza Ho para todo valor del estadstico de


prueba que sea mayor que c y se acepta Ho para
todo valor del estadstico de prueba que sea menor o
igual que c.

Ho: = o ( Ho: o )
H1: < o

Se rechaza Ho para todo valor del estadstico de


prueba que sea menor que c y se acepta Ho para
todo valor del estadstico de prueba que sea mayor o
igual que c.

Ho: = o
H1: o

Se rechaza Ho para todo valor del estadstico de


prueba que sea menor que c1 o mayor que c2 y se
acepta Ho para todo valor del estadstico de prueba
que est comprendido entre c1 y c2.

Debe sealarse, no obstante, que en trminos estrictamente estadsticos, en el caso que se


acepte Ho no se debe plantear categricamente que se acepta Ho, sino que no hay elementos
para rechazar Ho, ya que es ms factible refutar hiptesis que aceptarlas.
Nivel de significacin (): Es la probabilidad mxima con que se admite cometer el error
considerado ms grave.

El nivel de significacin es escogido en la prctica por el investigador. Los valores ms usados


son: 5% (0,05) y 1% (0,01). Una vez fijado ste se puede calcular el valor crtico y determinar la
regin crtica.
El trmino de significacin se utiliza dado que conociendo el valor de se podr determinar
cul es el valor del estadstico de prueba a partir del cul la diferencia entre ste y el parmetro
se considera significativa.
En lugar del nivel de significacin a veces se utiliza el nivel de confianza (1 - ), definido en la
Teora de la Estimacin.

100

POSIBLES ERRORES A COMETER:


Al tomar una decisin es posible que se cometa uno de los dos siguientes errores: rechazar Ho
siendo cierta o aceptar Ho siendo falsa. El primero de estos posibles errores, dadas sus
consecuencias, es el ms grave, y se le denomina Error tipo I; al otro se le llama Error tipo II. La
probabilidad de un error de tipo I se conoce como , es el nivel de significacin, y la
probabilidad de un error de tipo II se conoce como . A partir de las definiciones se tiene:
= ( Rechazar H0 siendo cierta) Entonces:

= ( Wc / = 0)

= ( Aceptar H0 siendo falsa )

= ( Wc / 0)

Entonces:

Luego, interesa medir las magnitudes de esos errores y tratar de que estos sean lo ms
pequeos posible, o sea, que la probabilidad de cometerlos sea lo suficientemente pequea.
Pero reducir la magnitud de ambos es imposible pues una disminucin en uno de ellos, provoca
en general un aumento del otro.

Observando las figuras anteriores se puede comprender mejor lo planteado: Se representa la


distribucin probabilstica asociada al estadstico de prueba en una prueba dada, tanto para la
hiptesis nula ( 0) como para un valor de la alternativa ( a). Es apreciable que al disminuir , se
desplaza el valor crtico ( c), y aumenta .
Es por ello que la solucin dada por los matemticos es fijar la probabilidad de cometer el error
de connotacin ms grave a un nivel aceptablemente bajo y tratar de hacer mnimo el otro; es
decir, se prefija .
En el contexto econmico a los errores antes mencionados, y sus probabilidades, se les llama
riesgo de los productores () y riesgo de los consumidores () respectivamente. Al riesgo
de rechazar una hiptesis nula verdadera se le llaman riesgo de los productores porque que si

101

la hiptesis se rechaza es a favor de un cambio que supuestamente conlleva una mejora en las
ventas, y al ser errnea la decisin el productor pierde una posible ganancia extra. Por su parte,
al riesgo de aceptar una hiptesis nula falsa se le llaman riesgo de los consumidores porque
una aceptacin de la nula debera corresponderse con el hecho de que la mejor opcin era la ya
existente, y si la decisin es errnea es una prdida de posibles mejoras para el consumidor.

PASOS A SEGUIR EN LA CONSTRUCCIN DE UNA PRUEBA DE HIPTESIS:


A manera de resumen, se puede elaborar una especie de algoritmo para desarrollar una prueba
de hiptesis, que implicara los siguientes pasos:

Anlisis de los datos


Formulacin de las hiptesis nula y alternativa
Eleccin del nivel de significacin ()
Determinacin del valor crtico ( c)
Planteamiento de la regin crtica (W c) o de la regla de decisin
Clculo del estadstico de prueba (a partir de la muestra, segn el parmetro en prueba)
Toma de decisin y conclusin

La decisin se toma utilizando el estadstico de prueba que nos facilit la muestra y si el mismo
cae en la regin crtica se rechaza H0 y por tanto se acepta H1; si cae en la regin de no rechazo
(de aceptacin) no existen elementos para rechazar H0.

PRUEBAS DE HIPTESIS PARAMTRICAS:


Se le llama pruebas paramtricas, como se ha dicho, a aquellas que requieren del conocimiento
de la distribucin muestral de los estimadores asociados a los parmetros poblacionales. Las
pruebas paramtricas ms conocidas son las pruebas respecto al comportamiento de la media,
la varianza y las proporciones en una poblacin.
Pruebas para la media:

En el caso de las pruebas para medias se debe tener en cuenta si se conoce la varianza
poblacional real () o si se contar con una estimacin de la misma (s), igual que cuando se
hacen clculos probabilsticos asociados a alguna estimacin. En funcin de esto, si se toma
como estadgrafo de prueba la propia media muestral ( x ), las regiones crticas atendiendo al
tipo de hiptesis alternativa quedan:
Para cuando es conocida:


WC = x : x > 0 + Z1
H1: > o


H1: < o
WC = x : x < 0 Z1

H1: o
WC = x : x < 0 Z1

2
n

x > 0 + Z1

102

Para cuando es desconocida:

WC = x : x > 0 + t 1 (n1)
H1: > o

H1: < o
WC = x : x < 0 t 1 (n1)

WC = x : x < 0 t 1
H1: o
2 ( n 1)

n
s

n
s
n

x > 0 + t 1

2 ( n 1)

Nota: Aqu igualmente deben tenerse en cuenta las condiciones necesarias o supuestos de
aplicacin de la distribucin probabilstica adecuada, en particular la toma de la muestra
mediante un muestreo aleatorio simple y la asuncin de normalidad poblacional de la
variable. Tambin puede sustituirse el uso de la t por Z cuando la muestra es
suficientemente grande, o sea, si n > 30.

Otra variante, que algunos llaman va interna de solucin, es utilizar como estadgrafo de
prueba la conocida estandarizacin de la media muestral, que en dependencia de si se conoce
o no la varianza poblacional recibe el nombre de estadgrafo Z o estadgrafo t respectivamente,
en correspondencia con la distribucin muestral que sigue. O sea:
Z0 =

x 0
/ n

t0 =

x 0
s/ n

Si se usan estos estadgrafos de prueba las regiones crticas quedan expresadas de una
manera ms sencilla:
Para cuando es conocida:
H1: > o
Wc = { Z0 : Z0 > Z1- }
H1: < o
Wc = { Z0 : Z0 < - Z1- }
Wc = { Z0 : | Z0 | > Z1-/2 }
H1: o
Para cuando es desconocida:
Wc = { t0 : t0 > t1- (n-1) }
H1: > o
H1: < o
Wc = { t0 : t0 < - t1- (n-1) }
Wc = { t0 : | t0 | > t1-/2 (n-1) }
H1: o
Pruebas para proporciones:

Si lo que interesa verificar es la posible variacin en algn valor porcentual o en el resultado del
conteo de alguna variable, ello puede expresarse como una prueba de hiptesis para
proporciones.
Las pruebas para proporciones se basan en las mismas condiciones o supuestos analizados
para considerar adecuada la proporcin muestral como estimador de la proporcin poblacional:
desarrollar un muestreo aleatorio simple y contar con una muestra tal que n > 30. As se tiene,
para los distintos casos de hiptesis alternativas las regiones crticas siguientes:

103

H1: p > p0

H1: p < p0

H1: p p0

p 0 q 0
WC = p : p > p 0 + Z 1

p 0 q 0
WC = p : p < p 0 Z 1

p 0 q0
WC = p : p < p 0 Z 1

2
n

Para la va interna de solucin se recurre al estadgrafo: Z 0 =

p > p 0 + Z 1

p 0 q0
n

p p 0
p 0 q0
n

Y las regiones crticas quedan:


H1: p > p0
H1: p < p0
H1: p p0

Wc = { Z0 : Z0 > Z1- }
Wc = { Z0 : Z0 < - Z1- }
Wc = { Z0 : | Z0 | > Z1-/2 }

Este resultado para las regiones crticas coincide con en el de las pruebas para medias cuando
la varianza poblacional es conocida, o sea, cuando se usa Z. Esto evidencia una de las
ventajas de la va interna: las regiones crticas suelen permanecer inalterables para un tipo de
alternativa dado, lo que vara es la forma en que se calcula el estadgrafo de prueba.
Pruebas para la varianza:

Cuando es de inters determinar si la variabilidad en el valor de una magnitud medida con


determinado mtodo no supera ciertos lmites, o difieren o no de cierto valor dado, el problema
se reduce a realizar una prueba de hiptesis para la varianza poblacional. Esta prueba se har
bajo el supuesto de que se tiene una muestra aleatoria simple procedente de una distribucin.
Atendiendo a que el estimador de la varianza tiene asociado a su distribucin muestral una chicuadrado, las regiones crticas para los posibles casos de alternativas resultan:

2 2
WC = s 2 : s 2 >
1 (n1)
n 1

WC = s 2 : s 2 <
H1: 2 < 20
2 (n1)
n 1

2 2
WC = s 2 : s 2 <
H1: 2 20
2 (n1) s 2 >
1 (n1)
2
n 1 2
n 1

2
(n 1) s
Por la va interna de solucin el estadgrafo de prueba es: 02 =
02
Y las regiones crticas son:

H1: 2 > 20

H1: 2 > 20
H1: 2 < 20
H1: 2 < 20

Wc = { 20 : 20 > 21- }
Wc = { 20 : 20 < 2 }
Wc = { 20 : 20 < 2/2

20 > 21-/2 }

104

Ejemplo 1:

En una fbrica se producen cuerdas cuya resistencia promedio es de 500 kgf (kilogramofuerza), con una desviacin tpica de 40 kgf. El jefe de produccin plantea que con otra materia
prima la resistencia promedio puede aumentarse. Para probar su planteamiento se utiliz de
forma experimental la nueva materia prima, tomndose una muestra de 64 de las cuerdas
producidas, para la cual la resistencia promedio fue de 510 kgf. Se quiere realizar la prueba de
hiptesis correspondiente para un 5% de significacin.
Solucin:
Al enfrentar un problema de este tipo, lo primero que se hace es analizar a que parmetro se le
va a hacer la prueba, y esto est en dependencia de lo que se va a investigar. En este caso se
plantea que con la nueva materia prima la resistencia promedio puede aumentarse, por lo que
evidentemente se debe efectuar una prueba de hiptesis de media ( ). Se debe determinar
entonces si se conoce la varianza poblacional ( ) o no; para ello lo segundo que se har es
sacar la informacin que brinda el problema.
Datos:
0 = 500

= 40

n = 64

x = 510

= 0,05

Dado que 2 es conocida, se tiene que x N ( ; / n ), luego las frmulas para el clculo
de la regin crtica que se deben utilizar son las de la normal.
Formulacin de las hiptesis:
H0: = 500
(Dice que con la nueva materia prima la resistencia promedio no vara.)
H1: > 500
(Dice que con la nueva materia prima la resistencia promedio aumenta.)
Nota: H0 hubiera podido ser tambin totalmente contraria a H1, o sea: 500, es decir,
que con la nueva materia prima la resistencia promedio no vara o incluso disminuye.
Regin crtica:


WC = x : x > 0 + Z1

= { x : x > 500 + Z0.95 (40 / 64 ) } = { x : x > 500 + 1.64 (5) } = { x : x > 500 + 8.2 }
Por tanto: Wc = { x : x > 508.2 }

Regla de decisin:
Se rechaza Ho si x > 508.2
Se acepta H0 si x 508.2

105

Toma de la decisin:
x = 510 > C = 508.2, o sea: x WC

Por tanto, se rechaza H0


Esto implica que se acepta H1, lo cual permite concluir, con un nivel de significacin
del 5, que con la nueva materia prima la resistencia promedio puede aumentarse.
Al tomar esta decisin pudo cometerse el error tipo I, rechazar una hiptesis nula cierta,
por ello se indica el nivel de significacin usado.
La prueba hubiera podido desarrollarse tambin por la llamada va interna; en este caso, para
las mismas hiptesis planteadas se tendra:
Regin crtica:
Wc = { Z0 : Z0 > Z1- } = { Z0 : Z0 > Z0.95 } = { Z0 : Z0 > 1.64}
Regla de decisin:
Se rechaza Ho si Z0 > 1.64
Se acepta Ho si Z0 1.64
Decisin:
x 0 510 500 10
Z0 =
=
=
= 2 > ZC = 2
40
5
/ n
64

o sea: Z 0 WC

Por tanto, de la misma manera, se rechaza H0, y se llega a igual conclusin: el cambio
de materia prima puede aumentar la resistencia promedio de las cuerdas.
Ejemplo 2:

La produccin promedio diaria de leche por vaca en la provincia en los meses de verano ha sido
en los aos anteriores de 10.1 litros. Este ao en una muestra simple aleatoria de 16 das de los
meses de verano se obtuvo una produccin media diaria por vaca de 9.9 litros con una
desviacin estndar de 1.1 litros. Hay razn para afirmar que ha variado la produccin medio
diaria de leche por vaca?
Solucin:
Esta es una prueba paramtrica sobre la media, ya que de lo que se trata es de verificar si ha
tenido variacin la produccin promedio diaria de leche por vaca.
Datos:
= 10.1 = ? n = 16

= 9.9

s = 1.1

Nota: Este es un caso tpico en que se desconoce la varianza poblacional ( 2 ), pues la


desviacin estndar disponible es una estimacin calculada sobre la propia muestra.
Luego, al ser n < 30, se tiene que trabajar obligatoriamente con la distribucin t'Student,
para el clculo de la regin crtica.
106

Hiptesis:
Ho: = 10.1
H1: 10.1
Nivel de significacin:
= 0,05 (Cuando no se sugiere ninguno, el nivel de significacin lo decide el estadstico.)
Regin crtica:

s
WC = x : x < 0 t 1
2 ( n 1)
n

={
={
={
={

x:
x:
x:
x:

x
x
x
x

x > 0 + t 1

2 ( n 1)

> 10.1 - t0.975 (15) (1.1 / 16 ) x > 10.1 + t0.975 (15) (1.1 / 16 ) }
> 10.1 - 2.13 (0.275) x > 10.1 + 2.13 (0.275) }
> 10.1 - 0.586 x > 10.1 + 0.586 }
> 9.514 x > 10.686 }

Regla de decisin:
Rechazar Ho si x < 9.514 x > 10.686
No rechazar Ho si: 9.514 x 10.686
Decisin:
x = 9.9 > 9.514 y 9.9 < 10.686, o sea: x WC

Por tanto, no se rechaza H0


Entonces se concluye que no hay elementos para asegurar, con un 5% de
significacin, que la produccin promedio diaria de leche por vaca ha variado en
la regin.
El error que se pudo haber cometido al tomar la decisin anterior es de tipo II.
Por supuesto, se llegara a idntica conclusin si se utilizara la va interna de anlisis, como se
demuestra a continuacin:
Regin crtica:
Wc = { t0 : | t0 | > t1-/2 (n-1) } = { t0 : | t0 | > t0.975 (15) } = { t0 : | t0 | > 2.13 }
Decisin:
x 0 9.9 10.1 0.2
t0 =
=
=
= 0.727
0.275
s/ n
1.1 16

Como: | t0 | = 0.727 < 2.13 la decisin es, otra vez, no rechazar H0.
Ejemplo 3:

Se afirma que un lote de piezas contiene menos del 30% de piezas defectuosas. Para
comprobarlo se revisan 50 piezas del lote seleccionadas al azar, entre las cuales se detectan 10
defectuosas. Hay razn para mantener la afirmacin con una significacin del 5%?

107

Solucin:
Esta prueba, evidentemente es de proporciones, ya que lo que se est investigando es sobre la
proporcin de piezas defectuosas, y se tiene como dato con el conteo de stas en la muestra
tomada. La afirmacin que se quiere verificar, referente a que menos del 30% de las piezas es
defectuosa, no es algo dado por seguro, luego, es una hiptesis: la hiptesis alternativa; y el
dato a tomar como referencia, el 30%, es el equivalente a una proporcin histrica.
Datos:
X: cantidad de piezas defectuosas
n = 50 piezas
xn = 10 piezas defectuosas

= 0.05

p0 = 0.30

Hiptesis:
H0: P 0.30
H1: p < 0.30
Regin crtica:

p 0 q0
0.30 0.70
WC = p : p < p 0 Z1
= p : p < 0.30 Z 0.95
= p : p < 0.30 1.64 0.0042
50
n

= {p : p < 0.30 1.64 0.064} = {p : p < 0.30 0.105} = {p : p < 0.195}


Decisin:
x
10
p = n =
= 0.20 > 0.195
n 50

O sea, p WC

Por tanto, no se rechaza Ho.


Entonces, bajo el usado no se puede afirmar que el lote contiene menos del 30%
de piezas defectuosas.
Utilizando la va interna se tiene:
Regin crtica:
Wc = { Z0 : Z0 < -Z1- } = { Z0 : Z0 < -Z0.95 } = { Z0 : Z0 < -1.64}
Decisin:
p p 0
0.20 0.30
0.10
Z0 =
=
=
= 1.5625 > -1.64
p 0 q0
0.30 0.70 0.064
50
n

O sea, Z 0 WC , con lo cual la decisin sigue siendo no rechazar H0.


Ejemplo 4:

El precio de cierto producto en el mercado mundial exhibi durante el pasado ao una


variabilidad expresada en trminos de una desviacin tpica de 0.4 dlares. Una muestra
108

aleatoria de 30 das correspondiente al presente ao dio como resultado una desviacin tpica
de 0.5 dlares. Hay razn suficiente para creer que el precio del producto es menos estable
este ao que el pasado? Considere un = 0.05.
Solucin:
Ya que lo que se quiere investigar es la estabilidad del precio, es decir su variabilidad, y se
cuenta dato con desviaciones tpicas, queda claro se debe efectuar una prueba de varianzas.
Es bueno destacar que un precio menos estable implica mayor varianza, mientras que, por el
contrario, un precio ms estable implica menor varianza.
Datos:
0 = 0.4

s = 0.5

Hiptesis:
Ho: 2 = 0.16
H1: 2 > 0.16

n = 30

= 0.05

Nota: 0 = 0.4

02 = 0.16

(El precio actual se mantiene con la misma estable.)


(El precio actual es menos estable, o sea, con mayor variabilidad.)

Regin crtica:

0.16 2
0.16
2 2

WC = s 2 : s 2 >
0.95 ( 29 ) = s 2 : s 2 >
42.6 = s 2 : s 2 > 0.235
1 (n1) = s 2 : s 2 >
n 1
29
29

Decisin:
s2 = 0.52 = 0.25 > 0.235

O sea, s 2 WC

Por tanto, se rechaza H0.


Esto que implica que se acepte H1, esto es, puede decirse, con una significacin del
5% (o una confiabilidad del 95%) que el precio del producto este ao es menos
estable que en el anterior.

Por la va interna sera:


Regin crtica:
Wc = { 20 : 20 > 21- } = { 20 : 20 > 20.95 }= { 20 : 20 > 42.6}
Decisin:
(n 1) s 2 29 0.25 7.25
02 =
=
=
= 45.3 > 42.6
0.16
0.16
02

O sea, 02 WC

Por tanto, como era de esperar, se rechaza H0, llegndose a las mismas conclusiones.

EJERCICIOS DE AUTOEVALUACIN.
1.- Explique qu significan los trminos hiptesis nula e hiptesis alternativa.

109

2.- Explique qu indica el error tipo I y el error tipo II.


3.- Cul es la relacin de con el error de tipo I?
4.- Cul es la relacin de con el error de tipo II?
5.- Supngase que se conocen los resultados de una prueba de aptitud para la admisin a
estudios de grado en Administracin de Empresas, los cuales tienen una distribucin normal
con media de 500 y una desviacin tpica de 100. Si una muestra aleatoria de 12 solicitantes
del Stephan College tiene una media muestral de 537 existe evidencia de que su resultado
medio sea diferente de la media esperada de todos los solicitantes? Use = 0.01
6.- La compaa Acero Valle Verde fabrica barras de acero. Entrega barras de acero con una
longitud promedio de por lo menos 2.8 pies cuando el proceso funciona correctamente. De la
lnea de produccin se selecciona una muestra de 25 barras. La muestra seala una longitud
promedio de 2,43 pies y una desviacin tpica de 0.20 pies. La compaa desea determinar si se
necesita ajustar el equipo de produccin. Utilice un = 0.05 y diga qu error pudo estar
cometiendo con la decisin tomada.
7.- La divisin de inspeccin del departamento de pesas y medias de la provincia Habana est
interesada en confirmar la cantidad real de refrescos que se envasa en botellas de 2 litros, se
conoce que = 2.02. La planta embotelladora ha informado a la divisin de inspeccin que se
desconoce la desviacin tpica de la poblacin, y que al tomar una muestra aleatoria de 100
botellas, mostr un promedio de 1.99 litros y una desviacin tpica de 0.05 litros. Es posible
concluir que la cantidad promedio en las botellas fuera menos de 2 litros? Utilice un = 0.01
8.- Una gran cadena nacional de electrodomsticos tiene una venta especial por fin de
temporada de podadoras de csped. A continuacin se presenta el nmero de podadoras
vendidas durante esta venta en una muestra de 10 tiendas:
8

11

10

A un = 0.05 se puede llegar a la conclusin que se haya vendido un promedio de ms de 5


podadoras por tienda durante esta venta?
Qu suposiciones se requiere para realizar esta prueba?
Qu error se pudiera estar cometiendo con la decisin tomada?
9.- En muestras con menos de 30 observaciones se puede considerar que la proporcin
muestral sigue una distribucin normal?
10.- Se conoce que en una ciudad, la proporcin de hombres es de 0.40. Se supone que
despus de la construccin de una gran industria, la proporcin de hombres aument. Para
verificar este supuesto, se extrajo una muestra aleatoria de tamao 100, resultando que la
misma est integrada por 45 hombres y 55 mujeres. Se pide hacer la prueba para un = 0.05
11.- La cadena de tiendas Gaviota, recibe de una firma un embarque de cierta marca de
bolgrafos baratos. El gerente comercial de la cadena desea estimar la proporcin de bolgrafos
defectuosos; se toma una muestra aleatoria de 300 bolgrafos y se encuentran que 30 estn
defectuosas. Se puede devolver el embarque si ms del 5% estn defectuosas. Sera probable
que la proporcin de plumas defectuosas fuera superior a 0.05 y que pudiera devolverse el
embarque?. Utilice un = 0.05

110

12.- Un fabricante de aparatos de televisin ha afirmado en su garanta que en el pasado solo el


10% de sus aparatos necesitaron alguna reparacin durante sus dos primeros aos de
funcionamiento. Para comprobar la validez de esta afirmacin, el departamento de control de la
calidad del ministerio seleccion una muestra de 100 aparatos y encuentra que 14 de ellos
requirieron alguna reparacin durante sus primeros dos aos de funcionamiento. Utilizando un
= 0.01, es vlida la afirmacin del fabricante o es probable que no lo sea?

111

5.2: Tamao del error tipo II. Funcin de potencia. Tamao de la muestra.
Tradicionalmente el estadstico controla el error tipo I estableciendo el nivel de riesgo que est
dispuesto a tolerar en trminos de rechazar una hiptesis nula verdadera, es decir, fijando el
de la prueba. Una vez especificado el valor de queda determinado el tamao de la regin
crtica o de rechazo.
Si se procede a la inversa y se establece de antemano la regin crtica a usar, se puede
calcular el a partir de su propia definicin:
= P( Rechazar H0 siendo cierta) Entonces:

= P( Wc / = 0)

De la misma forma se puede calcular el valor de asociado al error de tipo de II:


= P( Aceptar H0 siendo falsa )

Entonces:

= P( Wc / 0)

El valor de depende del escogido o del valor crtico derivado-, pero tambin depende de
algn valor especfico asociado a la hiptesis alternativa (k); por ello se suele describir a
como funcin del parmetro en prueba, o sea: = (k).
Este error se puede graficar y se obtiene la llamada curva caracterstica de operacin o
curva OC (por las iniciales en ingls: Operation Characteristic) de gran utilidad en tcnicas
estadsticas, pues permitir determinar los riesgos que se derivan de no rechazar una hiptesis
nula falsa, es decir muestra la probabilidad de no rechazar una hiptesis nula falsa para cada
posible valor verdadero del parmetro poblacional. Para lograr la curva caracterstica deben
elegirse varios valores representativos para dicho parmetro y calcular para cada uno.
En muchas aplicaciones estadsticas el segundo tipo de error (error tipo II), no est controlado,
pero aun entonces el que realiza el experimento debe estar enterado de la existencia de este
error y tener una idea de lo grande que puede ser, ya que, como se dijo, el mismo est
asociado a situaciones como las provocadas por que artculos de mala clase sean aceptados
para la venta, con prdida para el consumidor. Equivalentemente, se puede calcular lo que se
denomina potencia de la prueba.
Se le llama funcin de potencia a la expresin: (k) = 1 - (k)
En forma directa se puede plantear:
(k) = 1 - (k) = 1 - P( Wc / = k) = P( Wc / = k)

Si representa la probabilidad de aceptar una hiptesis nula falsa, viene a representar la


probabilidad de rechazar dicha hiptesis nula falsa. Se puede decir entonces que la funcin de
potencia permite calcular la probabilidad de descubrir la falsedad de una hiptesis nula, y a
dicha probabilidad para un k dado se le llama potencia de la prueba.
La funcin de potencia tambin se suele graficar. Grficamente se comporta como una curva
con tendencia asinttica a 1 en la medida en que k se adentra en la regin crtica; por el otro
extremo, si la prueba es unilateral, la curva es asinttica a 0:

112

Los grficos anteriores permiten concluir que cuando el valor real de un parmetro sometido a
prueba se aleja mucho del valor hipottico, la potencia de la prueba, o sea, la probabilidad de
descubrir un cambio en la situacin en estudio si lo hubo-, ser alta, y muy pequeo por tanto
el tamao probabilstico del error tipo II; pero ocurre lo contrario si el verdadero valor est muy
alejado del hipottico.
En general, se dice que una prueba es potente para un valor alternativo dado si su potencia es
mayor del 80 u 85%.
La funcin de potencia cumple adems con las dos propiedades siguientes, observables en los
grficos:
1. (0) =
2. (C) = = 0.5

113

Una de las principales aplicaciones de la funcin de potencia es determinar, mediante despeje,


el tamao de muestra necesario para que, una vez fijado el valor de , el valor de no
sobrepase una determinada cota.
Ejemplo ilustrativo:
Para ver una aplicacin de lo planteado respecto a los valores de , y la potencia de una
prueba, conviene analizar una situacin concreta, como la que se expone a continuacin:

El proceso de llenado de los paquetes de cereales en una determinada fbrica est ajustado de
forma tal que el peso neto de los paquetes sigue una distribucin normal con media de 368
gramos y una desviacin tpica de 15 gramos. La oficina local de proteccin a los consumidores
hace inspecciones peridicas para conocer si el peso de los paquetes de cereal producidos por
la fbrica tienen el peso adecuado; esta vez, para hacer los anlisis pertinentes se tom una
muestra aleatoria de 25 paquetes, calculndose el peso promedio, que result igual a 367.5
gramos.
a) Haga la prueba correspondiente para un = 0.05, si se desea conocer si el peso promedio
de los paquetes ha disminuido. Diga qu error pudiera cometerse, y cul es su tamao
probabilstico. Calcule la potencia de la prueba.
b) Si el gerente plantea que l est sobre todo interesado en detectar disminuciones en el peso
medio por encima de los 10 gramos, es potente la prueba para ello?
c) Qu pasara con la prueba si el gerente decide utilizar como valor crtico C = 367 gramos?
d) Qu tamao debe tener la muestra que se utilice si se quiere una significacin del 5% y
una potencia del 98% para detectar disminuciones de al menos 5 gramos en el peso
promedio?
Solucin:

a) Datos:
X: peso neto de las cajas de cereal (gramos)
0 = 368 = 15
n = 25
x = 367.5
= 0.05
Como X N ( ; ), siendo conocida, entonces x N ( ;/ n ), es decir, se usar la
distribucin Z.
Hiptesis:
Ho: = 368
H1: < 368
Regin crtica:

15

WC = x : x < 0 Z1
= {x : x < 368 1.64 3} = {x : x < 368 4.92}
= x : x < 368 Z 0.95
n
25

Por lo tanto la regin de rechazo ser: WC = { x : x < 363.08 }


Decisin:
x = 367.5 > 363.08

O sea: x WC

114

Esto indica que, con la significacin escogida ( = 0.05) no hay elementos para asegurar que el
peso medio de los paquetes de cereales es inferior a lo debido; la diferencia observada puede
deberse a la aleatoriedad de la propia muestra.
A partir de esta decisin, de haberse cometido un error, sera de tipo II. El tamao probabilstico
del posible error puede determinarse como sigue:

= P ( x WC / = k) = P ( x > C / = k)

Y luego, la potencia de la prueba ser: (k) = 1 - (k)


Dado que depende de algn valor especfico del parmetro, su clculo y el de la potencia
requieren que se considere algn valor alternativo para el verdadero peso neto medio de las
cajas (k). Pudieran considerarse, dos valores: k1 = 320, muy alejado de 0, y k2 = 367, muy
cercano de 0.
As, para una gran disminucin, hasta k1 = 320 se tiene:
(k1) = P ( x > C / = k1) = P ( x > 363.08 / = 320) = P ( Z >

363.08 320
15

25

) = P ( Z > 14.36 )

= 1 - FZ (14.36) = 1 1 = 0
Y la potencia correspondiente es: (k1) = 1 - (k1) = 1 0 = 1
Este resultado indica que existe una probabilidad muy pequea (casi cero) de concluir
que el peso promedio no ha disminuido o sea, de no detectar su disminucin- si en
realidad ha disminuido mucho. En trminos de la potencia, la prueba es muy potente
(=100%) para detectar disminuciones en el peso neto medio si ste realmente ha
disminuido mucho.

Por su parte, para una mnima disminucin, hasta k2 = 367 se tiene:


363.08 367
(k2) = P ( x > C / = k2) = P ( x > 363.08 / = 367) = P ( Z >
) = P ( Z > -1.31 )
15 25
= 1 - FZ (-1.31) = 1 0.0951 = 0.9049
Ahora la potencia correspondiente es: (k2) = 1 - (k2) = 1 0.9049 = 0.0951
Este otro resultado indica que existe una probabilidad alta de concluir que el peso
promedio no ha disminuido o sea, de no detectar su disminucin- si en realidad ha
disminuido muy poco. En trminos de la potencia, la prueba es muy poco potente
(=9.51%) para detectar disminuciones en el peso neto medio si ste ha disminuido
levemente.

b) Datos:
= -10 (disminucin de 10 gramos)
k = 0 + = 368 - 10 = 358
Lo que se quiere es determinar la potencia de la prueba para k = 358. Para ello se puede
calcular primero la correspondiente (k), o mejor, calcular directamente (k):

115

(k) = P ( x < C / = k) = P ( x < 363.08 / = 358) = P ( Z <

363.08 358
15

25

) = P ( Z < 1.69 )

= FZ (1.69) = 0.9545
Es decir, la prueba es altamente potente, pues existe un 95.45% de probabilidad de
detectar una disminucin en el peso neto medio de los paquetes si hay una disminucin
real de 10 gramos o ms.

c) Datos:
C = 367
Si se toma un valor crtico distinto, el nivel de significacin de la prueba o probabilidad de
cometer un error de tipo I cambia. En este caso, al ser mayor el nuevo valor crtico, estando
ms cerca de 0, el nivel de significacin debe aumentar, como se ve en la siguiente figura.

El nuevo valor de puede calcularse como sigue:


= P( x < C / = 0) = P( x < 367 / = 368) = P ( Z <

367 368
15

25

) = P ( Z < -0.33 )

= FZ (-0.33) = 0.3707
Se obtiene, pues, una probabilidad alta para el error tipo I, del 33.07%.

d) Datos:
= -5 (disminucin de 5 gramos)
k = 0 + = 368 - 5 = 363
= 0.05
(k) = 0.98
Se quiere determinar n para un nivel de significacin y una potencia prefijados, lo cual implica
que se despeje de la funcin de potencia:

k
Z 1 n k
= P Z < 0
( k ) = P( x < C / = k ) = P Z < C

n
n

O sea, la potencia deseada para la prueba es la probabilidad acumulada hasta el valor de Z


obtenido en la expresin anterior. Por tanto:

116

Z =

0 Z 1

n k
n

, donde: Z = Z0.98 = 2.05

Y efectuando los despejes previstos:

= 0 Z 1

(Z + Z1 )
Z + Z 1

Siendo, finalmente: n =

0
k

= 0 k

Z + Z 1
+ Z 0.95
Z

2.05 + 1.64
= 0.98
15 = (0.738 15 ) 2 = 11.07 2 = 122.54
15 =
n =

5
368
363

k
0

Entonces: n = 123
Esto quiere decir que se requiere una muestra de al menos 123 paquetes para
garantizar los requerimientos planteados para la prueba.
Consideraciones finales:

Para un determinado tamao de muestra, quien deba tomar la decisin tiene que equilibrar los
dos tipos de errores, pues siempre que se disminuye aumenta , y viceversa. Los valores
para y dependen de la importancia de cada riesgo en un problema en particular.
El riesgo de un error tipo I en el problema de llenado de los paquetes de cereales implica llegar
a la conclusin de que el peso promedio ha cambiado cuando en realidad no es as.
El riesgo de un error tipo II implica llegar a la conclusin de que el peso promedio de llenado
no ha cambiado cuando en realidad s ha cambiado.
As la seleccin de los valores que deben tener y depende de los costos inherentes a
cada tipo de error. Por ejemplo si fuera muy costoso hacer cambiar la lnea de llenado,
entonces se querra estar muy seguro de que un cambio resultara beneficioso por lo que un
error tipo I pudiera ser lo ms atendible y se mantendra muy bajo. Por otra parte, si se quiere
estar seguro de detectar los cambios para una media hipottica, el riesgo de un error tipo II,
sera lo ms importante y se podra utilizar un nivel ms alto de .
No obstante, al aumentar el tamao de la muestra se pueden controlar tanto como ,
pero puede haber lmites en los recursos disponibles, de ah la necesidad de tomar en cuenta
las consecuencias de cada error. Para la determinacin del tamao de muestra necesario se
recurre al despeje de la funcin de potencia.

117

EJERCICIOS DE AUTOEVALUCIN
1.-Para probar que una moneda no est trucada, se adopta la siguiente regla de decisin:
Acepte la hiptesis si el nmero de caras en una muestra simple de 10 lanzamientos est entre
40 y 60 inclusive de lo contrario rechace la hiptesis. Cul es la probabilidad de aceptar la
hiptesis de que la moneda no est trucada cuando la probabilidad real de obtener cara es P =
0.7?
2.- Una empresa fabrica cordel cuya carga de rotura tiene una media de 300 lbs y una
desviacin estndar de 24 lbs. Se cree que mediante un nuevo proceso de fabricacin la carga
media de rotura puede ser aumentada.
a) Disee una regla de decisin para rechazar el proceso antiguo a un nivel de significacin
de 0.01 si se est de acuerdo en probar 64 cordeles
b) Bajo la regla de decisin adoptada en el inciso (a) cul es la probabilidad de aceptar el
proceso antiguo, cuando en realidad el nuevo proceso ha aumentado la carga media de
rotura a 310 lbs.? Suponga que la desviacin estndar sigue siendo 24 lbs.
3.- Si la probabilidad de cometer un error tipo I disminuye, cmo afecta esto a la probabilidad
de cometer un error tipo II?
4.- Si la probabilidad de cometer un error tipo II disminuye, afecta esto a la probabilidad de
cometer un error tipo I?
5.- Que es ms importante controlar un error tipo I o el error tipo II?
6.- Cada semana, la polica del Estado de La Florida intercepta un promedio de $56 millones en
drogas que se transportan hacia el norte por una carretera interestatal. Durante 36 semanas
elegidas al azar en 1992, la polica intercept un promedio de $60 millones en drogas por
semana, con una desviacin estndar de $20 millones. Indica esta evidencia muestral un
aumento en el movimiento de drogas a travs de La Florida? Realice una prueba con un nivel
de significacin de 0.05. Calcule la probabilidad de que ocurra un error tipo II si la media
poblacional es en realidad $59 millones.
7.- Es posible controlar las probabilidades de error tipo I y tipo II en una prueba de hiptesis
particular? Si es as, cmo se logra?

118

5.3: Pruebas no paramtricas: Prueba chi-cuadrado de la bondad de ajuste para


verificar normalidad. Prueba chi-cuadrado para verificar el supuesto de
independencia. Tablas de contingencia.
Como se ha dicho, una prueba no paramtrica es aquella que no requiere del conocimiento de
parmetros o caractersticas de la distribucin poblacional. Existen pruebas no paramtricas
para los ms variados estudios, incluidos aquellos que tambin pueden realizarse mediante
pruebas paramtricas; no obstante, si se puede escoger para una investigacin dada entre
efectuar una prueba paramtrica y una no paramtrica, se debe preferir la paramtrica, pues
stas son siempre ms potentes que las no paramtricas equivalentes. La ventaja de las
pruebas no paramtricas radica precisamente en el hecho de que no se necesita del
conocimiento de caractersticas poblacionales que en muchos casos son ignoradas.
Entre las pruebas no paramtricas ms conocidas estn las llamadas pruebas chi-cuadrado,
que deben su nombre a que el estadgrafo de prueba utilizado sigue la distribucin homnima.
Las pruebas chi-cuadrado, en general, pretenden decidir sobre si una determinada variable,
emprica u observada, cumple una cierta condicin terica. La hiptesis nula en estas pruebas
siempre est asociada al cumplimiento de la condicin, y la verificacin se basa en comparar
los valores observados con los valores tericos esperados bajo dicha condicin: Si las
diferencias entre lo observado y lo esperado son muy grandes, es decir, mayores que un valor
tomado como crtico, se rechaza la hiptesis nula y se asume que no se cumple la condicin
supuesta. Dos de las aplicaciones inmediatas de las pruebas chi-cuadrado son las que se
conocen como pruebas para la bondad del ajuste y pruebas para independencia.
Las pruebas para la bondad del ajuste se utilizan para verificar si un grupo de datos u
observaciones se ajusta bien al comportamiento de alguna distribucin probabilstica conocida,
como la normal o la de Poisson. Existen muchos problemas donde el inters del investigador se
centra en contrastar hiptesis sobre cmo se distribuye el nmero de sucesos que pertenecen a
ciertas categoras; la prueba chi-cuadrado no es la nica aplicable a este tipo de estudios: para
anlisis de normalidad, por ejemplo, se utilizan mucho tambin la prueba Kolmogorov - Smirnov
y la prueba Jarque - Bera, entre otras.
Las pruebas de independencia buscan establecer si dos variables son independientes entre s
o no. Tampoco son las nicas en este sentido; cabe mencionar las de Cramer y las de Kendall.

PRUEBA CHI-CUADRADO PARA NORMALIDAD:


Tiene gran importancia el poder conocer si un grupo de datos sigue o no una distribucin
normal. La prueba 2 es adecuada para dar solucin a este tipo de problema.
Las hiptesis correspondientes a esta prueba son:
H0: x N (la variable sigue una distribucin normal)
H1: x / N (la variable no sigue una distribucin normal)
Para verificar la hiptesis de normalidad se toma una muestra aleatoria de tamao n y se
agrupan las observaciones en k clases o categoras, determinando para cada clase las
frecuencias observadas (oi noi). La prueba busca comparar tales frecuencias observadas con
las frecuencias esperadas bajo la condicin de normalidad (ei nei); las cuales se calculan
multiplicando el total de observaciones (n) por la probabilidad adjudicable a la variable de
pertenecer a cada clase asumiendo que hay normalidad (Pi), as: nei = n Pi

119

02

Y la regin crtica correspondiente es: WC =

El estadstico de prueba se define cmo:

02

(no ne )

ne

02

> 12 (k 3 )

Nota: De forma general el estadgrafo de prueba en las pruebas chi-cuadrado


para la bondad del ajuste tiene k - m -1 grados de libertad, siendo k la cantidad
de clases o categoras en que se ha distribuido la variable (garantizando que se
cumplan determinados supuestos), y m es la cantidad de parmetros que
caracterizan a la distribucin bajo anlisis: en el caso de una distribucin normal,
sta se caracteriza totalmente con y , luego m = 2, por lo que los grados de
libertad resultan k - 3.

Para realizar la prueba deben cumplirse los siguientes supuestos o restricciones:


9 Si k = 2, ninguna frecuencia esperada (ei nei) debe ser menor que 5
9 Si k > 2, solo el 20% de las frecuencias esperadas (ei nei) puede ser menor que 5
9 Ninguna frecuencia esperada (ei nei) puede ser menor que 1

En caso de que se viole algn supuesto, esto se resuelve agrupando clases adyacentes hasta
que se logre el cumplimiento. En cualquier caso, es evidente que al final de los clculos debe
cumplirse que: Pi = 1.
Procedimientos para el clculo de las Pi:

Como los datos suelen estar en su forma primaria, el primer paso es organizarlos, creando
clases, pues la distribucin normal corresponde a una variable continua. Para ello se debe
determinar el recorrido de la variable, decidir cuntas clases conviene usar y calcular el ancho
de clases necesarios. Una vez hecho esto se debern estimar los dos parmetros que
caracterizan a la distribucin normal: y . Con las correspondientes estimaciones se pasar a
calcular para cada clase la probabilidad de que una variable con distribucin normal pertenezca
a la misma; en este clculo, dado el comportamiento terico normal, la primera clase se
considera como originada en menos infinito (-), y la ltima clase como extendida hasta infinito
(). Con esas probabilidades se calculan las frecuencias esperadas, verificndose que se
cumplen los supuestos requeridos. Finalmente, se obtiene el valor del estadgrafo de prueba,
que permite tomar una decisin.
Como se aprecia, el procedimiento es bastante laborioso, sobre todo el clculo de la
probabilidad correspondiente a cada clase; por eso, si se tiene una muestra relativamente
grande (n mayor que 60 100 observaciones), se puede recurrir a un mtodo alternativo que
simplifica algunos clculos, y que se basa en la regla de las tres sigmas asociada a la
distribucin normal.
Vale la pena recordar que la regla de las tres sigmas establece que para toda distribucin
normal con media y desviacin tpica el rea bajo la curva de su funcin de densidad se
distribuye de la siguiente forma:

120

Lo cual equivale a decir que:


1. P( < X < +) = 68.27% del rea bajo la curva normal
2. P( 2 < X < +2) = 95.45% del rea bajo la curva normal
3. P( 3 < X < +3) = 99.73% del rea bajo la curva normal
El mtodo alternativo propuesto sugiere aprovechar esto para construir los intervalos de clase
de manera que las probabilidades correspondientes sean siempre valores fijos, dados por las
secciones en que queda subdividida el rea bajo la curva.
Entonces, se proceder como sigue:
9 Primeramente se estimarn y a partir de la totalidad de los datos sin tabular
9 Se crearn 6 clases, partiendo de la estimacin para en el centro de las clases (o sea,
como lmite superior de la tercera clase e inferior de la cuarta) y tomando como ancho
de clases la estimacin para .
9 Se adjudicarn las frecuencias observadas correspondientes a cada clase, y las
respectivas probabilidades, valores estos ltimos que siempre sern: 0.0228, 0.1359,
0.3413, 0.3413, 0.1359 y 0.0228.
9 Finalmente, se calcularn las frecuencias esperadas, y se verificar que se cumplan los
supuestos; luego se obtendr el estadgrafo de prueba.
Ejemplo:

A partir de la muestra siguiente, se quiere verificar, con un nivel de significacin del 5%, si la
misma procede de una poblacin normal.
10
10
16
19
20
17
21

12
11
16
20
19
16
22

13
15
20
17
19
23
22

14
10
17
18
18
24
21

15
15
18
20
17
23
22

22
26
30
29
27
27
29

28
26
28
26
27
31
33

30
28
27
26
26
32
33

30
27
26
28
26
33
32

29
29
30
29
28
33
31

121

24
24
24

23
23
24

24
20
23

23
21
21

21
21
22

35
34
31

32
37
38

31
41
36

38
39
36

39
41
40

Solucin:

En el problema se tiene que: n = 100 y X = 2500


Por tanto: = x =

1
n

X =

2 = s 2 =

1
n 1

2500
= 25
100

( X x)

5420
= 54.75
99

y: s = 54.75 = 7.4

Es decir, se partir de x = 25 como valor que cierra la tercera clase y abre la cuarta, y tomando
como ancho de clase c = s = 7.4, se crearn las clases y la tabla de frecuencias:
clases
- 10.2
10.2 17.6
17.6 25.0
25.0 32.4
32.4 39.8
39.8

noi

3
14
34
33
14
2

Pi
nei = nPi
0.0228
2.28
0.1359
13.59
0.3413
34.13
0.3413
34.13
0.1359
13.59
0.0228
2.28

Nota: Puesto que las clases se han creado atendiendo al criterio derivado de la regla de
las 3 sigmas, las probabilidades correspondientes son los valores antes listados. No
obstante, a continuacin se muestra cmo calcularlas, para el caso en que no se quiera
o no se pueda seguir este mtodo, o incluso siguindolo no se recuerden las
probabilidades:

P1 = P( x 10.2 ) = P [ z (10.2 25)/ 7.4 ] = P ( z -2 ) = Fz (-2) = 0.0228


P2 = P( 10.2 < x 17.6 ) = P( -2 < z -1 ) = Fz (-1) - Fz (-2) = 0.1587 - 0.0228 = 0.1359
P3 = P( 17.6 < x 25 ) = P ( -1 < z 0 ) = Fz (0) - Fz (-1) = 0.5 - 0.1587 = 0.3413
P4 = P( 25 < x 32.4 ) = P( 0 < x 1 ) = Fz (1) - Fz (0) = 0.8413 - 0.5 = 0.3413
P5 = P( 32.4 < x 39.8 ) = P( 1 < z 2 ) = Fz (2) - Fz (1) = 0.9772 - 0.8413 = 0.1359
P6 = P( x > 39.8) = P( z > 2 ) = 1 - Fz (2) = 1 - 0.9772 = 0.0228
Una vez completada la tabla se debe comprobar el cumplimiento de las restricciones, y se
verifica que:
Pi = 1
Todas las frecuencias esperadas son mayores que 1

122

Dos clases tienen frecuencias esperadas menores que 5, de un total de seis, lo que
equivale a decir que el 33% de las frecuencias esperadas (2/6 = 0.33) son menores que
5, por lo que se viola esta restriccin.

Para remediar el no cumplimiento en la restriccin anterior se debe agrupar clases adyacentes;


en este caso se pudieran agrupar la primera y la segunda clases, o la quinta y la sexta, y como
hay dos posibilidades de agrupamiento se debe preferir aquella en donde inicialmente hay ms
diferencias entre las frecuencias esperadas y los observadas, que aqu se corresponde con las
clases primera y segunda. La tabla, despus de agrupadas las clases queda:
clases
- 17.6
17.6 25.0
25.0 32.4
32.4 39.8
39.8

noi
17
34
33
14
2

n ei
15.87
34.13
34.13
13.59
2.28

Ahora, de cinco clases en total, una tiene la frecuencia esperada menor que 5, lo que hace
constituye el 20%, que es justo el mximo admitido para esta restriccin, que se puede dar ya
entonces por cumplida. Queda, pues, k = 5.
Hiptesis:
H0: x N
H1: x / N
Regin crtica:
WC = 02 : 02 > 12 (k 3 ) = 02 : 02 > 02.95 ( 2 ) = 02 : 02 > 5.99

} {

} {

Decisin:

El estadgrafo de prueba

es: 02

( = 0.05 )

(no ne )

ne

02 =

(17 15.87)
15.87

(34 34.13 )
34.13

(33 34.13 ) 2 + (14 13.59) 2 + (2 2.28) 2


34.13

13.59

2.28

= 0.1374

02 = 0.1374 < 5.99 O sea: 02 WC , por lo que no se rechaza H0.


Esto quiere decir que puede aceptarse, con una significacin del 5%, que los datos siguen una
distribucin normal.

PRUEBA CHI-CUADRADO PARA INDEPENDENCIA:


Otro problema que requiere de una prueba estadstica es el de contrastar el supuesto de
independencia estadstica entre dos variables aleatorias. La prueba resultante puede ser
aplicada para variables tanto cualitativas como cuantitativas.
Las hiptesis correspondientes son:
H0: X y Y son independientes

123

H1: X y Y son dependientes

no 11 no 12
no 21 no 22

Yk

nX

no 1k
no 2k

nX1
nX2

Y2

Y1

no i j

 Y
X
X1
X2

Para desarrollar la prueba las dos variables sobre las que se plantean las hiptesis se
clasificarn conjuntamente en categoras o clases, en una tabla denominada tabla de doble
entrada o tabla de contingencia, como la mostrada:

Xr
nY

no r1 no r2
nY1 nY2

no rk
nYk

nXr
n

Se denota por k la cantidad de categoras en que se clasifica la variable Y, o sea, la cantidad de


columnas, y por r la cantidad de categoras de la variable X, o lo que es lo mismo, la cantidad
de filas; as, en una muestra de n observaciones, los datos sern clasificados en kr grupos.
Las frecuencias denotadas por no i j dentro de la tabla son las llamadas frecuencias observadas
conjuntas, y representan la cantidad de veces que se observan a la vez el valor Xi de X con el
valor Yj de Y ( Se suele reservar el subndice i para la X y el subndice j para la Y ).
En los bordes derecho e inferior de la atabla aparecen las llamadas frecuencias marginales de
X y de Y respectivamente (nX y nY), que representan el total de observaciones para cada valor
de la correspondiente variable, sin tener en cuenta los valores de la otra, siendo:
nY =
j

i=1

no

ij

n Xi =

noij
j=1

Para cada par (Xi ; Yj) deben calcularse las frecuencias esperadas bajo la hiptesis de
independencia, que se denotan por ne i j y suelen ponerse entre parntesis junto a la frecuencia
observada correspondiente. Para ello se necesita tambin calcular la probabilidad (Pi j) de que
ocurra cada par de valores (Xi ; Yj) siendo las variables independientes.
Las frecuencias esperadas se calculan como: ne i j = n Pi j
Y las probabilidades correspondientes se pueden obtener partiendo de la condicin de
independencia, as:
n X n Yj n Xi n Yj
Pi j = Pi j Pi j = i
=
n
n
n2
Aqu: Pi j representa la probabilidad de pertenecer a la clase o celda (i, j)
Pi representa la probabilidad de pertenecer a la clase i de la variable X
Pj representa la probabilidad de pertenecer a la clase j de la variable Y
Nota. En funcin de lo anterior, pudiera encontrarse un equivalente para las
hiptesis planteadas; es decir:
H0: X y Y son independientes

equivale a:

H0: Pi j = Pi Pj

124

H1: X y Y estn relacionadas

H1: Pi j = Pi Pj

equivale a:

Finalmente, las frecuencias esperadas quedan:


nX nY
i
j
ne =
ij
n
Dichas frecuencias esperadas deben cumplir con los mismos supuestos o restricciones que en
la prueba para verificar normalidad, es decir:
9 Ninguna frecuencia esperada puede ser menor que 1
9 No ms de un 20% de las frecuencias esperadas pueden ser menores que 5
El estadgrafo de prueba tambin se calcula de la misma manera, teniendo en cuenta que la
sumatoria incluye ahora dos variables:

02 =

ij

n n
oij
eij

ne

ij

En este caso los grados de libertad asociados al estadgrafo son el producto (k-1)(r-1), por lo
que la regin crtica toma la forma:
WC = 02 : 02 > 12 [(k 1)(r 1)]

Ejemplo:

Una muestra aleatoria simple de 300 estudiantes universitarios de las carreras de Economa y
Contabilidad arroj los siguientes resultados respecto a la distribucin de las evaluaciones en
Estadstica:
Evaluacin:
Carrera:
Economa
Contabilidad
Total

Total

27
24
51

85
44
129

50
40
90

18
12
30

180
120
300

Puede afirmarse con base en estos datos, que entre la poblacin de estudiantes universitarios
de las carreras de Economa y Contabilidad hay diferencias respecto a sus resultados en
Estadstica? Utilice un nivel de significacin del 5%.
Solucin:
Datos:
n = 300

r = 2 (carrera: nmero de filas)

k = 4 (evaluaciones: nmero de columnas)

Nota: Decir que los resultados en Estadstica se diferencian para las carreras de
Economa y Contabilidad equivale a decir que dichos resultados dependen de la
carrera que se estudia, por lo que puede efectuarse la verificacin mediante una
prueba chi-cuadrado para independencia.
Hiptesis:
H0: Los resultados en Estadstica son independientes de la carrera
125

H1: Los resultados en Estadstica dependen de la carrera


En la tabla de contingencia se tienen las distintas frecuencias observadas; es
necesario adems calcular las correspondientes frecuencias esperadas, as:
ne =

nX nY
i

ij

Por ejemplo, ser:


ne

11

nX nY
1

51 180
= 30.6
300

ne

24

nX nY

30 120
= 12
300

Y sustituyendo los distintos valores en la tabla de contingencia, queda:


Evaluacin:
Carrera:
Economa
Contabilidad
Total

Total

27 (30.6)
24 (20.4)
51

85 (77.4)
44 (51.6)
129

50 (54)
40 (36)
90

18 (18)
12 (12)
30

180
120
300

Como se ve, todas las frecuencias esperadas son directamente mayores que 5,
por lo que se cumplen los supuestos o restricciones, y se mantiene la cantidad
original de filas y columnas (r = 2 y k = 4).
Regin crtica:
WC = 02 : 02 > 12 [(k 1)(r 1)] = 02 : 02 > 02.95 [(1)(3 )] = 02 : 02 > 02.95 ( 3 ) = 02 : 02 > 7.81

} {

} {

} {

Decisin:
02 =

(27 30.6) 2 (85 77.4) 2 (50 54) 2 (18 18) 2 (24 20.4) 2 ( 44 51.6) 2 ( 40 36) 2 (12 12) 2
+
+
+
+
+
+
+
30.6
77.4
54
18
20.4
51.6
36
12

02 = 3.665 < 7.81

O sea: 02 WC , por lo que no se rechaza H0.

Esto quiere decir que, con una significacin del 5%, no existen elementos para afirmar que los
resultados en Estadstica entre los estudiantes de Economa y Contabilidad dependen de la
carrera que estudian; en otras palabras, no hay diferencias significativas en cuanto a los
resultados en Estadstica entre ambas carreras.

EJERCICIOS DE AUTOEVALUACIN
1.- Para que se utiliza la prueba o dcima de bondad del ajuste? Cuales son las restricciones
que se tiene en cuenta para aplicar la distribucin 2 a esta prueba no paramtrica? Cmo se
plantearan las hiptesis en este tipo de prueba? Cmo se calculan las frecuencias
esperadas?
2.- Por qu es necesario al calcular las Pi que estas sumen 1?

126

3.- Una muestra aleatoria de 500 acumuladores para automviles mostr la siguiente
distribucin: de la duracin en aos de los acumuladores.
Intervalos
0 a 2
2 a 4
4 a 6
6 a 8
8 a 10
10 a 12

ni
12
94
170
188
28
8

Pruebe a un = 0.05, si dicha distribucin sigue una distribucin normal. Utilice la


prueba de 2.
4.- La corporacin SIMEX tiene varios miles de trabajadores por hora. La analista de la
corporacin quiere determinar si la distribucin normal se puede utilizar para describir la escala
de salarios por hora de la corporacin; para ello seleccion una muestra aleatoria de
trabajadores por hora y se registr sus salarios. La analista encontr que la media y la
desviacin tpica muestral son $8.00 y $0.78 respectivamente. Realice la prueba deseada para
un del 5%.
Intervalos
ni
<
5.66
12
5.66 6.44
38
6.44
7.22 104
7.22
8.00 131
8.00
8.78 117
8.78
9.56
98
9.56 10.34
47
>
10.34
13
560
5.- El director de mercadotecnia de una compaa de televisin por cable est interesado en
determinar si hay alguna diferencia en la proporcin de hogares que contratan el servicio de
cable por televisin, sobre la base del tipo de residencia (viviendas para una sola familia,
viviendas para 2 4 familias y edificios de apartamentos). Una muestra aleatoria de 400
hogares mostr lo siguiente:
Tipo de casa Casa de una
TV cable
sola familia
S
94
No
56
150
Total

Casa de 2 a 4 Edificio de
familias
apartamentos
39
77
36
98
75
175

Total

210
190
400

Con un = 0.01, podra considerar que hay relacin entre la contratacin de servicios
de TV por cable y el tipo de residencia?
6.- Por qu no se debe aplicar la prueba chi-cuadrado para la independencia cuando las
frecuencias esperadas en algunas celdas sean menores que 5? Qu accin se puede llevar a
cabo en estas circunstancias que permitan analizar esos datos?

127

7.- Una gran corporacin esta interesada en determinar si existe asociacin entre el tiempo que
le toma a sus empleados trasladarse al trabajo, y el nivel de problemas relacionados con el
estrs observado en los mismos, con vistas a situarles un mnibus si esto se comprueba. Un
estudio de 116 trabajadores de la lnea de montaje revel lo mostrado en la tabla que sigue.
Determine si hay relacin entre el tiempo de viaje y el estrs.
Estrs
Tiempo Viaje
Menos de 15 min
De 15 a 45 min
Ms de 45 min
Total

Alto
9
17
18
44

Moderado Bajo
5
8
6
19

18
28
7
53

Total
32
53
31
116

128

TEMA VI: ANLISIS DE VARIANZA


6.1: Conceptos bsicos del anlisis de varianza. Modelo de clasificacin simple.
Supuestos del mtodo.
Se inicia aqu el estudio de una tcnica llamada anlisis de varianza, de marcada importancia
dentro de la Estadstica, en particular para el diseo de experimentos. Su fin inmediato es
aplicar una prueba de hiptesis para la comparacin de medias entre varias poblacionales,
sobre la base de datos muestrales. Ejemplos de aplicacin son los siguientes:

La decisin acerca de qu mtodo de produccin abarata ms los costos.


La comparacin de la produccin media por hectrea de distintas variedades de
un cultivo.
La investigacin sobre qu tipo de fertilizante da mejores rendimientos.
La evaluacin en un laboratorio mdico sobre el efecto de diferentes
medicamentos en la presin sangunea.
La verificacin de la similar efectividad de tres mtodos de enseanza de una
lengua extranjera.

El anlisis de varianza como tcnica es un instrumento estadstico poderoso que trata de


determinar si el efecto aislado de un factor externo o de un conjunto de factores externosincide sobre el comportamiento de una variable o caracterstica en estudio. Para ello se debe
contar con observaciones de la variable bajo diferentes influencias del factor externo, de
manera que puedan compararse los promedios de la variable correspondientes a los distintos
valores del factor.
En casi toda la bibliografa sobre el anlisis de varianza utiliza el smbolo Y, en vez de X, para
denotar la variable en estudio, justificado esto por el hecho de que se asume que es una
variable que puede estar dependiendo de otra u otras-: el factor externo, y los matemticos
prefieren explicitar as una variable dependiente.
En cuanto al factor externo, el mismo puede ser considerado como una variable independiente,
cuya naturaleza puede ser tanto cualitativa como cuantitativa; pero lo que interesa de l son los
distintos valores que toma, a los que se les llama niveles, y su efecto en los valores de la
caracterstica medible o variable dependiente.
Esta tcnica pretende expresar la variabilidad total del conjunto de datos como una suma de
trminos que se pueden atribuir a distintas fuentes o causas especficas de variacin. A esa
descomposicin de la variabilidad total se le denomina identidad fundamental del anlisis de
varianza. La identidad fundamental da pie a la formacin de un estadstico de prueba, y todo
ello se refleja en una tabla llamada tabla de anlisis de varianza o tabla ANOVA, por las
siglas en ingls, que resume los principales aspectos terico-prcticos de la tcnica.

ANLISIS DE VARIANZA DE CLASIFICACIN SIMPLE:


Atendiendo a la cantidad de factores externos considerados en el modelo el mtodo de anlisis
de varianza se clasifica en simple (un nico factor), doble (dos factores), y mltiple (ms de
factores).

129

Es comn representar con k la cantidad de niveles o valores distintos del factor externo, a lo
que tambin se llama cantidad de poblaciones en comparacin, y cada una da lugar a una
muestra o grupo de observaciones. La notacin en uso tiende adems a indicar con un
subndice i los diferentes niveles o poblaciones a los que da origen (1 i k), y con un
subndice j las distintas observaciones correspondientes a las muestras o grupos tomados para
cada poblacin o nivel.
En el anlisis de varianza de clasificacin simple se trata entonces de decidir si un
determinado factor externo influye o no sobre una variable, juzgando mediante una prueba de
hiptesis- si la variabilidad que se observa en la variable es atribuible al azar o si realmente se
debe a la influencia de dicho factor.
Ejemplo:

Se desea comparar el efecto de tres tipos de pienso para cerdos en el incremento


en peso de los animales.
La caracterstica medible o variable dependiente es el incremento en peso de los
cerdos.
El factor externo o variable independiente es el tipo de pienso.
Los niveles del factor son cada uno de los tipos de pienso.
Las poblaciones en comparacin son en este caso tres (k = 3): los posibles cerdos
alimentados con cada tipo de pienso; y de cada una de ellas se debe disponer de
una muestra aleatoria.
Las hiptesis en el anlisis de varianza tienen siempre la siguiente forma:
H0: 1 = 2 = = k (las medias de las k poblaciones son todas iguales)
H1: Al menos una i difiere de las dems
O sea, la hiptesis nula recoge el hecho de que las medias correspondientes a cada poblacin
en estudio sean todas iguales, lo cual equivale a que el factor externo no incide sobre la
variable. La hiptesis alternativa habla de diferencias entre las medias de algunas poblaciones,
lo que est asociado entonces con alguna influencia del factor externo.
Fundamentacin terica del mtodo:

Ya se ha dicho que la este mtodo se basa en expresar la variabilidad total del conjunto de
datos como una suma de trminos que se pueden atribuir a distintas fuentes o causas
especficas de variacin, y para ello se hace uso ve varios teoremas importantes en el campo
de la Estadstica.
Hay un teorema que plantea que si se unen k poblaciones, de respectivo tamao Ni, pero con
igual varianza 2, entonces la varianza total asociada a la nueva megapoblacin o poblacin
global ser:

130

N (
i

2T

i=1

= +

, siendo N = Ni el tamao de la poblacin global.

Por lo tanto, si todas las medias son iguales ser: 2T = 2 .


Por otra parte, si alguna media poblacional es diferente, se puede concluir que 2T > 2 .
De modo que una comparacin de varianzas puede conducir a una conclusin sobre la
igualdad de medias poblacionales. El mtodo que se utiliza es a travs de los
estimadores de 2.

Hay otro teorema que plantea que si dos o ms muestras proceden de una misma poblacin, o
de diferentes poblaciones con igual varianza 2, entonces podr obtenerse un estimador de 2 a
travs de la siguiente expresin:
S D2 =

1
nk

(y

ni

ij

yi

( )

siendo: E S D2 = 2

j=1

A esta varianza se le da el nombre de varianza dentro del grupo, y dada la forma de su valor
esperado se cumple que SD2 siempre es un estimador insesgado de 2.
Conviene destacar que esta varianza, como es insesgada, proporciona una estimacin vlida
de la varianza desconocida de la poblacin sin importar si se acepta o rechaza H0.
Un teorema ms establece que, bajo la misma condicin de que todas las varianzas
poblacionales son iguales a 2, otro estimador de 2 es:

n ( y
k

S E2

i=1

k 1

siendo: E

( )=
SE2

n (
i

i=1

k 1

A este varianza de le denomina varianza entre grupos, y dada la forma matemtica de su valor
esperado se ve que SE2 es un estimador sesgado de 2, que se hace insesgado slo si
todas las medias poblacionales son iguales, o sea, si se cumple la hiptesis nula planteada
para el anlisis de varianza.
En el caso del anlisis de varianza de clasificacin simple, la variacin total en los datos se
divide en dos fuentes: variacin entre grupos y variacin dentro de grupos, y esto se expresa
mediante las llamadas sumas de cuadrados, que son los denominadores de las varianzas. As,
se tendra una suma de cuadrados total (SCT), una suma de cuadrados entre grupos (SCE) y
una suma de cuadrados dentro de grupos (SCD), quedando la identidad fundamental del
anlisis de varianza como sigue:
SCT = SCD + SCE
Donde:
SCE =

(y
ij

y)2 =

n (y
i

y)2

131

(y

SCD =

ij

y i )2 =

ij

y )2

ij

SCT =

(y

(n 1) s
i

2
i

ij

La suma de cuadrados entre grupos busca las diferencias de las medias de cada grupo
respecto a la media de la muestra conjunta; por tanto, en el caso en que la hiptesis nula del
anlisis de varianza sea cierta esta diferencia entre grupos ser mnima. La suma de cuadrados
dentro de los grupos lo que hace es comparar cada elemento de la muestra con la media de su
propio grupo.
Una representacin grfica del origen de estas variaciones es siempre til para comprender su
significado:

Es evidente que: ( y ij y ) = ( y ij y i ) + ( y i y )
Si se eleva al cuadrado ambos miembros, y se suma sobre todos los grupos (i) y todas las
observaciones correspondientes (j), tras hacer algunas transformaciones matemticas se llega
a la identidad fundamental planteada anteriormente:
k

ni

(y

ij

i=1 j=1

ni

) (y
2

y =

ij

i=1 j=1

) n (y y )
2

yi +

(SCT = SCD + SCE)

i=1

Desarrollo prctico del mtodo:

En la simbologa usada al definir las sumas de cuadrados se tiene que:


ni
n = ni

Representa el tamao de muestra correspondiente a la poblacin isima.


Representa el tamao de la muestra conjunta, o sea, el total de
observaciones.

132

1
n

ij

Representa la media de todas las observaciones efectuadas, es


decir, de la muestra conjunta.

1
yi =
ni

ij

Representa la media de las observaciones correspondientes a la


muestra i-sima.

(y

yi

y=

s i2 =

1
ni 1

ij

ij

Representa la estimacin de la varianza efectuada a partir de la


muestra i-sima.

No obstante, como el clculo manual de las sumas de cuadrados es bastante laborioso, sobre
todo si se tienen que estimar previamente las medias y varianzas de cada grupo, y la media
global, cuando estas estimaciones no se tienen de antemano que es lo comn- se suele
recurrir a frmulas alternativas que simplifican un poco el proceso, y estas son:
SCE =

T i2
T2

ni
n

n es el tamao de la muestra global, y n el de cada grupo


T = y son los totales (suma de observaciones) de cada grupo

Donde: n =

ij

T=

T es el total de la muestra conjunta


i

SCT =

y ij2

y ij2

ij

SCD =

ij

T2
n

Ti2
ni

Esta ltima, dado el carcter aditivo de las sumas de cuadrados, se acostumbra a


obtener por diferencia, es decir como:
SCD = SCT SCE

De la misma forma resulta de gran importancia en el anlisis de varianza la relacin entre los
grados de libertad asociados a cada suma de cuadrados, y que son:
GLE = k -1 (grados de libertad entre grupos)
GLD = n - k (grados de libertad dentro de grupos)
GLT = n - 1 (grados de libertad totales)
Para los grados de libertad se cumple tambin que:
GLT = GLD + GLE
O explcitamente:
(n 1) = (n k) + (k 1)

133

Al dividir las sumas de cuadrados entre sus grados de libertad se obtienen los distintos
cuadrados medios o estimadores de 2, es decir la varianza total ST2, la varianza dentro del
grupo SD2, y la varianza entre grupo SE2; siendo los dos ltimos los de verdadero inters para la
aplicacin de la tcnica, pues del cociente de estos se obtiene el estadgrafo de prueba F0. As
se tiene:
SCD
SCE
S D2 = CMD =
y
SE2 = CME =
nk
k 1
Y el estadgrafo de prueba es: F0 =

S E2
S D2

Debido a que el clculo de varianzas entre y dentro de grupos conlleva varios pasos, se
acostumbra a resumir estos resultados en una tabla conocida como tabla de anlisis de
varianza (ANOVA). Esta tabla incluye las fuentes de variacin, las sumas de los cuadrados (es
decir las variaciones), los grados de libertad, las varianzas o cuadrados medios y el valor del
estadstico de prueba F0, obtenido del cociente SE2/SD2:
Fuentes de
Variacin
entre
grupos

Sumas de
Cuadrados

SCE

dentro de
grupos

SCD

total

SCT

Tabla ANOVA
Grados de
Varianzas o
Libertad
Cuadrados Medios
SCE
sE2 =
k-1
n 1
SC
D
s D2 =
n-k
nk

Estadgrafo
F0 =

sE2
sD2

n-1

Al estadgrafo se le llama F porque se ha probado que la razn de dos varianzas tiene asociada
una distribucin probabilstica F de Fisher, cuyos grados de libertad en este caso coinciden con
los de las sumas de cuadrados en el numerador y en el denominador, es decir: F0 F(k-1;n-k).
Con el fin de determinar si las medias de los diversos grupos son todas iguales, se pueden
examinar dos estimadores diferentes de la varianza de la poblacin. Uno de los estimadores se
basa en la suma de los cuadrados dentro de los grupos (SCD); el otro se basa en la suma de los
cuadrados entre los grupos (SCE). Si la hiptesis nula es cierta, estos estimadores deben ser
aproximadamente iguales; si es falsa el estimador basado en la suma de los cuadrados entre
grupos debe ser mayor.
El estimado de la varianza entre los grupos no solo toma en cuenta las fluctuaciones aleatorias
de una observacin a otra, sino tambin mide las diferencias de un grupo con otro. Si no hay
diferencia de un grupo a otro, cualquier diferencia en la media muestral se explicar por la
variacin aleatoria, y la varianza entre grupos, debe estar cerca de la varianza dentro de los
grupos. Sin embargo si en realidad hay una diferencia entre los grupos, la varianza entre grupos
ser significativamente mayor que la varianza dentro de los grupos.
Por todo lo anterior, la prueba estadstica se basa en la razn de las varianzas SE2/SD2. Si la
hiptesis nula es cierta, esta razn debe estar cercana a uno; si la hiptesis nula es falsa
entonces el numerador debe ser mayor que el denominador y la razn debe ser mayor que uno

134

Como se aprecia el problema se reduce a buscar un valor a partir del cul el estadstico de
prueba resulte significativamente mayor que 1, y as se rechazar la hiptesis de que no hay
diferencias entre las medias de los grupos cuando la razn entre las varianzas o cuadrados
medios sea mayor que el valor tomado crtico: SE2/SD2 = CME/CMD > F1 ( k 1;n k)
De aqu se infiere que las hiptesis nula y alternativa que se plantearn sern las siguientes:
H0: 1 = 2 = . . . = k
H1: alguna i diferente
Es bueno sealar que estas hiptesis son equivalentes a decir:
H0 :

( )
( )

E SE2
=1
E SD2

H1 :

( )>1
E(S )
E S E2

2
D

Ya que como se vio anteriormente SE2 es un estimador sesgado de la varianza total, y slo ser
insesgado si se cumple que H0 es cierta, mientras que SD2 es siempre un estimador insesgado.
Adems sta es la razn por la cul la distribucin a utilizar es la F de Fisher, pues parte de la
relacin entre dos varianzas. La regin crtica siempre es hacia la derecha ya que el problema
se reduce a buscar un valor a partir del cul el estadstico de prueba resulte significativamente
mayor que 1 para rechazar la hiptesis nula.
O sea, la regin crtica toma la forma:

S2
W C = F0 = E2 : F0 > F1 (k 1 ; n k )
SD

Supuestos del modelo del anlisis de varianza:

Para aplicar la tcnica del anlisis de varianza es necesario que se cumplan las siguientes
suposiciones sobre los datos investigados:
1. Las varianzas de las k poblaciones son iguales, o sea: 12 = 22 = = k2
2. Las caractersticas medibles se distribuyen normalmente en cada poblacin; esto es:
Yi N(i ; i), donde i = 1, 2,,k.
3. Las caractersticas medibles son estadsticamente independientes de una poblacin a
otra: Y1, Y2,..., Yk.
4. Las muestras n1, n2,...,nk de los k grupos poblacionales son seleccionadas mediante un
muestreo aleatorio simple.
De estos supuestos el ms importante es el primero citado, bajo el que se asume que las
varianzas poblacionales son iguales para todos los grupos en comparacin, el cual es conocido
como supuesto de igualdad u homogeneidad de varianzas, o ms tcnicamente como supuesto
de homocedasticidad (igual variabilidad). De incumplirse el supuesto de homocedasticidad se
invalida el resultado obtenido al aplicar la prueba del anlisis de varianza, por ello resulta til
ante la duda verificar antes (o despus si se prefiere) su cumplimiento.
Verificacin del supuesto de homocedasticidad: Prueba de Bartlett

135

Para verificar el cumplimiento del supuesto de homocedasticidad se utiliza, entre otras, la


llamada prueba o dcima de Bartlett -en honor al matemtico que la introdujo-, cuya hiptesis
nula habla de la existencia de homocedasticidad y la alternativa de la no existencia, o lo que es
lo mismo, de la presencia de heterocedasticidad, como sigue:
H0: 12 = 22 = = k2 (las varianzas de las k poblaciones son todas iguales)
H1: Al menos una i2 difiere de las dems
Bartlett encontr que, si para cada poblacin se contaba con una muestra de al menos cinco
observaciones (ni 5), el cociente representado por M/C segua con muy buena aproximacin
una distribucin chi-cuadrado, y poda ser utilizado como estadgrafo de prueba con la regin
crtica dada por:

M M
WC = :
> 12 ( k 1)

C C
El valor de M se calcula como:
M = (n k ) ln( s D2 )

(n 1)ln(s
i

2
i )

M = 2,3026 (n k ) lg( sD2 )

(n 1)lg(s
i

2
i )

En estas expresiones equivalentes ln indica el logaritmo natural y lg el logaritmo decimal. Como


este ltimo es ms sencillo de obtener usando tablas de logaritmos, se suele plantear la
expresin en trminos del logaritmo decimal y luego multiplicar por 2.3026, que es el factor de
conversin de logaritmos decimales en naturales.
A su vez, sD2 (tambin CMD) es la varianza o cuadrado medio dentro de grupos ya obtenida
previamente durante el clculo de F0:
SC D
sD2 CMD =
nk
Y si2 representa la estimacin de la varianza para el i-simo grupo:
s i2 =

1
ni 1

(y

ij

yi

Por su parte, C se calcula como:

C = 1+

3(k 1)

1
1

n k
i 1

Ejemplo:

Los datos tabulados corresponden a muestras aleatorias del costo de


produccin, en centavos, de un producto fabricado bajo tres tecnologas
diferentes.
a) Se quiere realizar una prueba estadstica a un 5% de significacin para
decidir si existen diferencias entre las tecnologas que puedan afectar los
costos correspondientes (o lo que es lo mismo, si el costo de produccin
medio depende o no de la tecnologa).
b) Se quiere tambin verificar el cumplimiento del principal de los supuestos
asociados al anlisis anterior.

Tecnologas
A B
C
7
2
7
4
4
8
6
5
7
4
6
11
9
3
7

136

Solucin:

La variable en estudio (Y) es el costo de produccin del producto, y el factor externo en este
caso son las tecnologas.
Datos iniciales:

n = 15

k=3

a) Verificacin de la igualdad o no de costos medios entre las tecnologas:


Hiptesis:
H0: 1 = 2 = 3
H1: alguna i diferente
Nivel de significacin elegido: = 0.05
Regin crtica:
W C = F0 : F0 > F1 (k 1 ; n k ) = F0 : F0 > F0.95 (2 ; 12 ) = {F0 : F0 > 3 .89 }

} {

Regla de decisin:
Rechazar H0 si F0 > 3.89
No rechazar H0 si F0 3.89

Ahora, para calcular el estadgrafo de prueba, F0, se requiere contar con la llamada tabla
ANOVA, y para llegar a sta conviene crear una tabla auxiliar a partir de los datos muestrales.
Dicha tabla auxiliar se puede preparar atendiendo a lo que se necesita a partir de las frmulas
abreviadas para las sumas de cuadrados; a continuacin se muestra la aqu usada, donde se
traspuso por comodidad el orden de los datos, quedando ahora las observaciones para los
distintos niveles o poblaciones en filas.
Tecnologa
Yi j
7 4 6 4 9
A
2 4 5 6 3
B
7 8 7 11 7
C
Totales:

ni
5
5
5
15

Ti
30
20
40
90

Ti 2
900
400
1600

Ti2/ni
180
80
320
580

Y2i j
49 16 36 16 81 / 198
4 16 25 36 9 / 90
49 64 49 121 49 / 332
620

Nota: Debe tenerse en cuenta que el subndice i representa las muestras (aqu
en distintas filas), y el j las observaciones.
Resumiendo: n = 15; T = 90; k = 3; n1 = n2 = n3 = 5
Luego:
SC T =

ni

i=1 j=1

Yij2

T2
= 620 902/15 = 620 8100/15 = 620 540 = 80
n

137

SCE =

i=1
k

SCD =

Ti2 T 2

= 580 540 = 40
ni
n
ni

y ij2

i=1 j=1

i=1

Ti2
= 620 580 = 40
ni

Esta ltima tambin se puede calcular utilizando la identidad fundamental y despejando:


SCT = SCD + SCE

SCD = SCT SCE = 80 40 = 40

Y ya se est en condiciones de completar la tabla de anlisis de varianza para el clculo del


estadstico de prueba.
Tabla ANOVA
Fuente de
Sumas de
Grados de
Cuadrados
Estadstico de
Variacin
cuadrado
libertad
medios
prueba
Entre grupos

40

20

Dentro de grupos

40

12

3.33

Total

80

14

Decisin:
F0 = 6.06 > 3.89

F0 =

20
= 6.06
3.3

Por tanto, se rechaza H0, o sea, se acepta H1.

Esto indica que existen diferencias significativas entre los costos de produccin para al menos
una de las tecnologa, a un 5% de significacin
Si se quisiera saber cul tecnologa es diferente se pudiera completar el anlisis comparando
dos a dos dichas tecnologas.
b) Verificacin de la igualdad o no de varianzas entre las tres tecnologas:
Hiptesis:
H0: 12 = 22 = 32
H1: alguna i2 diferente
Nivel de significacin: = 0.05 (el mismo anterior)
Regin crtica:
M M
M M
M M

WC = :
> 12 ( k 1) = :
> 02.95 ( 2 ) = :
> 5 .99
C C
C C
C C

Regla de decisin:
Rechazar H0 si M/C > 5.99
No rechazar H0 si M/C 5.99

Para calcular el estadgrafo de Bartlett, M/C, se puede crear otra tabla auxiliar a partir de los
datos muestrales, como la siguiente:
138

A
7
4
6
4
9

B
2
4
5
6
3

C
7
8
7
11
7

ij

4,5

2,5

ni
yi =
s i2 =

1
ni 1

1
ni

(y

ij

n = ni = 15

yi

ln(si2) 1,504 0,916 1,099

(ni -1)ln(si2) 6,016 3,665 4,394 (ni -1)ln(si2) = 14,076


1
1
= 0,75
0,25
0,25
0,25
ni 1
ni 1

Entonces queda:
M = (n k ) ln( s D2 )

(n 1)ln(s
i

2
i )

= (15 3) ln(3,33 ) (6,016 + 3,665 + 4,394 )

= 121,203 14,076 = 14,436 14,076 = 0,360


1
1
1
1
C = 1+
(0,25 + 0,25 + 0,25) 1 = 1 + 1 (0,75 0,083)

= 1+

3(k 1) ni 1 n k
32
15 3
6

= 1+0,667/6 = 1,111
Y finalmente: M/C = 0,360/1,111 = 0,324
Decisin:
M/C = 0.324 < 5.99
Por tanto, no se rechaza H0, o sea, se acepta la propia H0.

O sea, puede aceptarse que se cumple el supuesto de existencia de homocedasticidad.

EJERCICIOS DE AUTOEVALUACIN
La siguiente tabla contiene los resultados obtenidos al aplicar cuatro
mtodos diferentes de fabricacin de un cierto producto, siendo la
variable observada en estudio el costo de produccin, en centavos.
Se quiere:
a.- Determinar si el costo depende o no, en general, del mtodo de
fabricacin.
b.- Verificar el supuesto de homocedasticidad necesario para la
verificacin anterior, conociendo que M/C = 1.05.

A
5
5
6
7
5
5

Mtodos
B
C
6
7
5
5
6
6
6
7
7
5
6

D
7
7
8
7
8

139

BIBLIOGRAFA BSICA:

Estadstica. Cu Muiz, Juan; et al. Universidad de La Habana, 1987.


Estadstica. Guerra Bustillo, Caridad; et al. Pueblo y Educacin, La Habana, 1987
Estadstica: Teora y Problemas. Murray Spiegel. McGraw Hill de Mxico, 1974.
Estadstica I, II y III. Calero Vinelo, Arstides. Pueblo y Educacin, La Habana, 1983.
Estadstica elemental moderna. Freund, John. Edicin Revolucionaria, La Habana, 1987.
Probabilidad y Estadstica. Canavos, George. McGraw Hill, Espaa, 1988.
Laboratorios de Estadstica Matemtica I y II: Colectivo de Autores, Dpto. Estadstica, Fac.
de Economa, Universidad de La Habana. Editorial Flix Varela, La Habana, 2004.
Tablas Estadsticas. Seleccin realizada por el Dpto. de Estadstica, Fac. de Economa,
Universidad de La Habana.

140

Vous aimerez peut-être aussi