Vous êtes sur la page 1sur 45

2 UNA DEFINICI

ON DE ESTAD

ISTICA
Captulo 1
Estadstica Descriptiva
Jose Tapia Caro
1. Introducci on
Un poco de historia
Estadstica, viene de la palabra estado o estadista porque originalmente era un asunto de Estado.
Sin embargo, aunque suene a palabra sosticada y con caracter de ciencia, la estadstica ha existido
desde los comienzos de la civilizacion, por ejemplo para contar el n umero de personas, animales o
alimentos. Tambien se ocupaban representaciones gracas de datos y otros smbolos en elementos
tan r usticos como rocas, pieles, palos de madera y paredes de cuevas. Mas adelante, hacia el a no
3000 A.C. los babilonios usaban peque nas tablillas de arcilla para recopilar datos sobre la produccion
agrcola y sobre las telas vendidas o intercambiadas mediante el trueque. Por su parte, los chinos y
romanos eran famosos por sus elaborados censos.
Usos Actuales
Con el paso del tiempo, la estadstica no solo siguio siendo un asunto del Estado sino que se ha
convertido en un metodo efectivo en areas tan diversas como la economa, la poltica, las ciencias
sociales, la biologa, fsica, minera, ingeniera, compa nas de seguros, industria, etc. As, el nivel
de especicidad de la estadstica ha llegado a tal punto que hoy existen programas de doctorado
en Econometra, Bioestadstica, Geo-estadstica, Estadstica Industrial, Ciencias Actuariales, etc.
En Econometra se usan metodos matematicos y estadsticos para construir, modelar y predecir
indicadores de variables economicas como IPC, PIB, IPSA, IMACEC, etc. En Bioestadstica se
construyen modelos probabilsticos relacionados con epidemias, salud ambiental, poblaciones geneti-
cas, medicina, ensayos biologicos, desarrollo de nuevos farmacos, etc. En Geo-estadstica el proposito
es construir modelos probabilsticos relacionados con el estudio de la tierra como los que se emplean
para estimar el tipo, el tama no y la calidad de yacimientos mineros. En Estadstica Industrial se
desarrollan metodos para el control de calidad de procesos, para determinar la conabilidad de
sistemas, para modelar variables logsticas, etc. En Ciencias Actuariales se construyen modelos de
riesgos y modelos para determinar el valor de las primas en Compa nas de Seguros, etc. Y la lista
de aplicaciones de la Estadstica sigue y sigue.
2. Una denici on de Estadstica
Que debemos entender en la actualidad por estadstica? Una posible denicion es la siguiente.
Denicion 2.1. La estadstica es un conjunto de teoras y metodos cientcos que han sido desa-
rrollados para tratar con la recoleccion, la descripcion y analisis de datos presentes en una muestra
con el n de poder extraer conclusiones utiles respecto a la poblacion.
La comprension de esta denicion de estadstica requiere la denicion de ciertos terminos tales
como poblacion, muestra, estadstica descriptiva, estadstica inferencial, etc. que seran presentados
inicialmente aqu pero que seran estudiados con detalle en los diferentes captulos de este texto.
Poblacion. Es la totalidad de individuos, objetos o datos que son de interes para el investi-
gador. Su tama no se denotara por N.
Variables Usualmente se anotan X, Y , Z, etc. y corresponden a las caracteristicas de interes
que varan de individuo en individuo en la poblacion. Por ejemplo, los valores observados en
la poblacion de la variable X seran anotados como x
1
, x
2
, . . . , x
N
y pueden ser considerados
como la poblacion de datosde interes.
1


2 UNA DEFINICI

ON DE ESTAD

ISTICA
Parametro. Usualmente se anota y representa cualquier medida descriptiva de la poblacion
que sea de interes para el investigador. Las mas usadas son la media poblacional , la varianza
poblacional
2
, la proporcion poblacional p y el total poblacional .
Modelo de Probabilidad Es una tabla, graco o formula matematica que permite estimar la
probabilidad de que la variable bajo estudio X asuma ciertos valores. Usualmente ese modelo
depende de cierto parametro
Muestra. Es un subconjunto representativo de la poblacion de datos seleccionados por meto-
dos cientcos y anotado como x
1
, x
2
, . . . , x
n
(n < N). Es necesario notar que el dato x
i
en la
poblacion no es necesariamente el mismo dato x
i
en la muestra.
Estadstica o estadgrafo. Es una medida usada para describir o resumir los datos presentes
en la muestra y sirve para estimar o probar hipotesis respecto alel parametro de interes en la
poblacion. Las mas conocidas son la media y la desviacion estandar dadas respectivamente por
x =

n
i=1
x
i
n
y s =

n
i=1
(x
i
x)
2
n 1
Estadstica Descriptiva. Es una parte de la Estadstica dedicada a organizar, presentar y
resumir los datos presentes en la muestra. Toma la forma de tablas de frecuencia, gracos y
medidas de resumen tales como la media y la desviacion estandar de los datos. El analisis se
limita a los datos recolectados y no intervienen para nada inferencias o generalizaciones para
la poblacion.
Estadstica Inferencial. Extrae conclusiones utiles sobre la poblacion basados en la informa-
cion recolectada en la muestra. Toman la forma de estimacion y prueba de hipotesis respecto
a los parametros poblacionales .
Ejemplo 1. (Encuesta CEP) Consideremos la encuesta nacional semestral del Centro de Estudios
P ublicos (CEP) que esta concebida como un barometro de la opinion p ublica nacional, principal-
mente en lo que se reere al acontecer poltico y economico del pas, a las principales preocupaciones
de la poblacion y a la evaluacion que la poblacion realiza del Gobierno y de los principales actores
de la vida nacional. En este ejemplo se usaran los datos presentados en el informe de la Encuesta
CEP N
o
63, Estudio Nacional de Opinion P ublica N
o
34, Tercera Serie Noviembre-Diciembre 2010.
Sitio web: www.cepchile.cl. La publicacion indica que se dise no un muestreo con 1800 entrevistas a
personas de 18 a nos o mas en hogares particulares en todo el pas. El n umero de entrevistas conclui-
das y utilizables fue de 1436 lo que corresponde a una tasa de respuesta de un 80 %. Las preguntas
de la encuesta estan divididas en cuatro grupos: la encuesta CEP propiamente tal, Medio Ambiente,
Evaluacion General del A no y Datos del Entrevistado.
La Figura 1 muestra la pregunta 32 de la seccion Datos del Entrevistado que investiga los ingresos
por hogar. En relacion a esta pregunta identique la poblacion, la muestra, la variable y parametros
de interes.
Solucion
En terminos generales la poblacion objetivo de la encuesta CEP puede ser denida como el con-
junto de todos los habitantes del pas de 18 a nos o mas que seg un el Censo 2002 tiene un tama no
N = 10.444.605. En relacion a la pregunta 32 de la seccion Datos del Entrevistado, la poblacion
de datos puede ser denida como el conjunto de todos los ingresos mensuales por hogar en el pas
que seg un el Censo 2002 tiene un tama no de N = 4.141.427. La muestra consiste de los n = 1436
ingresos mensuales por hogar informados por cada uno de los 1436 entrevistados. La variable X
en la pregunta 32 corresponde a los ingresos mensuales por hogar en el pas. Algunos parametros
poblacionales de interes son los ingresos totales por mes en todos los hogares del pas, el promedio
de ingresos por hogar en todo el pas y por ejemplo la proporcion p de hogares con ingresos men-
suales superiores a $2.000.000 en todo el pas. Si x
1
, x
2
, . . . , x
N
son los ingresos de los N = 4.141.427
2


2 UNA DEFINICI

ON DE ESTAD

ISTICA
DATOS DEL ENTREVISTADO
:
:
32 De los siguientes tramos de ingresos mensuales que se presentan en esta tarjeta SIGA
CON TARJETA 31 DEMOGR., podra Ud. indicarme en cul de ellos se encuentra
este hogar, considerando todos los ingresos lquidos por sueldos y salarios de todas las
personas que trabajan remuneradamente, jubilaciones, pensiones, aportes de parientes o
amigos, arriendos y otros?

(0,2%) 01 MENOS DE $35.000 MENSUALES LIQUIDOS
(0,3%) 02 DE $35.001 A $56.000 MENSUALES LQUIDOS
(0,8%) 03 DE $56.001 A $78.000 MENSUALES LIQUIDOS
(1,6%) 04 DE $78.001 A $101.000 MENSUALES LIQUIDOS
(3,6%) 05 DE $101.001 A $134.000 MENSUALES LIQUIDOS
(7,4%) 06 DE $134.001 A $179.000 MENSUALES LIQUIDOS
(7,9%) 07 DE $179.001 A $224.000 MENSUALES LIQUIDOS
(7,5%) 08 DE $224.001 A $291.000 MENSUALES LIQUIDOS
(8,3%) 09 DE $291.001 A $358.000 MENSUALES LIQUIDOS
(11,2%) 10 DE $358.001 A $448.000 MENSUALES LIQUIDOS
(8,9%) 11 DE $448.001 A $1.000.000 MENSUALES LIQUIDOS
(3,4%) 12 DE $1.000.001 A $2.000.000 MENSUALES LIQUIDOS
(1,8%) 13 DE $2.000.001 A $3.000.000 MENSUALES LIQUIDOS
(0,9%) 14 MAS DE $3.000.000 MENSUALES LIQUIDOS
(7,1%) 88 No sabe
(29,1%) 99 No contesta
:
Figura 1: Ingresos por Hogar Particular
hogares del pas, entonces el total y el promedio poblacionales estan dados por:
=
N

i=1
x
i
=

N
i=1
x
i
N
Note que = N y que estos parametros poblacionales solo pueden ser conocidos mediante un
Censo Nacional.
Si x
1
, x
2
, . . . , x
n
son los ingresos de los n = 1436 hogares encuestados en la muestra, entonces el
total t y el promedio x de la muestra estan dados por las siguientes estadsticas o estadgrafos:
t =
n

i=1
x
i
x =

n
i=1
x
i
n
En el Captulo 9 de Estimacion de parametros se mostrara que = x y = N x son buenos
estimadores de los ingresos totales mensuales y del ingreso promedio mensual por hogar de los
N = 4.141.427 hogares del pas.
En el Captulo 6 y posteriormente en el Captulo 10 se mostrara que el siguiente modelo de
probabilidad exponencial es adecuado para el ingreso por hogar investigado por el CEP.
f(x) =
_
e
x/

, x 0
0 , x < 0
donde es el ingreso medio por hogar en todo el pas.
3


3 TABLAS DE FRECUENCIA Y TIPOS DE VARIABLES
Nmero de hogares y tamao de la poblacin, segn los Censos 1992 y 2002
Censo de 1992 Censo de 2002
Nmero de hogares particulares 3.293.779 4.141.427
Poblacin de hogares particulares 13.094.923 14.800.126
Personas por hogar 4,0 3,6

Figura 2: N umero de hogares y habitantes seg un Censos 1992 y 2002
Ejercicios Seccion 2
1. La gerencia de un banco preocupada por el servicio al cliente desea estimar, entre otras cosas,
el n umero medio de clientes que atiende por hora uno de sus cajeros. Para tal efecto, durante
una semana observara la variable de interes.
a) Identique claramente la poblacion bajo estudio.
b) Identique la muestra. Cual es el tama no de esta muestra?
c) Identique y clasique la variable relevante del estudio.
2. Con el proposito de dise nar nuevos productos una empresa proveedora de servicios de tele-
fona e internet esta evaluando el tiempo mensual que los jovenes universitarios a lo largo del
pas dedican a estar conectados a la red. Se toma una muestra de 1400 estudiantes en las
cinco principales ciudades universitarias del pas.
a) Identique la poblacion bajo estudio.
b) Que estratega usara usted para tomar la muestra?. Cual es el tama no de esta muestra?
c) Identique y clasique la variable bajo estudio.
3. Tablas de Frecuencia y Tipos de Variables
La forma mas simple de organizar y presentar datos es una tabla de frecuencia como lo muestra
el Figura 3. All se supone que los n datos x
1
, x
2
, . . . , x
n
presentes en la muestra son clasicados en
k categoras C
1
, C
2
, . . . , C
k
con k < n. Las frecuencias de la tabla son las siguientes.
Frecuencia absoluta n
i
Corresponde al n umero de individuos en la muestra que pertenecen a la clase C
i
. Tienen la propie-
dad de que n
1
+n
2
+ +n
k
= n.
Frecuencia relativa f
i
Corresponde a la proporcion de datos que pertenecen a la clase C
i
, esto es f
i
= n
i
/n para i =
1, 2, . . . , n. Tienen la propiedad de que f
1
+f
2
+ +f
k
= 1. Ademas, f
i
% = f
i
100 %
Frecuencia absoluta acumulada N
i
Corresponde al n umero de datos que pertenecen a las clases C
1
, C
2
, . . . , C
i
. Es decir, N
i
= n
1
+n
2
+
+n
i
para i = 1, 2, . . . , n. Esta frecuencia cumple que N
1
= n
1
y N
i
= N
i1
+n
i
para i = 2, 3, . . . , n.
Frecuencia relativa acumulada F
i
Corresponde a la proporcion de datos que pertenecen a las clases C
1
, C
2
, . . . , C
i
Es decir, F
i
=
N
i
/n = f
1
+f
2
+ +f
i
para i = 1, 2, . . . , n. Esta frecuencia cumple que F
1
= f
1
y F
i
= F
i1
+f
i
para i = 2, 3, . . . , n. Ademas, F
i
% = F
i
100 %.
Los detalles de la tabla de frecuencia dependen del nivel o escala de medida usada para obtener
los datos. Los niveles de medidas empleados en este texto seran el nominal, el ordinal y el intervalar,
y son presentados en la siguiente seccion. La importancia de esta clasicacion es que de ella depende
4


3 TABLAS DE FRECUENCIA Y TIPOS DE VARIABLES



Clases


Total 1 100

% F

%
C
1
C
2
C

C
k
n

n
1
n
2
n

n
k

k
n
F

2
%

k
%
N
1
N
2
N

N
k
N

F
2
F

F
k
F
1
%
F
2
%
F

%
F
k
%
Figura 3: Tabla de Frecuencias
el tipo de analisis estadstico que se puede realizar con los datos.
3.1. Escala de Medicion Nominal
Los datos medidos en la escala nominal son clasicados en categoras o clases identicadas con
letras y/o n umeros. Estas categoras se pueden presentar en cualquier orden y no es posible cuan-
ticar la diferencia entre individuos pertenecientes a distintas clases. Ejemplos de variables de tipo
nominal son Equipo de F utbol Preferido, Ciudad de Procedencia, Tipo de M usica, etc.
Proyectos de Energa en Chile
(Actualizado al 14 de Abril de 2011)

En Construccin Aprobados En Calificacin
Elica 2 19 5
Hidroelctrica embalse 2 2 6
Hidroelctrica pasada 10 33 14
Solar 2 7
Termoelctrica Biomasa 4 3 1
Termoelctrica c.c. 1
Termoelctrica Carbn 4 8 5
Termoelctrica Diesel 2 2
Termoelctrica Fuel oil 2 1
Termoelctrica Gas 1 1
Total 27 72 38
Fuente: Central de Energa
Figura 4: Proyectos de Energa en Chile 2011
Ejemplo 2. (Proyectos de Energa) La Figura 4 muestra los proyectos energeticos en Chile el a no
2011 publicados en un especial del diario ESTRATEGIA on-line del 25 de Abril 2011.
a) Redise ne la tabla considerando las categoras Eolica, Hidroelectrica, Solar y Termoelectrica. Tam-
bien incluya los respectivos porcentajes
b) Partiendo de esas tablas de frecuencias, mencione algunos aspectos relevantes relacionados con
5


3 TABLAS DE FRECUENCIA Y TIPOS DE VARIABLES
n umero de proyectos energeticos en Chile.
Solucion
Aqu hoy dos variables nominales asociadas a cada proyecto: la primera es el Tipo de Proyecto
Energetico clasicado como Eolico, Hidroelectrico, Solar y Termoelectrico y la otra es El Esta-
do del Proyecto clasicado como En Construccion, Aprobado y En Calicacion. a) La tabla de
frecuencia redise nada para la variable tipo de proyecto para cada uno de los estados del proyecto
aparece en la Figura 5. Note que las frecuencias acumuladas no tienen sentido en el nivel nominal.
Por que?.
b)
Se observa un aumento en el n umero de proyectos Eolicos Aprobados y en Calicacion respecto
a los proyectos en Construccion de 7,41 % a 26,39 % y 13,16 % respectivamente.
Tambien se observa un aumento en el n umero de proyectos Hidroelectricos Aprobados y en
Calicacion respecto a los proyectos en Hidroelectricos Construccion de 44,44 % a 48,61 % y
52,63 % respectivamente.
El aumento mas rapido se observa en el n umero de proyectos Solares Aprobados y en Cali-
cacion respecto a los proyectos Solares en Construccion de 0,00 % a 2,78 % y 18,42 % respecti-
vamente.
Se observa una disminucion en el n umero de proyectos Termoelectricos Aprobados y en Cali-
cacion respecto a los proyectos Termoelectricos en Construccion de 48,15 % a 22,22 % y 15,79 %
respectivamente.


En Construccin Aprobados En Calificacin
Proyecto

%
Elica 2 7,41 19 26,39 5 13,16
Hidroelctrica 12 44,44 35 48,61 20 52,63
Solar 2 2,78 7 18,42
Termoelctrica 13 48,15 16 22,22 6 15,79
Total 27 100 72 100 38 100
Figura 5: Proyectos de Energa en Chile 2011
3.2. Escala de Medicion Ordinal
La variable es clasicada en categoras o clases identicadas con letras y/o n umeros como en
el caso nominal pero ahora las categoras tienen un orden implcito. Esto signica que la variable
induce grados de calidad en los datos de modo que un individuo perteneciente a una categora es
mejor, en alg un sentido, que uno perteneciente a otra categora. En este nivel de medicion tampoco
es posible cuanticar la diferencia entre individuos pertenecientes a distintas clases. Un ejemplo es
la variable X denida como el Rendimiento Academico de los estudiantes clasicado en las cate-
goras A=Muy Bueno, B=Bueno, C=Regular y D=Insuciente.
Ejemplo 3. Este ejemplo esta basado en el informe de la Encuesta CEP N
o
63, Estudio Nacional
de Opinion P ublica N
o
34, Tercera Serie Noviembre-Diciembre 2010. Sitio web: www.cepchile.cl
6


3 TABLAS DE FRECUENCIA Y TIPOS DE VARIABLES
La publicacion indica que se dise no un muestreo con 1800 entrevistas pero que solo se pudo realizar
el 80 % de ellas. En la pagina 13 de ese informe aparece el siguiente resultado.

.
.
.
4. De acuerdo a esta escala, como calicara UD. su actual situacion economica?
(2,8 %) 01 MUY MALA
(16,2 %) 02 MALA
(57,3 %) 03 NI BUENA NI MALA
(21,8 %) 04 BUENA
(1,6 %) 05 MUY BUENA
(0,2 %) 08 No sabe
(0,1 %) 09 No contesta
.
.
.

Identique la variable estadstica asociada a esa pregunta y reconstruya una tabla de frecuencias en
el formato dado en la Figura 3.
Solucion
Aqu lo que vara de encuestado en encuestado es la calicacion de su propia situacion economica
actual. La escala ordinal que se usa incluye las categoras Muy Mala, Mala, Ni Buena ni Mala,
Buena y Muy Buena. Estas categoras se mezclan con otras dos categoras que son de nivel nominal:
No sabe y No contesta.
Contestaron la encuesta (no la pregunta) 1800 0, 80 = 1440 personas cuyas respuestas aparecen
en la Figura 6. Algunos comentarios son que el 99,7 % de los encuestados contesta esta pregunta
clasicando su propia situacion economica entre Muy Mala y Muy Buena. Tambien se nota que
la mayora de los encuestados (825 de los 1440 o el 57,3 %) cree que su propia situacion economica
es Ni Buena Ni Mala. Tambien se puede decir que casi un cuarto de los encuestados (23,4 %) cree
que su propia situacion economica es Buena o Muy Buena.

4. De acuerdo a esta escala, cmo calificara UD. su actual
situacin econmica?

Situacin Econmica
Muy Mala 2,8 40 40 2,8
Mala 16,2 233 274 19,0
Ni Buena Ni Mala 57,3 825 1099 76,3
Buena 21,8 314 1413 98,1
Muy Buena 1,6 23 1436 99,7
No sabe 0,2 3 1439 99,9
No contesta 0,1 1 1440 100,0
Total 100 1440

Figura 6: Situacion Economica Propia Actual


3.3. Escala de Medicion intervalar
La informacion obtenida en este caso es de tipo cuantitativo o numerico y es posible agruparla en
intervalos. En este nivel se considera no solo la informacion perteneciente al orden, sino ademas, el
tama no relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible
cuanticar la diferencia de dos individuos pertenecientes a categoras distintas. En esta escala de
7


3 TABLAS DE FRECUENCIA Y TIPOS DE VARIABLES
medidad esta involucrado el concepto de unidad de distancia y la distancia entre dos mediciones
puede ser expresada en funcion de esta unidad. Como ejemplo considere la variable X denida como
la Temperatura interior de un horno medida en grados Celcius y clasicada en los intervalos [0;50[,
[50;100[, [100;150[, [150;200[, etc.
Ejemplo 4. (Continuacion Ejemplo 3) En la parte Datos del Entrevistado de la Encuesta CEP N
o
63 aparece la siguiente pregunta respecto al nivel de educacion del entrevistado.

.
.
.
3 Sin tomar en cuenta las repeticiones de curso, cuantos a nos de estudios aprobados tiene Ud.?
(Por tramos)
(7,8 %) 01 0-3 a nos
(21,2 %) 02 4-8 a nos
(40,7 %) 03 9-12 a nos
(28,7 %) 04 13 a nos y mas
(1,5 %) 09 No contesta
.
.
.

Identique la variable estadstica asociada a esa pregunta y reconstruya una tabla de frecuencias en
el formato dado en la Figura 3.
Solucion
Aqu la variable de nivel intervalar es a nos de estudios aprobados y asume valores enteros no
negativos 0, 1, 2, 3, etc. Esos valores son agrupados en los intervalos 0-3, 4-8, 9-12, 13 o mas como
muestra la Figura 6. Aqu la unidad de distancia es 1 a no de estudio aprobado y la diferencia entre
un encuestado y otro se puede expresar en terminos de esa unidad. Por ejemplo, la diferencia entre
alguien que aprobo 13 a nos de estudios y otro que aprobo 8 a nos es 13-8=5 a nos. Considerando 8 a nos
para el ciclo basico y 4 para el ciclo secundario se observa que el 29,0 % de los que participaron en
esta encuesta de opinion p ublica no alcanzo el nivel secundario, que el 40,7 % de los encuestados tiene
alg un nivel de estudios secundarios. Dicho de otro modo, el 69,7 % de las opiniones corresponde a
personas que no tienen estudios superiores. Finalmente, el 28,7 % de los encuestados aprobo al menos
el primer a no de educacion superior.

Estudios
0 - 3 aos 112 0,078 7,8 112 0,078 7,8
4 - 8 aos 305 0,212 21,2 418 0,290 29,0
9 - 12 aos 586 0,407 40,7 1004 0,697 69,7
13 aos o ms 413 0,287 28,7 1417 0,984 98,4
No contesta 23 0,016 1,6 1440 1 100
Total 1440 1 100

Figura 7: Nivel de estudios de los encuestados


En el Ejemplo 4 los a nos de estudios aprobados de los 1440 encuestados fueron agrupados en
4 clases con lmites 0-3, 4-8, 9-12 y 13 o mas. Esto indica que hay dos preguntas claves:
Cual es el n umero adecuado de clases o intervalos k para agrupar los n datos?
8


3 TABLAS DE FRECUENCIA Y TIPOS DE VARIABLES
Cuales deben ser los lmites de esos k intervalos?
Las respuestas no son unicas ni dogmaticas. Simplemente se trata de adoptar ciertos criterios empri-
cos y razonables que a continuacion se exponen.
N umero de Intervalos k
La idea es que el tama no de la tabla sea manejable y legible por lo que usualmente el n umero de
intervalos k es un n umero entre 4 y 20. Hay dos criterios empricos para determinar k que dan
respuestas muy similares.
Criterio 1 k = 1 + 3, 3logn
Criterio 2 2
k
n
En la Figura 8 aparece el k recomendado para distintos tama nos de muestra n.

k
1 1,0 1 ----------
10 4,3 4 4
20 5,3 5 5
50 6,6 6 6 o 7
100 7,6 7 7 u 8
500 9,9 9 9 o 10
1000 10,9 10 10 u 11
10000 14,2 14 14 o 15

Figura 8: N umero de intervalos k


Lmites de los intervalos
Primero hay que determinar el rango de la muestra denido como la diferencia entre los valores
maximo y mnimo de la muestra. Si los datos numericos que se quieren agrupar en k intervalos son
x
1
, x
2
, . . . , x
n
, entonces el rango de la muestra se dene como
R
M
= max{x
i
} min{x
i
} (1)
En segundo lugar hay que determinar la amplitud de los intervalos. Un criterio es escoger todos
los intervalos con igual amplitud a de modo que
a
R
M
k
(2)
Debido a que la fraccion R
M
/k de la ecuacion (2) no necesariamente es un n umero entero estamos
obligados a escoger un n umero a mayor que esta fraccion. El rango de la tabla sera R
T
= ak
donde a es la amplitud que efectivamente sera usada. La eleccion de a debe ser tal que R
T
R
M
de modo que no queden datos fuera de la tabla y tampoco queden intervalos al principio o al nal
de la tabla sin datos. Entonces es posible que se produzca una diferencia = R
T
R
M
entre el
rango de la tabla y el rango que efectivamente tiene la muestra.
Un criterio para administrar la diferencia es repartirla por partes iguales al principio y al nal
de la tabla para mantener su simetra de modo que los lmites de los intervalos resultan ser los
9


3 TABLAS DE FRECUENCIA Y TIPOS DE VARIABLES
siguientes.
L
0
= min{x
i
} /2
L
1
= L
0
+a
L
2
= L
2
+a
.
.
.
L
k
= L
k1
+a
De esta manera el rango de la tabla resulta ser R
T
= [L
0
; L
k
].
La marca de clase X
i
se dene como el punto medio de cada intervalo y sera el representante de
todos los datos clasicados en el intervalo [L
i1
; L
i
], i = 1, 2, . . . , k. Estas marcas de clases permiten
trabajar con k representantes en vez de n datos y seran necesarias para calcular medidas de
resumen a partir de la tabla de frecuencias tales como la media aritmetica, la desviacion estandar,
etc. La marca de clase X
i
se calcula como
X
i
=
L
i
+L
i1
2
= L
i1
+
a
2
; i = 1, 2, . . . , k (3)
Finalmente, la tabla de frecuencias para el nivel intervalar toma la apariencia de la Figura 9.



Intervalos Amplitud Marca
a
a

a

a
Total 1 100

% F

%
n

n
1
n
2
n

n
k

k
n
F

2
%

k
%
N
1
N
2
N

N
k
N

F
2
F

F
k
F
1
%
F
2
%
F

%
F
k
%
|I
0
; I
1
||
X
1
|I
1
; I
2
|
|I
-1
; I

||
|I
k-1
; I
k
|
X

X
2
X
k
Figura 9: Tabla de Frecuencias para el caso Intervalar
Ejemplo 5. (Prueba de Seleccion Universitaria PSU) Se han obtenido los siguientes datos sobre
el n umero de estudiantes que ingresan el primer a no con una puntuacion PSU igual o superior a
650 puntos en cada una de las 50 carreras que ofrece una Universidad. Por ejemplo, en la primera
carrera de la lista ingresaron 101 estudiantes con puntuacion PSU igual o superior a 650 puntos.
101 91 100 87 91 74 88 85 93 96
91 110 87 93 99 93 91 109 86 101
93 74 94 96 106 88 91 103 96 110
75 97 97 100 105 91 99 106 103 89
97 93 103 93 107 109 87 108 105 81
Presente estos datos en una tabla de frecuencias.
Solucion
Aqu n = 50 y de acuerdo a la tabla de la Figura 8 se deberan usar 6 o 7 intervalos. El rango de
muestra es R
M
= 110 74 = 36 y con k = 6 intervalos resulta una amplitud entera a = R
M
/k =
10


3 TABLAS DE FRECUENCIA Y TIPOS DE VARIABLES
36/6 = 6. En este caso el rango de tabla sera R
T
= ak = 6(6) = 36 igual al rango de muestra y por
tanto la diferencia es = R
T
R
M
= 36 36 = 0. As, los lmites de intervalos sugeridos son:
L
0
= min{x
i
} /2 = 74 0/2 = 74
L
1
= 74 + 6 = 80
L
2
= 80 + 6 = 86
L
3
= 86 + 6 = 92
L
4
= 92 + 6 = 98
L
5
= 98 + 6 = 104
L
6
= 104 + 6 = 110
La propuesta de tabla de frecuencia con intervalos continuos aparece en la Figura 10. All la frecuencia
absoluta n
i
corresponde a n umero de carreraa. Por ejemplo, en la primera la n
i
= 3 signica que
hay 3 carreras cuyo n umero de estudiantes con PSU igual o superior a 650 puntos esta entre 74 y
79 estudiantes.
Como los datos son n umeros enteros los intervalos tambien podran tener lmites enteros, como
sera esa tabla de frecuencias?.

Intervalos Ampl. Marca
6 77 3 0,06 6 3 0,06 6
6 83 1 0,02 2 4 0,08 8
6 89 14 0,28 28 18 0,36 36
6 95 13 0,26 26 31 0,62 62
6 101 8 0,16 16 39 0,78 78
6 107 11 0,22 22 50 1 100
Total 50 1 100

% F

% n

|74 - 8u|
|8u -86[
|1u4 -11u]
|98 - 1u4|
|92 - 98|
|86 -92|
Figura 10: Tabla de Frecuencias para los datos de PSU
Ejercicios Seccion 3
3. La siguiente tabla muestra los vol umenes enviados al exterior y los retornos generados por las
exportaciones de productos del mar en el perodo enero-junio de 2010 y 2011, seg un informo la
Sociedad Nacional de Pesca.
Toneladas Millones de USD
Ene-Jun Ene-Jun Ene-Jun Ene-Jun
Producto 2011 2010 2011 2010
Harina 445.590 352.340 171,5 145,5
Aceite 77.796 39.133 21,9 10,1
Congelados 79.266 67.945 267,5 248,7
Conservas 22,356 20.221 47,9 58,3
Fresco refrigerado 17.598 17.331 82,7 80,3
Algas 22.216 16.075 32,9 25,5
Otros 1,966 1.194 7,7 5,1
Totales 666.788 514.239 632,1 573,5
En que porcentaje vario entre 2010 y 2011 el precio promedio por tonelada de los dos princi-
pales productos de exportacion de este sector?
11


4 GR

AFICOS ESTAD

ISTICOS
R: Harina y Congelados disminuyeron sus precios por tonelada en 6, 8 % y 7, 8 % respecti-
vamente.
4. Los siguientes datos corresponden a la duracion en minutos de la batera de los lalptop de 20
estudiantes.
80 70 90 30 45 160 110 30 45 60 90 120 180 0 20 140 160 180 200 100 80 90 150 160
a) Presente estos datos en una tabla de frecuencias de cinco intervalos de igual ancho.
b) Que porcentaje de Bateras dura mas de 2 horas?
4. Gracos Estadsticos
Una manera distinta pero complementaria a las tablas de frecuencia para presentar datos es la
forma graca. Debido al gran desarrollo de las metodologas estadsticas y la disponibilidad creciente
de software o programas estadsticos que implementan esas metodologas es que existen practica-
mente innitas posibilidades gracas. En esta seccion se presentaran alguno gracos basicos y
algunas directrices generales para construirlos.
Algunos elementos necesarios para que un graco sea una representacion legible de los datos son:
Titulos y subttulos
Descripcion del Graco
Datos y smbolos evitando la saturacion o congestion del graco.
Colores adecuados que permitan distinguir los elementos y categoras del graco
Ejes horizontal y vertical con escalas adecuadas
Leyendas o descriptores
Nitidez y buena calidad de impresion
4.1. Diagrama de barras
La idea es dibujar barras de igual ancho de altura proporcional a las frecuencias absolutas n
i
o
relativas f
i
o porcentual f
i
%.
La Figura 11 y la Figura 12 muestran dos tipos diferentes de diagramas de barras para el ejemplo
de Proyectos Energeticos en Chile 2011 (Ejemplo 2). En el primer caso las barras se dibujan una al
lado de la otra y en el segundo caso las barras se apilan una encima de otra.
Una variante del diagrama de barras se muestra en la Figura 13 que es un diagrama de cilindros
3D en el que todos los cilindros tienen el mismo diametro pero las alturas son proporcionales a las
frecuencias absolutas n
i
o relativas f
i
o porcentual f
i
%. Cual de esos tres gracos le parece mas
adecuada para el ejemplo de Proyectos Energeticos en Chile 2011(Ejemplo 2)?, por que?.
4.2. Diagrama de torta
Este graco es especialmente util para variables de tipo nominal y ordinal. El circulo se divide en
sectores circulares de angulos proporcionales a las frecuencias absolutas n
i
o relativas f
i
o porcentual
f
i
%. Es decir,

i
=
n
i
n
360

= f
i
360

= f
i
%3, 6

i = 1, 2, . . . , k
Usualmente, cada sector es marcado con el nombre de la clase C
i
y su respectivo porcentaje f
i
%.
La Figura 14 muestra un diagrama de torta para los datos de la encuesta CEP N

63 en relacion a
la Situacion Economica Propia Actual del encuestado (Ejemplo 3).
12


4 GR

AFICOS ESTAD

ISTICOS

Diagrama de Barras
Proyectos de Energa
Figura 11: Proyectos de Energa

Diagrama de Barras Apiladas
Proyectos de Energa
Figura 12: Proyectos de Energa
4.3. Histograma
El histograma es un diagrama de barras adaptado para variables numericas. La altura de las
barras pueden ser proporcionales a a las frecuencias absolutas n
i
o relativas f
i
o porcentual f
i
%.
En la base se deben marcar los intervalos a los que pertenecen los datos.
Cuando la altura de las barras es proporcional a f
i
/a
i
para i = 1, 2, . . . , k se obtiene un histograma
normalizado en el sentido de que la suma de las areas de las barras resulta 1.
4.4. Tallo y Hoja
Se usa cuando los datos tienen dos o mas dgitos de modo que cada uno de ellos se puede dividir
en dos partes: el tallo y las hojas. En particular si un grupo de datos tiene n umeros con dos y tres
dgitos, entonces se podra escoger como tallos los dgitos correspondientes a las decenas y centenas
y escoger como hojas los dgitos correspondientes a las unidades. La Figura 16 presenta un diagrama
de Tallo y hoja para los datos del n umero de estudiantes con puntuacion PSU igual o superior a
650 en cada carrera de una Universidad (Ejemplo 5). En la Figura 16 hay pocos tallos pero si cada
uno de ellos se divide en dos, uno con hojas entre 0 y 4 y el otro con hojas entre 5 y 9 se puede
obtener un diagrama de Tallo y Hoja mas detallado como muestra la Figura 17.
La ventaja de este diagrama es que es facil de hacer a mano y sirve para descubrir caractersticas
iniciales de los datos como centro, variabilidad, sesgo, multimodalidad, outliers, etc. Las desventajas
del diagrama de Tallo y Hojas es que es un graco tosco y no sirve para presentaciones nales, solo
sirve para muestras no muy grandes y no permite una comparacion visual de varias poblaciones.
13


4 GR

AFICOS ESTAD

ISTICOS

Diagrama de Cilindros 3D
Proyectos de Energa
Figura 13: Proyectos de Energa

Diagrama de Torta
Situacin Econmica de los Encuestados, CEP N 63
Figura 14: Situacion Economica Propia
4.5. Diagrama Acumulado
Se emplea en el nivel ordinal e intervalar de medidas y es una representacion de las frecuencias
acumuladas N
i
o F
i
o F
i
%. La Figura 18 presenta el diagrama acumulado para el n umero de
estudiantes por carrera con puntuaci on PSU igula o superior a 650 puntos.
Comparando con el respectivo Histograma o tabla de frecuencias se aprecia que la barra que tiene
el mayor salto en el diagrama acumulado corresponde a la clase o intervalo de mayor frecuencia.
En el ejemplo, ese intervalo es [86; 92[.
4.6. Ojiva
Se emplea en el nivel intervalar de medidas y es una representacion de las frecuencias acumuladas
N
i
o F
i
o F
i
% en funcion de las marcas de clases X
i
. La Figura 19 presenta la ojiva para el n umero
de estudiantes por carrera con puntuacion PSU igula o superior a 650 puntos.
Cuando el n umero de datos n crece y el rango de la muestra es mas o menos el mismo, entonces
tambien crece el n umero de intervalos o marcas de clase k y la consecuencia es que la ojiva se parece
mas y mas a una curva continua.
Ejercicios Seccion 4
5. La siguiente tabla presenta los resultados del proceso de admision a una Universidad de tama no
mediano.
14


5 MEDIDAS DE TENDENCIA CENTRAL

Histograma
Nmero de estudiantes por carrera
con puntuacin PSU superior a 650 puntos
Figura 15: N umero de estudiantes por Carrera con PSU superior a 650 puntos




7 | 469
8 | 3678889
9 | 00000111334444667777799
10 | 111223455667789
11 | 00
Diagrama de Tallo y Hoja
Nmero de estudiantes por carrera con puntuacin
PSU superior a 650 puntos

Figura 16: Estudiantes con PSU 650
Hombres Mujeres
Carrera Postulantes Aceptados % Postulantes Aceptados %
Administracion 480 58 520 68
Ingeniera Civil 640 63 250 45
Derecho 320 42 279 35
Psicologa 280 37 430 49
Periodismo 280 36 330 42
Arquitectura 370 38 260 46
a) Represente en un graco adecuado el n umero de postulantes, que concluye?
b) Represente en un graco adecuado el porcentaje de aceptados, que concluye?
c) Compare el porcentaje total de hombres aceptados con el porcentaje total de mujeres acep-
tadas en esa Universidad, que concluye?
6. Los siguientes datos corresponden a la duracion en minutos de la batera de los lalptop de 20
estudiantes.
80 70 90 30 45 160 110 30 45 60 90 120 180 0 20 140 160 180 200 100 80 90 150 160
Presente estos datos en un graco adecuado.
5. Medidas de Tendencia Central
Las medidas de tendencia central proveen un valor simple y representativo de los datos.
Tambien se las llama medidas del centro o medidas de localizacion. En las variables tipo ordinal e
15


5 MEDIDAS DE TENDENCIA CENTRAL
Diagrama de Tallo y Hoja
Nmero de estudiantes por carrera con puntuacin
PSU superior a 650 puntos



7 | 4
7 | 69
8 | 3
8 | 678889
9 | 00000111334444
9 | 667777799
10 | 1112234
10 | 55667789
11 | 00
Figura 17: Estudiantes con PSU 650

Diagrama Acumulado
Nmero de estudiantes por carrera con puntuacin
PSU superior a 650 puntos
Figura 18: Diagrama Acumulado
intervalar, estas medidas tienden a ubicarse en el centro de los datos. Las mas usadas son:
La clase modal
La clase mediana
La media aritmetica
La mediana
La moda
El tipo de medidas de tendencia central que se pueden usar en un caso concreto dependen de si la
variable involucrada es nominal, ordinal o intervalar.
5.1. Caso Nominal
La medida que se usa aqu es la Clase Modal que se dene como la clase mayoritaria y es ano-
tada CMo . Una distribucion que tiene una sola clase modal se llama unimodal (caso mas com un).
Es posible encontrar variables bimodales, trimodales, etc.
Ejemplo 6. Cual es la clase modal de la variable Proyectos de Energa en el Ejemplo 2?
Solucion
16


5 MEDIDAS DE TENDENCIA CENTRAL

Ojiva
Nmero de estudiantes por carrera con puntuacin
PSU superior a 650 puntos

Figura 19: Ojiva
En la tabla de frecuencias de la Figura 5 o en el diagrama de barras de la Figura 11 se observa que la
clase modal es CMo=Hidroelectrica tanto para los proyectos en construccion, los aprobados y los que
estan en calicacion. Esto quiere decir que la energa electrica en Chile es obtenida mayoritariamente
por centrales hidroelectricas con una participacion de 44, 44 %, 48, 61 % y 52, 63 % en los proyectos
en construccion, aprobados y en calicacion respectivamente.
5.2. Caso Ordinal
Las variables de tipo ordinal organizan sus datos en categoras que tienen un orden implcito lo
que da sentido a la existencia de las frecuencias acumuladas y a la existencia de nuevas medidas de
resumen basadas en ellas.
Denicion 5.1. (Clase cuartil y clase percentil)
a) Se dene la clase cuartil de orden i-esimo CC
i
, a la primera clase cuya frecuencia relativa
acumulada es igual o superior a i/4, donde i = 1, 2, 3, 4,
b) Se dene la clase percentil de orden i-esimo CP
i
, a la primera clase cuya frecuencia relativa
acumulada es igual o superior a i/100, donde donde i = 1, 2, . . . , 100
Clase Modal Es la clase de mayor frecuencia tal como en el caso Nominal.
Clase Mediana Se anota CMe y se dene como la primera clase ya ordenadas que alcanza o
supera por primera vez el 50 % de las frecuencias acumuladas. Dicho de otro modo, la clase mediana
corresponde a la clase cuartil 2 o a la clase percentil 50. De esta forma la clase mediana divide la
muestra en aproximadamente dos mitades.
Ejemplo 7. (Continuacion Ejemplo 3)
Determine la Clase Modal y la Clase Mediana de la variable Situacion Economica Propia Actual
Solucion
En la tabla de la Figura 6 o en el diagrama de barras de la Figura 26 se aprecia que la primera clase
que alcanza o supera una frecuencia acumulada F
i
% del 50 % es Ni Buena Ni Mala y tambien se
observa que es la clase con mayor frecuencia absoluta. Por tanto, la Clase Modal y la Clase Mediana
de la variable Situacion Economica Propia Actual del encuestado es Ni Buena Ni Mala.
5.3. Caso Intervalar (Datos no agrupados)
En este caso se supone un conjunto de n datos numericos presentados en una lista x
1
, x
2
, . . . , x
n
.
Las medidas de tendencia central mas usadas son loa moda, la mediana y la media aritmetica.
Moda Es el dato que mas se repite.
Mediana Para calcular la mediana se ordenan los datos de menor a mayor y se la dene como el
17


5 MEDIDAS DE TENDENCIA CENTRAL
dato que queda en la posicion central cuando n es impar o como el promedio de los datos que quedan
en la posicion central cuan n es par. As la mediana divide el conjunto de datos en dos mitades.
Si x
1
, x
2
, . . . , x
n
son los n datos numericos, entonces la notacion x
(1)
, x
(2)
, . . . , x
(n)
representa los
mismos datos pero ordenados de menor a mayor. Esto es, x
(1)
representa al menor de los datos o
mnimo, x
(2)
es el segundo dato menor y x
(n)
es el mayor de los datos o maximo. Con esta notacion
la mediana M
e
se dene como
M
e
=
_
_
_
x
(
n+1
2
)
, si n es impar
1
2
_
x
(
n
2
)
+x
(
n
2
+1)
_
, si n es par
(4)
Media aritmetica Para calcular la media aritmetica o promedia se suman los datos y se divide
por n. Esto es,
x =

n
i=1
x
i
n
(5)
Ejemplo 8. Los siguientes datos corresponden al n umero de solicitudes de ayuda que los adminis-
tradores del sistema intranet de una universidad reciben de los usuarios cada da.
3,5,6,3,4,4,7,2,1,2,3,3,4,4,6,2,7,5,3,4,4,1,2,2,3,5,4,6,5,5
Calcule las medidas de tendencia central.
Solucion
La media aritmetica es
x =

n
i=1
x
i
n
=
3 + 5 + 6 + 3 + + 5 + 5
30
3, 833 3, 8 solicitudes
El n umero de datos es par e igual a n = 30, entonces la mediana es el promedio de los valores que
quedan en las posiciones 15 y 16 despues de ordenarlos de menor a mayor.
posicion k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x
(k)
1 1 2 2 2 2 2 3 3 3 3 3 3 4 4
posicion k 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
x
(k)
4 4 4 4 4 5 5 5 5 5 6 6 6 7 7
Me =
1
2
(x
(15)
+x
(16)
) =
1
2
(4 + 4) = 4 solicitudes
Por tanto, el valor Me = 4 solicitudes divide la muestra en dos mitades de 50 %. El dato que mas
se repite es el 4, por tanto la moda es
M
o
= 4 solicitudes
5.4. Caso Intervalar (Datos agrupados)
En este caso se supone que el conjunto de n datos presentes en la muestra han sido agrupados en
k intervalos en una tabla de frecuencias como la que aparece en la Figura 20. Las medidas de resumen
ya no seran calculadas a partir de los datos originales sino que a partir de las componentes de esa
tabla tales como las marcas de clase X
i
, las frecuencias absolutas, las amplitudes de los intervalos,
etc. Moda Dentro de la clase modal (clase mayoritaria) se calcula una aproximacion al valor de la
moda usando interpolacion lineal.
M
o
= L
M
+
_
d
1
d
1
+d
2
_
a
M
, (6)
donde
L
M
es limite inferior del intervalo o clase modal.
d
1
= n
M
n
M1
.
18


5 MEDIDAS DE TENDENCIA CENTRAL



Intervalos


Total 1 100

% F

%
n

n
1
n
2
n

n
k

k
n
F

2
%

k
%
N
1
N
2
N

N
k
N

F
2
F

F
k
F
1
%
F
2
%
F

%
F
k
%
|I
0
; I
1
||
X
1
|I
1
; I
2
|
|I
-1
; I

||
|I
k-1
; I
k
|
X

X
2
X
k
o
1
o
2
o

o
k
X

Figura 20: Tabla de Frecuencias para el caso Intervalar


d
2
= n
M
n
M+1
.
a
M
es la amplitud de la clase modal.
n
M
es la frecuencia absoluta de la clase modal.
n
M1
es la frecuencia absoluta de la clase anterior a la clase modal.
n
M+1
es la frecuencia absoluta de la clase posterior a la clase modal.
Mediana La mediana se aproxima usando los elementos de la clase mediana de la siguiente manera.
M
e
= L
e
+
_
n
2
N
e1
n
e
_
a
e
, (7)
donde
L
e
es el lmite inferior de la clase mediana.
n
e
es la frecuencia absoluta de la clase mediana.
a
e
es la amplitud de la clase mediana.
N
e1
es la frecuencia absoluta acumulada hasta la clase anterior a la clase mediana.
n es el n umero de datos agrupados en la tabla
Media aritmetica La media aritmetica se puede aproximar usando las marcas de clases X
i
y las
frecuencias n
i
de la siguiente manera.
x =

n
i=1
n
i
X
i
n
(8)
Ejemplo 9. La siguiente tabla presenta las ventas diarias (en millones de pesos) de una muestra de
vendedores de dos sucursales de una cadena de tiendas.
19


5 MEDIDAS DE TENDENCIA CENTRAL



Figura 21: Ventas por sucursal
Sucursal 1 Sucursal 2
Ventas n
o
de empleados n
o
de empleados
2-4 7 4
4-6 18 12
6-8 13 24
8-10 9 13
a) Represente estos datos en un graco de barras conjunto para ambas sucursales.
b) Determine las medidas de tendencia central por sucursal.
c) Determine la media de todas las ventas muestreadas.
d) Estime las ventas diarias de la tienda si hay un total de 360 vendedores en sus dos sucursales.
Solucion
a) En la Figura 21 se presenta un graco de barras conjunto. All se observa que las ventas por
vendedor en la sucursal 2 se concentran en valores mas altos que en la sucursal 1.
b) En la Figura 27 aparece la tabla de frecuencias para ambas sucursales. A partir de ella se calcularan
las medidas de resumen. Sucursal 1
Sucursal 1 Sucursal 2
ventas
[2-4[ 2 3 7 0,149 7 0,149 4 0,075 4 0,075
[4-6[ 2 5 18 0,383 25 0,532 12 0,226 16 0,302
[6-8[ 2 7 13 0,277 38 0,809 24 0,453 40 0,755
[8-10] 2 9 9 0,191 47 1,000 13 0,245 53 1,000
Total 47 1 53 1




Figura 22: Ventas por sucursal
20


6 MEDIDAS DE DISPERSI

ON
M
o
= L
M
+
_
d
1
d
1
+d
2
_
a
M
= 4 +
_
18 7
(18 7) + (18 13)
_
2 5, 38
M
e
= L
e
+
_
n
2
N
e1
n
e
_
a
e
= 4 +
_
47
2
7
18
_
2 5, 83
x =

n
i=1
n
i
X
i
n
=
7(3) + 18(5) + 13(7) + 9(9)
47
6, 02
Sucursal 2
M
o
= L
M
+
_
d
1
d
1
+d
2
_
a
M
= 6 +
_
24 12
(24 12) + (24 13)
_
2 7, 04
M
e
= L
e
+
_
n
2
N
e1
n
e
_
a
e
= 6 +
_
53
2
16
24
_
2 6, 88
x =

n
i=1
n
i
X
i
n
=
4(3) + 12(5) + 24(7) + 13(9)
53
6, 74
c) La tabla de la Figura 23 muestra las frecuencias para las ventas de los 100 vendedores de la tienda
que aparecen en la muestra. d) Los vendedores de la muestra venden en promedio 6,40 millones de
La media de toda la muestra de ventas es:
x =

n
i=1
n
i
X
i
n
=
11(3) + 30(5) + 37(7) + 22(9)
100
6, 40
ventas
[2-4[ 2 3 11
[4-6[ 2 5 30
[6-8[ 2 7 37
[8-10] 2 9 22
Total 100

Figura 23: Tabla de frecuencia
para toda la tienda
pesos diarios cada uno. Entonces, una estimacion de las ventas totales diarias hechas por los 360
vendedores de la tienda es
T = 360(6, 40) = 2304 millones de pesos
6. Medidas de Dispersion
Las medidas de dispersion miden la variabilidad de un conjunto de datos respecto a alguna
medida de tendencia central. Dicho de otra manera, estas medidas dan cuenta de cuan concentradas
estan las observaciones alrededor de una medida del centro. En la escala intervalar las mas usadas
son:
El ndice de dispersion
La desviacion media.
La varianza.
La desviacion estandar o desviacion tpica.
El coeciente de variacion.
Los rangos intercuartlicos y percentil.
El tipo de medidas de dispersion que se pueden usar en un caso concreto dependen de si la variable
involucrada es nominal, ordinal o intervalar.
21


6 MEDIDAS DE DISPERSI

ON
6.1. Caso Nominal
En las variables del tipo nominal no tienen sentido las medidas de dispersion porque las categoras
pueden tener cualquier orden y la medida del centro que es la clase modal podra estar en cualquier
posicion.
6.2. Caso Ordinal
Mientras mas cercanas esten entre si las posiciones de la clase cuartil 1 CC
1
y de la clase cuartil
3 CC
3
, mas concentradas estan las frecuencias alrededor de la clase cuartil 2 o clase mediana. Por
tanto, es posible denir una medida de variabilidad en torno a la clase mediana considerando las
posiciones de las clases CC
1
y CC
3
-
Indice de Dispersion Para una varibale ordinal que ha sido dividida en k categorias, el ndice de
dispersion D se dene como
D =
posicion de la CC
3
posicion de la CC
1
k 1
(9)
El ndice de dispersion D satisface las siguientes propiedades.
D mide la concentracion de las frecuencias en torno a la clase mediana.
0 D 1.
Si D 0 las frecuencias estan muy concentradas en la clase mediana o alrededor de ella como
muestra la Figura 24.
Si D 1 las frecuencias estan concentradas en posiciones lejanas a la de la clase mediana
como muestra la Figura 25.
ndice de Dispersin D=0

















Figura 24: Indice de Dispersion D = 0
ndice de Dispersin D=1














Figura 25: Indice de Dispersion D = 1
Ejemplo 10. (Continuacion Ejemplo 3)
Determine Indice de Dispersion para la variable Situacion Economica Propia Actual
Solucion
La clase cuartil 3 es Ni Buena Ni Mala en la tercera posiccion y la clase cuartil 1 es Ni Buena
Ni Mala en la tercera posicion. Entonces, el ndice de dispersion es D = (3 3)/(7 1) = 0 y se
concluye que la Situacion Economica Propia Actual de los encuestados es muy poco variable y
se concentra principalmente en la categora Ni Buena Ni Mala con un 57, 3 % de las frecuencias.

6.3. Caso Intervalar(Datos no agrupados)


En este caso se supone un conjunto de n datos numericos presentados en una lista x
1
, x
2
, . . . , x
n
Las medidas de dispersion dan cuenta de cuan lejos se encuentran los datos del centro de los datos
22


6 MEDIDAS DE DISPERSI

ON










Encuesta CEP 63
Situacin Econmica Propia del Encuestado
Figura 26: Indice de Dispersion del Ejemplo 10
representado por ejemplo por la media aritmetica. Una manera de medir esa lejana es determinar
para cada dato x
i
la distancia o desviacion |x
i
x|, i = 1, 2, . . . , n.
Desviacion media Un buen representante de la variabilidad o dispersion de los datos respecto
a la media es el promedio de las distancias o desviaciones |x
i
x|.
MD =

n
i=1
|x
i
x|
n
(10)
Varianza de la muestra Se dene como
S
2
=

n
i=1
(x
i
x)
2
n 1
(11)
Desviacion estandar de la muestra Se dene como la raz cuadrada de la varianza.
S =

n
i=1
(x
i
x)
2
n 1
(12)
Nota: Si los valores de la variable X en una poblacion de tama no N son x
1
, x
2
, . . . , x
N
entonces la
media de la poblacion es el promedio de esos valores
=

N
i=1
x
i
N
(13)
La varianza de la poblacion es el promedio de las distancias respecto a la media al cuadrado

2
=

N
i=1
(x
i
)
2
N
(14)
A veces el tama no de la poblacion N es sucientemente grande como para quea sea difcil sino impo-
sible conocer exactamente los valores de y
2
. En estos casos se toma una muestra x
1
, x
2
, . . . , x
n
y
se obtienen estimadores de y
2
dados por la media de la muestra y por la varianza de la muestra
denidas por,
x =

n
i=1
x
i
n
y S
2
=

n
i=1
(x
i
x)
2
n 1
La division por (n1) en vez de n sera justicada en el captulo de estimacion. Basta decir por ahora
que

S
2
=

n
i=1
(xi x)
2
n
calculada a partir de una muestra de tama no n de una poblacion muy grande
subestima la varianza de poblacion
2
. Por otro lado, la estimacion S
2
=

n
i=1
(xi x)
2
n1
resulta en
23


6 MEDIDAS DE DISPERSI

ON
promedio mas cercade
2
.
Coeciente de variacion Es una medida de variabilidad relativa que expresa la desviacion
estandar como un porcentaje de la media aritmetica para el caso en que la media es positiva. Se
calcula como
CV =
S
x
100 % (15)
El coeciente de variacion permite liberar la desviacion estandar de su unidad de medida permitiendo
comparar la variabilidad de datos asociados a la misma variable pero medidos en distintas unidades
o de magnitudes diferentes. Como ejemplo considera las ciudades de San Francisco en EEUU y Vi na
del Mar en Chile. Ambas ciudades costeras tienen climas similares pero sus temperaturas ambientes
son medidas en grados Fahrenheit y Celcius respectivamente. La comparacion de la variabilidad de
las temperaturas de ambas ciudades se puede hacer con los datos originales usando el coeciente de
variacion sin necesidad de expresar las temperaturas de ambas lugares en una sola unidad de medida
como los grados Celcius.
Otro ejemplo pero con variables medidas en las mismas unidades es el siguiente.
Ejemplo 11. Suponga que en las ventas mensuales de un minimarket y un hipermercado ubicados
en el mismo barrio tienen las siguientes caracteristicas durante el ultimo a no .
Ventas mensuales (millones de dolares) Minimarket Hipermercado
Media 34,5 675,9
Desviacion Estandar 2,8 37,9
Coeciente de Variacion % 8,1 5,6
Es enga noso creer que la variabilidad en las ventas mensuales del hipermercado es mayor que en
el minimarket porque 37, 9 > 2, 8. Pero, considerando el coeciente de variacion se concluye que
la variabilidad relativa al vol umen de ventas es menor en el hipermercado que en el minimarket.

Rango de la muestra Se dene como


R = max{x
i
} min{x
i
} = x
(n)
x
(1)
(16)
El principal problema que presenta el rango de la muestra es que es muy sensible a datos atpicos.
Por esto es mejor usar el rango percentil o el rango intercuartil que dejan cierto porcentaje de datos
arriba y abajo fuera del analisis. Estas medidas estan basadas en el concepto de percentil.
El percentil de orden i anotado P
i
con i = 1, 2, 3, . . . , 100 se dene como el primer valor de
la muestra ya ordenada que alcanza o supera el i % acumulado. Esto es, por lo menos el i % de los
datos son iguales o menores que P
i
y por lo menos el (100 i) % de los datos son iguales o mayores
que P
i
.
Para n datos en una lista ordenados de menor a mayor se sugiere el siguiente metodo para estimar
el percentil P
i
.
a) Calcule el ndice k dado por
k =
_
i
100
_
n; i = 1, 2, 3, . . . , 100 (17)
b) Si k resulta entero el percentil P
i
se obtiene promediando los datos que estan en las posiciones
k y k + 1.
Si k no resulta entero se redondea al primer entero mayor para encontrar la posicion del
percentil P
i
.
Rango Percentil Es el rango que contiene aproximadamente el 80 % de los datos alrededor de
la mediana y se calcula como
RP = P
90
P
10
(18)
24


6 MEDIDAS DE DISPERSI

ON
Rango Inter-Cuartil Es el rango que contiene aproximadamente el 50 % de los datos alrededor
de la mediana y se calcula como la diferencia entre el cuartil tres Q
3
y el cuartil uno Q
1
.
RIC = Q
3
Q
1
= P
75
P
25
(19)
Ejemplo 12. Los siguientes datos corresponden al n umero de solicitudes de ayuda que los admi-
nistradores del sistema intranet de una universidad reciben de los usuarios cada da.
3,5,6,3,4,4,7,2,1,2,3,3,4,4,6,2,7,5,3,4,4,1,2,2,3,5,4,6,5,5
Calcule las medidas de dispersion.
Solucion
La media aritmetica es
x =

n
i=1
x
i
n
=
3 + 5 + 6 + 3 + + 5 + 5
30
3, 833 3, 8 solicitudes
La desviacion media es
MD =

n
i=1
|x
i
x|
n
=
|3 3, 833| +|5 3, 833| + +|5 3, 833|
30
1, 32 solicitudes
La varianza de la muestra es
S
2
=

n
i=1
(x
i
x)
2
n 1
=
(3 3, 833)
2
+ (5 3, 833)
2
+ + (5 3, 833)
2
30 1
2, 6954023 2, 7 solicitudes
2
La desviacion estandar es
S =
_
2, 6954023 1, 641768 1, 64 solicitudes
El coeciente de variacion es
CV =
S
x
100 % =
1, 641768
3, 8333
100 % 42, 8
El rango de la muestra es
R = max{x
i
} min{x
i
} = 7 1 = 6 solicitudes
Las posiciones del percentil 75 y 25 son respectivamente las siguientes
k =
_
75
100
_
30 = 22, 5
k =
_
25
100
_
30 = 7, 5
Entonces el percentil 75 esta en la posicion 23 y es P
75
= 5. El percentil 25 esta en la posicion 8 y
es P
25
= 3. El rango intercuartil es
RIC = Q
3
Q
1
= P
75
P
25
= 5 3 = 2 solicitudes
6.4. Caso Intervalar(Datos agrupados)
En este caso se supone que el conjunto de n datos presentes en la muestra han sido agrupados en
k intervalos en una tabla de frecuencias como la que aparece en la Figura 20. Las medidas de resumen
ya no seran calculadas a partir de los datos originales sino que a partir de las componentes de esa
tabla tales como las marcas de clase X
i
, las frecuencias absolutas, las amplitudes de los intervalos,
etc.
25


6 MEDIDAS DE DISPERSI

ON
Las medidas de dispersion dan cuenta de cuan lejos se encuentran los datos del centro de los datos
representado por ejemplo por la media aritmetica. Una manera de medir esa lejana es determinar
para cada marca de clase X
i
la distancia |X
i
x|, i = 1, 2, . . . , n.
Desviacion media Un buen representante de la variabilidad o dispersion de los datos respecto a
la media es el promedio de las distancias o desviaciones |X
i
x|.
MD =

n
i=1
n
i
|X
i
x|
n
(20)
Varianza de la muestra Se dene como
S
2
=

n
i=1
n
i
(X
i
x)
2
n 1
(21)
Desviacion estandar de la muestra Se dene como la raz cuadrada de la varianza.
S =

n
i=1
n
i
(X
i
x)
2
n 1
(22)
Coeciente de variacion Se dene como
CV =
S
x
100 % (23)
Rango Percentil El percentil de orden i anotado P
i
con i = 1, 2, 3, . . . , 100 esta dado por
P
i
= L
i
+
_
n
100
i N
i1
n
i
_
a
i
(24)
donde
L
i
es el lmite inferior de la clase donde esta P
i
.
n
i
es la frecuencia absoluta de la clase donde esta P
i
.
a
i
es la amplitud de la clase donde esta P
i
.
N
i1
es la frecuencia absoluta acumulada hasta la clase anterior a la clase donde esta P
i
.
n es el n umero de datos agrupados en la tabla.
El rango percentil es el rango alrededor de la mediana que contiene aproximadamente el 80 % de los
datos y se calcula como
RP = P
90
P
10
(25)
Rango Inter-Cuartil Es el rango que contiene aproximadamente el 50 % de los datos alrededor de
la mediana y se calcula como la diferencia entre el cuartil tres Q
3
y el cuartil uno Q
1
.
RIC = Q
3
Q
1
= P
75
P
25
(26)
Ejemplo 13. La siguiente tabla presenta las ventas diarias (en millones de pesos) de una muestra
de vendedores de dos sucursales de una cadena de tiendas.
Sucursal 1 Sucursal 2
Ventas n
o
de empleados n
o
de empleados
2-4 7 4
4-6 18 12
6-8 13 24
8-10 9 13
26


6 MEDIDAS DE DISPERSI

ON
Sucursal 1 Sucursal 2
ventas
[2-4[ 2 3 7 0,149 7 0,149 4 0,075 4 0,075
[4-6[ 2 5 18 0,383 25 0,532 12 0,226 16 0,302
[6-8[ 2 7 13 0,277 38 0,809 24 0,453 40 0,755
[8-10] 2 9 9 0,191 47 1,000 13 0,245 53 1,000
Total 47 1 53 1




Figura 27: Ventas por sucursal
a) Determine las medidas de dispersi on por sucursal.
b) Determine la desviacion estandar de todas las ventas muestreadas.
Solucion
a) En la Figura 27 aparece la tabla de frecuencias para ambas sucursales. A partir de ella se calcularan
las medidas de dispersion.
Sucursal 1
x =

n
i=1
n
i
X
i
n
=
7(3) + 18(5) + 13(7) + 9(9)
47
6, 02
MD =

n
i=1
n
i
|X
i
x|
n
=
7|3 6, 02| + 18|5 6, 02| + 13|7 6, 02| + 9|9 6, 02|
47
1, 68
S
2
=

n
i=1
n
i
(X
i
x)
2
n 1
=
7(3 6, 02)
2
+ 18(5 6, 02)
2
+ + 9(9 6, 02)
2
46
3, 804
S =
_
3, 804... 1, 95
P
75
= 6 +
_
47(75)/100 25
13
_
2 7, 577
P
25
= 4 +
_
47(25)/100 7
18
_
2 4, 528
RIC = P
75
P
25
= 7, 577 4, 528 3, 05
Sucursal 2
x =

n
i=1
n
i
X
i
n
=
4(3) + 12(5) + 24(7) + 13(9)
53
6, 74
27


6 MEDIDAS DE DISPERSI

ON
MD =

n
i=1
n
i
|X
i
x|
n
=
4|3 6, 74| + 12|5 6, 74| + 24|7 6, 74| + 9|9 6, 74|
53
1, 35
S
2
=

n
i=1
n
i
(X
i
x)
2
n 1
=
4(3 6, 74)
2
+ 12(5 6, 74)
2
+ + 9(9 6, 74)
2
52
3, 083
S =
_
3, 083... 1, 756
P
75
= 6 +
_
53(75)/100 16
24
_
2 7, 979
P
25
= 4 +
_
53(25)/100 4
12
_
2 5, 542
RIC = P
75
P
25
= 7, 979 5, 542 2, 438
Medi da Sucursal 1 Sucursal 2
Moda 5,38 7,04
Medi ana 5,83 6,88
Medi a 6,02 6,74
Desv medi a 1,68 1,35
Vari anza 3,80 3,08
Desv estndar 1,95 1,76
RIC 3,05 2,44

Figura 28: Medidas descriptivas para las ventas del Ejemplo 13
La Figura 28 muestra el resumen de las principales medidas descriptivas para las ventas de las
dos sucursales de la cadena de tiendas. All se observa que todas las medidas de tendencia central
de la sucursal 2 son mayores que las de la sucursal 2. Por ejemplo, cada da los vendedores de la
sucursal 2 venden en promedio 0,72 millones de pesos mas que los vendedores de la sucursal 1.
Tambien se observa que todas las medidas de dispersion de la sucursal 2 son menores que la de la
sucursal 1 indicando que las ventas de la sucursal 2 son mas parejas que las de la sucursal 1. Dicho
de otro modo, en la sucursal 2 los vendedores tienen menos diferencias entre sus ventas que en la
sucursal 1.
b) La tabla de la Figura 29 muestra las frecuencias para las ventas de los 100 vendedores de la tienda
que aparecen en la muestra.
La media y la desviacion estandar de toda la muestra de ventas
son:
x =

n
i=1
n
i
X
i
n
=
11(3) + 30(5) + 37(7) + 22(9)
100
6, 40
S
2
=

n
i=1
n
i
(X
i
x)
2
n 1
=
11(3 6, 40)
2
+ 30(5 6, 40)
2
+ + 22(9 6, 40)
2
99
3, 515
S =
_
3, 515 1, 875
ventas
[2-4[ 2 3 11
[4-6[ 2 5 30
[6-8[ 2 7 37
[8-10] 2 9 22
Total 100

Figura 29: Tabla de frecuencia
para toda la tienda
Ejercicios secciones 5 y 6
7. Una compa na internacional de telecomunicaciones tiene en carpeta cinco pases para extender
su negocio de telefona, internet y television para hogares. Una condicion mnima para instalar-
se en un nuevo pas es que tenga tres millones o mas de hogares con ingresos anuales de $1000
28


6 MEDIDAS DE DISPERSI

ON
o mas. La siguiente tabla muestra los datos iniciales que la compa na ha podido recolectar para
determinar cuales de los cinco pases, si los hay, cumplen los requisitos mnimos. Que pas o
pases se deberan recomendar para que se instale la compa na? Justique su respuesta.
Pas Media Mediana Moda Desviacion N umero de
Estandar Hogares
1 1200 474 450 150 15000000
2 1070 518 494 104 18000000
3 1006 1004 896 20 6000000
4 1030 980 920 40 6000000
5 1034 1020 1016 36 570000
R: Pas 3
8. La Figura 30 presenta la distribucion de frecuencias acumulada de una variable estadstica X.
a) Determina la media x y la desviacion estandar S de la variable X.
b) Que porcentaje de los valores de X estan en el intervalo [ x S; x +S]?
R: a) x 12, 65 y S 5, 03 b) 63,77 %

12%
21%
32%
54%
80%
96%
100%
[2 ; 5[ [5 ;8[ [8 ;11[ [11 ; 14[ [14 ; 17[ [17 ; 20[ [20 ; 23[
Figura 30: Frecuencias Acumuladas (Ejercicio 8)
9. Antes de una recesion economica los precios de tres artculos A, B y C tenan las siguientes
caractersticas:
Artculo Promedio Desviacion estandar
A 135,60 10,296
B 15,93 1,722
C 0,06 0,009
Ahora, durante la recesion economica los precios promedios de los tres artculos son $151, 05
para A, $16, 44 para B y $0, 09 para C. El precio de que artculo ha sido mas afectado por la
recesion?. Justique su respuesta.
R: El artculo C.
10. Suponga que los datos de dos muestras son
Muestra 1: 18 19 21 25
Muestra 2: 14 17 18 19 19 20 20 20 21 21 22
a) Encuentre el rango de cada muestra.
29


6 MEDIDAS DE DISPERSI

ON
Alumno Genero Duracin Porcentaje Gasto Alumno Genero Duracin Porcentaje Gasto
minutos de atraso $ minutos de atraso $
1 masculino 50 30% 500 16 masculino 60 80% 500
2 masculino 25 10% 300 17 masculino 18 0% 500
3 masculino 20 40% 1400 18 masculino 22 30% 500
4 masculino 40 80% 400 19 masculino 20 0% 1500
5 masculino 40 50% 1000 20 masculino 20 50% 2000
6 masculino 10 30% 1500 21 masculino 15 20% 200
7 masculino 10 30% 500 22 masculino 30 10% 700
8 femenino 15 20% 0 23 femenino 30 30% 1000
9 masculino 45 40% 500 24 femenino 30 20% 2000
10 masculino 50 20% 700 25 femenino 15 0% 1000
11 femenino 45 30% 300 26 femenino 30 50% 700
12 masculino 10 0% 200 27 masculino 25 20% 1300
13 femenino 15 805 650 28 masculino 25 40% 800
14 femenino 30 40% 500 29 masculino 20 10% 1000
15 masculino 10 40% 500 30 femenino 50 20% 1100

Figura 31: Trayecto a la universidad
b) Encuentre la media y la desviacion estandar de cada muestra.
c) Use los calculos de la parte b) para comentar las diferencias y/o similitudes en las dos
muestras.
11. La tabla de la Figura 31 presenta una muestra de 30 estudiantes, su genero, la duracion del
viaje a la universidad en minutos, el porcentaje de veces que el alumno llega atrasado a clases
y el gasto diario en transporte a la universidad.
a) Determine la media x y la desviacion estandar S de la duracion del viaje a la universidad.
Que porcentaje de los tiempos de viaje estan en el intervalo [ x S; x +S]?
b) Compare el porcentaje de atrasos en llegar a clases de hombres y mujeres.
c) Calcule e interprete la mediana del gasto diario en transporte a la universidad.
12. La Figura 32 muestra la distribucion de frecuencias de una variable aleatoria. Calcule su media,
mediana, desviacion estandar y rango percentil.

Figura 32: Histograma del Ejercicio 12
30


7 MEDIDAS DE FORMA Y DATOS AT

IPICOS
13. La empresa ILUMINA esta realizando un estudio de la duracion en horas de las ampolletas que
produce para uso domestico. A causa de un virus.
en
su red la empresa solo pudo recuperar
parte de los datos. Estos aparecen en la siguiente tabla con varias celdas perdidas.
Duracion a
i
X
i
n
i
f
i
N
i
F
i
0,040
50-80 28
80-100 62
55
120-150 0,825
0,100
200 15
Total 200
a) Repare la tabla.
b) Calcule la media, moda y mediana de la duracion de las ampolletas.
c) Calcule la desviacion estandar.
d) Que tiempo de garanta se debe dar si no se quiere reemplazar mas del 15 % de las ampo-
lletas?
14. El chef en jefe del restaurante Parisien acaba de recibir de un proveedor dos docenas de tomates
de una variedad especial pero todava no los acepta. Sabe por la factura que el peso promedio
de un tomate es 7,5 onzas, pero insiste en que todos tengan un peso uniforme. Aceptara los
tomates solo si el peso promedio es 7,5 onzas y la desviacion estandar es menor que 0,5 onzas.
Los pesos de los tomates recibidos son los siguientes.
6,3 7,2 7,3 8,1 7,8 6,8 7,5 7,8 7,2 7,5 8,1 8,2 8,0 7,4 7,6 7,7 7,6 7,4 7,5 8,2 7,4 7,6 6,2 7,4
a) Calcule la media x y la desviacion estandar S del peso de los tomates.
b) Cual debera ser la decision del chef y por que? c) Que porcentaje de los tomates recibidos
tiene un peso en el intervalo [ x S; x +S]?
d) Usando c) de una interpretacion de la desviacion estandar S en terminos del peso de los
tomates.
7. Medidas de Forma y Datos Atpicos
Las medidas de forma tienen como proposito describir la forma de la distribucion de frecuencias
en una poblacion o la forma de un histograma basado en una muestra de esa poblacion. Una de
ellas llamada coeciente de asimetra o sesgo describe la asimetra de la distribucion de frecuencias
respecto a la media. La segunda llamada curtosis describe que tan plana es la distribucion de
frecuencias o histograma.
Los datos atpicos corresponden a valores inusuales que se escapan de la mayora de los datos. Son
bien representados en un diagrama de caja y bigotes.
7.1. Sesgo o Asimetra
En el caso de distribuciones de frecuencias poblacional de una variable X con una sola moda se
distinguen tres situaciones de asimetra como lo muestra la Figura 33 a), b) y c.
a) Sesgo positivo.
En este caso los datos mas frecuentes se concentran en valores bajos y solo hay unos pocos
valores altos. La cola de la distribucion esta hacia la derecha y la relacion entre las medidas
del centro es x > M
e
> M
o
. En esta situacion podra ser preferible la mediana M
e
como el
representante de los datos.
b) Sesgo nulo.
En este caso los datos tienen una distribucion de frecuencias simetrica respecto al centro.
Las colas de la distribucion son simetricas y la relacion entre las medidas del centro es
31


7 MEDIDAS DE FORMA Y DATOS AT

IPICOS
Sesgo o Coeficiente de Asimetra
Frecuencia Frecuencia Frecuencia







x
a) Sesgo positivo:

b) Sesgo nulo:

c) Sesgo negativo:


Curtosis o Achatamiento
Frecuencia Frecuencia Frecuencia








x x x
d) Curtosis positiva e) Curtosis nula (caso normal) f) Curtosis negativa
Figura 33: Sesgo y Curtosis poblacional
x = M
e
= M
o
. En esta situacion podra ser preferible la media x como el representante de los
datos.
c) Sesgo negativo.
En este caso los datos mas frecuentes se concentran en valores altos y solo hay unos pocos
valores bajos. La cola de la distribucion esta hacia la izquierda y la relacion entre las medidas
del centro es x < M
e
< M
o
. En esta situacion podra ser preferible la mediana M
e
como el
representante de los datos.
En el caso de una muestra x
1
, x
2
, ..., x
n
los tres tipos de asimetras se pueden ilustrar con histo-
gramas como muestra la Figura 34. El histograma del centro corresponde aproximadamente al caso
llamado normal. Para un conjunto de datos x
1
, x
2
, ..., x
n
los programas JMP y Excel usan como
medida de sesgo el siguiente coeciente de asimetra.
=
n
(n 1)(n 2)
n

i=1
_
x
i
x
s
_
3
(27)
7.2. Curtosis o Achatamiento
La curtosis caracteriza la elevacion o el achatamiento relativo de una distribucion, comparada
con la distribucion normal. Una curtosis positiva indica una distribucion relativamente elevada o
puntiaguda, mientras que una curtosis negativa indica una distribucion relativamente plana o acha-
tada. Estos tres casos se ilustran en la Figura 33 d), e) y f. Programas como Excel usan como
medida de achatamiento la siguiente formula para la curtosis de un conjunto de datos x
1
, x
2
, ..., x
n
.
=
_
n(n + 1)
(n 1)(n 2)(n 3)
n

i=1
_
x
i
x
s
_
4
_

3(n 1)
2
(n 2)(n 3)
(28)
32


7 MEDIDAS DE FORMA Y DATOS AT

IPICOS
Sesgo negativo (caso asimtrico)
x
F
r
e
c
u
e
n
c
i
a
0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0
1
2
3
4
Sesgo nulo (caso simtrico)
z
F
r
e
c
u
e
n
c
i
a
s
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4
Sesgo positivo (caso asimtrico)
y
F
r
e
c
u
e
n
c
i
a
s
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
0
1
2
3
4
Figura 34: Asimetra en muestras
Un res umen de las medidas descriptivas para las variables x, y, z de la Figura 34 aparece en la tabla
de la Figura 35. Los datos de la variable z tienen coeciente de asimetra y curtosis cercanos a cero
como corresponde a datos aproximadamente normales.
7.3. Datos Atpicos
Los valores atpicos son datos que se encuentran muy por debajo o muy por encima de los datos
preponderantes. Su presencia puede ser causada por:
una anomala en el proceso que se esta estudiando
una mala digitacion
una interferencia en el canal de comunicacion que transporta los datos
un virus informatico, etc.
Un criterio emprico para detectar valores atpicos debido a Tukey (1977) esta basado en los cuartles
Q
1
y Q
3
y el rango intercuartlico RIC = Q
3
Q
1
(ecuacion (26)). El metodo de Tukey para detectar
valores atpicos requiere el calculo de ciertas barreras o lmites denidos de la siguiente manera.
BIE = Q
1
3, 0RIC = Barrera Inferior Exterior
BII = Q
1
1, 5RIC = Barrera Inferior Interior
BSI = Q
3
+ 1, 5RIC = Barrera Superior Interior
BSE = Q
3
+ 3, 0RIC = Barrera Superior Exterior
El criterio de Tukey es:
Cualquier valor que se encuentre dentro de las barreras interiores es considerado como un dato
normal
33


7 MEDIDAS DE FORMA Y DATOS AT

IPICOS

Descripcin x z y
Media 0,833 0,502 0,165
Error tpico 0,001 0,001 0,001
Mediana 0,851 0,501 0,145
Moda #N/A #N/A #N/A
Desviacin estndar 0,104 0,148 0,103
Varianza de la muestra 0,011 0,022 0,011
Curtosis 0,868 0,113 0,913
Coeficiente de asimetra -0,929 0,023 0,958
Rango 0,727 1,161 0,668
Mnimo 0,272 -0,081 0,001
Mximo 0,999 1,081 0,670
Suma 8326,880 5022,542 1653,085
Cuenta 10000 10000 10000
Figura 35: Estadsticas descriptivas para las variables x, z, y de la Figura 34
Cualquier valor que se encuentre fuera de las barreras interiores pero dentro de las barreras
exteriores es un valor atpico
Cualquier valor que se encuentre fuera de las barreras exteriores es considerado un valor
atpico extremo
Usualmente los valores atpicos son representados gracamente en un diagrama de caja y bigotes
(boxplot) que es el tema de la siguiente subseccion.
7.4. Diagrama de Caja y Bigotes
Un diagrama de caja y bigotes brinda una impresion visual de la localizacion, dispersion, simetra
y presencia de datos atpicos en un conjunto de datos. Es especialmente util cuando se quiere
comparar dos o mas grupos de datos. Los pasos para construir un diagrama de caja y bigote son los
siguientes:
1. Se dibuja un eje numerico horizontal o vertical donde se marcan los principales elemntos del
diagrama.
2. Se calculan la mediana Q
2
, los cuartles Q
1
y Q
3
, y el rango intercuartlico RIC
3. Se calculan las barreras internas BII = Q
1
1, 5RIC y BSI = Q
3
+1, 5RIC. Estas barreras
no son parte visible del diagrama de cajas.
4. Se calculan los datos adyacentes inferior a
i
y superior a
s
. El valor a
i
corresponde al primer
dato que es igual o mayor a BIE = Q
1
1, 5RIC. El valor a
s
corresponde al primer dato que
es igual o menor a BSI = Q
3
+ 1, 5RIC.
5. Se calculan las barreras externas BIE = Q
1
3, 0RIC y BSE = Q
3
+ 3, 0RIC. Estas
barreras no son parte visible del diagrama de cajas.
6. Se localizan en el eje del diagrama las barreras y datos adyacentes calculados anteriormente.
34


7 MEDIDAS DE FORMA Y DATOS AT

IPICOS















Diagrama de Caja y Bigotes
(Box Plot)

3

1,5RIC
1,5RIC (atpico)
1,5RIC
1,5RIC (atpico)
RIC
atpico extremo
bigote
bigote
caja
mediana
atpico
Figura 36: Diagrama de Caja y Bigote
7. Al eje anterior se superpone una caja cuyos lados inferior y superior estan ubicados en Q
1
y
Q
3
respectivamente. Dentro de la caja se marca una lnea interior que pasa por la mediana.
8. Los bigotes se obtienen dibujando dos lneas desde la caja hasta los valores adyacentes.
9. Se marcan los valores atpicos y valores atpicos extremos seg un el criterio de Tukey.
La Figura 36 presenta los elementos de un diagrama de caja y bigotes o boxplot.
Ejemplo 14. La Figura 37 muestra el diagrama de cajas y bigotes para los datos x, y, z de la
Figura 34. En ese diagrama se aprecia la presencia de datos atpicos en los tres grupos de datos.
La mediana o lnea central de las cajas indica que la magnitud de x es mayor que la de z y esta
es mayor que la magnitud de y. La variablidad de x e y son similares pero menores que la de z.
El conjunto de datos x esta concentrado en valores altos y sus valores atpicos tienen valores bajos
por lo que su asimetra es negativa. El conjunto de datos y tiene un comportamiento contrario al
de x y en consecuencia tiene asimetra positiva. El conjunto de datos z es simetrico respecto a su
centro por tratarse de datos aproximadamente normales. El lector debe observar y darse cuenta de la
equivalencia o correspondencia entre las tres descripciones de los datos x, z, y dadas en las Figuras
34, 35 y 37.
Ejercicios Seccion 7
15. La Figura 38 presenta el diagrama de caja y bigote para la rentabilidad de cuatro acciones,
VTR, CAS, ACS y TEL, durante los ultimos 10 meses. En que accion sera razonable invertir?
Por que?
16. Un editor de libros necesita rapidez en el manejo de las pruebas de pagina de los libros que
esta por editar. Estas pruebas se tienen que enviar a los autores para una revision nal de la
composicion, los errores tipogracos y otros aspectos. Dado que en los programas de publicacion
muy ajustados la rapidez es esencial, el editor esta considerando utilizar un Servicio expreso de
entregas. Los ultimos 90 envos de pruebas se distribuyeron aleatoriamente entre tres Servicios
35


7 MEDIDAS DE FORMA Y DATOS AT

IPICOS
x z y
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Diagrama de caja y bigotes
v
a
l
o
r
e
s

d
e

x
,
y
,
z
Figura 37: Diagramas de Caja y Bigote
distintos y se registro el n umero de horas que requirio cada entrega. Los resultados aparecen
en la siguiente tabla
Servicio n Media Mediana Desv. Est Min Max Q1 Q3
1 30 40,07 40,00 4,53 32 50 37,75 42,50
2 30 37,17 36,00 7,25 24 55 31,75 41,50
3 30 44,60 45,50 13,55 20 74 34,00 50,50
a) Que Servicio debera escoger el editor para enviar las pruebas de pagina?
b) Alguno de los tiempos de entrega mnimos y maximos observados puede ser considerado
un valor atpico?
R: a) Conviene el Servicio 2 b) El valor maximo de 50,00 en el Servivio 1 es un
valor atpico.
17. Los resultados de la muestra del Ejercicio 1 fueron procesados en Excel de Microsoft, obteniendo
la planilla siguiente:
36


7 MEDIDAS DE FORMA Y DATOS AT

IPICOS
VTR CAS ACS TEL
0
5
1
0
1
5
Rentabilidad de las Acciones
Acciones
r
e
n
t
a
b
i
l
i
d
a
d
,

%
Figura 38: Diagrama de caja para Ejercicio 15
Tiempo de atencion
Media 18,066
Error tpico 0,634
Mediana 18,538
Moda N/A
Desviacion estandar 4,011
Varianza de la muestra 16,088
Curtosis 3,901
Coeciente de asimetra -1,254
Rango 22,471
Mnimo 3
Maximo 25,5
Suma 722,650
Cuartil 1 16,186
Cuartil 2 18,538
Cuertil 3 20,499
a) Interprete en terminos del problema el valor de la mediana.
b) Interprete en terminos del problema el valor de la desviacion estandar.
c) Dibuje aproximadamente la forma del polgono de frecuencias.
d) Existe alg un valor atpico?. Justique su respuesta.
18. Los siguientes datos corresponden a la rentabilidad diaria de un grupo de 10 acciones.
0,9 0,8 0,6 0,5 0,6 0,7 0,8 0,5 -0,1 -0,8
a) Determine el cuartil 1 Q
1
, el cuartil 3 Q
3
, el rango intercuartlico RIC y las barreras
interiores y exteriores del metodo de Tukey para determinar si existen datos atpicos Si los
hubiera, cuales son?
b) Graque estos datos mostrando las barreras interiores y exteriores identicando claramente
all los valores atpicos si los hubiera.
37


7 MEDIDAS DE FORMA Y DATOS AT

IPICOS
R: a) Q
1
= 0, 5; Q
3
= 0, 8; RIC = 0, 3 b) Las barreras son -0,4; 0,05; 1,25 y 1,70
c) -0,8 es un dato atpico.
19. Los siguientes resultados corresponden a las ventas diarias de un articulo, en cinco das de la
semana, en tres supermercados de la region. En cada caso, que medida de tendencia central
(media, mediana o moda) es mas adecuada para describir la centralidad de las ventas. Justi-
que su respuesta.
Supermercado A: 2, 3, 5, 7, 22
Supermercado B: 2, 4, 6, 18, 34
Supermercado C: 2, 6, 18, 54, 162
20. Se mide el tiempo de secado de 55 supercies de un metro cuadrado cada una utilizando la
pintura A y 70 supercies de un metro cuadrado cada una utilizando la pintura B. La siguiente
tabla presenta las estadsticas descriptivas para el tiempo de secado de los dos tipos de pintura.
Pintura A Pintura B
Media 54,84 59,73
Error tpico 3,61 2,13
Mediana 51,30 61,55
Moda N/A 81,20
Desviacion estandar 26,80 17,82
Varianza de la muestra 718,27 317,41
Curtosis -0,89 -0,48
Coeciente de asimetra 0,13 -0,33
Rango 104,9 78,5
Mnimo 3 15,5
Maximo 107,9 94
Suma 3016,1 4180,8
Cuenta 55 70
Cuartil 1 34,15 46,73
Cuartil 3 76,1 73,53
a) Compare los tiempos de secado de las pinturas A y B.
b) Utilice los resultados obtenidos para determinar si existen valores atpicos en alguna de las
dos muestras.
c) Que pintura utilizara usted?. Justique su respuesta.
21. El Gerente de Recursos Humanos de la Compa na de Aceros del Sur (CAS) cree que los tra-
bajadores de mas edad pierden mas das de trabajo por licencias medicas que los trabajadores
jovenes. Se eligen al azar 12 trabajadores de 50 a nos o mas y 12 trabajadores menores que 50
a nos. Los das laborales perdidos por los trabajadores de la muestra aparecen en la siguiente
tabla.
38


8 MEDIDAS DE ASOCIACION
Das perdidos
menos de 50 a nos 50 a nos o mas
22 32
14 21
16 23
41 17
11 13
7 19
1 14
19 25
0 23
8 34
21 27
13 29
a) Use la funcion Estadstica descriptiva del men u DatosAnalisis de datos de Excel de
Microsoft para obtener las medidas de res umen de ambas muestras.
b) Las muestras sugieren que la sospecha del Gerente de RRHH es correcta?.
c) Existe alg un outlier en las muestras? Si su respuesta es armativa determine que medidas
de res umen son mas afectadas por esos valores atpicos (calcule las estadsticas descriptivas sin
los valores atpicos y luego compare con las estadsticas descriptivas iniciales de la parte a))
22. Para los datos de tomates del Ejercicio 14 haga lo siguiente:
a) Calcule la mediana e interpretela en terminos del peso de los tomates.
b) Presente los datos en una tabla de frecuencia de 5 intervalos.
c) Usando b) presenta gracamente los datos.
d) Calcula el sesgo y decide cual de las tres medidas del centro, media, mediana o moda, es
m as apropiada para representar el peso de los tomates. Justique su respuesta.
23. Una compa na de seguros ha creado un ndice para calicar a cada automovil seg un el n umero
de siniestrosque ha tenido y seg un el costo para la compa na de esos siniestros. Un ndice de
100 se considera normal. En cambio, un ndice menor que 100 es mejor porque estos ndices
estan asociados a autos mas seguros. Los siguientes datos corresponden a las calicaciones de
26 automoviles medianos y 26 automoviles peque nos escogidos al azar.
Mediano 80 92 92 121 70 82 58 50 58 65 66 78 87
90 83 86 90 99 94 78 74 81 60 51 58 75
Peque no 91 74 96 100 112 125 99 102 100 117 124 103 119
101 127 69 111 108 118 105 122 103 125 109 109 139
a) Para cada muestra calcule el porcentaje de autos con ndice mayor o igual a 100. Que con-
cluye?.
b) Calcule e interprete la mediana de las calicaciones para cada tipo de automoviles. Que con-
cluye?.
c) Determine el sesgo o coeciente de asimetra de las calicaciones para cada tipo de au-
tomoviles. Que concluye?.
d) Determine el promedio de las calicaciones para cada tipo de automoviles. Se conrma
cada posible sesgo con la ubicacion relativa de la media y la mediana?. Explique.
d) Cual de los dos conjuntos de datos presenta una mayor variabilidad? Justique su respues-
ta.
e) Que porcentaje de autos medianos en la muestra tiene una calicacion entre 80 y 100?.
8. Medidas de Asociacion
La siguiente tabla muestra las ventas diarias de una distribuidora de helados y la temperatura
maxima de cada da.
Temperatura x (

C) 22 26 29 32 19 35 38 37 28 33
Ventas y (litros) 416 481 530 572 337 708 776 719 515 625
39


8 MEDIDAS DE ASOCIACION
Se quiere investigar si esas ventas estan relacionas con la temperatura ambiente maxima diaria y
se quiere responder preguntas tales como: Se puede medir el tipo y el grado de relacion entre estas
variables?. Si el informe del clima informa que habra una temperatura maxima de 30
o
C, se puede
pronosticar la venta que habra ese da?. Que tan bueno sera ese pronostico?. La respuesta a esas
preguntas es el tema de esta seccion.
La Figura 39 presentaun diagrama de dispersion para la venta de helados y la temperatura
maxima diaria. Este graco muestra una asociacion positiva entre las variables. Esto es, cuando
la temperatura ambiental maxima aumenta las ventas de helados tambien aumenta. Mas a un la
relacion es aproximadamente lineal. El coeciente de correlacion muestral es una medida que
20 25 30 35
4
0
0
5
0
0
6
0
0
7
0
0
Diagrama de Dispersin
Temperatura (C)
V
e
n
t
a
s

(
l
i
t
r
o
s
)
Figura 39: Diagrama de dispersion Ventas-Temperatura
estima el tipo y el grado de asociaci on entre dos variables X e Y a partir de una muestra de pares
(x
1
, y
1
), (x
2
, y
2
), ..., (x
n
, y
n
) y esta denido por
r =
s
xy
s
x
s
y
(29)
donde s
x
y s
y
son las desviaciones estandar muestrales de x e y dadas por
s
x
=

n
i=1
(x
i
x)
2
n 1
s
y
=

n
i=1
(y
i
y)
2
n 1
s
xy
es la covarianza muestral dada por
s
xy
=

n
i=1
(x
i
x)(y
i
y)
n 1
(30)
La correlacion cumple 1 r 1. Cuando r = 1 existe una relacion lineal perfecta entre x e y con
pendiente positiva o negativa de acuerdo al signo de la correlacion. La Figura 40 ilustra diferentes
valores de la correlacion muestral r y en la primera imagen se muestra un conjunto de datos con
40


8 MEDIDAS DE ASOCIACION
0 1 2 3 4
2
.
0
2
.
5
3
.
0
3
.
5
4
.
0
caso r = 0
x
y
0 1 2 3 4
2
3
4
5
6
7
caso r = 1
x
y
100 200 300 400 500 600 700
2
4
6
8
1
0
caso r = 0.82
x
y
100 200 300 400 500 600 700

1
0

2
caso r = 0,79
x
y
Figura 40: Coeciente de correlacion
correlacion lineal nula pero con una relacion cuadratica perfecta. Tambien se muestra all el caso de
una asociacion lineal perfecta con r = 1.
Ejemplo 15. Para los datos de ventas de helados se tiene que x = 29, 9

C, s
x
= 6, 30

C, y = 567, 9
litros, s
y
= 140, 32 litros, s
xy
= 872, 10

Clitros. Por tanto, la correlacion muestral es


r =
s
xy
s
x
s
y
=
872, 10xy
(6, 30)(140, 32)
0, 987
lo que conrma una buena relacion lineal entre las ventas de helados diarias y la temperatura
ambiente maxima.
Una recta de regresion simple es una lnea del tipo y =
0
+
1
x ajustada a la muestra
(x
1
, y
1
), (x
2
, y
2
), ..., (x
n
, y
n
). Estimaciones del intercepto
0
y de la pendiente
1
se pueden obtener
mediante el metodo de mnimos cuadrados y estan dados por

1
=
s
y
s
x
r =
s
xy
s
2
x
(31)

0
= y
1
x (32)
Ejemplo 16. Para los datos de ventas de helados se tienen las siguientes estimaciones.
pendiente :
1
=
sxy
s
2
x
=
872,10
6,30
2
21, 99litros/
o
C
intercepto :
0
= y
1
x = 567, 90 (21, 99)(29, 90) 89, 66
recta de regresion :y = 89, 66 + 21, 99x
predicci on para 30

C : y = 89, 66 + 21, 99x = 89, 66 + 21, 99(30) 570 litros


41


9 PROPIEDADES DE LAS MEDIDAS
Ejercicios Seccion 8
24. La siguiente tabla muestra la edad, el n umero de visitas al medico el ultimo a no, el ingreso
anual y el genero de 10 ancianos de un asilo.
Edad Visitas al medico Ingreso anual Genero
72 7 4,7 F
79 6 4,9 M
81 10 3,3 F
75 3 3,9 F
74 4 4,7 M
77 12 3,9 M
77 6 5,4 F
71 2 4,5 M
83 9 4,4 F
82 11 5,1 F
a) Determine cual de las variables, edad o ingresos, permite predecir mejor el n umero de visitas
al medico el ultimo a no.
b) Encuentre una recta de regresion que permita predecir el n umero de visitas al medico el
ultimo a no.
25. El Sistema Nacional de Concesiones esta investigando la relacion entre el monto de cada
contrato X en millones de dolares y el tiempo transcurrido Y en das desde la presentacion de
la propuesta hasta su aprobacion.
y 110 158 175 284 329 401 541
x 1,23 4,84 10,92 48,93 102,87 499,96 1017,76
a) Estime la recta de regresion simple y =
0
+
1
x .
b) Interprete en el contexto del problema la pendiente beta
1
.
c) Le parece adecuado el modelo? Propondra un modelo distinto?. Justique su respuesta.
9. Propiedades de las Medidas
Las medidas descriptivas tienen ciertas propiedades utiles que a continuacion se detallan.
Propiedad 9.1. La suma de las desviaciones es cero.
n

i=1
(x
i
x) = 0 (33)
Propiedad 9.2. Formula corta para la varianza
La varianza S
2
=

n
i=1
(x
i
x)
2
/n puede ser escrita como
S
2
=

n
i=1
x
2
i
n
x
2
(34)
Propiedad 9.3. Transformacion Lineal de datos
Suponga que un conjunto de datos x
1
, x
2
, ..., x
n
es transformado linealmente seg un la formula y
i
=
ax
i
+ b para i = 1, 2, ..., n con a y b constantes reales, a = 0. Entonces la nueva media, la nueva
varianza y la nueva desviacion estandar estan dadas por
y = a x +b (35)
s
2
y
= a
2
s
2
x
(36)
s
y
= |a|s
x
(37)
42


9 PROPIEDADES DE LAS MEDIDAS
Propiedad 9.4. Muestras estraticadas
Suponga que una muestra de tama no n esta dividida naturalmente en r estratos donde el estrato j
tiene tama no n
j
, una media x
j
y una varianza s
2
j
como lo muestra la siguiente tabla donde x
ij
es
el dato n umero i en el estrato j.
Estratos
1 2 r
x
11
x
12
x
1r
x
21
x
22
x
2r
x
31
.
.
. x
3r
.
.
. x
n22

.
.
.
x
n11
x
nrr
n
j
n
1
n
2
n
r
x
j
x
1
x
2
x
r
s
2
j
s
2
1
s
2
2
s
2
r
Entonces, la media total de la muestra x es el promedio ponderado de las medias de los estratos y
la varianza total de la muestra estraticada s
2
es la media de las varianzas de los estratos mas la
varianza de la media de los estratos. Esto es,
x =

r
j=1
n
j
x
j
n
(38)
s
2
=

r
j=1
n
j
s
2
j
n
+

r
j=1
n
j
( x
j
x
t
)
2
n
(39)
donde n =

r
j=1
n
j
es el n umero total de datos repartidos en los estratos.
Observaciones 9.1. En la Propiedad 9.4 se supone que las varianzas de los estratos s
2
j
y la varianza
de toda la muestra s
2
estan calculadas con la formula con n dada por s
2
=

n
i=1
(x
i
x)
2
/n.
Observaciones 9.2. El primer termino en el lado derecho de la ecuacion (39) es un promedio de
las varianzas al interior de los estratos y por tanto es un representante de la variabilidad dentro
de esos estratos. El segundo termino es la variabilidad de los promedios de los estratos y por tanto
es un representante de la variabilidad entre los estratos. En consecuencia, la ecuacion (39) es muy
importante en Estadstica porque dice que la variabilidad total tiene dos fuentes: la variabilidad
dentro de los estratos y la variabilidad entre los estratos. Esto es,
Variabilidad Total = Variabilidad Dentro + Variabilidad Entre (40)
Ejemplo 17. La siguiente tabla presenta los resultados nales en una asignatura que tuvo cuatro
secciones.
Descripcion Seccion 1 Seccion 2 Seccion 3 Seccion 4
Tama no de seccion n
j
60 60 55 40
Promedio de seccion x
j
5,2 4,8 4,9 4,4
Varianza de seccion s
2
j
1,72 1,69 2,14 1,21
a) Cual es el promedio nal en la asignatura?
b) Cual es la varianza nal de las notas en la asignatura?
c) Hay sospechas de que la variabilidad nal en las notas de la asignatura se debe principalmente
a diferencias entre las secciones y no a diferencias entre los estudiantes al interior de cada seccion.
Los datos obtenidos apoyan esa idea?
d) Cuales son la poblacion, la muestra, la variable de interes y los estratos?
e) Comente la asimetra de las calicaciones en la asignatura.
Respuestas
a) El promedio nal en la asignatura es
x =

r
j=1
n
j
x
j
n
=
60(5, 2) + 60(4, 8) + 55(4, 9) + 40(4, 4)
60 + 60 + 55 + 40
4, 863 4, 9
43


9 PROPIEDADES DE LAS MEDIDAS
b) Para calcular la varianza nal de las notas en la asignatura se calcularan primero la varianza
dentro y la varianza entre los estratos.
V arDentro =

r
j=1
n
j
s
2
j
n
=
60(1, 72) + 60(1, 69) + 55(2, 14) + 40(1, 21)
215
1, 724
V arEntre =

r
j=1
n
j
( x
j
x
t
)
2
n
=
60(5, 2 4, 86)
2
+ 60(4, 8 4, 86)
2
+ 55(4, 9 4, 86)
2
+ 40(4, 4 4, 86)
2
215
16, 205
V arTotal = V arDentro +V arEntre = 1, 724 + 16, 205 = 17, 930
c) La V arDentro es el (1, 724/17, 930)100 % 9, 62 % de la V arTotal y la V arEntre es el (16, 205/17, 930)100 %
90, 38 % de la V arTotal. Por tanto, la sospecha es cierta.
d) y e) se deja al estudiante.
Ejercicios Seccion 9
26. La siguiente tabla corresponde a la distribucion de frecuencias del tiempo en minutos que una
muestra de operarios de una fabrica demora en armar cierto producto.
Tiempo N umero de operarios
[10; 20[ 7
[20; 30[ 15
[30; 40[ 19
[40; 50] 9
a) Identique la variable estadstica y su tipo.
b) Se ha decidido enviar a un curso de capacitacion al 21 % de los operarios mas lentos en el
tiempo de armado. Si un operario demoro 37 minutos, sera enviado al curso?
c) Si se sabe que el tiempo de armado del producto disminuyo en 15 %, cual era el tiempo de
armado promedio anterior?
R: a) La variable es el tiempo de armado de un producto en minutos y es de tipo
intervalar continua. b) No sera enviado porque el percentil 79 es 39,21 min. c) 36,47
min.
27. La siguiente tabla resume la informacion entregada por 3 supermercados respecto al precio de
los 50 artculos mas consumidos en los hogares del pas.
Supermercado 1 Supermercado 2 Supermercado 3
x = 289

n
i=1
x
i
= 15750

n
i=1
x
i
= 16500
s = 60

n
i=1
x
2
i
= 5086250 CV = 0, 2424
n = 50 n = 50 n = 50
a) Compare los precios cobrados por los supermercados por estos 50 productos.
b) Cual es el promedio y la varianza total de los precios de los 50 productos considerando los
tres supermercados en conjunto?
R: a) El supermercado 3 cobra mas que los otros por esos 50 productosy el Supermercado
2 tiene precios mas parejos. b) x
T
= 311, 33 y s
2
T
= 4453, 56
28. Se tiene la siguiente informacion relativa a los ingresos percibidos por tres grupos sociales.
Grupo Social
A B C

X 300 500 600


CV 0,35 0,35 0,35
n 25 45 30
44


9 PROPIEDADES DE LAS MEDIDAS
a) Calcule el coeciente de variacion CV de los ingresos totales de los tres grupos sociales.
b) Si todos los ingresos se reajustan en un 20 % calcule el nuevo CV de cada grupo social y el
CV de los ingresos totales.
R: a) CV
T
= 0, 4288 b) El CV no cambia.
29. Sea x
1
, x
2
, ..., x
n
un conjunto de datos numericos. Sea la transformacion y
i
= x
i
/ x, para
i = 1, 2, .., n.
a) Demuestre que y = 1
b) Demuestre que
s
2
y
=
_
CV
x
100
_
2
, donde
CV
x
=
s
x
x
100
30. Sean x
1
, x
2
, ..., x
n1
e y
1
, y
2
, ...y
n2
dos grupos de observaciones. Sea z el promedio de todas esas
observaciones.
a) Encuentre una relacion entre z, x y y.
b) Interprete z cuando x
i
= 1 para i = 1, 2, ..., n
1
y cuando y
i
= 0 para i = 1, 2, ..., n
2
.
45

Vous aimerez peut-être aussi