Académique Documents
Professionnel Documents
Culture Documents
Walter Luna
Sergio Pavletich
Ana Valdivia
Presentacin
La presente gua del curso Estadstica (EST145) de Estudios Generales
Ciencias de la Pontificia Universidad Catlica del Per ha sido elaborada con la finalidad de brindar a los alumnos un material que apoye el proceso educativo y
una herramienta que colabore en el dictado de las clases. Es muy importante indicar que este material no sustituye la clase del profesor y tampoco equivale a un libro de texto.
Los autores agradeceremos que los usuarios de esta gua nos hagan llegar
sus crticas y comentarios a esta publicacin a fin de contar con una retroalimentacin importante para la mejora de las siguientes ediciones.
Ana Valdivia L.
Walter Luna F.
Sergio Pavletich S.
Contenido
Captulo 1. Nociones de Estadstica Descriptiva ................................................................. 5
1.1. Conceptos bsicos .............................................................................................................. 5
1.2. Organizacin y tratamiento de datos ................................................................................ 13
1.3. Grficos estadsticos......................................................................................................... 19
1.4. Estadsticos de posicin .................................................................................................... 25
1.5. Medidas de tendencia central .......................................................................................... 29
1.6. Medidas de dispersin ..................................................................................................... 35
1.7. Indicadores de asimetra .................................................................................................. 42
1.8. Estadstica bivariada para datos categricos ..................................................................... 47
1.9. Estadstica descriptiva bidimensional: Regresin lineal simple........................................... 56
Estadstica EEGGCC
Estadstica Descriptiva
Son mtodos y tcnicas de recoleccin, caracterizacin y presentacin que permiten describir, apropiadamente, las caractersticas de un conjunto de datos. Comprende el uso de grficos, tablas y medidas resumen adems de otras tcnicas.
Estadstica Inferencial
Son mtodos y tcnicas que hacen posible estudiar una o ms caractersticas de una poblacin o
tomar decisiones sobre la poblacin basados en el resultado de muestras. La generalizacin de los
resultados muestrales a toda la poblacin cae en el dominio de la Estadstica Inferencial; en dicha
generalizacin juega un papel muy importante la probabilidad.
Ejemplo 1
Indique si las siguientes afirmaciones son de tipo descriptivo o inferencial:
a) El 32% de los encuestados cuenta con servicio de internet en casa. _______________________
b) Mercado de flores mover S/.35 millones por el da de la mujer. (Fuente: web El Comercio 03/03/2016)
_____________________________
c) El 47% de las personas que fueron entrevistadas es de sexo femenino. ____________________
d) El tipo de cambio baj a S/. 3,445, nuevo mnimo en ms de un mes (Fuente: web El Comercio
09/03/2016) ____________________
Poblacin
Es el conjunto de todos los elementos de inters en determinado estudio.
Los elementos que forman la poblacin pueden ser personas, cosas, animales, instituciones, etc.
A cada elemento de la poblacin se le llama unidad estadstica.
Muestra
Es un subconjunto de elementos de la poblacin.
Cuando el objetivo es hacer inferencia estadstica es necesario que la muestra sea seleccionada
de acuerdo a un diseo aleatorio, es decir, que sus elementos sean escogidos al azar.
Notas
Estadstica EEGGCC
Ejemplo 2
Se desea determinar el porcentaje de choferes de transporte pblico en Lima Metropolitana que
tiene al menos una multa de trnsito pendiente de pago. Defina la poblacin y las unidades estadsticas para este estudio.
Ejemplo 3
Se requiere determinar el porcentaje de colegios nacionales ubicados en el rea rural. Defina la poblacin.
Variable estadstica
Una variable es una caracterstica que interesa observar o medir en las unidades estadsticas de la
poblacin de inters y que puede asumir al menos dos valores diferentes.
Una variable estadstica es una funcin que a cada elemento de la poblacin le asigna un nmero.
Los nmeros se asignan de acuerdo con una escala y representan la medicin de una determinada caracterstica en cada unidad estadstica.
En una poblacin se pueden definir muchas variables estadsticas.
Notas
Estadstica EEGGCC
Ejemplo 4
En una investigacin, se quiere estimar el porcentaje de personas que votaran por cierto candidato a
la presidencia del Per, por sexo, grupos de edades y nivel socioeconmico. Indique la poblacin, las
variables a medir y sus rangos.
Ejemplo 5
En una investigacin, se quiere estimar el tiempo promedio diario de conexin a Facebook para un
determinado grupo de adolescentes de 12 a 15 aos. Indique la poblacin y la variable a medir.
Ejemplo 6
Como parte de un estudio en la Facultad de Ciencias e Ingeniera (FCI), se quiere determinar si el
nmero medio de crditos en los que se han matriculado los alumnos en el semestre 2016-1 es igual
para todas las especialidades. Indique la poblacin, unidades estadsticas y evale si el porcentaje de
alumnos de la FCI, matriculados en ms de 12 crditos es una variable en esta poblacin.
Parmetro
Es una medida resumen que describe una caracterstica de la poblacin. Para calcular un parmetro
se requiere medir la caracterstica de inters en TODOS los elementos que conforman la poblacin.
Estadstico
Es una medida resumen valor que describe una caracterstica de la muestra. Para calcular el estadstico se usan las mediciones de la caracterstica de inters en los elementos que conforman la muestra de estudio.
Notas
Estadstica EEGGCC
Ejemplo 7
Poblacin: Alumnos regulares matriculados en EEGGCC en el semestre 2016 1.
Parmetro 1: Edad media (en aos), calculada con todas las edades de los alumnos que conforman la
poblacin.
Parmetro 2: ______________________________________________________________________
Muestra: Un conjunto de 100 alumnos regulares matriculados en EEGGCC en el semestre 2016-1,
seleccionados al azar.
Estadstico 1: Edad media (en aos), calculada con las edades de los alumnos que conforman la
muestra.
Estadstico 2: ______________________________________________________________________
Ejemplo 8
Segn los Censos Nacionales X de Poblacin y V de Vivienda 2007 ejecutados por el INEI, el 50,06%
de los peruanos es mujer. Indique si este valor es un parmetro o un estadstico.
Ejemplo 9
En una muestra de viviendas del rea urbana de Ica se observ que en el 35% de los casos, el material predominante de las paredes exteriores era adobe. Indique si este valor es un parmetro o un
estadstico.
Variables cualitativas
Son las variables que miden una cualidad. Son de carcter no numrico y por lo general clasifican a
las unidades estadsticas en categoras.
Algunos ejemplos de variables cualitativas son: sexo de una persona, sector industrial al que pertenece una empresa, tipo de material de construccin de una vivienda.
Variables cuantitativas
Son variables que miden una cantidad. Son de carcter numrico. Por lo general tienen una unidad
de medicin.
Las variables cuantitativas se pueden clasificar en discretas y continuas.
Notas
Estadstica EEGGCC
Escala de medicin
Regla de asignacin de nmeros para las mediciones realizadas en cada unidad estadstica respecto a
una variable de inters.
Estadstica EEGGCC
10
Nominal
Los nmeros asignados segn una escala nominal clasifican a las unidades estadsticas en categoras
iguales o diferentes. Estos nmeros solamente se usan como etiquetas que identifican a cada unidad
estadstica como perteneciente a una determinada categora de la variable de inters; por lo tanto,
con estos valores no debe realizarse comparaciones de orden u operaciones aritmticas.
Ejemplos: Sexo: 1 = femenino; 2 = masculino.
Estado civil: 1 = casado; 2 = soltero; 3 = viudo; 4 = otro.
Ordinal
Una escala ordinal funciona como una escala nominal pero los nmeros asignados a las unidades
estadsticas tienen la propiedad adicional de reflejar el orden existente entre las diferentes categoras de la variable medida. Los valores de una escala ordinal se asignan segn el mayor o menor grado en el que se encuentre presente la caracterstica de inters en cada unidad estadstica, por lo
tanto, con estos valores s se pueden realizar comparaciones de orden pero no operaciones aritmticas.
Ejemplos: Escala de pagos de un alumno de la PUCP: 1, 2, 3, 4, 5.
Grado de instruccin: 1 = primaria completa; 2 = secundaria completa; 3 = superior completa.
Grado de satisfaccin de un cliente: 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy
satisfecho.
Intervalo
Una escala de intervalo tiene las propiedades de una escala ordinal pero adems cuenta con una
unidad de medida y por lo tanto tiene sentido medir e interpretar las distancias entre los valores de
la escala. En una escala de intervalo, las diferencias entre los valores asignados a las unidades estadsticas proporcionan informacin acerca de la diferencia en el grado en que se presenta la caracterstica observada. Por ejemplo, la diferencia de temperatura entre 10 C y 15C es la misma que entre
30C y 35C; en ambos casos se observa un incremento de cinco grados centgrados.
Una escala de intervalo no tiene un cero real o absoluto sino un cero relativo, definido arbitrariamente y que no indica ausencia de la caracterstica medida, por esta razn, es incorrecto afirmar, por
ejemplo, que 20C representa el doble de temperatura que 10C ya que si empleamos una escala
diferente para medir temperatura esta relacin no se mantiene (10C = 50F, 20C = 68F pero 68 no
es el doble de 50).
Ejemplos: Altura de una ciudad, en metros sobre el nivel del mar.
Notas
11
Estadstica EEGGCC
Ejemplo 11
Calcular cuntos grados Fahrenheit corresponden a X grados centgrados, si se sabe que las temperaturas 10C y 20C equivalen a 50F y 68F respectivamente.
Solucin
De los datos, podemos plantear de la siguiente ecuacin
X 10 Y 50
9
, de donde Y = X + 32
=
20 10 68 50
5
Razn
Una escala de razn tiene las caractersticas de una escala de intervalo y adems cuenta con un cero
absoluto que indica ausencia total de la propiedad medida; por ello, los nmeros asignados a las
unidades estadsticas reflejan las cantidades de la caracterstica que se mide. La proporcin entre dos
valores de una escala de razn corresponde a la misma proporcin entre las cantidades de la caracterstica medida.
Ejemplos: Sueldo bruto mensual, en nuevos soles, de los empleados de una empresa.
Tiempo, en minutos, que tarda un alumno en terminar una prueba de agilidad mental.
Peso, en kilogramos, de una persona.
Ejemplo 12
La distancia entre los puntos A y B es 23,22 metros y entre los puntos A y C 79,12 metros. Si se usa
una nueva escala de razn, la distancia entre A y B es 1,35 pics. Cul ser la distancia entre A y C
medida en pics?
Notas
12
Estadstica EEGGCC
Ejemplo 13
Indique el tipo y la escala de medicin adecuada para las siguientes variables.
Variable
Tipo de variable
Escala de medicin
Notas
Tipo de variable
Escala de medicin
13
Estadstica EEGGCC
Distribucin de frecuencias
Es la representacin estructurada, en forma de tabla, de los datos que se han recolectado sobre una
variable en estudio.
Es til para resumir grandes volmenes de datos.
Permite que quienes toman decisiones puedan extraer directamente la informacin relevante.
Frecuencias simples
La frecuencia absoluta de la clase i se denota ni y representa el nmero de datos que pertenecen a
esa clase.
La frecuencia relativa de la clase i se denota fi y representa la proporcin de datos que pertenecen a
esa clase.
frecuencia relativa ( f i ) =
La frecuencia porcentual de la clase i se denota pi y representa el porcentaje de datos que pertenecen a esa clase.
frecuencia
porcentual
( pi ) =
f i * 100 %
Frecuencias acumuladas
Dado un conjunto de n datos cuantitativos, organizados en k clases ordenadas de menor a mayor, se
define:
La frecuencia acumulada absoluta de la clase i se denota Ni y es la suma de las frecuencias absolutas
desde la clase 1 hasta la clase i, es decir, es el nmero total de datos que pertenecen a la clase i o a
alguna clase anterior.
Se tiene que Ni = n1 + n2 + ... + ni =
, i = 1, 2,..., k
j =1
Luego N1 = n1 y Ni = Ni 1 + ni , i = 2, 3,..., k
La frecuencia acumulada relativa de la clase i se denota Fi y es la proporcin de datos que pertenecen hasta esa clase.
frecuencia relativa acumulada (Fi ) =
La frecuencia acumulada porcentual Pi de una clase es el porcentaje de datos que pertenecen hasta
esa clase. Se cumple que Pi=Fi*100%.
Notas
14
Estadstica EEGGCC
LG
Sony
Panasonic
Philips
LG
Sony
Panasonic
Sony
LG
Sony
Samsung
Sony
Samsung
Philips
Panasonic
Samsung
Philips
Sony
Sony
Panasonic
Samsung
LG
Sony
Samsung
LG
Samsung
Samsung
LG
Panasonic
Miray
Samsung
Sony
Philips
Sony
Samsung
Samsung
Panasonic
Philips
Sony
Sony
LG
Samsung
Miray
Panasonic
Marca de televisor
ni : Nmero de
personas
fi: Proporcin de
personas
pi: Porcentaje de
personas
Total
A partir de la informacin de la tabla complete las siguientes afirmaciones.
_________________ fue la marca de televisores mencionada con ms frecuencia por las personas de la muestra; el ______% de los entrevistados mencionaron esta marca
10
Notas
15
Estadstica EEGGCC
ni: Nmero de
lotes
pi: Porcentaje de
lotes
Pi: Porcentaje
acumulado de
lotes
Total
A partir de la informacin de la tabla complete las siguientes afirmaciones.
El ______% de los lotes revisados tena al menos un transductor que no cumpla las especificaciones de diseo.
En los lotes revisados, el nmero de transductores que no cumplan las especificaciones de diseo, vari entre ______ y ______.
En _____________% de los lotes revisados se encontr _______o menos unidades que no cumplan las especificaciones d diseo.
Notas
16
Estadstica EEGGCC
Cantidad de clases: k
Se recomienda usar entre 5 y 20 intervalos o clases.
La idea es emplear suficientes clases para mostrar la variacin de los datos, pero no tantas que
varias contendran muy pocos o ningn elemento.
Hay algunas reglas que sugieren el nmero de clases o intervalos que se deben usar que dependen del nmero de datos disponibles, sin embargo en la prctica la decisin generalmente se
toma atendiendo a una necesidad especfica o por experiencia.
Una de las reglas mencionadas en el punto anterior es la de Sturges que sugiere que, dados n
datos, el nmero de intervalos a usar k es el valor:
k = 1 + 3,322 log n
El valor de k se redondea al entero ms prximo.
dato mximo
dato mnimo
k
x mx x mn
Rango
=
k
k
La amplitud se aproxima por exceso de acuerdo con la cantidad de decimales que tienen los datos o segn la precisin con la que se desea trabajar.
Se usa la aproximacin por exceso para asegurar que el mayor de los datos pertenezca a alguna
de las clases.
Marca de clase
La marca de clase es el punto medio de cada intervalo. Se obtiene calculando la semi suma de los
lmites de cada intervalo o clase.
Cuando solamente se dispone de los datos organizados en una distribucin de frecuencias por
intervalos, ya no es posible determinar el valor exacto de cada dato. La marca de clase se usa
como el valor que representa a cada uno de los datos que pertenecen al intervalo o clase correspondiente.
Es importante que los intervalos no sean demasiado grandes, porque la marca de clase no sera
un buen representante, ni demasiado pequeos como para complicar la construccin de la tabla
o como para que hayan varias clases sin datos.
La marca de clase del intervalo i se denota mi
Notas
17
Estadstica EEGGCC
Ejemplo 17
Construya una distribucin de frecuencias de siete intervalos para los siguientes datos que representan los tiempos (en minutos), que demoraron 48 alumnos en resolver una prueba.
8,8
8,9
12,7
8,7
12,4
8,4
10,2
9,6
10,5
10,3
10,1
10,9
8,2
9,6
11,9
11,7
9,7
9,9
7,8
9,6
9,5
9,8
11,3
10,7
11,1
10,9
12,6
8,9
9,8
10,8
9,3
9,5
8,6
8,3
12,0
9,2
8,2
10,9
8,5
9,0
12,4
9,6
9,2
9,3
10,0
8,5
9,4
9,8
Solucin
El rango R se calcula con: R = dato mximo dato mnimo = xmax xmin = 12,7 - 7,8 = 4,9
De acuerdo a lo indicado, el nmero de clases o intervalos a usar es k = 7.
La amplitud de cada intervalo es:
A=
R 4 ,9
=
= 0,7
k
7
En el curso usaremos intervalos abiertos a la izquierda, pero tambin puede usarse intervalos abiertos a la derecha. Los intervalos o clases para los datos de este ejemplo son:
I1: [xmin ; xmin +A] = [7,8 ; 7,8 + 0,7] = [7,8 ; 8,5]
I2: ]xmin +A ; xmin + 2A] = ]8,5 ; 9,2]
...
I7: ]xmin + 6A ; xmin + 7A] = ]12,0 ; 12,7]
Tiempo (min.)
Marca de clase
(mi)
ni: Nmero de
alumnos
fi: Proporcin
de alumnos
[7,8
8,5]
8,15
0,1458
0,1458
]8,5
9,2]
8,85
0,1667
15
0,3125
]9,2
9,9]
9,55
14
0,2917
29
0,6042
]9,9
10,6]
10,25
0,1042
34
0,7083
]10,6
11,3]
10,95
0,1458
41
0,8542
]11,3
12,0]
11,65
0,0625
44
0,9167
]12,0
12,7]
12,35
0,0833
48
1,0000
Notas
18
Estadstica EEGGCC
Ejemplo 18
Los dimetros de una muestra de remaches circulares de acero (en 1/100 pulgadas), se muestran a
continuacin:
a.
6,62
6,66
6,68
6,69
6,71
6,72
6,72
6,73
6,74
6,75
6,75
6,76
6,76
6,76
6,76
6,77
6,77
6,77
6,78
6,78
6,79
6,79
6,80
6,81
6,81
6,82
6,82
6,82
6,83
6,84
6,85
6,85
6,87
6,88
6,88
6,89
Presente los datos organizados en una distribucin de frecuencias de seis intervalos (incluya
frecuencias simples y acumuladas).
Ttulo: _____________________________________________________________________________
mi:
[
ni:
pi:
Ni:
Pi:
Total
b.
Escriba tres comentarios que describan aspectos relevantes de la distribucin de los datos.
Notas
Estadstica EEGGCC
19
Notas
Estadstica EEGGCC
En el grfico circular, cada sector circular representa la frecuencia observada de una clase
o categora.
El sector circular que representa a una determinada categora
de la variable tiene un ngulo
en el centro proporcional a la
frecuencia relativa de dicha categora. Este ngulo se obtiene
multiplicando 360 por la respectiva frecuencia relativa.
Este se debe presentar en vista
frontal para no distorsionar el
tamao de los sectores circulares.
Notas
20
21
Estadstica EEGGCC
mi: marca
de clase
ni: nmero de
obreros
fi: proporcin de
obreros
Fi: proporcin
acumulada de
obreros
[0;4]
57
0,2780
57
0,2780
]4;8]
78
0,3805
135
0,6585
] 8 ; 12 ]
10
43
0,2098
178
0,8683
] 12 ; 16 ]
14
25
0,1220
203
0,9903
]16 ; 20 ]
18
0,0098
205
Total
205
Notas
Estadstica EEGGCC
Histograma
Se construye a partir de una distribucin de frecuencias por intervalos.
Los datos de cada clase se representan con un
rectngulo, cuya base es el intervalo de clase y
cuya altura es proporcional a la frecuencia correspondiente (absoluta, relativa o porcentual).
Los rectngulos adyacentes se tocan entre s.
El histograma muestra la forma de la distribucin
de los datos. Se observa: la simetra y dispersin
de los datos; los intervalos con alta concentracin, las brechas (intervalos sin observaciones),
as como la existencia de datos muy alejados de
los dems.
Polgono de frecuencias
Es la representacin por medio de una figura poligonal
cerrada de una distribucin de frecuencias absolutas,
relativas o porcentuales.
Se obtiene uniendo con segmentos de recta los
puntos con la marca de clase como abscisa y la correspondiente frecuencia absoluta o relativa como
ordenada.
Los polgonos de frecuencias se cierran en los puntos del eje horizontal correspondientes al lmite inferior del primer intervalo y al lmite superior del
ltimo intervalo.
Ojiva
Es la grfica de una distribucin de frecuencias acumuladas (absolutas, relativas o porcentuales).
La ojiva parte del punto que tiene al lmite inferior
del primer intervalo como abscisa y a cero como
ordenada.
Se obtiene uniendo con segmentos de recta los
puntos con el lmite superior de cada intervalo
como abscisa y la frecuencia acumulada respectiva como ordenada.
Con la ojiva se puede estimar el nmero o porcentaje aproximado de observaciones que corresponden a un intervalo determinado.
Notas
22
23
Estadstica EEGGCC
Ejemplo 19
La anchoveta es el pez ms importante del ecosistema de la Corriente de Humboldt. Su abundancia
ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamferos e invertebrados que hoy en da habitan en nuestro mar. Una muestra de 250 anchovetas de un ao de edad
ha dado una longitud mnima de 6 cm. Los datos se muestran a continuacin, organizados en una
distribucin de frecuencias de seis intervalos de la misma longitud..
Ttulo: _______________________________________________________________________
Tamao
mi:
(centmetros)
Marca de clase
ni:
fi:
Ni:
Fi:
0,10
65
180
30
0,96
17
0,04
Total
b) Grafique el histograma de frecuencias relativas y escriba dos comentarios respecto a la distribucin de los datos.
Notas
Estadstica EEGGCC
24
Ejemplo 20
A continuacin se presenta el histograma de los montos medios mensuales gastados en la cafetera
de la empresa por una muestra de trabajadores:
Notas
25
Estadstica EEGGCC
Cuartil
Se denomina as a cada uno de los tres percentiles: P25, P50, P75 y se les denota como Q1, Q2 y Q3 respectivamente.
Ejemplo 21
La siguiente tabla se construy a partir de los datos obtenidos durante el proceso de evaluacin de
postulantes a puestos de trabajo en una empresa de telecomunicaciones.
Percentiles
Edad
Conocimientos generales
Neuroticismo
25 (Primer cuartil)
29,0
26,0
48,0
50 (Segundo cuartil)
31,0
30,0
63,0
75 (Tercer cuartil)
36,0
34,0
77,5
El primer cuartil de la variable Edad es 29, esto quiere decir que al menos el 25% de los postulantes tiene 29 aos o menos.
El segundo cuartil de la variable Conocimientos generales es 30, esto quiere decir que al menos
el 50% de los postulantes obtuvieron 30 o menos puntos en la prueba de conocimientos generales.
El tercer cuartil de la variable Neuroticismo es 77,5, esto quiere decir que al menos el 75% de los
postulantes obtuvieron 77,5 o menos puntos en la evaluacin de Neuroticismo.
Ejemplo 22
En un estudio para evaluar los tiempos de vida de bateras para automviles se determin que el
primer cuartil y el percentil 70 son 3,05 aos y 3,70 aos respectivamente. Interprete estos percentiles.
Notas
26
Estadstica EEGGCC
Si el valor calculado de i es un nmero entero, el percentil k-simo, Pk, es igual a la semi suma de
los datos en las posiciones i e (i+1), es decir, Pk = ( xi+ xi+1)/2
Si el valor calculado de i no es entero,el percentil k-simo Pk es el dato que tiene la posicin del
entero inmediato superior a i, es decir, P k = x i + 1
Ejemplo 23
Se determin la cantidad de contaminacin por aluminio (ppm) en cierto tipo de plstico con una
muestra de 26 probetas de plstico. Los datos obtenidos son los siguientes:
30
30
60
63
70
79
87
90
101
102
115
118
119
119
120
125
140
145
172
182
183
191
222
244
291
296
Ejemplo 24
En la tabla siguiente se muestra la distribucin de los trabajadores de una empresa segn el nmero de
tardanzas en el mes pasado. Calcule e interprete el percentil 15 y el percentil 85 de los datos.
Notas
xi : Nmero
de tardanzas
ni: Nmero de
trabajadores
48
80
57
15
Total
200
fi: Proporcin de Ni :
trabajadores
Fi :
27
Estadstica EEGGCC
Pk = Li +
A k
Fi 1
f i 100
donde:
Li = lmite inferior del intervalo Ii que contiene al percentil k
fi = frecuencia relativa del intervalo Ii que contiene al percentil k
Fi-1 =Frecuencia relativa acumulada del intervalo anterior al Ii, que contiene al percentil k
A = Amplitud del intervalo (en este caso suponemos que la amplitud es constante)
Para deducir la frmula para percentiles de datos agrupados en intervalos, podemos establecer
una semejanza de tringulos usando la ojiva de frecuencias relativas acumuladas.
Notas
28
Estadstica EEGGCC
U i Li
F Fi 1
= i
k
Pk Li
Fi 1
100
De donde se tiene que:
fi
A
=
k
Pk Li
Fi 1
100
Despejando se obtiene la frmula del percentil k.
Pk = Li +
A k
Fi 1
f i 100
Cuartiles
Primer cuartil:
Q1 = P25
Segundo cuartil:
Q2 = P50
Tercer cuartil:
Q3 = P75
Ejemplo 25
A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un da de la
semana pasada. Calcule e interprete el segundo cuartil de la distribucin.
Tiempo
(minutos)
[0 - 6]
]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]
ni: Nmero
de emisoras
17
10
14
fi: Proporcin
de emisoras
0,02
0,06
0,34
0,04
0,02
0,20
0,04
0,28
Fi: Prop.
Acumulada
de emisoras
0,02
0,08
0,42
0,46
0,48
0,68
0,68
0,68
0,72
1,0
Notas
29
Estadstica EEGGCC
Moda
La moda de un conjunto de datos o mediciones de una variable es el valor que se presenta con mayor frecuencia.
Caractersticas de la moda
La moda se puede calcular para datos medidos en cualquier escala de medicin.
El valor de la moda no se ve afectado por valores extremos.
La moda no siempre es un valor nico. Una serie de datos puede tener dos modas (bimodal) o
ms modas (multimodal).
Ejemplo 26
Determine e interprete la moda de los siguientes datos, que representan las escalas de pago de una
muestra de 20 alumnos de la PUCP.
Notas
30
Estadstica EEGGCC
Ejemplo 27
Calcule e interprete la moda de los siguientes datos, que representan el sexo de los 14 postulantes a
un puesto de Gerente de Logstica de una empresa. La escala usada es 1: Femenino y 2: Masculino
2
Mediana
La mediana es el percentil 50, tambin llamado segundo cuartil.
Caractersticas de la mediana
Se puede calcular para variables medidas en escala de ordinal, intervalo o razn.
La mediana es un estadstico robusto que no depende de todos los datos y por lo tanto su valor
no se ve afectado por la presencia de datos inusualmente grandes o pequeos.
La mediana resulta til como representante del conjunto de datos cuando hay datos atpicos o el
polgono de frecuencias presenta una asimetra considerable.
Dados n datos cuantitativos x1, x2,, xn, sea S (c ) =
i =1
ni : Nmero de choferes
18
18
20
38
46
52
Notas
31
Estadstica EEGGCC
Media aritmtica
La media aritmtica (o simplemente media) de n datos es el valor que se obtiene al dividir la suma
total de los datos entre el nmero de datos:
Media aritmtica = x =
x1 + x 2 + .... + x n
n
Caractersticas de la media
Solamente se puede calcular para datos cuantitativos, medidos en escala de intervalo o razn.
El clculo de la media es sencillo y es la medida de tendencia central ms conocida.
El valor de la media depende de todos los datos, por lo que la presencia de valores muy grandes
o muy pequeos con respecto a los dems pueden cambiar drsticamente su valor.
(x x ) = 0
i
i =1
n
= nx
i =1
(x
i =1
y = ax + b
Ejemplo 29
Un comerciante ha comprado 65 computadores a un distribuidor y ha pagado un precio medio de
582 dlares por cada computadora. El comerciante planea revender estas computadoras para obtener ganancias y decide fijar el precio de venta aumentando un 8% sobre el costo de cada computadora ms un monto fijo de 30 dlares.
Notas
32
Estadstica EEGGCC
b. Cul sera el monto total de los ingresos obtenidos por la venta de las 65 computadoras?
c. Cul sera el monto total de las utilidades obtenidas por la venta de las 65 computadoras?
Ejemplo 30
A continuacin se muestran los sueldos mensuales, en nuevos soles, de los 13 trabajadores de una
pequea empresa:
380
450
700
780
800
820
850
990
1250
1500
1900
3210
6288
b.
Determine el porcentaje k de aumento que debera darse a los trabajadores que ganan menos si
se requiere que el gasto total en sueldos sea el mismo con ambas propuestas.
c.
Si el gerente elige una medida de tendencia central adecuada para representar los sueldos de
los trabajadores y decide aceptar la propuesta que incremente ms esta medida cul propuesta sera la elegida? Justifique.
Notas
33
Estadstica EEGGCC
x + x 2 + .... + x n
Media = x = 1
=
n
i =1
Ejemplo 31
Calcule la moda, mediana y media de los siguientes datos que representan el nmero de papeletas
pendientes de pago de cada uno de 11 choferes de vehculos de transporte pblico seleccionados al
azar. Cul de las tres medidas le parece ms adecuada para representar estos datos? Justifique.
16
30
Media aritmtica para datos en una distribucin de frecuencias para variable discreta
Sean x1, x2, xk los valores observados de una variable discreta X con frecuencias absolutas respectivas n1, n2, nk y frecuencias relativas respectivas f1, f2, fk La media aritmtica de estos datos es:
k
x n + x 2 n 2 + ... + x k n k
Media = x = 1 1
=
n 1 + n 2 + ... + n k
xn
i
i =1
fi
i =1
Ejemplo 32
Se realiz una prueba de destreza manual entre los obreros de una fbrica. Se midi el nmero de
errores cometidos en la prueba, obtenindose los siguientes resultados:
Tabla 1. Distribucin de obreros segn nmero de errores en la prueba de destreza manual
Nmero de
errores
Nmero de
obreros
Porcentaje de obreros
Nmero acumulado de
obreros
Porcentaje acumulado
de obreros
11,4%
11.4%
16
22,9%
24
34.3%
24
34,3%
48
68.6%
15
21,4%
63
90.0%
10,0%
70
100.0%
Calcule e interprete la moda, la media y la mediana de los datos. Compare estos valores.
Notas
34
Estadstica EEGGCC
m n + m 2 n 2 + ... + m k n k
Media = x = 1 1
=
n1 + n 2 + ... + n k
mn
i
i =1
i =1
fi
Ejemplo 33
El tiempo de vida de una muestra aleatoria de 80 cajas de cierto tipo de bebidas lcteas se determin
y se obtuvo los siguientes resultados.
Tiempo de vida de las bebidas lcteas (das)
mi: Marca de ni: Nmero de
clase
cajas
fi: proporcin
de cajas
Ni: Nmero
acumulado
de cajas
Fi: Proporcin
acumulada de
cajas
150
158
154
10
0,125
10
0,125
158
166
162
14
0,175
24
0.300
166
174
170
25
0,3125
49
0,6125
174
182
178
31
0,3875
80
Calcule aproximadamente la media y la mediana del tiempo de vida de las bebidas lcteas. Interprete
w x + w 2 x 2 + ... + wn x n
Media ponderada = x p = 1 1
=
w1 + w 2 + ... + w n
w x
i
i =i
n
i =1
Si todos los pesos son iguales, entonces el valor de la media ponderada es igual al de la media:
xp = x .
Notas
35
Estadstica EEGGCC
Ejemplo 34
Calcule la nota final de un alumno del curso de Estadstica que tiene las siguientes notas: promedio
de prcticas calificadas = 12,3; examen parcial = 10 y examen final = 17. Los pesos del promedio de
prcticas, examen parcial y examen final son 3, 3 y 4, respectivamente.
Ejemplo 35
Calcule la media, mediana y moda de los siguientes grupos de datos:
Grupo 1
1
-20
30
Grupo 2
Grupo 3
Notas
36
Estadstica EEGGCC
Rango
El rango de un conjunto de datos se define como:
Rango = R = dato mximo dato mnimo
Caractersticas del rango
El rango se puede calcular para datos cuantitativos, medidos en escala de intervalo o de razn.
Solo depende del valor mximo y mnimo de los datos e ignora cmo estn distribuidos los dems datos.
Se ve afectado por datos extremos, es decir, por datos muy grandes o muy pequeos respecto a
los dems.
El rango mide la longitud del intervalo de variacin de los datos.
Rango intercuartil
Es la diferencia entre el tercer y primer cuartil.
Rango intercuartil = RIC = Q3 Q1= P75 P25
Caractersticas del rango intercuartil
Se puede calcular para datos cuantitativos, medidos en escala de intervalo o de razn.
No se ve afectado por valores extremos.
El rango intercuartil mide la longitud del intervalo de variacin del 50% de los datos centrales
Notas
37
Estadstica EEGGCC
Desviacin absoluta
Dados n datos x1, x2,, xn, la desviacin absoluta de estos datos se define como:
n
xi x
x 1 x + x 2 x + ... + x n x
i =1
Desviacin absoluta = DA =
=
n
n
La desviacin absoluta es la media de las distancias de cada dato a la media aritmtica
Se calcula para datos medidos en escala de intervalo o de razn.
Varianza
Dados n datos cuantitativos x1, x2,, xn la varianza de estos datos se define como la media de las distancias al cuadrado de cada dato a la media aritmtica.
n
Varianza = S 2 =
(x1 x )
+ (x 2 x ) + ... + (x n x )
=
n
2
(x
x )2
i =1
2
i
i =1
2
(x)
Si los n datos son una muestra aleatoria de una poblacin mayor y se requiere estimar la varianza
poblacional que es desconocida, entonces se usa la varianza muestral que se calcula:
n
Varianza muestral = s 2 =
( x1 x )
+ (x 2 x ) + ... + (x n x )
=
n 1
2
(x
i =1
x )2
n 1
Desviacin estndar
Dados n datos cuantitativos x1, x2,, xn la desviacin estndar de los datos se define como la raz cuadrada de la varianza:
Desviacin estndar = s =
s2
Ejemplo 36
Calcule la media y la desviacin estndar de los siguientes datos que representan el nmero de personas atendidas por da en la caseta de informacin de un proyecto inmobiliario, en una muestra de
15 das.
18
Notas
10
11
38
Estadstica EEGGCC
n (x
i
Varianza = S 2 =
x )2
i =1
n (x
i
i =1
f (x
i
x )2
i =1
Varianza muestral = s 2 =
x )2
n 1
k
n
2
=
fi ( x i x )
n 1 i =1
Ejemplo 37
Calcule la media y la desviacin estndar de los siguientes datos que representan el nmero de artculos defectuosos encontrados en cada uno de 122 lotes recibidos la semana pasada. Cada lote
tiene 1000 artculos.
xi: nmero de defectuosos
58
26
10
30
n (m
i
Varianza = S 2 =
Notas
i =1
x )2
=
f (m
i
i =1
x )2
39
Estadstica EEGGCC
n (m x )
Varianza muestral = s =
2
i =1
n 1
k
n
2
=
fi (mi x )
n 1 i =1
Ejemplo 38
Calcule la media y la desviacin estndar de los siguientes datos que corresponden a los pesos de los
equipajes de los pasajeros de un vuelo Lima Arequipa.
Peso (kg.)
Marca de clase
[10,0
15,0]
12,5
]15,0
20,0]
17,5
75
]20,0
25,0]
22,5
56
]25,0
30,0]
27,5
]30,0
35,0]
32,5
152
Total
Notas
40
Estadstica EEGGCC
Ejemplo 39
Se estima que el tiempo, en minutos, Y que tarda un operario para ensamblar cierto dispositivo electrnico depende del nmero de errores X que comete al realizar esta tarea. Para un grupo de operarios que est siendo evaluado, se ha determinado que el nmero medio de errores es 2,3 con una
desviacin estndar 0,9. Estime la media y la desviacin estndar de los tiempos que tardaran los
operarios si se sabe que en este caso: Y = 0,3X + 4,2.
Desigualdad de Chebyshev
Sea k > 1, entonces el porcentaje de datos en el intervalo [ x k sd x , x + k sd x ] es mayor o igual que
1
1 2 % . Particularmente:
k
Coeficiente de variacin
El coeficiente de variacin (CV) de un conjunto de datos no negativos es una medida de dispersin
relativa e indica qu proporcin de la media es la desviacin estndar.
El coeficiente de variacin se determina calculando el cociente de la desviacin estndar de los
datos entre la media de los datos
Coeficiente de variacin = CV =
desviacin stndar sx
=
media
x
Notas
41
Estadstica EEGGCC
Puntuacin estandarizada Z
Dado un conjunto de datos: x1 x2, . , xn, con media x y desviacin estndar sx, entonces cada uno de
estos datos puede transformarse en puntaje estandarizado o puntaje Z mediante:
zi =
xi x
sx
i = 1, 2,, n
Se cumple que el conjunto de datos o puntajes estandarizados (z1, z2, , zn) tiene media cero y
varianza uno, es decir: z = 0 y s z = 1
2
El valor zi mide a cuntas desviaciones estndar, por arriba o por debajo de la media de los datos
se encuentra el dato xi. Por ejemplo, si x1 representa la nota final de un alumno en un curso y
luego de estandarizar su nota se obtiene un puntaje z1=1,2, esto significa que la nota final de este
alumno es 1,2 desviaciones estndar mayor que la media de las notas finales de todos los alumnos del curso.
En la prctica es comn utilizar el puntaje z para evaluar si un dato es inusualmente grande o
pequeo respecto a los dems. Por ejemplo, un dato cuyo puntaje estandarizado es menor que
-3 o mayor que 3 se considera un dato extremo o atpico.
Ejemplo 41
Segn los resultados de un estudio realizado por encargo de una aerolnea comercial, el peso medio
y la desviacin estndar de los equipajes de mano de los pasajeros de los vuelos Lima - Miami son 6,5
kg y 2kg respectivamente. Este estudio tambin reporta que en los vuelos de regreso de Miami a
Lima, la media y la desviacin estndar de los pesos de los equipajes de mano son 8,6 kg y 4,1 kg
respectivamente.
a.
Julio estuvo en Miami el mes pasado y su equipaje de mano pes 7,2 kg en el vuelo de ida y 9,4
kg en el vuelo de regreso, en cul de los dos vuelos su equipaje tuvo un mayor peso relativo?
b.
Si se ha establecido que en los vuelos Miami - Lima cualquier pasajero que porte un equipaje de
mano con peso estandarizado mayor que 0,35 deber pagar por el exceso, hasta cunto puede
pesar el equipaje de mano de un pasajero de esta ruta para que no le cobren por el exceso de peso?
Notas
42
Estadstica EEGGCC
x Q2
As = 3
sx
Ejemplo 42
El siguiente cuadro muestra la distribucin del sueldo mensual de los empleados de dos empresas A y
B en octubre de 2015
Empresas A y B: Sueldos mensuales en octubre de 2015
Sueldos (nuevos soles)
Marca de
clase
Empresa A
Empresa B
Nmero de trabajadores
Nmero de trabajadores
[1 500 2 500]
2000
]2 500 3 500]
3000
40
]3 500 4 500]
4000
12
25
]4 500 5 500]
5000
]5 500 6 500]
6000
Notas
Estadstica EEGGCC
43
a) En un solo grfico muestre los dos polgonos de frecuencias para los sueldos de los trabajadores
de las empresas A y B..
b) A partir del grfico anterior compare centro, dispersin y simetra de las distribuciones de los
sueldos en las empresa A y B. Realice la comparacin nuevamente usando esta vez medidas estadsticas de centro dispersin y simetra.
Diagrama de cajas
Es una grfica que describe la distribucin de un conjunto de datos tomando como referencia los
valores de los cuartiles como medidas de posicin, la mediana como medida de tendencia central y el
valor del rango intercuartil (RIC) como medida de dispersin. Adems, permite apreciar la forma de
la distribucin de los datos (simtrica o asimtrica).
Dato atpico
Es un dato inusualmente grande o pequeo con respecto a los otros datos. En un diagrama de cajas,
se considera atpico a cualquier dato que cumpla una de las dos siguientes condiciones:
El dato es ms de 1,5*(RIC) unidades menor que el primer cuartil
El dato es ms de 1,5*(RIC) unidades mayor que el tercer cuartil
Notas
Estadstica EEGGCC
44
Detectar los datos atpicos que son aquellos que no pertenecen al intervalo [Linf ; Lsup]. A los datos
que s pertenecen al intervalo anterior se les llama datos tpicos.
Sobre un eje horizontal, se traza un rectngulo con los extremos en el primer cuartil (Q1) y tercer
cuartil (Q3).
En la caja rectangular se traza un segmento vertical en el lugar de la mediana.
Se traza el bigote izquierdo desde el primer cuartil hasta el mnimo de los datos tpicos y el bigote
derecho desde el tercer cuartil hasta el mximo de los datos tpicos.
Se marcan con un asterisco (*) las localizaciones de los datos atpicos.
La siguiente figura presenta un diagrama de cajas con datos hipotticos.
Notas
45
Estadstica EEGGCC
Distribucin de alumnos de acuerdo al CraEst, segn horario de matrcula
Ejemplo 43
Se seleccion una muestra de 45 viviendas y se registr el monto (en nuevos soles), cobrado por la
empresa proveedora, por consumo de luz en el ltimo mes. Elabore un diagrama de caja. A partir de
lo observado en el grfico escriba una descripcin de la distribucin de los datos.
10,7 45,0 59,8 65,7 87,4 97,1 98,1 98,8 99,2 99,5 99,6 99,7 102,4 106,3 107,3
108,2 108,7 109,2 109,3 109,9 111,4 112,1 112,6 112,9 115,0 115,4 116,4 116,5 119,1 119,2
119,6 120,4 120,6 121,5 122,1 122,7 124,0 124,5 124,9 125,1 125,2 127,1 128,1 129,0 200,8
Notas
46
Estadstica EEGGCC
Ejemplo 44
Se desea comparar los resultados de un examen sobre el Reglamento Nacional de Trnsito, aplicado
a los choferes de tres empresas de taxi. Las notas obtenidas por los choferes evaluados se muestran
a continuacin:
Empresa
A
Empresa
B
Empresa
C
11 11 12 12 12 12 12 12 12 13 13 13 14 14 15 15 15 15 15 15 20 20
11 12 12 12 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 17 17 18 18 18 18
0
10 10 11 11 12 12 13 13 13 14 15 15 16 16 16 17 17 17
Construya un diagrama de cajas que permita comparar las distribuciones de notas obtenidas por los
choferes de las tres empresas.
Escriba una descripcin comparativa de las distribuciones de notas obtenidas por los choferes de las
tres empresas.
Notas
47
Estadstica EEGGCC
De 6 a 10 pisos
Ms de 10 pisos
Total
Distrito A
50
40
30
120
Distrito B
70
20
90
180
Total
120
60
120
300
De 6 a 10 pisos
Ms de 10 pisos
Total
Distrito A
16,67%
13,33%
10%
40%
Distrito B
23,33%
6,67%
30%
60%
Total
40%
20%
40%
100%
Evale la verdad o falsedad de las siguientes afirmaciones respecto a los edificios de la muestra:
i. El 50% de los edificios ubicados en el distrito B tienen ms de 10 pisos ( )
iii. El 33,3% de los edificios estn ubicados en el distrito A y tienen entre 6 y 10 pisos ( )
iv. En la muestra hay 230 edificios que estn en el distrito B o tienen menos de 6 pisos ( )
Notas
48
Estadstica EEGGCC
Considerando la situacin planteada en el ejemplo anterior, podra interesar presentar comparativamente las distribuciones de los edificios segn el nmero de pisos en los dos distritos, A y B. Para
ello se construye una tabla que muestre la distribucin porcentual de los edificios segn el nmero
de pisos, para cada distrito.
Tabla3. Distribucin porcentual de edificios por distrito segn nmero de pisos por distrito de ubicacin
De 3 a 5 pisos
De 6 a 10 pisos
Ms de 10 pisos
Total
Distrito A
41,7%
33,3%
25,0%
100%
Distrito B
38,9%
11,1%
50,0%
100%
Notemos que la informacin presentada en la tabla 3 nos permite observar claramente que en la
muestra seleccionada, la distribucin de los edificios segn el nmero de pisos es muy diferente en el
distrito A que en el distrito B. es importante sealar que esta comparacin es posible porque se han
presentado frecuencias porcentuales y no frecuencias absolutas. La comparacin directa de frecuencias absolutas no es adecuada porque el nmero total de edificios del distrito A es diferente al total
de edificios del distrito B.
Notas
49
Estadstica EEGGCC
Ejemplo 46
El director de un instituto de idiomas ha decidido abrir dos filiales que comenzarn a operar el prximo mes. La
siguiente tabla muestra la distribucin por sexo y sueldo mensual de los profesores contratados para las nuevas
filiales del instituto; todos los profesores trabajarn a tiempo completo. Use un grfico adecuado y evale si los
datos sugieren que, para los nuevos profesores, el sueldo depende de su sexo. Dira usted que, en este grupo,
los hombres tienen mejores sueldos que las mujeres? Justifique su respuesta.
Sueldo mensual (en nuevos soles)
Sexo
Notas
Menos de 2000
De 2000 a 3000
Ms de 3000
Femenino
12
Masculino
10
15
50
Estadstica EEGGCC
Ejemplo 47
Se seleccion una muestra de clientes de un banco que tienen prstamos con el banco hace al menos
dos aos. En esta muestra se encontr que:
- 600 de los clientes tienen sueldos de S/.3000 o menos y de ellos 400 son buenos pagadores.
- 2700 de los clientes tienen sueldos mayores a S/.3000
- 1100 clientes son malos pagadores.
Use la informacin anterior para completar la tabla siguiente:
Sueldo de S/.3000 o
menos
Sueldo mayor a
S/.3000
Total
Buen pagador
Mal pagador
Total
Tomando como referencia la informacin de la tabla, un ejecutivo del banco afirma que los que
ganan ms son mejores pagadores, est usted de acuerdo con esta afirmacin? Justifique su respuesta.
Notas
Estadstica EEGGCC
51
Ejercicios
1.
2.
Segn una encuesta reciente realizada por Ipsos Per, el 54% de los encuestados opin que el
alcalde de Lima, Luis Castaeda, debe continuar con la reforma del transporte. Indique si este
valor es un parmetro o un estadstico. (Fuente: http://www.rpp.com.pe/2015-02-16-ipsos-limenos-pasan-1-hora-y45-minutos-por-dia-en-transporte-publico-noticia_769867.html).
3.
En los ltimos 150 aos, los holandeses han pasado a ser los habitantes ms altos del mundo, y
segn los expertos siguen creciendo. El estudio de la altura de los holandeses a lo largo de los
siglos ofrece un panorama sobre la salud y riqueza de la nacin. No siempre fue as, en 1848,
uno de cada cuatro varones era rechazado del servicio militar porque no alcanzaba la estatura
de 1,57 metros. Actualmente, el percentil 1 de la estatura de los varones holandeses es 1,57
metros y el percentil 70 es 1,88 metros. Indique el significado de estos percentiles. (Fuente:
http://www.ap.org/ Associated Press.)
4.
5.
6.
Tiempo (minutos) [0 - 6] ]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]
Nmero de radios
1
3
17
2
1
10
0
0
2
14
a) Calcule la media y la mediana de los datos del tiempo dedicado a los avisos comerciales en
las radios evaluadas.
b) Grafique el histograma y el polgono de frecuencias relativas de la distribucin. Comente la
simetra de la distribucin de tiempos.
Notas
52
Estadstica EEGGCC
7.
Los salarios que ofrece una empresa a los practicantes varan entre $180 y $300. Si los salarios
se agrupan en cuatro intervalos de clase de longitudes iguales de manera que el 40% de los
practicantes tienen salarios menores o iguales que $225, el 80% tienen salarios menores o iguales que $255 y el 15% tiene salarios mayores que $262,50.
a) Hallar el porcentaje de practicantes en cada intervalo.
b) Si el ingreso mnimo se fija en $265 y la empresa aumenta una misma cantidad a todos los
practicantes de modo que el 25% supere el ingreso mnimo, cunto sera el aumento?
8.
En los reportes estadsticos de una empresa, correspondientes al perodo de los ltimos 100
das, se lee la siguiente informacin sobre el nmero de facturas diarias emitidas por la empresa
en dicho perodo.
Nmero de facturas
[30 ; 60]
]60 ; 90]
]90 ; 120]
]120 ; 150]
]150 ; 180]
Frecuencia relativa
0,25
0,40
0,20
0,10
0,05
En agosto del 2005, la empresa LibroOnLine dict un curso sobre redes en computadoras mediante dos sistemas: presencial y a distancia. Con el objetivo de comparar las notas promedio, la
variabilidad de los datos y la forma de la distribucin de las notas, se tom un examen final y se
registr los resultados en la siguiente distribucin de frecuencias.
Notas del examen final
[ ; 3,5] ] ; ]
Frecuencia relativa (Sistema presencial)
0,14
0,10
Frecuencia relativa (Sistema a distancia)
0,19
0,26
] ; ]
0,12
0,24
];]
0,23
0,15
]9,5; ]
0,27
0,13
] ; ]
a
b
Realizar un grfico que permita llegar al objetivo deseado y escribir dos conclusiones a partir del
grfico.
10. El porcentaje de germinacin es uno de los principales factores para decidir la calidad de las
semillas. Un fabricante afirma que el porcentaje de germinacin de sus semillas de maz es del
85%. Para verificar tal afirmacin, una cooperativa de agricultores seleccion 120 muestras de
100 semillas cada una y anot el porcentaje de germinacin en cada muestra. Los valores observados se organizaron en la siguiente tabla.
Germinacin
(%)
[ 70 ; ]
Frecuencia absoluta
Frecuencia relativa
Frecuencia absoluta
acumulada
10
Frecuencia relativa
acumulada
0,20
0,70
22
] ; 95 ]
2
53
Estadstica EEGGCC
11. Los siguientes datos representan la cantidad de bebida gaseosa en una muestra de 25 botellas
de dos litros.
1,928
1,928
1,938
1,941
1,941
1,946
1,957
1,969
1,971
1,973
1,984
1,996
1,997
1,999
2,003
2,013
2,014
2,014
2,015
2,034
2,045
2,066
2,075
2,086
2,088
a) Las especificaciones del proceso de llenado de las botellas establecen que el contenido
medio debe estar entre 1,950 y 2,050 litros y que la desviacin estndar del contenido debe ser menor a 0,050 litros. A partir de los datos de la muestra, dira usted que el proceso
cumple las especificaciones?
b) Determine e interprete el rango y los cuartiles para la muestra de contenidos de gaseosa.
c) Construya un diagrama de cajas y comente la simetra de la distribucin de los contenidos
de gaseosa observados.
12. Se aplic un cuestionario a 16 trabajadores de una gran empresa y se obtuvieron los datos presentados en la siguiente tabla:
Cdigo del
Ao de naciGnero
trabajador
miento
9534
F
1966
2041
F
1960
1187
F
1952
1842
F
1980
1813
F
1960
2519
F
1979
3338
F
1985
3012
F
1973
1056
M
1980
2087
M
1960
1004
M
1967
6589
M
1975
1723
M
1962
2013
M
1968
1096
M
1981
2873
M
1979
(Gnero: F = Femenino, M = Masculino)
a)
b)
c)
d)
Nivel educativo
(aos)
10
12
16
12
12
12
16
12
8
19
12
12
20
16
12
16
Categora
laboral
Empleado
Empleado
Ejecutivo
Empleado
Empleado
Empleado
Ejecutivo
Empleado
Empleado
Directivo
Empleado
Empleado
Directivo
Directivo
Empleado
Ejecutivo
Salario anual
actual en S/.
27,900
26,250
41,500
24,000
27,450
23,100
37,050
24,450
28,350
95,000
30,900
26,700
69,250
48,200
27,900
40,350
Salario anual
inicial en S/.
12,750
11,550
18,750
12,750
10,200
11,250
18,000
12,450
12,000
56,980
15,000
14,500
42,800
21,000
16,500
19,500
Clasifique cada una de las variables e indique la escala de medicin adecuada para cada caso.
Presente grficamente los datos correspondientes a las variables gnero y categora laboral.
Calcule la moda, la media y la mediana de la variable nivel educativo y comente su simetra.
Organice los datos correspondientes a los salarios anuales actuales en una distribucin de
frecuencias de cinco intervalos y grafique el histograma de frecuencias porcentuales. Comente.
e) Haga un grfico que permita comparar el rango y los cuartiles de los salarios iniciales de los
hombres y mujeres. Comente el grfico.
Notas
54
Estadstica EEGGCC
13. Se tom una muestra aleatoria de 80 viajes de la empresa de transporte interprovincial A y una
muestra aleatoria de 20 viajes de la empresa B. Las tablas siguientes muestran los datos del
nmero de pasajeros por viaje de esas muestras.
Nmero de pasajeros por viaje
[10 ; 14]
]14 ; 18]
]18 ; 22]
]22 ; 26]
]26 ; 30]
Empresa A
20
30
15
10
5
Fi
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1000
2000
3000
4000
5000
6000
7000
8000
Ingresos
a) Reconstruya la tabla de distribucin de frecuencias incluyendo frecuencias simples y acumuladas (absolutas y relativas).
b) Grafique el polgono de frecuencias relativas de los ingresos mensuales.
c) Describa la distribucin de los datos (use medidas de tendencia central, dispersin y simetra adecuadas)
15. En la siguiente tabla se muestra la distribucin de los asistentes a una charla informativa sobre
un nuevo programa de especializacin ofrecido por cierta escuela de posgrado, segn su profesin.
Profesin
Nmero de
asistentes
10
Economa
Derecho
15
a) Construya un grfico que permita observar la composicin porcentual de los asistentes, segn sus profesiones, a la charla informativa. El grfico debe tener un ttulo adecuado.
b) Calcule una medida de tendencia central para la variable cualitativa.
Notas
55
Estadstica EEGGCC
16. Una compaa requiere los servicios de un tcnico especializado. De los expedientes presentados, se han seleccionado 2 candidatos: A y B, los cuales renen los requisitos mnimos requeridos. Para decidir cul de los 2 se va a contratar, los miembros del jurado deciden tomarles 7
pruebas. Todas las pruebas se calificaron utilizando una escala de 0 a 80, donde 80 es el mximo
puntaje posible. Los resultados se dan a continuacin:
1
57
80
2
55
40
3
54
62
Prueba
4
52
72
5
62
46
6
55
80
7
59
40
12
14
Con
aditivo
9.8
9.9
9.9
11
10
10.2
16
a) Use un grfico adecuado para comparar las distribuciones de los tiempos de secado de la pintura con y sin aditivo.
b) Escriba una breve descripcin comparativa de las distribuciones de los tiempos de secado con
y sin aditivos. Dira usted que el aditivo parece haber resultado efectivo? Justifique su respuesta.
c) Un tcnico afirma que los resultados de la evaluacin indican que los tiempos de secado han
sido ms homogneos cuando se us el aditivo, est usted de acuerdo o en desacuerdo con
esta afirmacin? Justifique su respuesta.
Notas
31
Estadstica EEGGCC
56
Regresin
La regresin encuentra una relacin funcional entre las variables cuantitativas X e Y.
Diagrama de dispersin
Dado un conjunto de n observaciones de las variables cuantitativas X e Y: (x1, y1), (x2, y2),, (xn, yn), el
primer paso para evaluar la posible asociacin entre estas variables es construir una grfica de los
datos en un plano bidimensional. Esta grfica se denomina diagrama de dispersin o scatter plot.
Notas
57
Estadstica EEGGCC
Covarianza
Dada una muestra de n pares de observaciones de las variables cuantitativas X e Y, (x1 , y1), (x2 ,
y2),, (xn , yn), la covarianza muestral se define como:
n
(x i x )(y i y )
cov( X ,Y ) = s xy =
i =1
n 1
nxy
n 1
x y
i i
i =1
Correlacin ( X , Y ) = r =
s xy
sx s y
Este coeficiente de correlacin mide el grado de asociacin lineal que existe entre las variables X e Y.
Notas
58
Estadstica EEGGCC
Observaciones
Una correlacin alta no indica que una variable dependa de la otra o que sea causa de las variaciones en la otra. La asociacin entre ellas no necesariamente es causal.
Una correlacin alta indica que el modelo lineal podra ser adecuado para hacer predicciones en
el intervalo de variacin de los datos; fuera de l, el tipo de relacin entre las variables puede
cambiar o no existir.
Podemos obtener valores de correlacin muy altos si usamos una muestra de dos o tres pares de
datos pero en ese caso es claro que la conclusin acerca de la asociacin entre las variables puede no ser vlida.
Diversos grupos de datos pueden tener el mismo coeficiente de correlacin (como se observa en
el grfico siguiente); sin embargo, el tipo de relacin entre las variables es distinta, lo que muestra la importancia de realizar el diagrama de dispersin. El coeficiente de correlacin slo se debera calcular interpretar para nubes de puntos de tipo franja, ya sea creciente o decreciente.
Ejemplo 48
En la figura se muestran cuatro conjuntos de datos
bivariados, en todos los casos se cumple que:
Nmero de datos n = 11
Media de los xi = 9,0
Media de los yi =7,5
Corr(x, y) = rxy =0,82
Fuente: http://www.itl.nist.gov/div898/handbook/eda/section1/eda16.htm
59
Estadstica EEGGCC
ei 2 =
i =1
i =1
i =1
2
(yi yi ) = (y i (a + bxi ))2
La recta de regresin de mnimos cuadrados de Y sobre X, es L: y = a + bx; sus coeficientes son los
valores a y b que minimizan la suma de los cuadrados de los errores.
Los valores de b y a que minimizan SCE son:
b=r
sy
sx
s xy
sx
a = y bx
y = y , la media de los valores estimados con la recta es igual a la media de los valores observados.
Notas
60
Estadstica EEGGCC
Prediccin
Para predecir el valor de la variable dependiente para un valor dado de la variable independiente,
basta con reemplazar el valor dado en la frmula de la recta de mnimos cuadrados.
Coeficiente de determinacin
Se puede demostrar que:
( y y)
i =1
n 1
( y y)
2
Var( Y ) es la varianza de los valores estimados con la recta de regresin: s y =
2
Var (e) es la varianza de los errores de estimacin: se =
i =1
i =1
n 1
( y y )
(ei e ) 2
n 1
i =1
n 1
R=
Var (Y )
Var (Y )
58
51
85
35
62
70
98
104
Y: Ventas
208
171
253
126
206
220
275
281
a. Grafique el diagrama de dispersin, evale si las variables en estudio parecen estar asociadas.
b. Calcule e interprete el coeficiente de correlacin lineal de Pearson.
c. Determine la ecuacin de la recta de regresin de las ventas sobre el nmero de comerciales.
d. Si en una semana se contratan 75 comerciales, estimar las ventas en esa semana.
e. Calcule e interprete el coeficiente de determinacin.
Notas
Estadstica EEGGCC
61
Solucin
a. El diagrama de dispersin muestra un comportamiento de franja creciente, esto nos sugiere asociacin lineal directa entre las variables.
b. El coeficiente de correlacin es r = 0 ,981 , este valor indica una asociacin lineal fuerte y directa
entre el nmero de comerciales contratados por semana y el valor de las ventas semanales.
c. Calculemos los coeficientes de la recta de regresin.
x = 70,375 y = 217,5 sx = 22,242 sy = 49,196 sxy = 1074,187
De donde b = 2,1712, a = 64 ,699
Por lo tanto, la recta de regresin es L : y = 64 ,699 + 2 ,171 x
d. Si x es igual a 75, entonces, y = a + b (75) = 227,5 ; entonces, en una semana en que se contratan
75 comerciales se estima que el valor de las ventas sera 227 500 soles.
e. El coeficiente de determinacin es R = r 2 = 0,96 = 96 % . La varianza explicada por la recta de
regresin es el 96% de la varianza de la variable valor de las ventas semanales. El ajuste de los
datos al modelo lineal es muy bueno.
Notas
62
Estadstica EEGGCC
Ejemplo 50
En una empresa embotelladora de gaseosas se necesita desarrollar un modelo para cobrar por los
costos de entrega de productos a los clientes. Con ese fin se realiza un estudio y uno de los aspectos
que interesa evaluar es la relacin entre el nmero de cajas de refrescos solicitadas por un cliente y
el tiempo necesario para la descarga en el punto de entrega. Se seleccion una muestra de pedidos y
la informacin registrada se presenta en la tabla siguiente.
Pedido
172
43,7
302
83,4
72
42,1
267
50,4
287
65,6
53
26,0
205
75,3
94
37,2
243
60,6
10
124
28,4
11
116
3,85
12
143
57,4
a. Grafique el diagrama de dispersin y evale si parece existir algn tipo de relacin entre las variables observadas. Detecta usted algn dato que parezca atpico?
Notas
Estadstica EEGGCC
63
c. El encargado del registro de datos le informa que por error se ha considerado que el tiempo de
descarga del pedido 11 fue 3,85 minutos cuando en realidad fue 38,5 minutos. Corrija el error
y calcule nuevamente el coeficiente de correlacin de Pearson, compare este valor con el obtenido en la parte (b).
e. La empresa ha recibido un pedido de 250 cajas de refresco pero el cliente requiere que la descarga en el punto de entrega demore como mximo una hora, cree usted que se lograr
cumplir el requerimiento de este cliente? Justifique su respuesta.
Ejemplo 51
Se llev a cabo un estudio para investigar la relacin entre Y: el precio de reventa (en cientos de dlares) y X: la antigedad (en aos) de automviles compactos de lujo. Se determin que la ecuacin
de la recta de regresin de mnimos cuadrados fue y = 192,7 + bx. Tambin se determin que por
cada mes adicional de antigedad del automvil, la estimacin del precio de reventa baja en 153,50
dlares. Con esta informacin estime el precio de reventa de un automvil compacto de lujo con
cuatro aos de antigedad.
Notas
64
Estadstica EEGGCC
Ejercicios
19. A continuacin, se muestran los datos recogidos del valor en dlares de dos acciones, una de un
mercado externo cuya cotizacin termina a las 9 am. hora peruana, y otra de la Bolsa de Valores
de Lima cuya cotizacin concluye a las 3 pm.
Da
Accin de la BVL
2-Feb-2009
14,29
16,24
3-Feb-2009
14,32
16,28
4-Feb-2009
14,33
16,33
5-Feb-2009
14,28
16,32
6-Feb-2009
14,36
16,47
9-Feb-2009
14,43
16,52
10-Feb-2009
14,35
16,38
11-Feb-2009
14,41
16,45
12-Feb-2009
14,43
16,47
13-Feb-2009
14,36
16,33
a) Encuentre la recta de regresin que mejor se ajuste a los datos y que permita predecir el
precio de la accin que cotiza en la BVL cuando se conoce el precio de la accin del mercado externo.
b) Estime el precio de la accin que cotiza en la BVL cuando el precio de la accin del mercado
externo es de 14,25 soles.
c) Calcule el coeficiente de determinacin y comente sus resultados.
20. Los datos de la siguiente tabla muestran el rea construida (en metros cuadrados) y el precio de
venta (en miles de dlares) de 10 departamentos nuevos ubicados en el mismo distrito.
Notas
Departamento
126
78,5
180
175,7
162
139,5
144
129,8
166
95,6
163
110,3
207
260,5
149
105,2
134
88,6
10
174
165,7
65
Estadstica EEGGCC
21. En un estudio para determinar la relacin entre la edad y la presin sangunea en mujeres se
tom una muestra aleatoria de 9 mujeres dando los siguientes resultados:
Edad (aos)
56
41
70
37
63
46
57
50
39
146
125
153
117
151
124
151
142
118
Presin sangunea
(mm Hg)
a) Grafique el diagrama de dispersin y evale la posible asociacin entre las variables edad y
presin sangunea.
b) Calcule e interprete el coeficiente de correlacin lineal.
c) Determine la ecuacin de la recta de regresin lineal y estime la presin sangunea de una
mujer de 65 aos.
22. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para
absorber hierro y plomo. A cada participante del estudio se le da una dosis oral idntica de hierro y plomo. Despus de 12 das se mide la cantidad de cada componente retenida en el sistema
corporal y, a partir de sta, se determina el porcentaje absorbido por el cuerpo. Se obtienen los
siguientes resultados:
Notas
Sujeto
10
Porcentaje de hierro
17
22
35
43
80
85
91
92
96
99
Porcentaje de plomo
17
18
25
58
59
62
65
70
72
a)
Grafique el diagrama de dispersin. Parece haber asociacin entre las variables estudiadas?
b)
Prediga el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe
el 20% del plomo ingerido. Le parece adecuado un modelo de regresin lineal para hacer esta prediccin?
c)
Calcule e interprete el coeficiente de determinacin. Considerado el valor calculado, evale nuevamente su respuesta a la pregunta de la parte b.