Vous êtes sur la page 1sur 65

ESTADSTICA

Walter Luna
Sergio Pavletich
Ana Valdivia

Presentacin
La presente gua del curso Estadstica (EST145) de Estudios Generales
Ciencias de la Pontificia Universidad Catlica del Per ha sido elaborada con la finalidad de brindar a los alumnos un material que apoye el proceso educativo y
una herramienta que colabore en el dictado de las clases. Es muy importante indicar que este material no sustituye la clase del profesor y tampoco equivale a un libro de texto.
Los autores agradeceremos que los usuarios de esta gua nos hagan llegar
sus crticas y comentarios a esta publicacin a fin de contar con una retroalimentacin importante para la mejora de las siguientes ediciones.

Ana Valdivia L.
Walter Luna F.
Sergio Pavletich S.

Pando, enero 2016

Contenido
Captulo 1. Nociones de Estadstica Descriptiva ................................................................. 5
1.1. Conceptos bsicos .............................................................................................................. 5
1.2. Organizacin y tratamiento de datos ................................................................................ 13
1.3. Grficos estadsticos......................................................................................................... 19
1.4. Estadsticos de posicin .................................................................................................... 25
1.5. Medidas de tendencia central .......................................................................................... 29
1.6. Medidas de dispersin ..................................................................................................... 35
1.7. Indicadores de asimetra .................................................................................................. 42
1.8. Estadstica bivariada para datos categricos ..................................................................... 47
1.9. Estadstica descriptiva bidimensional: Regresin lineal simple........................................... 56

Captulo 2. Nociones de probabilidad .............................................................................. 67


2.1. Conceptos bsicos ............................................................................................................ 67
2.2. Definicin axiomtica de probabilidad .............................................................................. 73
2.3. Definicin clsica de probabilidad..................................................................................... 75
2.4. Probabilidad condicional .................................................................................................. 81
2.5. Eventos independientes ................................................................................................... 87

Captulo 3. Variables aleatorias y modelos o distribuciones de probabilidad .................... 93


3.1. Variable aleatoria............................................................................................................. 93
3.2. Variable aleatoria discreta................................................................................................ 94
3.3. Variable aleatoria continua .............................................................................................. 96
3.4. Funcin de distribucin acumulada de una variable aleatoria ............................................ 98
3.5. Esperanza y varianza de una variable aleatoria ................................................................101
3.6. Algunos modelos discretos importantes ..........................................................................110
3.7. Algunos modelos continuos importantes .........................................................................121

Captulo 4. Introduccin a la estadstica inferencial ........................................................135


4.1. Muestra aleatoria ...........................................................................................................135
4.2. Teorema central del lmite ..............................................................................................136
4.3. Estimacin de parmetros ...............................................................................................138
4.4. Nociones de prueba de hiptesis .....................................................................................152
4.5. Pruebas de hiptesis .......................................................................................................155
Ejercicios ...............................................................................................................................167
Tablas estadsticas .................................................................................................................169

Estadstica EEGGCC

Captulo 1. Nociones de Estadstica Descriptiva


1.1. Conceptos bsicos
Definicin de Estadstica
La Estadstica se ocupa de la recoleccin, organizacin, presentacin y anlisis de datos que corresponden a fenmenos o situaciones en donde est presente la variabilidad.

Estadstica Descriptiva
Son mtodos y tcnicas de recoleccin, caracterizacin y presentacin que permiten describir, apropiadamente, las caractersticas de un conjunto de datos. Comprende el uso de grficos, tablas y medidas resumen adems de otras tcnicas.

Estadstica Inferencial
Son mtodos y tcnicas que hacen posible estudiar una o ms caractersticas de una poblacin o
tomar decisiones sobre la poblacin basados en el resultado de muestras. La generalizacin de los
resultados muestrales a toda la poblacin cae en el dominio de la Estadstica Inferencial; en dicha
generalizacin juega un papel muy importante la probabilidad.

Ejemplo 1
Indique si las siguientes afirmaciones son de tipo descriptivo o inferencial:
a) El 32% de los encuestados cuenta con servicio de internet en casa. _______________________
b) Mercado de flores mover S/.35 millones por el da de la mujer. (Fuente: web El Comercio 03/03/2016)
_____________________________
c) El 47% de las personas que fueron entrevistadas es de sexo femenino. ____________________
d) El tipo de cambio baj a S/. 3,445, nuevo mnimo en ms de un mes (Fuente: web El Comercio
09/03/2016) ____________________

Poblacin
Es el conjunto de todos los elementos de inters en determinado estudio.
Los elementos que forman la poblacin pueden ser personas, cosas, animales, instituciones, etc.
A cada elemento de la poblacin se le llama unidad estadstica.

Muestra
Es un subconjunto de elementos de la poblacin.
Cuando el objetivo es hacer inferencia estadstica es necesario que la muestra sea seleccionada
de acuerdo a un diseo aleatorio, es decir, que sus elementos sean escogidos al azar.
Notas

Estadstica EEGGCC

Ejemplo 2
Se desea determinar el porcentaje de choferes de transporte pblico en Lima Metropolitana que
tiene al menos una multa de trnsito pendiente de pago. Defina la poblacin y las unidades estadsticas para este estudio.

Ejemplo 3
Se requiere determinar el porcentaje de colegios nacionales ubicados en el rea rural. Defina la poblacin.

Variable estadstica
Una variable es una caracterstica que interesa observar o medir en las unidades estadsticas de la
poblacin de inters y que puede asumir al menos dos valores diferentes.
Una variable estadstica es una funcin que a cada elemento de la poblacin le asigna un nmero.
Los nmeros se asignan de acuerdo con una escala y representan la medicin de una determinada caracterstica en cada unidad estadstica.
En una poblacin se pueden definir muchas variables estadsticas.

Rango de la variable estadstica


Es el conjunto formado por todos los valores que puede asumir la variable estadstica.

Notas

Estadstica EEGGCC

Ejemplo 4
En una investigacin, se quiere estimar el porcentaje de personas que votaran por cierto candidato a
la presidencia del Per, por sexo, grupos de edades y nivel socioeconmico. Indique la poblacin, las
variables a medir y sus rangos.

Ejemplo 5
En una investigacin, se quiere estimar el tiempo promedio diario de conexin a Facebook para un
determinado grupo de adolescentes de 12 a 15 aos. Indique la poblacin y la variable a medir.

Ejemplo 6
Como parte de un estudio en la Facultad de Ciencias e Ingeniera (FCI), se quiere determinar si el
nmero medio de crditos en los que se han matriculado los alumnos en el semestre 2016-1 es igual
para todas las especialidades. Indique la poblacin, unidades estadsticas y evale si el porcentaje de
alumnos de la FCI, matriculados en ms de 12 crditos es una variable en esta poblacin.

Parmetro
Es una medida resumen que describe una caracterstica de la poblacin. Para calcular un parmetro
se requiere medir la caracterstica de inters en TODOS los elementos que conforman la poblacin.

Estadstico
Es una medida resumen valor que describe una caracterstica de la muestra. Para calcular el estadstico se usan las mediciones de la caracterstica de inters en los elementos que conforman la muestra de estudio.
Notas

Estadstica EEGGCC

Ejemplo 7
Poblacin: Alumnos regulares matriculados en EEGGCC en el semestre 2016 1.
Parmetro 1: Edad media (en aos), calculada con todas las edades de los alumnos que conforman la
poblacin.
Parmetro 2: ______________________________________________________________________
Muestra: Un conjunto de 100 alumnos regulares matriculados en EEGGCC en el semestre 2016-1,
seleccionados al azar.
Estadstico 1: Edad media (en aos), calculada con las edades de los alumnos que conforman la
muestra.
Estadstico 2: ______________________________________________________________________
Ejemplo 8
Segn los Censos Nacionales X de Poblacin y V de Vivienda 2007 ejecutados por el INEI, el 50,06%
de los peruanos es mujer. Indique si este valor es un parmetro o un estadstico.

Ejemplo 9
En una muestra de viviendas del rea urbana de Ica se observ que en el 35% de los casos, el material predominante de las paredes exteriores era adobe. Indique si este valor es un parmetro o un
estadstico.

Tipos de variables estadsticas


Las variables se pueden clasificar en cualitativas o cuantitativas.

Variables cualitativas
Son las variables que miden una cualidad. Son de carcter no numrico y por lo general clasifican a
las unidades estadsticas en categoras.
Algunos ejemplos de variables cualitativas son: sexo de una persona, sector industrial al que pertenece una empresa, tipo de material de construccin de una vivienda.

Variables cuantitativas
Son variables que miden una cantidad. Son de carcter numrico. Por lo general tienen una unidad
de medicin.
Las variables cuantitativas se pueden clasificar en discretas y continuas.

Notas

Estadstica EEGGCC

Variable cuantitativa discreta


Es una variable cuyo rango es un conjunto finito o infinito numerable. Los valores que puede asumir
una variable discreta son enumerables pero no necesariamente son nmeros enteros.
Ejemplos de variables discretas: nmero de llamadas que ingresan a una central telefnica por minuto, nmero de veces que un alumno lleva el curso de Estadstica, nmero de trabajadores de una
agencia de banco, nmero de accidentes laborales mensuales en una empresa.

Variable cuantitativa continua


Es una variable cuyo rango es un conjunto con un nmero infinito no numerable de elementos; es
decir, que en un intervalo determinado, pueden tomar cualquier valor.
Ejemplos de variables continuas: tiempo, en minutos, que demora un estudiante en resolver un examen; peso, en gramos, de un telfono celular; rea de terreno construida de una vivienda en Lima,
en metros2.
Ejemplo 10
Se define como poblacin de inters al conjunto de todos los hospitales de ESSALUD o del Ministerio
de Salud que operan en el Departamento de Lima. De dos ejemplos de variables cualitativas y dos de
variables cuantitativas para esta poblacin.

Escalas de medicin de las variables


Medicin
Proceso de observacin de una caracterstica de inters (variable) sobre una unidad estadstica con la
finalidad de asignarle un nmero de acuerdo a ciertas reglas.

Escala de medicin
Regla de asignacin de nmeros para las mediciones realizadas en cada unidad estadstica respecto a
una variable de inters.

Tipos de escalas de medicin


Stanley Smith Stevens (1906 1973), en la revista Science de junio de 1946, present su artculo Sobre la Teora de las Escalas de Medicin. La clasificacin de Stevens considera cuatro tipos de escala:
nominal, ordinal, de intervalo y de razn.
Las variables de tipo cualitativo se miden en escalas nominal u ordinal; las variables de tipo cuantitativo se miden en escalas de intervalo y de razn.
Notas

Estadstica EEGGCC

10

Nominal
Los nmeros asignados segn una escala nominal clasifican a las unidades estadsticas en categoras
iguales o diferentes. Estos nmeros solamente se usan como etiquetas que identifican a cada unidad
estadstica como perteneciente a una determinada categora de la variable de inters; por lo tanto,
con estos valores no debe realizarse comparaciones de orden u operaciones aritmticas.
Ejemplos: Sexo: 1 = femenino; 2 = masculino.
Estado civil: 1 = casado; 2 = soltero; 3 = viudo; 4 = otro.

Ordinal
Una escala ordinal funciona como una escala nominal pero los nmeros asignados a las unidades
estadsticas tienen la propiedad adicional de reflejar el orden existente entre las diferentes categoras de la variable medida. Los valores de una escala ordinal se asignan segn el mayor o menor grado en el que se encuentre presente la caracterstica de inters en cada unidad estadstica, por lo
tanto, con estos valores s se pueden realizar comparaciones de orden pero no operaciones aritmticas.
Ejemplos: Escala de pagos de un alumno de la PUCP: 1, 2, 3, 4, 5.
Grado de instruccin: 1 = primaria completa; 2 = secundaria completa; 3 = superior completa.
Grado de satisfaccin de un cliente: 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy
satisfecho.

Intervalo
Una escala de intervalo tiene las propiedades de una escala ordinal pero adems cuenta con una
unidad de medida y por lo tanto tiene sentido medir e interpretar las distancias entre los valores de
la escala. En una escala de intervalo, las diferencias entre los valores asignados a las unidades estadsticas proporcionan informacin acerca de la diferencia en el grado en que se presenta la caracterstica observada. Por ejemplo, la diferencia de temperatura entre 10 C y 15C es la misma que entre
30C y 35C; en ambos casos se observa un incremento de cinco grados centgrados.
Una escala de intervalo no tiene un cero real o absoluto sino un cero relativo, definido arbitrariamente y que no indica ausencia de la caracterstica medida, por esta razn, es incorrecto afirmar, por
ejemplo, que 20C representa el doble de temperatura que 10C ya que si empleamos una escala
diferente para medir temperatura esta relacin no se mantiene (10C = 50F, 20C = 68F pero 68 no
es el doble de 50).
Ejemplos: Altura de una ciudad, en metros sobre el nivel del mar.

Propiedad: Si la medida de un elemento en una escala de intervalo es X y en otra escala de intervalo


es Y, entonces existen dos constantes reales m y b tales que se cumple la siguiente ecuacin Y=mX+b.

Notas

11

Estadstica EEGGCC

Ejemplo 11
Calcular cuntos grados Fahrenheit corresponden a X grados centgrados, si se sabe que las temperaturas 10C y 20C equivalen a 50F y 68F respectivamente.
Solucin
De los datos, podemos plantear de la siguiente ecuacin

X 10 Y 50
9
, de donde Y = X + 32
=
20 10 68 50
5

Razn
Una escala de razn tiene las caractersticas de una escala de intervalo y adems cuenta con un cero
absoluto que indica ausencia total de la propiedad medida; por ello, los nmeros asignados a las
unidades estadsticas reflejan las cantidades de la caracterstica que se mide. La proporcin entre dos
valores de una escala de razn corresponde a la misma proporcin entre las cantidades de la caracterstica medida.
Ejemplos: Sueldo bruto mensual, en nuevos soles, de los empleados de una empresa.
Tiempo, en minutos, que tarda un alumno en terminar una prueba de agilidad mental.
Peso, en kilogramos, de una persona.

Propiedad: Si la medida de un elemento en una escala de razn es X y en otra escala de razn es Y,


entonces existe una constante real m tal que se cumple la siguiente ecuacin Y=mX.

Ejemplo 12
La distancia entre los puntos A y B es 23,22 metros y entre los puntos A y C 79,12 metros. Si se usa
una nueva escala de razn, la distancia entre A y B es 1,35 pics. Cul ser la distancia entre A y C
medida en pics?

Notas

12

Estadstica EEGGCC

Ejemplo 13
Indique el tipo y la escala de medicin adecuada para las siguientes variables.
Variable

Tipo de variable

Escala de medicin

Nombre o razn social de la empresa


rea, en metros cuadrados, del departamento
Nmero de fotos almacenadas en la memoria de un telfono celular
Ingresos por ventas diarias de gashol en
cierto grifo, en nuevos soles
Capacidad neta de una refrigeradora, en
metros cbicos.
Color de un automvil
Nmero de pacientes atendidos por da en
la sala de emergencia de cierta clnica.
Tipo de empresa (privada, pblica, otro)
Nmero de RUC de un contribuyente
Distancia recorrida por un taxista en un da
(en km)
Material de una tubera (cobre, bronce,
pvc, etc.)
Ejemplo 14
Se define como poblacin de inters al conjunto de todas las empresas mineras que operan en el
Per De dos ejemplos de variables cualitativas y dos ejemplos de variables cuantitativas en esta poblacin, indique el tipo de cada variable y la escala adecuada para medirla.
Variable

Notas

Tipo de variable

Escala de medicin

13

Estadstica EEGGCC

1.2. Organizacin y tratamiento de datos


Dato
Un dato es el valor de la medicin de una variable, realizada en una unidad estadstica.

Distribucin de frecuencias
Es la representacin estructurada, en forma de tabla, de los datos que se han recolectado sobre una
variable en estudio.
Es til para resumir grandes volmenes de datos.
Permite que quienes toman decisiones puedan extraer directamente la informacin relevante.

Frecuencias simples
La frecuencia absoluta de la clase i se denota ni y representa el nmero de datos que pertenecen a
esa clase.
La frecuencia relativa de la clase i se denota fi y representa la proporcin de datos que pertenecen a
esa clase.
frecuencia relativa ( f i ) =

frecuencia absoluta de la clase i n i


=
nmero total de datos
n

La frecuencia porcentual de la clase i se denota pi y representa el porcentaje de datos que pertenecen a esa clase.

frecuencia

porcentual

( pi ) =

f i * 100 %

Frecuencias acumuladas
Dado un conjunto de n datos cuantitativos, organizados en k clases ordenadas de menor a mayor, se
define:
La frecuencia acumulada absoluta de la clase i se denota Ni y es la suma de las frecuencias absolutas
desde la clase 1 hasta la clase i, es decir, es el nmero total de datos que pertenecen a la clase i o a
alguna clase anterior.
Se tiene que Ni = n1 + n2 + ... + ni =

, i = 1, 2,..., k

j =1

Luego N1 = n1 y Ni = Ni 1 + ni , i = 2, 3,..., k
La frecuencia acumulada relativa de la clase i se denota Fi y es la proporcin de datos que pertenecen hasta esa clase.
frecuencia relativa acumulada (Fi ) =

frecuencia absoluta acumualda i N i


=
nmero total de datos
n

La frecuencia acumulada porcentual Pi de una clase es el porcentaje de datos que pertenecen hasta
esa clase. Se cumple que Pi=Fi*100%.

Notas

14

Estadstica EEGGCC

Ejemplo 15 (Distribucin de frecuencias de una variable cualitativa)


Como parte de un estudio se seleccion una muestra de personas y se les solicit que mencionen la
primera marca de televisores que recuerden. Los resultados se muestran en la siguiente tabla. Construya la distribucin de frecuencias de la variable en estudio.
Sony

LG

Sony

Panasonic

Philips

LG

Sony

Panasonic

Sony

LG

Sony

Samsung

Sony

Samsung

Philips

Panasonic

Samsung

Philips

Sony

Sony

Panasonic

Samsung

LG

Sony

Samsung

LG

Samsung

Samsung

LG

Panasonic

Miray

Samsung

Sony

Philips

Sony

Samsung

Samsung

Panasonic

Philips

Sony

Sony

LG

Samsung

Miray

Panasonic

Marca de televisor

ni : Nmero de
personas

fi: Proporcin de
personas

pi: Porcentaje de
personas

Total
A partir de la informacin de la tabla complete las siguientes afirmaciones.

_________________ fue la marca de televisores mencionada con ms frecuencia por las personas de la muestra; el ______% de los entrevistados mencionaron esta marca

La segunda marca ms mencionada por las personas entrevistadas fue ____________________ .

Las marcas ___________________ y ____________________ fueron mencionadas por el mismo


nmero de personas.

Ejemplo 16 (Distribucin de frecuencias de una variable cuantitativa discreta)


Una muestra de 64 lotes de transductores de temperatura de cierto tipo, cada uno con 50 unidades,
fue inspeccionada y se registr el nmero de unidades de cada lote que no cumplan las especificaciones de diseo. Los datos registrados se muestran a continuacin:
1

10

Notas

15

Estadstica EEGGCC

Construya la tabla de distribucin de frecuencias de la variable en estudio y complete las afirmaciones.


Tabla 1. Distribucin de lotes por nmero de transductores que no cumplen las especificaciones de
diseo
Nmero de transductores

ni: Nmero de
lotes

pi: Porcentaje de
lotes

Ni: Nmero acumulado de lotes

Pi: Porcentaje
acumulado de
lotes

Total
A partir de la informacin de la tabla complete las siguientes afirmaciones.

El ______% de los lotes revisados tena al menos un transductor que no cumpla las especificaciones de diseo.

En los lotes revisados, el nmero de transductores que no cumplan las especificaciones de diseo, vari entre ______ y ______.

Solamente en _________ ( _____%) de los lotes se encontraron ms de cuatro unidades que no


cumplan las especificaciones d diseo.

En _____________% de los lotes revisados se encontr _______o menos unidades que no cumplan las especificaciones d diseo.

Distribucin de frecuencias por intervalos para datos cuantitativos continuos


Cuando se realiza mediciones de una variable continua, por lo general, los datos observados tienen
muchos valores diferentes, por ello, para presentarlos en una tabla de forma tal que se facilite su
anlisis, estos datos deben agruparse primero en clases o intervalos.
Tres pasos previos para la construccin de una distribucin de frecuencias por intervalos son los
siguientes:
Determinar la cantidad de intervalos o clases.
Determinar el ancho o amplitud de cada intervalo o clase.
Determinar los lmites de cada intervalo o clase.

Notas

16

Estadstica EEGGCC

Cantidad de clases: k
Se recomienda usar entre 5 y 20 intervalos o clases.
La idea es emplear suficientes clases para mostrar la variacin de los datos, pero no tantas que
varias contendran muy pocos o ningn elemento.
Hay algunas reglas que sugieren el nmero de clases o intervalos que se deben usar que dependen del nmero de datos disponibles, sin embargo en la prctica la decisin generalmente se
toma atendiendo a una necesidad especfica o por experiencia.
Una de las reglas mencionadas en el punto anterior es la de Sturges que sugiere que, dados n
datos, el nmero de intervalos a usar k es el valor:
k = 1 + 3,322 log n
El valor de k se redondea al entero ms prximo.

Amplitud de cada clase: A


Por lo general, se usa la misma amplitud o ancho para todas las clases.
Si se ha decidido construir una distribucin de frecuencias con k intervalos del mismo tamao,
entonces la amplitud de cada intervalo se calcula de la siguiente manera:
A = Amplitud

dato mximo

dato mnimo
k

x mx x mn
Rango
=
k
k

La amplitud se aproxima por exceso de acuerdo con la cantidad de decimales que tienen los datos o segn la precisin con la que se desea trabajar.
Se usa la aproximacin por exceso para asegurar que el mayor de los datos pertenezca a alguna
de las clases.

Lmites de cada clase o intervalo


Los intervalos deben ser disjuntos y deben cubrir todo el rango de variacin de los datos.
Los lmites de cada clase se escogen de tal manera que cada dato pertenezca a una clase y slo a
una.
Por lo general, el lmite inferior de la primera clase es el valor del dato mnimo observado.

Marca de clase
La marca de clase es el punto medio de cada intervalo. Se obtiene calculando la semi suma de los
lmites de cada intervalo o clase.
Cuando solamente se dispone de los datos organizados en una distribucin de frecuencias por
intervalos, ya no es posible determinar el valor exacto de cada dato. La marca de clase se usa
como el valor que representa a cada uno de los datos que pertenecen al intervalo o clase correspondiente.
Es importante que los intervalos no sean demasiado grandes, porque la marca de clase no sera
un buen representante, ni demasiado pequeos como para complicar la construccin de la tabla
o como para que hayan varias clases sin datos.
La marca de clase del intervalo i se denota mi

Notas

17

Estadstica EEGGCC

Ejemplo 17
Construya una distribucin de frecuencias de siete intervalos para los siguientes datos que representan los tiempos (en minutos), que demoraron 48 alumnos en resolver una prueba.

8,8
8,9
12,7

8,7
12,4
8,4

10,2
9,6
10,5

10,3
10,1
10,9

8,2
9,6
11,9

11,7
9,7
9,9

7,8
9,6
9,5

9,8
11,3
10,7

11,1
10,9
12,6

8,9
9,8
10,8

9,3
9,5
8,6

8,3
12,0
9,2

8,2
10,9
8,5

9,0
12,4
9,6

9,2
9,3
10,0

8,5
9,4
9,8

Solucin
El rango R se calcula con: R = dato mximo dato mnimo = xmax xmin = 12,7 - 7,8 = 4,9
De acuerdo a lo indicado, el nmero de clases o intervalos a usar es k = 7.
La amplitud de cada intervalo es:
A=

R 4 ,9
=
= 0,7
k
7

En el curso usaremos intervalos abiertos a la izquierda, pero tambin puede usarse intervalos abiertos a la derecha. Los intervalos o clases para los datos de este ejemplo son:
I1: [xmin ; xmin +A] = [7,8 ; 7,8 + 0,7] = [7,8 ; 8,5]
I2: ]xmin +A ; xmin + 2A] = ]8,5 ; 9,2]
...
I7: ]xmin + 6A ; xmin + 7A] = ]12,0 ; 12,7]

Tiempo (min.)

Marca de clase
(mi)

ni: Nmero de
alumnos

fi: Proporcin
de alumnos

Ni: No. acum.


de alumnos

Fi: Prop. acum.


de alumnos

[7,8

8,5]

8,15

0,1458

0,1458

]8,5

9,2]

8,85

0,1667

15

0,3125

]9,2

9,9]

9,55

14

0,2917

29

0,6042

]9,9

10,6]

10,25

0,1042

34

0,7083

]10,6

11,3]

10,95

0,1458

41

0,8542

]11,3

12,0]

11,65

0,0625

44

0,9167

]12,0

12,7]

12,35

0,0833

48

1,0000

Distribucin de frecuencias por intervalos para datos cuantitativos discretos


Si los datos que se quiere organizar en una distribucin de frecuencias corresponden a mediciones de
una variable discreta pero se han observado muchos valores diferentes, entonces tambin podemos
utilizar una distribucin de frecuencias por intervalos para facilitar el anlisis de estos datos.

Notas

18

Estadstica EEGGCC

Ejemplo 18
Los dimetros de una muestra de remaches circulares de acero (en 1/100 pulgadas), se muestran a
continuacin:

a.

6,62

6,66

6,68

6,69

6,71

6,72

6,72

6,73

6,74

6,75

6,75

6,76

6,76

6,76

6,76

6,77

6,77

6,77

6,78

6,78

6,79

6,79

6,80

6,81

6,81

6,82

6,82

6,82

6,83

6,84

6,85

6,85

6,87

6,88

6,88

6,89

Presente los datos organizados en una distribucin de frecuencias de seis intervalos (incluya
frecuencias simples y acumuladas).

Ttulo: _____________________________________________________________________________

mi:
[

ni:

pi:

Ni:

Pi:

Total
b.

Escriba tres comentarios que describan aspectos relevantes de la distribucin de los datos.

Notas

Estadstica EEGGCC

19

1.3. Grficos estadsticos


Todo grfico debe tener, por lo menos, lo siguiente:
un ttulo que lo describa lo mejor posible
unidades y rtulos en todos los ejes
fuente de los datos.
A continuacin se presenta el esquema de un grfico estadstico extraido de la Gua de presenatacin
de grficos estadsticos, elaborada por el Instituto Nacional de Estadstica e Informtica, disponible
en: http://www.inei.gob.pe/media/MenuRecursivo/metodologias/libro.pdf

Notas

Estadstica EEGGCC

Grficos para datos de variables cualitativas


Grfico de barras

Se usa para representar grficamente la distribucin de un


conjunto de datos cualitativos.
En uno de los ejes, se representan las categoras o clases de la
variable; para el otro eje, se
puede usar una escala de frecuencias absolutas, relativas o
porcentuales. Se traza una barra sobre cada indicador de clase de una altura proporcional a
la frecuencia correspondiente.
Las barras deben ser del mismo
ancho y deben estar separadas
para enfatizar el hecho de que
cada clase es diferente de otra.

Grfico circular o de pastel

En el grfico circular, cada sector circular representa la frecuencia observada de una clase
o categora.
El sector circular que representa a una determinada categora
de la variable tiene un ngulo
en el centro proporcional a la
frecuencia relativa de dicha categora. Este ngulo se obtiene
multiplicando 360 por la respectiva frecuencia relativa.
Este se debe presentar en vista
frontal para no distorsionar el
tamao de los sectores circulares.

Notas

20

21

Estadstica EEGGCC

Grficos para datos de variables cuantitativas discretas


Grfico de bastn
Es un grfico que muestra la frecuencia de ocurrencia de cada valor observado de la variable discreta
mediante un segmento (bastn) cuya altura es proporcional a la frecuencia correspondiente.

Grficos para datos organizados en una distribucin de frecuencias por intervalos


Para presentar estos grficos usaremos el ejemplo siguiente. Los datos corresponden a la
experiencia laboral de los obreros de una fbrica que han sido organizado previamente en la
siguiente distribucin de frecuencias por intervalos.
Experiencia
laboral
(en aos)

mi: marca
de clase

ni: nmero de
obreros

fi: proporcin de
obreros

Ni: Nmero acumulado de obreros

Fi: proporcin
acumulada de
obreros

[0;4]

57

0,2780

57

0,2780

]4;8]

78

0,3805

135

0,6585

] 8 ; 12 ]

10

43

0,2098

178

0,8683

] 12 ; 16 ]

14

25

0,1220

203

0,9903

]16 ; 20 ]

18

0,0098

205

Total

205

Notas

Estadstica EEGGCC

Histograma
Se construye a partir de una distribucin de frecuencias por intervalos.
Los datos de cada clase se representan con un
rectngulo, cuya base es el intervalo de clase y
cuya altura es proporcional a la frecuencia correspondiente (absoluta, relativa o porcentual).
Los rectngulos adyacentes se tocan entre s.
El histograma muestra la forma de la distribucin
de los datos. Se observa: la simetra y dispersin
de los datos; los intervalos con alta concentracin, las brechas (intervalos sin observaciones),
as como la existencia de datos muy alejados de
los dems.

Polgono de frecuencias
Es la representacin por medio de una figura poligonal
cerrada de una distribucin de frecuencias absolutas,
relativas o porcentuales.
Se obtiene uniendo con segmentos de recta los
puntos con la marca de clase como abscisa y la correspondiente frecuencia absoluta o relativa como
ordenada.
Los polgonos de frecuencias se cierran en los puntos del eje horizontal correspondientes al lmite inferior del primer intervalo y al lmite superior del
ltimo intervalo.

Ojiva
Es la grfica de una distribucin de frecuencias acumuladas (absolutas, relativas o porcentuales).
La ojiva parte del punto que tiene al lmite inferior
del primer intervalo como abscisa y a cero como
ordenada.
Se obtiene uniendo con segmentos de recta los
puntos con el lmite superior de cada intervalo
como abscisa y la frecuencia acumulada respectiva como ordenada.
Con la ojiva se puede estimar el nmero o porcentaje aproximado de observaciones que corresponden a un intervalo determinado.

Notas

22

23

Estadstica EEGGCC

Ejemplo 19
La anchoveta es el pez ms importante del ecosistema de la Corriente de Humboldt. Su abundancia
ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamferos e invertebrados que hoy en da habitan en nuestro mar. Una muestra de 250 anchovetas de un ao de edad
ha dado una longitud mnima de 6 cm. Los datos se muestran a continuacin, organizados en una
distribucin de frecuencias de seis intervalos de la misma longitud..
Ttulo: _______________________________________________________________________
Tamao

mi:

(centmetros)

Marca de clase

ni:

fi:

Ni:

Fi:

0,10
65
180
30
0,96
17

0,04

Total

a) Complete la distribucin de frecuencias por intervalos de las longitudes de las anchovetas.

b) Grafique el histograma de frecuencias relativas y escriba dos comentarios respecto a la distribucin de los datos.

Notas

Estadstica EEGGCC

24

Ejemplo 20
A continuacin se presenta el histograma de los montos medios mensuales gastados en la cafetera
de la empresa por una muestra de trabajadores:

a. A partir del grfico reconstruya la distribucin de frecuencias por intervalos.


b. Grafique la ojiva de frecuencias relativas.
c. Determine el porcentaje aproximado de trabajadores de la muestra con un gasto medio mensual
entre S/.90 y S/. 170.

Notas

25

Estadstica EEGGCC

1.4. Estadsticos de posicin


Percentil
El k-simo percentil, denotado Pk, es un valor tal que por lo menos el k% de los datos son menores o
iguales que este valor.

Cuartil
Se denomina as a cada uno de los tres percentiles: P25, P50, P75 y se les denota como Q1, Q2 y Q3 respectivamente.
Ejemplo 21
La siguiente tabla se construy a partir de los datos obtenidos durante el proceso de evaluacin de
postulantes a puestos de trabajo en una empresa de telecomunicaciones.

Percentiles

Edad

Conocimientos generales

Neuroticismo

25 (Primer cuartil)

29,0

26,0

48,0

50 (Segundo cuartil)

31,0

30,0

63,0

75 (Tercer cuartil)

36,0

34,0

77,5

El primer cuartil de la variable Edad es 29, esto quiere decir que al menos el 25% de los postulantes tiene 29 aos o menos.

El segundo cuartil de la variable Conocimientos generales es 30, esto quiere decir que al menos
el 50% de los postulantes obtuvieron 30 o menos puntos en la prueba de conocimientos generales.

El tercer cuartil de la variable Neuroticismo es 77,5, esto quiere decir que al menos el 75% de los
postulantes obtuvieron 77,5 o menos puntos en la evaluacin de Neuroticismo.

Ejemplo 22
En un estudio para evaluar los tiempos de vida de bateras para automviles se determin que el
primer cuartil y el percentil 70 son 3,05 aos y 3,70 aos respectivamente. Interprete estos percentiles.

Notas

26

Estadstica EEGGCC

Clculo del percentil k para un conjunto de n datos cuantitativos


Existen varias propuestas diferentes para calcular el k-simo percentil de un conjunto de datos.
Algunas de ellas se pueden usar tanto para datos cuantitativos como para datos cualitativos medidos en escala ordinal. En el curso usaremos la propuesta siguiente que slo debe aplicarse a
datos cuantitativos.
Ordene los n datos de manera ascendente, es decir, de menor a mayor: x1 x2 x3 xn (de
esta manera, el dato xi es el dato en la i-sima posicin).
Calcule la posicin i del percentil k-simo, Pk.
k
i =
n
100

0 < k < 100

Si el valor calculado de i es un nmero entero, el percentil k-simo, Pk, es igual a la semi suma de
los datos en las posiciones i e (i+1), es decir, Pk = ( xi+ xi+1)/2
Si el valor calculado de i no es entero,el percentil k-simo Pk es el dato que tiene la posicin del
entero inmediato superior a i, es decir, P k = x i + 1
Ejemplo 23
Se determin la cantidad de contaminacin por aluminio (ppm) en cierto tipo de plstico con una
muestra de 26 probetas de plstico. Los datos obtenidos son los siguientes:
30

30

60

63

70

79

87

90

101

102

115

118

119

119

120

125

140

145

172

182

183

191

222

244

291

296

Calcule e interprete el percentil 30 y segundo cuartil.

Ejemplo 24
En la tabla siguiente se muestra la distribucin de los trabajadores de una empresa segn el nmero de
tardanzas en el mes pasado. Calcule e interprete el percentil 15 y el percentil 85 de los datos.

Notas

xi : Nmero
de tardanzas

ni: Nmero de
trabajadores

48

80

57

15

Total

200

fi: Proporcin de Ni :
trabajadores

Fi :

27

Estadstica EEGGCC

Percentil de datos organizados en una distribucin de frecuencia por intervalos


Cuando no conocemos los valores exactos de cada uno de los datos y slo los tenemos organizados en una distribucin de frecuencias por intervalos, no es posible calcular el valor exacto del
percentil k-simo, Pk, en ese caso, hallaremos un valor aproximado de este percentil usando la informacin contenida en la tabla.
Primero, identificamos el intervalo Ii = ]Li ; Ui] en el que se encuentra el percentil Pk mirando en
k
la columna de frecuencias relativas acumuladas. Se debe cumplir que: Fi 1 <
Fi .
100
El valor del percentil Pk se determina por la siguiente expresin:

Pk = Li +

A k

Fi 1

f i 100

donde:
Li = lmite inferior del intervalo Ii que contiene al percentil k
fi = frecuencia relativa del intervalo Ii que contiene al percentil k
Fi-1 =Frecuencia relativa acumulada del intervalo anterior al Ii, que contiene al percentil k
A = Amplitud del intervalo (en este caso suponemos que la amplitud es constante)
Para deducir la frmula para percentiles de datos agrupados en intervalos, podemos establecer
una semejanza de tringulos usando la ojiva de frecuencias relativas acumuladas.

Notas

28

Estadstica EEGGCC

U i Li
F Fi 1
= i
k
Pk Li
Fi 1
100
De donde se tiene que:

fi
A
=
k
Pk Li
Fi 1
100
Despejando se obtiene la frmula del percentil k.

Pk = Li +

A k

Fi 1

f i 100

Cuartiles
Primer cuartil:

Q1 = P25

Segundo cuartil:

Q2 = P50

Tercer cuartil:

Q3 = P75

Ejemplo 25
A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un da de la
semana pasada. Calcule e interprete el segundo cuartil de la distribucin.
Tiempo
(minutos)

[0 - 6]

]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]

ni: Nmero
de emisoras

17

10

14

fi: Proporcin
de emisoras

0,02

0,06

0,34

0,04

0,02

0,20

0,04

0,28

Fi: Prop.
Acumulada
de emisoras

0,02

0,08

0,42

0,46

0,48

0,68

0,68

0,68

0,72

1,0

Notas

29

Estadstica EEGGCC

1.5. Medidas de tendencia central


Las medidas de tendencia central son medidas resumen que se usan como valores que representan
al conjunto de datos de una variable.

Moda
La moda de un conjunto de datos o mediciones de una variable es el valor que se presenta con mayor frecuencia.
Caractersticas de la moda
La moda se puede calcular para datos medidos en cualquier escala de medicin.
El valor de la moda no se ve afectado por valores extremos.
La moda no siempre es un valor nico. Una serie de datos puede tener dos modas (bimodal) o
ms modas (multimodal).

Moda de un conjunto de n datos


Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda.

Ejemplo 26
Determine e interprete la moda de los siguientes datos, que representan las escalas de pago de una
muestra de 20 alumnos de la PUCP.

Notas

30

Estadstica EEGGCC

Ejemplo 27
Calcule e interprete la moda de los siguientes datos, que representan el sexo de los 14 postulantes a
un puesto de Gerente de Logstica de una empresa. La escala usada es 1: Femenino y 2: Masculino
2

Mediana
La mediana es el percentil 50, tambin llamado segundo cuartil.

Caractersticas de la mediana
Se puede calcular para variables medidas en escala de ordinal, intervalo o razn.
La mediana es un estadstico robusto que no depende de todos los datos y por lo tanto su valor
no se ve afectado por la presencia de datos inusualmente grandes o pequeos.
La mediana resulta til como representante del conjunto de datos cuando hay datos atpicos o el
polgono de frecuencias presenta una asimetra considerable.
Dados n datos cuantitativos x1, x2,, xn, sea S (c ) =

c , entonces S (c ) tiene mnimo abso-

i =1

luto cuando c es igual a la mediana del conjunto de datos.


Ejemplo 28
El nmero de papeletas por infracciones de trnsito recibidas por los 52 choferes de la empresa de
transportes A, durante el ao 2014, fueron registradas y organizadas en la tabla siguiente. Calcule e
interprete la moda y la mediana de estos datos.
Empresa A. Distribucin de choferes por el nmero de papeletas en 2014
xi : Nmero de papeletas

ni : Nmero de choferes

Ni: Nmero acumulado de choferes

18

18

20

38

46

52

Fuente: Gerencia de Recursos Humanos - Empresa A

Notas

31

Estadstica EEGGCC

Media aritmtica
La media aritmtica (o simplemente media) de n datos es el valor que se obtiene al dividir la suma
total de los datos entre el nmero de datos:

Media aritmtica = x =

x1 + x 2 + .... + x n
n

Caractersticas de la media
Solamente se puede calcular para datos cuantitativos, medidos en escala de intervalo o razn.
El clculo de la media es sencillo y es la medida de tendencia central ms conocida.
El valor de la media depende de todos los datos, por lo que la presencia de valores muy grandes
o muy pequeos con respecto a los dems pueden cambiar drsticamente su valor.

(x x ) = 0
i

i =1
n

= nx

i =1

Dados n datos cuantitativos x1, x2,, xn, sea S (c ) =

(x

c ) , entonces S (c ) tiene mnimo


2

i =1

absoluto cuando c es igual a la media del conjunto de datos x .


Si cada uno de n datos cuantitativos xi es transformado en: yi = a xi + b, siendo a y b constantes,
entonces, la media de los n valores yi es:

y = ax + b

Ejemplo 29
Un comerciante ha comprado 65 computadores a un distribuidor y ha pagado un precio medio de
582 dlares por cada computadora. El comerciante planea revender estas computadoras para obtener ganancias y decide fijar el precio de venta aumentando un 8% sobre el costo de cada computadora ms un monto fijo de 30 dlares.

Notas

32

Estadstica EEGGCC

a. Cul sera el precio medio de venta de las computadoras?,

b. Cul sera el monto total de los ingresos obtenidos por la venta de las 65 computadoras?

c. Cul sera el monto total de las utilidades obtenidas por la venta de las 65 computadoras?

Ejemplo 30
A continuacin se muestran los sueldos mensuales, en nuevos soles, de los 13 trabajadores de una
pequea empresa:
380

450

700

780

800

820

850

990

1250

1500

1900

3210

6288

El gerente de la empresa est evaluando dos propuestas de incrementos de sueldos:


o La primera consiste en aumentar un 10% del sueldo de cada trabajador ms un monto fijo de 100
nuevos soles.
o La segunda propuesta es dar un aumento de k% a todos aquellos trabajadores suyo sueldo mensual actual es menor o igual que el percentil 25, un aumento del 2% a los que ganan ms que el
percentil 75 y un 15% de aumento al resto de trabajadores.
a.

Calcule la media y la mediana de los sueldos si se aplica la primera propuesta de aumento.

b.

Determine el porcentaje k de aumento que debera darse a los trabajadores que ganan menos si
se requiere que el gasto total en sueldos sea el mismo con ambas propuestas.

c.

Si el gerente elige una medida de tendencia central adecuada para representar los sueldos de
los trabajadores y decide aceptar la propuesta que incremente ms esta medida cul propuesta sera la elegida? Justifique.

Notas

33

Estadstica EEGGCC

Media aritmtica para un conjunto de n datos no agrupados


Sean x1, x2, xn un conjunto de n datos de una variable cuantitativa X. La media aritmtica de estos n
datos es:
n

x + x 2 + .... + x n
Media = x = 1
=
n

i =1

Ejemplo 31
Calcule la moda, mediana y media de los siguientes datos que representan el nmero de papeletas
pendientes de pago de cada uno de 11 choferes de vehculos de transporte pblico seleccionados al
azar. Cul de las tres medidas le parece ms adecuada para representar estos datos? Justifique.
16

30

Media aritmtica para datos en una distribucin de frecuencias para variable discreta
Sean x1, x2, xk los valores observados de una variable discreta X con frecuencias absolutas respectivas n1, n2, nk y frecuencias relativas respectivas f1, f2, fk La media aritmtica de estos datos es:
k

x n + x 2 n 2 + ... + x k n k
Media = x = 1 1
=
n 1 + n 2 + ... + n k

xn
i

i =1

fi

i =1

Ejemplo 32
Se realiz una prueba de destreza manual entre los obreros de una fbrica. Se midi el nmero de
errores cometidos en la prueba, obtenindose los siguientes resultados:
Tabla 1. Distribucin de obreros segn nmero de errores en la prueba de destreza manual
Nmero de
errores

Nmero de
obreros

Porcentaje de obreros

Nmero acumulado de
obreros

Porcentaje acumulado
de obreros

11,4%

11.4%

16

22,9%

24

34.3%

24

34,3%

48

68.6%

15

21,4%

63

90.0%

10,0%

70

100.0%

Calcule e interprete la moda, la media y la mediana de los datos. Compare estos valores.

Notas

34

Estadstica EEGGCC

Media aritmtica para datos en una distribucin de frecuencias por intervalos


Cuando solamente se cuenta con los datos organizados en una distribucin de frecuencias por intervalos no es posible calcular la media aritmtica usando la definicin porque no se conoce el valor
exacto de cada dato. En ese caso, se obtiene un valor aproximado de la media usando las marcas de
clase de los intervalos.
El valor aproximado de la media aritmtica para n datos organizados en una distribucin de frecuencias con k intervalos o clases, con marcas de clase m1, m2, mk; fercuencias absolutas n1, n2, nk y
frecuencias relativas f1, f2, fk respectivamente es:
k

m n + m 2 n 2 + ... + m k n k
Media = x = 1 1
=
n1 + n 2 + ... + n k

mn
i

i =1

i =1

fi

Ejemplo 33
El tiempo de vida de una muestra aleatoria de 80 cajas de cierto tipo de bebidas lcteas se determin
y se obtuvo los siguientes resultados.
Tiempo de vida de las bebidas lcteas (das)
mi: Marca de ni: Nmero de
clase
cajas

Tiempo de vida (das)

fi: proporcin
de cajas

Ni: Nmero
acumulado
de cajas

Fi: Proporcin
acumulada de
cajas

150

158

154

10

0,125

10

0,125

158

166

162

14

0,175

24

0.300

166

174

170

25

0,3125

49

0,6125

174

182

178

31

0,3875

80

Calcule aproximadamente la media y la mediana del tiempo de vida de las bebidas lcteas. Interprete

Media aritmtica ponderada


Dados n datos x1, x2,, xn con pesos w1, w2,, wn la media aritmtica ponderada de estos datos es:
n

w x + w 2 x 2 + ... + wn x n
Media ponderada = x p = 1 1
=
w1 + w 2 + ... + w n

w x
i

i =i
n

i =1

Si todos los pesos son iguales, entonces el valor de la media ponderada es igual al de la media:
xp = x .

Notas

35

Estadstica EEGGCC

Ejemplo 34
Calcule la nota final de un alumno del curso de Estadstica que tiene las siguientes notas: promedio
de prcticas calificadas = 12,3; examen parcial = 10 y examen final = 17. Los pesos del promedio de
prcticas, examen parcial y examen final son 3, 3 y 4, respectivamente.

1.6. Medidas de dispersin


Las medidas de tendencia central nos proporcionan valores que podemos usar como datos tpicos, es decir, valores que representan a todo el conjunto de datos, sin embargo, si caracterizamos al conjunto de datos nicamente por su centro, no contamos con informacin acerca de qu
tan parecidos son los dems datos respecto al valor central.
Si debemos describir la distribucin de un conjunto de datos cuantitativos nos interesara evaluar
qu tan parecidos son los datos entre s? o qu tan prximos del valor central estn los datos
del conjunto?, esta informacin la proporcionan las medidas de dispersin.

Ejemplo 35
Calcule la media, mediana y moda de los siguientes grupos de datos:
Grupo 1
1

-20

30

Grupo 2
Grupo 3

Qu conclusin deduce de los clculos?

Notas

36

Estadstica EEGGCC

Rango
El rango de un conjunto de datos se define como:
Rango = R = dato mximo dato mnimo
Caractersticas del rango
El rango se puede calcular para datos cuantitativos, medidos en escala de intervalo o de razn.
Solo depende del valor mximo y mnimo de los datos e ignora cmo estn distribuidos los dems datos.
Se ve afectado por datos extremos, es decir, por datos muy grandes o muy pequeos respecto a
los dems.
El rango mide la longitud del intervalo de variacin de los datos.

Rango intercuartil
Es la diferencia entre el tercer y primer cuartil.
Rango intercuartil = RIC = Q3 Q1= P75 P25
Caractersticas del rango intercuartil
Se puede calcular para datos cuantitativos, medidos en escala de intervalo o de razn.
No se ve afectado por valores extremos.
El rango intercuartil mide la longitud del intervalo de variacin del 50% de los datos centrales

Notas

37

Estadstica EEGGCC

Desviacin absoluta
Dados n datos x1, x2,, xn, la desviacin absoluta de estos datos se define como:
n

xi x

x 1 x + x 2 x + ... + x n x
i =1
Desviacin absoluta = DA =
=
n
n
La desviacin absoluta es la media de las distancias de cada dato a la media aritmtica
Se calcula para datos medidos en escala de intervalo o de razn.

Varianza
Dados n datos cuantitativos x1, x2,, xn la varianza de estos datos se define como la media de las distancias al cuadrado de cada dato a la media aritmtica.
n

Varianza = S 2 =

(x1 x )

+ (x 2 x ) + ... + (x n x )
=
n
2

(x

x )2

i =1

2
i

i =1

2
(x)

Si los n datos son una muestra aleatoria de una poblacin mayor y se requiere estimar la varianza
poblacional que es desconocida, entonces se usa la varianza muestral que se calcula:
n

Varianza muestral = s 2 =

( x1 x )

+ (x 2 x ) + ... + (x n x )
=
n 1
2

(x
i =1

x )2

n 1

Desviacin estndar
Dados n datos cuantitativos x1, x2,, xn la desviacin estndar de los datos se define como la raz cuadrada de la varianza:

Desviacin estndar = s =

s2

La desviacin estndar representa el alejamiento tpico de un dato respecto a la media.


La desviacin estndar es la medida de dispersin ms utilizada, sin embargo, resulta realmente til
e informativa para distribuciones simtricas o aproximadamente simtricas.

Ejemplo 36
Calcule la media y la desviacin estndar de los siguientes datos que representan el nmero de personas atendidas por da en la caseta de informacin de un proyecto inmobiliario, en una muestra de
15 das.
18

Notas

10

11

38

Estadstica EEGGCC

Varianza de datos agrupados. Variable cuantitativa discreta


Sean x1, x2, xk los valores observados de una variable discreta X con frecuencias absolutas respectivas n1, n2, nk (n= n1+n2+ +nk) y frecuencias relativas respectivas f1, f2, fk la varianza de estos datos es:
k

n (x
i

Varianza = S 2 =

x )2

i =1

n (x
i

i =1

f (x
i

x )2

i =1

Varianza muestral = s 2 =

x )2

n 1

k
n
2
=
fi ( x i x )
n 1 i =1

Ejemplo 37
Calcule la media y la desviacin estndar de los siguientes datos que representan el nmero de artculos defectuosos encontrados en cada uno de 122 lotes recibidos la semana pasada. Cada lote
tiene 1000 artculos.
xi: nmero de defectuosos

ni: nmero de lotes

58

26

10

30

Varianza de datos organizados en una distribucin por intervalos


As como en el caso de la media aritmtica, cuando solamente se cuenta con los datos organizados
en una distribucin de frecuencias por intervalos no es posible calcular la varianza usando la definicin porque no se conoce el valor exacto de cada dato, pero si se puede obtener una aproximacin
usando las marcas de clase de los intervalos.
El valor aproximado de la varianza para n datos organizados en una distribucin de frecuencias con k
intervalos o clases, con marcas de clase m1, m2, mk; fercuencias absolutas n1, n2, nk y frecuencias
relativas f1, f2, fk respectivamente es:
k

n (m
i

Varianza = S 2 =

Notas

i =1

x )2
=

f (m
i

i =1

x )2

39

Estadstica EEGGCC

Tambin se puede calcular aproximadamente la varianza muestral:


k

n (m x )

Varianza muestral = s =
2

i =1

n 1

k
n
2
=
fi (mi x )
n 1 i =1

Ejemplo 38
Calcule la media y la desviacin estndar de los siguientes datos que corresponden a los pesos de los
equipajes de los pasajeros de un vuelo Lima Arequipa.
Peso (kg.)

Marca de clase

ni: nmero de pasajeros

[10,0

15,0]

12,5

]15,0

20,0]

17,5

75

]20,0

25,0]

22,5

56

]25,0

30,0]

27,5

]30,0

35,0]

32,5

152

Total

Propiedades de la varianza y la desviacin estndar


La varianza y la desviacin estndar son nmeros no negativos.
Se calculan para datos medidos en escala de intervalo o de razn.
Son sensibles a la existencia de valores atpicos, es decir, muy grandes o muy pequeos respecto
a los dems datos.
La varianza se expresa en las unidades de los datos elevadas al cuadrado. La desviacin estndar
en las mismas unidades que los datos. Por ejemplo, si los datos estn medidos en metros (m), la
varianza estar expresada en metros al cuadrado (m2) y la desviacin estndar en metros (m).
Si cada uno de los n datos cuantitativos xi es transformado en yi = a xi + b, siendo a y b constantes, entonces, la varianza de los n valores y1 , y2, y3, ., yn es: s y2 = a 2 s 2x y por lo tanto, la desviacin
de estos valores es: s y = a s x

Notas

40

Estadstica EEGGCC

Ejemplo 39
Se estima que el tiempo, en minutos, Y que tarda un operario para ensamblar cierto dispositivo electrnico depende del nmero de errores X que comete al realizar esta tarea. Para un grupo de operarios que est siendo evaluado, se ha determinado que el nmero medio de errores es 2,3 con una
desviacin estndar 0,9. Estime la media y la desviacin estndar de los tiempos que tardaran los
operarios si se sabe que en este caso: Y = 0,3X + 4,2.

Desigualdad de Chebyshev
Sea k > 1, entonces el porcentaje de datos en el intervalo [ x k sd x , x + k sd x ] es mayor o igual que
1

1 2 % . Particularmente:
k

En el intervalo [ x 2 sd x , x + 2 sd x ] estn por lo menos el 75% de los datos.

En el intervalo [ x 3 sd x , x + 3 sd x ] estn por lo menos el 88,89% de los datos.

Coeficiente de variacin
El coeficiente de variacin (CV) de un conjunto de datos no negativos es una medida de dispersin
relativa e indica qu proporcin de la media es la desviacin estndar.
El coeficiente de variacin se determina calculando el cociente de la desviacin estndar de los
datos entre la media de los datos

Coeficiente de variacin = CV =

desviacin stndar sx
=
media
x

Es til al comparar la variabilidad de dos o ms series de datos medidas en distintas unidades o


en iguales unidades pero que difieren a tal punto que una comparacin directa de las respectivas
desviaciones estndar no es muy til, por ejemplo, cuando las medias estn muy distantes.
Un valor mayor del coeficiente de variacin indica mayor dispersin del conjunto de datos.
Ejemplo 40
El coeficiente de variacin de los salarios un grupo de trabajadores es 0,12. Si se aprueba un aumento del 20% ms una bonificacin especial fija de S/.115 para cada trabajador, el nuevo coeficiente de
variacin ser igual a 0,06. Si el objetivo del aumento aprobado era lograr homogenizar los salarios,
se ha logrado este objetivo?

Notas

41

Estadstica EEGGCC

Puntuacin estandarizada Z
Dado un conjunto de datos: x1 x2, . , xn, con media x y desviacin estndar sx, entonces cada uno de
estos datos puede transformarse en puntaje estandarizado o puntaje Z mediante:
zi =

xi x
sx

i = 1, 2,, n

Se cumple que el conjunto de datos o puntajes estandarizados (z1, z2, , zn) tiene media cero y
varianza uno, es decir: z = 0 y s z = 1
2

El valor zi mide a cuntas desviaciones estndar, por arriba o por debajo de la media de los datos
se encuentra el dato xi. Por ejemplo, si x1 representa la nota final de un alumno en un curso y
luego de estandarizar su nota se obtiene un puntaje z1=1,2, esto significa que la nota final de este
alumno es 1,2 desviaciones estndar mayor que la media de las notas finales de todos los alumnos del curso.
En la prctica es comn utilizar el puntaje z para evaluar si un dato es inusualmente grande o
pequeo respecto a los dems. Por ejemplo, un dato cuyo puntaje estandarizado es menor que
-3 o mayor que 3 se considera un dato extremo o atpico.

Ejemplo 41
Segn los resultados de un estudio realizado por encargo de una aerolnea comercial, el peso medio
y la desviacin estndar de los equipajes de mano de los pasajeros de los vuelos Lima - Miami son 6,5
kg y 2kg respectivamente. Este estudio tambin reporta que en los vuelos de regreso de Miami a
Lima, la media y la desviacin estndar de los pesos de los equipajes de mano son 8,6 kg y 4,1 kg
respectivamente.
a.

Julio estuvo en Miami el mes pasado y su equipaje de mano pes 7,2 kg en el vuelo de ida y 9,4
kg en el vuelo de regreso, en cul de los dos vuelos su equipaje tuvo un mayor peso relativo?

b.

Si se ha establecido que en los vuelos Miami - Lima cualquier pasajero que porte un equipaje de
mano con peso estandarizado mayor que 0,35 deber pagar por el exceso, hasta cunto puede
pesar el equipaje de mano de un pasajero de esta ruta para que no le cobren por el exceso de peso?

Notas

42

Estadstica EEGGCC

1.7. Indicadores de asimetra


Son medidas resumen que proporcionan informacin acerca de la forma como se distribuyen los
datos alrededor de una medida de tendencia central.
La simetra o asimetra de la distribucin de un conjunto de datos se puede observar en diversos
grficos: histograma, polgono de frecuencias, diagramas de cajas.

Coeficiente de asimetra de Pearson


El coeficiente de asimetra de Pearson se calcula con la siguiente frmula:

x Q2
As = 3
sx

Usualmente, en distribuciones unimodales, se observa que si el coeficiente de asimetra de Pearson


(As) es:
igual a cero, la distribucin es simtrica alrededor de la media.
positivo, indica sesgo a la derecha (cola derecha).
negativo, indica sesgo a la izquierda (cola izquierda).

Ejemplo 42
El siguiente cuadro muestra la distribucin del sueldo mensual de los empleados de dos empresas A y
B en octubre de 2015
Empresas A y B: Sueldos mensuales en octubre de 2015
Sueldos (nuevos soles)

Marca de
clase

Empresa A

Empresa B

Nmero de trabajadores

Nmero de trabajadores

[1 500 2 500]

2000

]2 500 3 500]

3000

40

]3 500 4 500]

4000

12

25

]4 500 5 500]

5000

]5 500 6 500]

6000

Fuente: Gerencias de Recursos Humanos Empresas A y B.

Notas

Estadstica EEGGCC

43

a) En un solo grfico muestre los dos polgonos de frecuencias para los sueldos de los trabajadores
de las empresas A y B..
b) A partir del grfico anterior compare centro, dispersin y simetra de las distribuciones de los
sueldos en las empresa A y B. Realice la comparacin nuevamente usando esta vez medidas estadsticas de centro dispersin y simetra.

Diagrama de cajas
Es una grfica que describe la distribucin de un conjunto de datos tomando como referencia los
valores de los cuartiles como medidas de posicin, la mediana como medida de tendencia central y el
valor del rango intercuartil (RIC) como medida de dispersin. Adems, permite apreciar la forma de
la distribucin de los datos (simtrica o asimtrica).
Dato atpico
Es un dato inusualmente grande o pequeo con respecto a los otros datos. En un diagrama de cajas,
se considera atpico a cualquier dato que cumpla una de las dos siguientes condiciones:
El dato es ms de 1,5*(RIC) unidades menor que el primer cuartil
El dato es ms de 1,5*(RIC) unidades mayor que el tercer cuartil

Notas

Estadstica EEGGCC

44

Pasos para trazar un diagrama de cajas


Determinar los cuartiles Q1, Q2, y Q3
Calcular el rango intercuartil RI = Q3 - Q1
Calcular los lmites mximo y mnimo para las longitudes de los bigotes:
o

Lmite inferior = Linf = Q1 1,5*RI

Lmite inferior = Lsup = Q3 + 1,5*RI

Detectar los datos atpicos que son aquellos que no pertenecen al intervalo [Linf ; Lsup]. A los datos
que s pertenecen al intervalo anterior se les llama datos tpicos.
Sobre un eje horizontal, se traza un rectngulo con los extremos en el primer cuartil (Q1) y tercer
cuartil (Q3).
En la caja rectangular se traza un segmento vertical en el lugar de la mediana.
Se traza el bigote izquierdo desde el primer cuartil hasta el mnimo de los datos tpicos y el bigote
derecho desde el tercer cuartil hasta el mximo de los datos tpicos.
Se marcan con un asterisco (*) las localizaciones de los datos atpicos.
La siguiente figura presenta un diagrama de cajas con datos hipotticos.

Diagramas de caja comparativos


Una ventaja de los diagramas de cajas es que se pueden presentar varios juntos, ello permite una
fcil comparacin visual de las caractersticas de varios conjuntos de datos.
Los diagramas de caja permiten comparar las distribuciones de los valores de una variable cuantitativa en los diferentes niveles de otra variable cualitativa. Por ejemplo, en el siguiente grfico se muestra la distribucin de los alumnos de cuatro horarios diferentes de un curso de Estadstica de acuerdo
a su promedio estandarizado de notas (CraEst).

Notas

45

Estadstica EEGGCC
Distribucin de alumnos de acuerdo al CraEst, segn horario de matrcula

Ejemplo 43
Se seleccion una muestra de 45 viviendas y se registr el monto (en nuevos soles), cobrado por la
empresa proveedora, por consumo de luz en el ltimo mes. Elabore un diagrama de caja. A partir de
lo observado en el grfico escriba una descripcin de la distribucin de los datos.
10,7 45,0 59,8 65,7 87,4 97,1 98,1 98,8 99,2 99,5 99,6 99,7 102,4 106,3 107,3
108,2 108,7 109,2 109,3 109,9 111,4 112,1 112,6 112,9 115,0 115,4 116,4 116,5 119,1 119,2
119,6 120,4 120,6 121,5 122,1 122,7 124,0 124,5 124,9 125,1 125,2 127,1 128,1 129,0 200,8

Notas

46

Estadstica EEGGCC

Ejemplo 44
Se desea comparar los resultados de un examen sobre el Reglamento Nacional de Trnsito, aplicado
a los choferes de tres empresas de taxi. Las notas obtenidas por los choferes evaluados se muestran
a continuacin:
Empresa
A
Empresa
B
Empresa
C

11 11 12 12 12 12 12 12 12 13 13 13 14 14 15 15 15 15 15 15 20 20

11 12 12 12 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 17 17 18 18 18 18
0

10 10 11 11 12 12 13 13 13 14 15 15 16 16 16 17 17 17

Construya un diagrama de cajas que permita comparar las distribuciones de notas obtenidas por los
choferes de las tres empresas.

Escriba una descripcin comparativa de las distribuciones de notas obtenidas por los choferes de las
tres empresas.

Notas

47

Estadstica EEGGCC

1.8. Estadstica bivariada para datos categricos


Tablas de contingencia
Tambin llamadas tablas cruzadas o tablas de doble entrada.
Se usan para resumir de manera simultnea los datos correspondientes a dos variables.
Ejemplo 45
Como parte del estudio que se est realizando a fin de resolver un antiguo problema limtrofe entre dos
distritos vecinos A y B, se ha seleccionado una muestra aleatoria de 120 edificios del distrito A y 180 del
distrito B. En la siguiente tabla se muestra la distribucin de la muestra edificios de acuerdo al distrito en
que estn ubicados y al nmero de pisos.
Tabla 1. Distribucin de edificios por distrito de ubicacin y nmero de pisos
De 3 a 5 pisos

De 6 a 10 pisos

Ms de 10 pisos

Total

Distrito A

50

40

30

120

Distrito B

70

20

90

180

Total

120

60

120

300

Tabla 2. Distribucin porcentual de edificios por distrito de ubicacin y nmero de pisos


De 3 a 5 pisos

De 6 a 10 pisos

Ms de 10 pisos

Total

Distrito A

16,67%

13,33%

10%

40%

Distrito B

23,33%

6,67%

30%

60%

Total

40%

20%

40%

100%

Evale la verdad o falsedad de las siguientes afirmaciones respecto a los edificios de la muestra:
i. El 50% de los edificios ubicados en el distrito B tienen ms de 10 pisos ( )

ii. La proporcin de edificios que tienen menos de cinco pisos es 0,4 ( )

iii. El 33,3% de los edificios estn ubicados en el distrito A y tienen entre 6 y 10 pisos ( )

iv. En la muestra hay 230 edificios que estn en el distrito B o tienen menos de 6 pisos ( )

v. El 25% de los edificios de ms de 10 pisos estn en distrito A (

Notas

48

Estadstica EEGGCC

Considerando la situacin planteada en el ejemplo anterior, podra interesar presentar comparativamente las distribuciones de los edificios segn el nmero de pisos en los dos distritos, A y B. Para
ello se construye una tabla que muestre la distribucin porcentual de los edificios segn el nmero
de pisos, para cada distrito.
Tabla3. Distribucin porcentual de edificios por distrito segn nmero de pisos por distrito de ubicacin
De 3 a 5 pisos

De 6 a 10 pisos

Ms de 10 pisos

Total

Distrito A

41,7%

33,3%

25,0%

100%

Distrito B

38,9%

11,1%

50,0%

100%

Notemos que la informacin presentada en la tabla 3 nos permite observar claramente que en la
muestra seleccionada, la distribucin de los edificios segn el nmero de pisos es muy diferente en el
distrito A que en el distrito B. es importante sealar que esta comparacin es posible porque se han
presentado frecuencias porcentuales y no frecuencias absolutas. La comparacin directa de frecuencias absolutas no es adecuada porque el nmero total de edificios del distrito A es diferente al total
de edificios del distrito B.

Grfico de barras agrupadas


Un grfico de barras agrupadas muestra la distribucin de frecuencias para dos variables cualitativas
que han sido observadas en el mismo conjunto de unidades estadsticas. En este tipo de grfico, las
barras que representan las frecuencias observadas en las categoras de una variable se presentan
agrupadas una junto a la otra y en grupos separados para cada categora de la otra variable.
La informacin presentada en la Tabla 3 se muestra en el siguiente grfico de barras agrupadas. En
este grfico se observa claramente que, para la muestra observada, la distribucin de los edificios
segn el nmero de pisos en el distrito A es muy diferente a la del distrito B. Por ejemplo, slo el 25%
de los edificios del distrito A tiene ms de 10 pisos en cambio en el distrito B un 50% de los edificios
tienen ms de 10 pisos. En este caso y para esta muestra, los datos indican que la forma como se
distribuyen los edificios de acuerdo a su nmero de pisos depende del distrito de ubicacin.

Notas

49

Estadstica EEGGCC

Grfico de barras apiladas al 100%


Un grfico de barras apiladas al 100% muestra todas las series apiladas en una sola barra para cada
categora. El alto de las barras es el mismo para todas las categoras ya que cada barra representa al
100% de los datos de una categora.

Ejemplo 46
El director de un instituto de idiomas ha decidido abrir dos filiales que comenzarn a operar el prximo mes. La
siguiente tabla muestra la distribucin por sexo y sueldo mensual de los profesores contratados para las nuevas
filiales del instituto; todos los profesores trabajarn a tiempo completo. Use un grfico adecuado y evale si los
datos sugieren que, para los nuevos profesores, el sueldo depende de su sexo. Dira usted que, en este grupo,
los hombres tienen mejores sueldos que las mujeres? Justifique su respuesta.
Sueldo mensual (en nuevos soles)
Sexo

Notas

Menos de 2000

De 2000 a 3000

Ms de 3000

Femenino

12

Masculino

10

15

50

Estadstica EEGGCC

Ejemplo 47
Se seleccion una muestra de clientes de un banco que tienen prstamos con el banco hace al menos
dos aos. En esta muestra se encontr que:
- 600 de los clientes tienen sueldos de S/.3000 o menos y de ellos 400 son buenos pagadores.
- 2700 de los clientes tienen sueldos mayores a S/.3000
- 1100 clientes son malos pagadores.
Use la informacin anterior para completar la tabla siguiente:
Sueldo de S/.3000 o
menos

Sueldo mayor a
S/.3000

Total

Buen pagador
Mal pagador
Total
Tomando como referencia la informacin de la tabla, un ejecutivo del banco afirma que los que
ganan ms son mejores pagadores, est usted de acuerdo con esta afirmacin? Justifique su respuesta.

Notas

Estadstica EEGGCC

51

Ejercicios
1.

El jefe de produccin de una fbrica de electrodomsticos define la poblacin de estudio como


el conjunto E formado por todas las licuadoras fabricadas en la planta del Callao durante el ao
2013.
a) Cul es la unidad estadstica de la poblacin E?
b) El nmero de licuadoras que no pasaron el control de calidad por defectos, es una variable
en la poblacin E? Justifique su respuesta.

2.

Segn una encuesta reciente realizada por Ipsos Per, el 54% de los encuestados opin que el
alcalde de Lima, Luis Castaeda, debe continuar con la reforma del transporte. Indique si este
valor es un parmetro o un estadstico. (Fuente: http://www.rpp.com.pe/2015-02-16-ipsos-limenos-pasan-1-hora-y45-minutos-por-dia-en-transporte-publico-noticia_769867.html).

3.

En los ltimos 150 aos, los holandeses han pasado a ser los habitantes ms altos del mundo, y
segn los expertos siguen creciendo. El estudio de la altura de los holandeses a lo largo de los
siglos ofrece un panorama sobre la salud y riqueza de la nacin. No siempre fue as, en 1848,
uno de cada cuatro varones era rechazado del servicio militar porque no alcanzaba la estatura
de 1,57 metros. Actualmente, el percentil 1 de la estatura de los varones holandeses es 1,57
metros y el percentil 70 es 1,88 metros. Indique el significado de estos percentiles. (Fuente:
http://www.ap.org/ Associated Press.)

4.

Un auditor, luego de revisar las declaraciones juradas de impuesto a la renta de 50 personas


naturales, hace un informe de los montos omitidos. El informe lo presenta con una distribucin
de frecuencias de 6 intervalos de la misma longitud. Los montos omitidos varan de 0 soles a
3000 soles, y las frecuencias acumuladas del primero al sexto intervalo son respectivamente: 5,
15, 35, 43, 48, 50.
a) Encuentre e interprete la mediana y el coeficiente de variacin.
b) Halle el porcentaje de declaraciones en las que el monto omitido supera la media.

5.

Hay 10 personas en un ascensor, 4 mujeres y 6 hombres. El peso medio de las mujeres es de 60


kilos con una desviacin estndar de 8 kilos y el peso medio de los hombres es de 80 kilos con
una varianza de 25 kilos2.
a) Cul es el peso medio de las 10 personas en el ascensor?
b) Si el peso de cada una de las mujeres aumentara al doble cules seran el nuevo peso medio y la nueva varianza de los pesos de las mujeres?
c) Suponga que cada uno de los hombres se pesa en una balanza que no est bien calibrada y
que aumenta 2,5 kilos en cada medicin. Cul sera el coeficiente de variacin que se obtendra con esas mediciones de los pesos de los hombres?

6.

A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes


estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un
da de la semana pasada.

Tiempo (minutos) [0 - 6] ]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]
Nmero de radios
1
3
17
2
1
10
0
0
2
14

a) Calcule la media y la mediana de los datos del tiempo dedicado a los avisos comerciales en
las radios evaluadas.
b) Grafique el histograma y el polgono de frecuencias relativas de la distribucin. Comente la
simetra de la distribucin de tiempos.
Notas

52

Estadstica EEGGCC

7.

Los salarios que ofrece una empresa a los practicantes varan entre $180 y $300. Si los salarios
se agrupan en cuatro intervalos de clase de longitudes iguales de manera que el 40% de los
practicantes tienen salarios menores o iguales que $225, el 80% tienen salarios menores o iguales que $255 y el 15% tiene salarios mayores que $262,50.
a) Hallar el porcentaje de practicantes en cada intervalo.
b) Si el ingreso mnimo se fija en $265 y la empresa aumenta una misma cantidad a todos los
practicantes de modo que el 25% supere el ingreso mnimo, cunto sera el aumento?

8.

En los reportes estadsticos de una empresa, correspondientes al perodo de los ltimos 100
das, se lee la siguiente informacin sobre el nmero de facturas diarias emitidas por la empresa
en dicho perodo.
Nmero de facturas
[30 ; 60]
]60 ; 90]
]90 ; 120]
]120 ; 150]
]150 ; 180]

Frecuencia relativa
0,25
0,40
0,20
0,10
0,05

Graficar el histograma y el polgono de la distribucin. Escriba una descripcin de la distribucin


de los datos que incluya informacin sobre la tendencia central, dispersin y simetra.
9.

En agosto del 2005, la empresa LibroOnLine dict un curso sobre redes en computadoras mediante dos sistemas: presencial y a distancia. Con el objetivo de comparar las notas promedio, la
variabilidad de los datos y la forma de la distribucin de las notas, se tom un examen final y se
registr los resultados en la siguiente distribucin de frecuencias.
Notas del examen final
[ ; 3,5] ] ; ]
Frecuencia relativa (Sistema presencial)
0,14
0,10
Frecuencia relativa (Sistema a distancia)
0,19
0,26

] ; ]
0,12
0,24

];]
0,23
0,15

]9,5; ]
0,27
0,13

] ; ]
a
b

Realizar un grfico que permita llegar al objetivo deseado y escribir dos conclusiones a partir del
grfico.
10. El porcentaje de germinacin es uno de los principales factores para decidir la calidad de las
semillas. Un fabricante afirma que el porcentaje de germinacin de sus semillas de maz es del
85%. Para verificar tal afirmacin, una cooperativa de agricultores seleccion 120 muestras de
100 semillas cada una y anot el porcentaje de germinacin en cada muestra. Los valores observados se organizaron en la siguiente tabla.
Germinacin
(%)
[ 70 ; ]

Frecuencia absoluta

Frecuencia relativa

Frecuencia absoluta
acumulada
10

Frecuencia relativa
acumulada

0,20
0,70
22
] ; 95 ]
2

a) Complete la tabla y construya el histograma y el polgono de frecuencias relativas correspondientes.


b) Calcule la media, la mediana, y el coeficiente de variacin de los porcentajes observados.
c) Comente la afirmacin del fabricante.
Notas

53

Estadstica EEGGCC

11. Los siguientes datos representan la cantidad de bebida gaseosa en una muestra de 25 botellas
de dos litros.
1,928
1,928
1,938
1,941
1,941

1,946
1,957
1,969
1,971
1,973

1,984
1,996
1,997
1,999
2,003

2,013
2,014
2,014
2,015
2,034

2,045
2,066
2,075
2,086
2,088

a) Las especificaciones del proceso de llenado de las botellas establecen que el contenido
medio debe estar entre 1,950 y 2,050 litros y que la desviacin estndar del contenido debe ser menor a 0,050 litros. A partir de los datos de la muestra, dira usted que el proceso
cumple las especificaciones?
b) Determine e interprete el rango y los cuartiles para la muestra de contenidos de gaseosa.
c) Construya un diagrama de cajas y comente la simetra de la distribucin de los contenidos
de gaseosa observados.
12. Se aplic un cuestionario a 16 trabajadores de una gran empresa y se obtuvieron los datos presentados en la siguiente tabla:
Cdigo del
Ao de naciGnero
trabajador
miento
9534
F
1966
2041
F
1960
1187
F
1952
1842
F
1980
1813
F
1960
2519
F
1979
3338
F
1985
3012
F
1973
1056
M
1980
2087
M
1960
1004
M
1967
6589
M
1975
1723
M
1962
2013
M
1968
1096
M
1981
2873
M
1979
(Gnero: F = Femenino, M = Masculino)

a)
b)
c)
d)

Nivel educativo
(aos)
10
12
16
12
12
12
16
12
8
19
12
12
20
16
12
16

Categora
laboral
Empleado
Empleado
Ejecutivo
Empleado
Empleado
Empleado
Ejecutivo
Empleado
Empleado
Directivo
Empleado
Empleado
Directivo
Directivo
Empleado
Ejecutivo

Salario anual
actual en S/.
27,900
26,250
41,500
24,000
27,450
23,100
37,050
24,450
28,350
95,000
30,900
26,700
69,250
48,200
27,900
40,350

Salario anual
inicial en S/.
12,750
11,550
18,750
12,750
10,200
11,250
18,000
12,450
12,000
56,980
15,000
14,500
42,800
21,000
16,500
19,500

Clasifique cada una de las variables e indique la escala de medicin adecuada para cada caso.
Presente grficamente los datos correspondientes a las variables gnero y categora laboral.
Calcule la moda, la media y la mediana de la variable nivel educativo y comente su simetra.
Organice los datos correspondientes a los salarios anuales actuales en una distribucin de
frecuencias de cinco intervalos y grafique el histograma de frecuencias porcentuales. Comente.
e) Haga un grfico que permita comparar el rango y los cuartiles de los salarios iniciales de los
hombres y mujeres. Comente el grfico.

Notas

54

Estadstica EEGGCC

13. Se tom una muestra aleatoria de 80 viajes de la empresa de transporte interprovincial A y una
muestra aleatoria de 20 viajes de la empresa B. Las tablas siguientes muestran los datos del
nmero de pasajeros por viaje de esas muestras.
Nmero de pasajeros por viaje
[10 ; 14]
]14 ; 18]
]18 ; 22]
]22 ; 26]
]26 ; 30]

Empresa A
20
30
15
10
5

Nmero de pasajeros por viaje en la empresa B


12 13 14 17 17 18 19 23 23 25
26 26 27 27 30 31 32 32 34 34

a) Grafique el polgono y la ojiva de las frecuencias relativas de la distribucin del nmero de


pasajeros por viaje de la empresa A.
b) Cul empresa presenta mayor variabilidad en el nmero de pasajeros por viaje?
14. La ojiva de los ingresos mensuales, en miles de nuevos soles, de los trabajadores de una empresa se muestran en el siguiente grfico.
Ojiva de ingresos mensuales
1
0.9
0.8
0.7

Fi

0.6
0.5
0.4
0.3
0.2
0.1
0
0

1000

2000

3000

4000

5000

6000

7000

8000

Ingresos

a) Reconstruya la tabla de distribucin de frecuencias incluyendo frecuencias simples y acumuladas (absolutas y relativas).
b) Grafique el polgono de frecuencias relativas de los ingresos mensuales.
c) Describa la distribucin de los datos (use medidas de tendencia central, dispersin y simetra adecuadas)
15. En la siguiente tabla se muestra la distribucin de los asistentes a una charla informativa sobre
un nuevo programa de especializacin ofrecido por cierta escuela de posgrado, segn su profesin.
Profesin
Nmero de
asistentes

Ingeniera Administracin Contabilidad


24

10

Economa

Derecho

15

a) Construya un grfico que permita observar la composicin porcentual de los asistentes, segn sus profesiones, a la charla informativa. El grfico debe tener un ttulo adecuado.
b) Calcule una medida de tendencia central para la variable cualitativa.
Notas

55

Estadstica EEGGCC

16. Una compaa requiere los servicios de un tcnico especializado. De los expedientes presentados, se han seleccionado 2 candidatos: A y B, los cuales renen los requisitos mnimos requeridos. Para decidir cul de los 2 se va a contratar, los miembros del jurado deciden tomarles 7
pruebas. Todas las pruebas se calificaron utilizando una escala de 0 a 80, donde 80 es el mximo
puntaje posible. Los resultados se dan a continuacin:
1
57
80

Puntaje obtenido por A


Puntaje obtenido por B

2
55
40

3
54
62

Prueba
4
52
72

5
62
46

6
55
80

7
59
40

a) Calcule e interprete la media y mediana de los puntajes de los dos candidatos.


b) Calcule e interprete las desviaciones estndar y los coeficientes de variacin.
c) Si usted fuese el gerente de Recursos Humanos, a cul de los candidatos contratara?
Fundamente su respuesta.
17. El gerente de una agencia bancaria recibe la siguiente informacin respecto a las 500 nuevas
cuentas de ahorros abiertas en la agencia en el ltimo trimestre.
- Solamente se abrieron cuentas de ahorros de dos tipos: Costo cero y Clsica.
- El 60% de los titulares de las nuevas cuentas de ahorros son hombres.
- 120 mujeres son titulares de cuentas del tipo Costo cero.
- 180 de las nuevas cuentas de ahorro son del tipo Clsica
a) Muestre en una tabla de contingencia la distribucin de las cuentas de ahorros abiertas en la
agencia en el ltimo trimestre, segn el sexo del titular y el tipo de cuenta de ahorro elegida.
b) El gerente de la agencia afirma que el tipo de cuenta de ahorro elegido no depende del sexo
del titular de la cuenta. Evale si los datos del ltimo trimestre respaldan esta afirmacin.
Justifique su respuesta.
18. A fin de evaluar qu tan efectivo es cierto aditivo para reducir el tiempo de secado de un tipo de
pintura de autos, se aplic pintura con el aditivo y sin el aditivo a 38 muestras metlicas. Los
tiempos de secado, en minutos, para estas muestras se registraron en la tabla siguiente:
Sin
aditivo

12

12.4 12.6 13.8

14

14.5 15.3 15.3 15.6 15.7 15.7

Con
aditivo

9.8

9.9

9.9

11

11.5 11.6 12.2 12.2 12.9 13.5 13.6 13.9

10

10.2

16

17.3 17.6 18.8 19.7 20.6


14

14.6 15.2 15.2 19.5

a) Use un grfico adecuado para comparar las distribuciones de los tiempos de secado de la pintura con y sin aditivo.
b) Escriba una breve descripcin comparativa de las distribuciones de los tiempos de secado con
y sin aditivos. Dira usted que el aditivo parece haber resultado efectivo? Justifique su respuesta.
c) Un tcnico afirma que los resultados de la evaluacin indican que los tiempos de secado han
sido ms homogneos cuando se us el aditivo, est usted de acuerdo o en desacuerdo con
esta afirmacin? Justifique su respuesta.

Notas

31

Estadstica EEGGCC

56

1.9. Estadstica descriptiva bidimensional: Regresin lineal simple


Correlacin
La correlacin entre las variables X e Y mide el grado en el que estas dos variables tienden a variar de manera conjunta, se usa para medir el grado de asociacin lineal entre las variables.

Regresin
La regresin encuentra una relacin funcional entre las variables cuantitativas X e Y.

Diagrama de dispersin
Dado un conjunto de n observaciones de las variables cuantitativas X e Y: (x1, y1), (x2, y2),, (xn, yn), el
primer paso para evaluar la posible asociacin entre estas variables es construir una grfica de los
datos en un plano bidimensional. Esta grfica se denomina diagrama de dispersin o scatter plot.

Fuente: Notas de clase de EST103 del profesor Arturo Caldern

Notas

57

Estadstica EEGGCC

Covarianza
Dada una muestra de n pares de observaciones de las variables cuantitativas X e Y, (x1 , y1), (x2 ,
y2),, (xn , yn), la covarianza muestral se define como:
n

(x i x )(y i y )
cov( X ,Y ) = s xy =

i =1

n 1

nxy

n 1

x y

i i

i =1

Coeficiente de correlacin lineal de Pearson


Dados n pares de datos (x1 , y1), (x2 , y2),, (xn , yn), el coeficiente de correlacin lineal de Pearson se
determina dividiendo la covarianza entre X e Y entre el producto de las desviaciones estndar de X e
Y

Correlacin ( X , Y ) = r =

s xy
sx s y

Este coeficiente de correlacin mide el grado de asociacin lineal que existe entre las variables X e Y.

El coeficiente de correlacin r es mayor o igual a -1 y menor o igual a 1.


Si r = 0 entonces indica que no existe una asociacin lineal entre las variables (pero puede existir
otro tipo de asociacin entre ellas).
Si r se acerca a 1 o a -1 indica que existe una asociacin lineal fuerte entre las variables, directa si
r = 1 e inversa si r = -1.
|r| = 1 solamente cuando todos los datos observados pertenecen a una recta, es decir, cuando la
asociacin lineal es perfecta.

Notas

58

Estadstica EEGGCC

Observaciones
Una correlacin alta no indica que una variable dependa de la otra o que sea causa de las variaciones en la otra. La asociacin entre ellas no necesariamente es causal.
Una correlacin alta indica que el modelo lineal podra ser adecuado para hacer predicciones en
el intervalo de variacin de los datos; fuera de l, el tipo de relacin entre las variables puede
cambiar o no existir.
Podemos obtener valores de correlacin muy altos si usamos una muestra de dos o tres pares de
datos pero en ese caso es claro que la conclusin acerca de la asociacin entre las variables puede no ser vlida.
Diversos grupos de datos pueden tener el mismo coeficiente de correlacin (como se observa en
el grfico siguiente); sin embargo, el tipo de relacin entre las variables es distinta, lo que muestra la importancia de realizar el diagrama de dispersin. El coeficiente de correlacin slo se debera calcular interpretar para nubes de puntos de tipo franja, ya sea creciente o decreciente.
Ejemplo 48
En la figura se muestran cuatro conjuntos de datos
bivariados, en todos los casos se cumple que:
Nmero de datos n = 11
Media de los xi = 9,0
Media de los yi =7,5
Corr(x, y) = rxy =0,82

Fuente: http://www.itl.nist.gov/div898/handbook/eda/section1/eda16.htm

Regresin lineal simple


El anlisis de regresin lineal simple estudia la relacin lineal entre dos variables numricas y da como resultado una ecuacin matemtica y = a + bx que describe dicha relacin.
La regresin lineal simple encuentra una recta L: y = a + bx que modela los datos y que permite estimar un valor de la variable Y dado un valor de la variable X.

Mtodo de mnimos cuadrados


Dados n datos (x1 , y1), (x2 , y2),, (xn , yn), donde: xi (i = 1, 2,, n) son los valores observados de la
variable independiente X e yi (i = 1, 2,, n) son los valores observados de la variable dependiente Y.
Si la recta L: y = a + bx es la recta de regresin, entonces, denotamos yi = a + bx i (i = 1, 2,, n) al
valor estimado de Y cuando X = xi.
En general, el valor observado yi es diferente al valor estimado con la recta de regresin, es decir, se
comete un error de estimacin. El i-simo error de estimacin es: ei = y i yi (i = 1, 2,, n).
Notas

59

Estadstica EEGGCC

La suma de los cuadrados de los errores (SCE) es:


SCE =

ei 2 =

i =1

i =1

i =1

2
(yi yi ) = (y i (a + bxi ))2

La recta de regresin de mnimos cuadrados de Y sobre X, es L: y = a + bx; sus coeficientes son los
valores a y b que minimizan la suma de los cuadrados de los errores.
Los valores de b y a que minimizan SCE son:

b=r

sy
sx

s xy
sx

a = y bx

Interpretacin de los coeficientes de regresin


a es igual al valor estimado de la variable dependiente Y cuando la variable independiente X es
igual a cero.
b es la variacin estimada del valor de la variable dependiente Y cuando la variable independiente X se incrementa en una unidad.

Propiedad de la recta de regresin


Si la recta L: y = a + bx es la recta de regresin de mnimos cuadrados de Y sobre X.
El punto ( x, y ) pertenece a la recta de regresin.
La media de los errores es igual a cero, es decir, e = 0

y = y , la media de los valores estimados con la recta es igual a la media de los valores observados.

Notas

60

Estadstica EEGGCC

Prediccin
Para predecir el valor de la variable dependiente para un valor dado de la variable independiente,
basta con reemplazar el valor dado en la frmula de la recta de mnimos cuadrados.

Coeficiente de determinacin
Se puede demostrar que:

Var (Y ) = Var (Y ) + Var (e)


Donde:
n

( y y)

i =1

Var(Y) es la varianza de los valores observados de la variable dependiente: s y 2 =

n 1

( y y)

2
Var( Y ) es la varianza de los valores estimados con la recta de regresin: s y =

2
Var (e) es la varianza de los errores de estimacin: se =

i =1

i =1

n 1

( y y )

(ei e ) 2

n 1

i =1

n 1

El coeficiente de determinacin es:

R=

Var (Y )
Var (Y )

R mide qu proporcin de la varianza de los valores observados de Y representa la varianza de los


valores estimados por la recta de regresin. Es decir, la proporcin de la varianza total, Var(Y),
que es explicada por la recta de regresin de mnimos cuadrados.
Se cumple que R = r 2 , es decir, el coeficiente de determinacin es el cuadrado del coeficiente de
correlacin lineal de Pearson.
Se cumple que 0 R 1 .
Mientras ms prximo a 1 sea el coeficiente de determinacin, mejor ser el ajuste de los datos
al modelo lineal.
Ejemplo 49
Durante ocho semanas se observ la relacin, entre el nmero de comerciales contratados y el valor
de las ventas (en miles de soles) de un artculo.
X: Comerciales

58

51

85

35

62

70

98

104

Y: Ventas

208

171

253

126

206

220

275

281

a. Grafique el diagrama de dispersin, evale si las variables en estudio parecen estar asociadas.
b. Calcule e interprete el coeficiente de correlacin lineal de Pearson.
c. Determine la ecuacin de la recta de regresin de las ventas sobre el nmero de comerciales.
d. Si en una semana se contratan 75 comerciales, estimar las ventas en esa semana.
e. Calcule e interprete el coeficiente de determinacin.
Notas

Estadstica EEGGCC

61

Solucin
a. El diagrama de dispersin muestra un comportamiento de franja creciente, esto nos sugiere asociacin lineal directa entre las variables.

b. El coeficiente de correlacin es r = 0 ,981 , este valor indica una asociacin lineal fuerte y directa
entre el nmero de comerciales contratados por semana y el valor de las ventas semanales.
c. Calculemos los coeficientes de la recta de regresin.
x = 70,375 y = 217,5 sx = 22,242 sy = 49,196 sxy = 1074,187
De donde b = 2,1712, a = 64 ,699
Por lo tanto, la recta de regresin es L : y = 64 ,699 + 2 ,171 x

d. Si x es igual a 75, entonces, y = a + b (75) = 227,5 ; entonces, en una semana en que se contratan
75 comerciales se estima que el valor de las ventas sera 227 500 soles.
e. El coeficiente de determinacin es R = r 2 = 0,96 = 96 % . La varianza explicada por la recta de
regresin es el 96% de la varianza de la variable valor de las ventas semanales. El ajuste de los
datos al modelo lineal es muy bueno.

Notas

62

Estadstica EEGGCC

Ejemplo 50
En una empresa embotelladora de gaseosas se necesita desarrollar un modelo para cobrar por los
costos de entrega de productos a los clientes. Con ese fin se realiza un estudio y uno de los aspectos
que interesa evaluar es la relacin entre el nmero de cajas de refrescos solicitadas por un cliente y
el tiempo necesario para la descarga en el punto de entrega. Se seleccion una muestra de pedidos y
la informacin registrada se presenta en la tabla siguiente.

Pedido

Nmero de cajas de refresco solicitadas

Tiempo de descarga (en minutos)

172

43,7

302

83,4

72

42,1

267

50,4

287

65,6

53

26,0

205

75,3

94

37,2

243

60,6

10

124

28,4

11

116

3,85

12

143

57,4

a. Grafique el diagrama de dispersin y evale si parece existir algn tipo de relacin entre las variables observadas. Detecta usted algn dato que parezca atpico?

Notas

Estadstica EEGGCC

63

b. Calcule e interprete el coeficiente de correlacin lineal de Pearson, es coherente este valor


con lo observado en el diagrama de dispersin?

c. El encargado del registro de datos le informa que por error se ha considerado que el tiempo de
descarga del pedido 11 fue 3,85 minutos cuando en realidad fue 38,5 minutos. Corrija el error
y calcule nuevamente el coeficiente de correlacin de Pearson, compare este valor con el obtenido en la parte (b).

d. Determine la ecuacin de la recta de regresin de mnimos cuadrados para estimar el tiempo


de descarga de un nmero dado de cajas de refresco. Interprete los coeficientes de la recta

e. La empresa ha recibido un pedido de 250 cajas de refresco pero el cliente requiere que la descarga en el punto de entrega demore como mximo una hora, cree usted que se lograr
cumplir el requerimiento de este cliente? Justifique su respuesta.

Ejemplo 51
Se llev a cabo un estudio para investigar la relacin entre Y: el precio de reventa (en cientos de dlares) y X: la antigedad (en aos) de automviles compactos de lujo. Se determin que la ecuacin
de la recta de regresin de mnimos cuadrados fue y = 192,7 + bx. Tambin se determin que por
cada mes adicional de antigedad del automvil, la estimacin del precio de reventa baja en 153,50
dlares. Con esta informacin estime el precio de reventa de un automvil compacto de lujo con
cuatro aos de antigedad.

Notas

64

Estadstica EEGGCC

Ejercicios
19. A continuacin, se muestran los datos recogidos del valor en dlares de dos acciones, una de un
mercado externo cuya cotizacin termina a las 9 am. hora peruana, y otra de la Bolsa de Valores
de Lima cuya cotizacin concluye a las 3 pm.

Da

Accin del mercado externo

Accin de la BVL

2-Feb-2009

14,29

16,24

3-Feb-2009

14,32

16,28

4-Feb-2009

14,33

16,33

5-Feb-2009

14,28

16,32

6-Feb-2009

14,36

16,47

9-Feb-2009

14,43

16,52

10-Feb-2009

14,35

16,38

11-Feb-2009

14,41

16,45

12-Feb-2009

14,43

16,47

13-Feb-2009

14,36

16,33

a) Encuentre la recta de regresin que mejor se ajuste a los datos y que permita predecir el
precio de la accin que cotiza en la BVL cuando se conoce el precio de la accin del mercado externo.
b) Estime el precio de la accin que cotiza en la BVL cuando el precio de la accin del mercado
externo es de 14,25 soles.
c) Calcule el coeficiente de determinacin y comente sus resultados.
20. Los datos de la siguiente tabla muestran el rea construida (en metros cuadrados) y el precio de
venta (en miles de dlares) de 10 departamentos nuevos ubicados en el mismo distrito.

Notas

Departamento

rea (metros cuadrados)

Precio (miles de US$)

126

78,5

180

175,7

162

139,5

144

129,8

166

95,6

163

110,3

207

260,5

149

105,2

134

88,6

10

174

165,7

65

Estadstica EEGGCC

a) Calcule e interprete el coeficiente de correlacin entre el rea del departamento y el precio


de venta.
b) Determine la ecuacin de la recta de regresin de mnimos cuadrados e interpretar sus
coeficientes.
c) Use la recta de regresin hallada en (b) para estimar el precio de un departamento de 150
metros cuadrados.
d) Calcule e interprete el coeficiente de determinacin.

21. En un estudio para determinar la relacin entre la edad y la presin sangunea en mujeres se
tom una muestra aleatoria de 9 mujeres dando los siguientes resultados:

Edad (aos)

56

41

70

37

63

46

57

50

39

146

125

153

117

151

124

151

142

118

Presin sangunea
(mm Hg)

a) Grafique el diagrama de dispersin y evale la posible asociacin entre las variables edad y
presin sangunea.
b) Calcule e interprete el coeficiente de correlacin lineal.
c) Determine la ecuacin de la recta de regresin lineal y estime la presin sangunea de una
mujer de 65 aos.

22. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para
absorber hierro y plomo. A cada participante del estudio se le da una dosis oral idntica de hierro y plomo. Despus de 12 das se mide la cantidad de cada componente retenida en el sistema
corporal y, a partir de sta, se determina el porcentaje absorbido por el cuerpo. Se obtienen los
siguientes resultados:

Notas

Sujeto

10

Porcentaje de hierro

17

22

35

43

80

85

91

92

96

99

Porcentaje de plomo

17

18

25

58

59

62

65

70

72

a)

Grafique el diagrama de dispersin. Parece haber asociacin entre las variables estudiadas?

b)

Prediga el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe
el 20% del plomo ingerido. Le parece adecuado un modelo de regresin lineal para hacer esta prediccin?

c)

Calcule e interprete el coeficiente de determinacin. Considerado el valor calculado, evale nuevamente su respuesta a la pregunta de la parte b.

Vous aimerez peut-être aussi