Estadistica Aplicada A La Gestiã"n Empresarial Completo (Iszabel Garrcia)

ESTADISTICA APLICADA A LA GESTION EMPRESARIAL
UNIDAD I
Recolección, organización y presentación de información
Estadística
DEFINICIÓN: Es la ciencia que trata de la recolección, organización, análisis e

interpretación de datos con el fin de describirlos o de realizar generalizaciones, válidas
para la toma de decisiones de manera eficiente y eficaz.
ORGANIZAR DATOS: ANALIZAR LA INFORMACIÓN

RECOLECTAR DATOS
Tablas estadísticas - Gráficas
INTERPRETAR RESULTADOS PRESENTAR INFORMACIÓN TOMAR DECISIONES

DIVISIÓN DE LA ESTADÍSTICA
Estadística Descriptiva
• Procedimientos empleados que permiten resumir,

describir los datos y presentarlos en forma tabular y/o
gráfica, gráficas para su análisis e interpretación de los
datos.
Estadística Inferencial
• Métodos empleados para la generalización o la inferencia
sobre una población a partir de la muestra aleatoria y
obtener conclusiones válidas sobre fenómenos o líneas
de investigación en estudio.
ESTADÍSTICA DIVIDIDA EN DOS GRANDES GRUPOS
ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

1.- Recolecta datos. 1.- Estimación
(Mediante encuestas). Estimación Puntual
2.- Presentación de datos.
Estimación Intervalo
Mediante: Tablas y gráficas.
3.- Resume datos. 2.- Prueba de Hipótesis
Mediante indicadores: media, Contrasta parámetros poblacionales en base a
mediana, moda, desviación resultados de una muestra representativa.
estándar, proporción, etc.
Interpretándolos en forma
conveniente.
PROCESO ESTADÍSTICO
Estadística
Descriptiva
Generalizamos hacia
la población en
estudio
Muestreo Probabilístico
1.- Muestreo Simple Aleatorio. Resultados
2.- Muestreo Sistemático. presentan una
3.- Muestreo Estratificado. Estadística confiabilidad
4.- Muestreo por Conglomerado. Descriptiva (1-α) y margen
de error α.
Muestra representativa
(selección aleatoria)
DEFINICIONES Y CONCEPTOS DE ESTADÍSTICA
POBLACIÓN: Es la TOTALIDAD de personas, elementos,

objetos, fenómenos, experiencias, etc. que tienen al
menos una característica de interés susceptible
de ser estudiada, medida o cuantificada.
LA MUESTRA: Es una parte o subconjunto de la
población de interés.
Se puede clasificar:
Muestra probabilística.- De acuerdo al listado de
todos los elementos de la población , cada elemento
tiene una posibilidad conocida de integrar la muestra.
Muestra no- probabilística.- Cuando los elementos de
la población se escoge en forma arbitraria o a juicio del
investigador.
UNIDAD DE ANÁLISIS: Es el individuo, elemento que
conforman la población de interés. Es la unidad
informante que contiene una o más características
observable.
Tipos de Muestreo
• Muestreo Aleatorio Simple (M.A.S)

• Muestreo Aleatorio Estratificado
Muestreo
• Muestreo por Conglomerados
Probabilístico
• Muestreo Sistemático
• Muestreo por Etapas
• Muestreo por Conveniencia

Muestreo No • Muestreo por Juicio de Expertos
• Muestreo por Cuotas
Probabilístico • Muestreo de Bola de Nieve
• Muestreo de Rutas Aleatorias
Tipos de Muestreo
La muestra obtenida mediante el muestreo aleatorio presenta dos propiedades:

• Representativa: Cada unidad tiene las mismas probabilidad de ser seleccionada.
• Independencia: La selección de una unidad no influye en la selección de otras
unidades.
MUESTREO ALEATORIO SIMPLE
Procedimiento
1. Enumere sucesivamente las unidades del marco muestral.
2. Seleccione tantos elementos del marco muestral como sea el tamaño requerido de
la muestra.
En este procedimiento, se selecciona una muestra en forma aleatoria y sin reemplazo a n
unidades de muestreo de una población que contiene un total de N unidades. Se
garantiza que cada una de las muestras posibles tiene la misma probabilidad de ser
elegida.
MUESTREO SISTEMÁTICO
En el muestreo sistemático se elige un elemento del marco muestral cada cierto intervalo.
Este muestreo supone que se cuenta con una enumeración completa de los elementos de
la población.
Procedimiento
1. Calcule el valor de k=Intervalo de selección, donde k = N/n . El valor de k se redondea
al valor del entero menor.
2. Seleccione aleatoriamente un número entero entre 1 y k llamado arranque aleatorio (A).
3. çA partir de este número elegido, seleccione el siguiente que ocupa la posición (A + k) del
listado del marco muestral y así sucesivamente hasta completar los elementos de la muestra.
k = Intervalo de selección
A=Arranque aleatorio
MUESTREO ESTRATIFICADO
Estratificar significa dividir a la población en varias partes de acuerdo con ciertas

características de sus elementos.
El objetivo de estratificar la población es buscar homogeneidad entre los estratos.
Procedimiento
1. Divida a la población en estratos que sean mutuamente excluyentes. Esto es, que
incluyan a todos los elementos de la población y que cada elemento pertenezca
solamente a un estrato.
2. Calcule la cantidad de elementos a seleccionar en cada estrato.
3. Seleccione muestras aleatorias simples para cada uno de los estratos
MUESTREO NO PROBABILISTICO
1.- MUESTREO POR CONVENIENCIA.- Se eligen los elementos que se encuentran a mayor
alcance del investigador.
2.- MUESTREO POR JUICIO DE EXPERTO.- En este caso los elementos con base en criterios o
juicios preestablecidos por el investigador.
3.- MUESTREO POR CUOTAS.- Consiste en dividir la población bajo estudio en sub grupos o cuotas
según ciertas características: Edad, sexo, estado civil.
4.- MUESTREO DE BOLA DE NIEVES.- Este modelo es particularmente útil debido a que pocos
individuos elegidos por el investigador, con ayuda de los primeros se va conociendo a nuevos
miembros de la muestra.
5.- MUESTREO DE RUTAS ALEATORIAS.- La selección de las unidades muestrales la realiza
de forma aleatoria el personal de campo dentro de un recorrido establecido.
Se establece un área de muestreo para cada entrevistador con un punto de partida y se le
proporcionan una serie de criterios de actuación que permiten la evolución del itinerario o
recorrido asignado y la selección de la muestra.
En los demás métodos, las unidades que formarán parte de la muestra se fijan de antemano.
LINK:
http://www.universoformulas.com/estadistica/inferencia/muestreo-discrecional/
http://www.universoformulas.com/estadistica/inferencia/muestreo-bola-nieve/
http://www.universoformulas.com/estadistica/inferencia/muestreo-cuotas/
DEFINICIONES Y CONCEPTOS DE ESTADÍSTICA
PARÁMETRO: Valor numérico de al menos una característica medible u observable

de la población. Se simboliza:
 = La edad promedio de los empleados de las tiendas METRO.
 = La desviación estándar de la edad de los empleados de las tiendas METRO.
ESTADÍGRAFO: Valor numérico de al menos una característica medible de la

muestra. Se simboliza:
x = La edad promedio de una parte representativa de los empleados de la tienda
METRO, ubicado entre Canadá y Arriola.
s = La desviación estándar de la edad de una parte representativa de los empleados
de la tienda METRO, ubicado entre Canadá y Arriola.
ESTIMADOR: Es una función que se obtiene a partir de los datos de una muestra
Se espera que difiera muy poco respecto al parámetro poblacional.
POBLACIÓN - MUESTRA
Parámetros a estimar
Población (N)
Xi = Variable
Parámetro
μ= Media aritmética poblacional
Π = Proporción poblacional
Muestra (n)
σ2 = Varianza poblacional
N= Tamaño de la población Estimador
X = Media aritmética muestral
p = Proporción muestral
S2 = Varianza muestral
n= Tamaño de la muestra
ESTIMACIÓN
TÉCNICAS DE RECOPILACIÓN DE DATOS
ENTREVISTA GRUPO FOCAL

OBSERVACIÓN
1. Cualitativas.
2. Cuantitativas.
ENCUESTA ENCUESTA
TELEFÓNICA ENCUESTA
POR CORREO
TÉCNICAS DE RECOPILACIÓN DE LA INFORMACIÓN
CUALITATIVA:
Sirve para identificar la manera de sentir y de pensar de las personas sobre
determinados temas.
ENTREVISTA A PROFUNDIDAD
GRUPOS FOCALES
TÉCNICAS DE RECOPILACIÓN DE LA INFORMACIÓN
CUANTITATIVAS: Sirven para medir cantidad, intensidad y frecuencia.

Trata de la asociación o relación de variables cuantificables.
Ejemplo:
La encuesta personal.
La encuesta en establecimiento.
La encuesta Telefónica.
La encuesta por Internet.
La encuesta Ómnibus.
La encuesta Panel o de panel.

VARIABLES
 Cuantificar
 Medir
Características:
Observables VARIABLES:
 Género.
 Edad.
 Estatura.
 Peso.
 Ingresos mensual.
medición  Profesión.
observación conteo
 Estado Civil.
 Gasto mensual.
 Tiempo de servicio.
 # de hijos.
 # de tarjetas de crédito.
 Calificación del servicio.
CLASIFICACIÓN DE LA VARIABLE
VARIABLE
CUALITATIVA O DE ATRIBUTO CUANTITATIVA O NUMÉRICA
DISCRETA CONTINUA
(Conteo) (Medición)
Niveles de Medición de los datos
NOMINAL ORDINAL INTERVALOS RAZON

Ningún atributo Orden Orden-Distancia Orden – Distancia- Origen
 longitud, etc. Nominal: No existe algún orden específico; se agrupan por categorías y se cuentan.
Ejemplo: Género, colores, bebidas gaseosas, distrito de residencia, Tipos de tarjetas de crédito, estado civil,
etc.
 Ordinal: Sigue un orden de acuerdo a las características particulares.
Ejemplo: Grado de instrucción, Rendimiento Académico, NSE, Calidad del servicio.
 Intervalo: Son categorías de datos establecidos. El cero no indica ausencia de propiedad. Se considera la
magnitud que hay entre dos medidas cualesquiera y es posible ordenar mediciones.
Ejemplo: Temperatura, tallas de ropa.
 Razón: Es un cociente de dos números que expresa cierta característica. El cero indica ausencia de
propiedad. Por lo general todas las variables cuantitativas son de razón.
Ejemplo: Porcentaje de productos defectuosos en un lote, ingresos, Tasa de natalidad, peso, estatura,
UNIDAD DE ANÁLISIS.- Es el objeto del cual se desea tener información. También llamada unidad
elemental, presenta características que puede ser medidas ú observables.
DATO : Los diferentes valores que toma la unidad de análisis.
 Género: Masculino
 Edad: 54 años
 Estatura: 170 cms
 Peso: 65 Kgrs.
 Ingresos: S/. 4500 c/mes.
 Profesión: Ingeniero de Sistemas
 Estado Civil: Casado.
 Cargo que desempeña: Gerente
 Número de hijos: 2
 Años de servicio en la empresa: 18
BASE DE DATOS:
FORMULAREMOS UNA BASE DE DATOS:

CUESTIONARIO: OBJETIVO: Perfil de un empleado
1.-Género: Masculino ______ Femenino _______
2.-¿Qué edad tiene usted? ______ años.
3.-¿Qué grado de instrucción tiene?
Marque con
Estudios un Aspa
Superior universitaria
superior no-universitaria
4.-En qué tipo de Entidad trabaja? Pública ______ Privada _______
5.-¿Cuál es su Estado Civil?
Marque con
un aspa
Soltero
Casado
Viudo
Divorciado
Conviviente
6.-¿Cuántos años de Servicio tiene:___________

7.-¿Cuál es el Ingreso Mensual que percibe?
Marque con
un aspa
Menos de 1000
1000 - 1500
1500-2000
2000-2500
3000-3500
Más de 3500
EJEMPLOS
EJM 1:
Población: Todos los empleados del BCP.
Muestra: Se considera a 1 500 empleados del BCP.
Estudiar: La experiencia (años) de los empleados del BCP.
EJM 2:
Población: Todos los votantes del Perú.
Muestra: Se selecciona una muestra del 30% de los votantes del Perú.
Estudiar: La preferencia hacia un candidato presidencial.
EJM 3:
Población: Todas las facturas de la empresa Schuler.
Muestra: Se eligen 100 facturas de la empresa.
Estudiar: Exactitud de cada factura.
EJM 4:
Población: Todas las utilidades ( nuevos soles) de las Mypes.
Muestra: Se eligen 50 Mypes.
Estudiar: La utilidad promedio anual (nuevos soles) de las Mypes.
Caso Aplicativo
EJEMPLO:
Estudios realizados sobre el transporte público, con el propósito de disminuir los accidentes de tránsito como el
principal causante de las muertes y lesiones graves del peatón y los conductores de los vehículos que utilizan esta ruta.
Estudios realizados sobre este tema, es la selección de una muestra de 30 choferes de la ruta Lima-Chorrillos (Línea
38M), encontrándose los siguientes resultados:
1. El número promedio de infracciones de tránsito cometidos por los choferes es de 9 veces al año.
2. La ganancia promedio diaria de los choferes es de S/. 120,75.
3. Solo 10 choferes poseen grado de instrucción secundaria.
4. El 50% de los choferes realizan no más de 1 revisión técnica al año y el otro 50% realizan más de 1revisión técnica.
5. 10 choferes manifestaron ser casados.
6. Tienen en promedio 4 papeletas impagas.
7. El 40% trabaja en el turno de la mañana.
8. El 20% de los choferes tiene experiencia de a lo más 3 años.
9. La edad promedio de los choferes es de 38.25 años. Población
10. Solo el 5% de sus vehículos presentan una antigüedad de 2 años. Muestra
Unidad de análisis
Indique:
a.- Población. Variables Tipo de variable Medición
b.- Muestra y su unidad elemental. variable 1
c.- En el estudio realizado. ¿Qué variables, tipo de variable y nivel .
de medición .
d.- ¿Cómo se denominan estos resultados de la muestra?. variable n
TABLA DE DISTRIBUCIÓN DE FRECUENCIA PARA CADA TIPO DE VARIABLE
VARIABLE CUALITATIVA VARIABLE CUANTITATIVA VARIABLE CUANTITATIVA

DISCRETA CONTINUA
Frecuencia Acumulada Frecuencia Acumulada
Variable Frecuencia Frecuencia Variable Frecuencia Frecuencia Variable Frecuencia Frecuencia
Cualitativa Absoluta relativa Discreta Absoluta relativa Absoluta Relativa Cuantitativa Absoluta relativa Absoluta Relativa
Modalidad 1 X1 [ >
Modalidad 2 X2 [ >
Modalidad 3 X3 [ >
. . .
. . .
Modalidad k Xk n 100% [ > n 100%
Total n 100% Total n 100% n 100%
Organización de los datos en tabla de distribución de frecuencias
La información recopilada es necesario presentarlo en forma resumida, elaborando tablas y

gráficas. Se presentan todas las técnicas de organizar y presentar de manera más efectiva
estos “datos masivos”. Elaboramos la tabla de frecuencia de acuerdo a la variable en estudio
que pueden ser tanto cualitativa como cuantitativa.
a) Para variables cualitativas

Género Estado Civil
b) Para variables cuantitativas:

- Discretas
- Continuas
Nº Libros Edad Estatura
comprados
25
CASO: Servicio del cajero automático
Se requiere realizar un análisis de datos y preparar un informe escrito de las
características de los clientes que acceden a los servicios que ofrece el cajero
automático del Banco RENTAMÁS, en los distritos: La Victoria, San Luis, San Borja
y Santa Anita. Para comprender mejor las exigencias de los clientes y el
compromiso de mejorar los servicios brindados las 24 horas del día. El gerente del
banco, encarga al área del servicio al cliente realizar el estudio, considerando una
muestra aleatoria de n= 60 clientes que acceden al cajero automático en un día
determinado.
Consideramos algunas variables del estudio para el desarrollo de la unidad I.
1. Servicio: Servicios que brinda el cajero automático.
Nro. Servicio que brinda el cajero
1 Pago de servicios públicos
2 Pagos varios
3 Retiros en efectivo (MN,MEX)
4 Consulta de Saldos (MN,MEX)
5 Transferencia hacia tus cuentas y cuentas de terceros (MN,MEX)
6 Movimientos de cuenta (MN,MEX)
2. Calidad: Calidad del servicio que brinda el cajero automático.

Calidad del Servicio que brinda el
Nro. cajero
1 Excelente
2 Bueno
3 Regular
4 Malo
ACREDITACIONES RECONOCIMIENTOS
26
3.- N_tarj: Número de tarjetas de crédito.

4.- Saldo: Saldo de cuenta de la tarjeta de débito.
Variable Clasificación de la variable Niveles de Medición

Servicios Cualitativa Nominal
Calidad Cualitativa Ordinal
N_tarj Cuantitativa Discreta Razón
Saldo Cuantitativa continua Razón
27
ELABORACIÓN DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIA
PASOS A SEGUIR : Variable en Recuento de Frecuencia

1.- CLASIFICACIÓN.- De acuerdo a tipo de variable en estudio. estudio Datos Absoluta
2.- Tabulación o recuento de los datos para cada tipo de variable:
2.1. Modalidad o categoría.
2.2. Diferente valor de la variable.
2.3. Diferente intervalo de clase de la variable.
3.- Se asigna las respectivas frecuencias absolutas ( fi ).
4.- Se completa los elementos restantes de la tabla de
frecuencia: frecuencia relativa ( hi ) , frecuencia absoluta TOTAL n
acumulada (Fi ) y frecuencia relativa acumulada (Hi ).
ELEMENTOS DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIA

La distribución de frecuencia de una variable en estudio facilita la exposición ordenada del
conjunto de datos u observaciones.
28
ELEMENTOS DE LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA:
1.- FRECUENCIA ABSOLUTA: ( fi ) Es el número de veces que se repite cada categoría o

modalidad de la variable en estudio. La suma de las frecuencias absolutas es el tamaño de la
muestra.
n = f1 + f2 + f3 + ……. + fk i = 1, 2, ……….., k.
n= Tamaño de la muestra.
2.- FRECUENCIA RELATIVA: ( hi ) Es el cociente de cada frecuencia absoluta y el tamaño de la

muestra. Se expresa en tanto ( % ) por uno o tanto por ciento (%).
100
k
f
hi  i
n
h
i 1
i  1 ó 100% i=1,2,……, k
3.- FRECUENCIAS ACUMULADAS: (Fi , Hi % ) Son las frecuencias que se van acumulando a
través de los diferentes categorías, valores de la variable o diferentes intervalos de la variable
en estudio, tanto para las frecuencias absolutas o relativas.
29
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS – ELEMENTOS
FRECUENCIAS ACUMULADAS
VARIABLE FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA
EN ESTUDIO ABSOLUTA RELATIVA ABSOLUTA RELATIVA
A1 f1 h1=f1/n F1=f1 H1=h1
A2 f2 h2=f2/n F2=F1+f2 H2=H1+h2
. .
. .
. .
AK fk hk =fk /n Fk =Fk-1+fk = n Hk =Hk-1+hk = 100%
TOTAL n 100%
30
Tablas de distribución de frecuencias para variables cualitativas
Una variable cualitativa es aquella que expresa una cualidad, característica o atributo, sus
datos se expresan mediante una palabra. Las tablas de frecuencias se construyen
contabilizando las veces que se repite cada categoría o modalidad.
Variables:
Servicio que brinda el cajero [SERVICIO ]

2 Pagos varios
Transferencia hacia tus cuentas y cuentas de terceros
5 (MN,MEX)
Calidad del Servicio que brinda el cajero

[CALIDAD]
1 Excelente
2 Bueno
3 Regular
4 Malo
31
TABLA DE DISTRIBUCIÓN DE FRECUENCIA DE LOS USUARIOS SEGÚN SERVICIO QUE
UTILIZAN EN EL CAJERO
Servicio que brinda el cajero

Frecuencia Porcentaje
Pago de servicios públicos 5 8,3
Pagos varios 8 13,3

Retiros en efectivo 10 16,7
Consulta de saldos 18 30,0

Transferencias hacia tus cuentas y cuentas de 12 20,0
terceros (MN,MEX)
Movimientos de cuenta (MN,MEX) 7 11,7
TOTAL 60 100,0
INTERPRETACIÓN:
f3=Del total de usuarios que utilizan el cajero automático , 10 realizan retiros en efectivos.
h2%=Del 100% de usuarios que utilizan el cajero automático, el 13.3% de los usuarios realizan
pagos varios.
32
Tablas de distribución de frecuencias para variable cuantitativa discreta
Una variable cuantitativa discreta, es aquella variable que proviene de un proceso

de conteo.
NÚMERO DE NÚMERO DE TARJETAS DE CRÉDITO

NÚMERO DE CELULARES
INVESTIGACIONES
Variable en Tipo de Medición de la

estudio Variable variable
Variable
Cuantitativa
N_tarj Discreta Razón
NÚMERO DE HIJOS
33
Tablas de distribución de frecuencias para variable cuantitativa discreta
Tabla de distribución de frecuencia de los usuarios de cajero automático según el

numero de tarjetas de crédito
Número de tarjetas de crédito
N° de Frecuencia Porcentaje Frecuencia Porcentaje
tarjetas acumulada acumulado
1 9 15,0 9 15,0
2 16 26,7 25 41,7
3 15 25,0 40 66,7
4 13 21,7 53 88,3
5 7 11,7 60 100,0
TOTAL 60 100,0
INTERPRETE:
f3=15; Del total de usuarios que utilizan el cajero automático, 15 tienen 3 tarjetas de crédito.
h2%=26.7%; Del 100% de usuarios que utilizan el cajero automático, el 26.7% tiene 2 tarjetas
de crédito.
F4=53; Del total de usuarios que utilizan el cajero automático, 53 tienen hasta 4 tarjetas de crédito.
H3%=66.7%; Del 100% de usuarios que utilizan el cajero automático, el 66.7% tiene hasta
3 tarjetas de crédito.
34
GRÁFICO DE BARRAS:
Gráfico: Número de tarjetas de crédito de los usuarios del cajero automático
35
Tablas de distribución de frecuencias para variable cuantitativa continua
Una variable cuantitativa continua, es aquella variable que proviene de un

proceso de medición.
EDAD ESTATURA TEMPERATURA
Variable Tipo Medición

Edad Cuantitativa Continua Razón
Estatura Cuantitativa Continua Razón
Temperatura Cuantitativa Continua Intervalo
36
CONSTRUCCIÓN DE LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA
VARIABLE CUANTITATIVA CONTINUA
1. Identificamos:
Valor mínimo = X max
Valor máximo = X min
Calculamos:
R=Valor máximo- Valor mínimo
Como el recorrido es demasiado amplio, entonces se construye intervalos, en
estadística se trabaja con intervalos semi-abiertos [ >, [ [
2. Se determina el número de intervalos con la regla de Sturges:
Para nuestro caso: m = 1+3.322*log(n) =
3. Se determina la amplitud del intervalo: A  Valor máximo  Valor mínimo

m
R
Para nuestro caso la amplitud es: A
m
37
………… construcción de la variable continua
4. .Construimos los “m” intervalos, comenzando por el valor mínimo.

LI LS=LI+A
[ Li – Li+A >
[ Li+A – Li+2A >
[ Li+2A – Li+3A >
……………………
[ Li + (m-1)*A – Li + m*A >
5. Construimos la tabla de distribución de frecuencias, con asignación de la frecuencia
absoluta (fi ) y el resto de elementos (hi, Fi, Hi ).
BASE DE DATOS: LABORATORIO N°1
VARIABLE CONTINUA.- Saldo de cuenta de la tarjeta de débito ( S/.)
FORMA DE CÁCULO:
Paso 1: Identificamos el dato mayor y dato menor de la base de datos.
Dato mayor =2 558
Dato menor =80
38
VARIABLE CONTINUA.- SALDO DE CUENTA
En el SPSS:
El reporte para
realizar el Paso 1
39
CONSTRUCCIÓN:
Paso 1: Determinar el Rango: Paso 4: Construcción de
R=Valor máximo- Valor mínimo intervalos
Dato mayor: 2558
Dato menor: 80 m LI LS=LI+A
Rango= 2558-80 1 80 434
Rango= 2478 2 434 788
Paso 2: Aplicamos la Regla de Sturges: 3 788 1142
m= 1+3.322 * Log (n) 4 1142 1496
m= 1+3.322* Log (60)
5 1496 1850
m = 6.907 intervalos de clase
6 1850 2204
m = 7 intervalos de clase
7 2204 2558
Paso 3: Calculamos la amplitud
Amplitud= R/m
Amplitud= 2478/7
Amplitud= 354
40
TABLA DE DISTRIBUCIÓN DE FRECUENCIA DE LOS
USUARIOS SEGÚN LA VARIABLE SALDO DE CUENTA DE
LAS TARJETAS DE DÉBITO
SALDO DE CUENTA
SALDO DE Frecuencia Porcentaje

CUENTA Frecuencia Porcentaje Acumulada Acumulado
[80-434[ 1 1,7 1 1,7
[434-788[ 3 5,0 4 6,7
[788-1142[ 10 16,7 14 23,3
[1142-1496[ 12 20,0 26 43,3
[1496-1850[ 16 26,7 42 70,0
[1850-2204[ 12 20,0 54 90,0
[2204-2558] 6 10,0 60 100,0
TOTAL 60 100,0
41
INTERPRETE:
f3=10; Del total de usuarios del cajero automático, 10 tienen saldos de cuenta de S/. 788
a menos de S/. 1 142.
h4%=20%; Del 100% de usuarios del cajero automático, el 20% tiene saldos de cuenta
de S/. 1 142 a menos de S/. 1 496.
F6=54; Del total de usuarios del cajero automático,54 tienen saldos de cuenta de S/. 80 a
menos de S/. 2 204.
H5%=70%; Del 100% de usuarios del cajero automático, el 70% tienen saldos de cuenta
de S/. 80 a menos de S/. 1 850.
42
VARIABLES CUANTITATIVAS CONTINUAS:
1.- HISTOGRAMA.
2.- POLÍGONO DE FRECUENCIA.
HISTOGRAMA.-
Es un conjunto de rectángulos consecutivos con altura igual a la frecuencia (absoluta , relativa).
POLÍGONO DE FRECUENCIA.-
Se consideran líneas suavizadas, que tienen inicio en un intervalo anterior y posterior a los
establecidos en la Tabla de distribución de frecuencia. Se considera la marca de clase.
( LI  L S )
Marca de clase  TABLA DE DISTRIBUCIÓN DE FRECUENCIA DE LOS USUARIOS
2 SEGÚN LA VARIABLE SALDO DE CUENTA DE LAS TARJETAS DE DÉBITO
SALDO DE Marcas de Frecuencia Porcentaje
CUENTA clase Acumulada Acumulado
[80-434[ 257 1 1,7 1 1,7
[434-788[ 611 3 5,0 4 6,7
[788-1142[ 965 10 16,7 14 23,3
[1142-1496[ 1319 12 20,0 26 43,3
[1496-1850[ 1673 16 26,7 42 70,0
[1850-2204[ 2027 12 20,0 54 90,0
[2204-2588] 2381 6 10,0 60 100,0
Total 60 100,0
43
TABLAS CRUZADAS
(2 ó más variables)
44
TABLA DE CONTINGENCIA ( DE DOBLE ENTRADA)
Categoría de la variable Y (columna j)

Categoría de
la variable X Total
(fila i) 1 2 …… j ni. fila
1 n11 n12 …. n1j n1.
2 n21 n22 …. n2j n2.
. . . ….. . .
. . . ….. . .
i ni1 ni2 …… nij ni.
Total Total
columna n.j n.1 n.2 ….. n.j n General
 Frecuencias observadas (absolutas).

 Frecuencias relativas con respecto al TOTAL GENERAL.
 Frecuencias relativas con respecto al TOTAL FILA.
 Frecuencias relativas con respecto al TOTAL COLUMNA.
45
TABLA DE CONTINGENCIA CON RESPECTO A LA FRECUENCIA ABSOLUTA:
INTERPRETACIÓN FRECUENCIA ABSOLUTA:

f2,3=10; Del total de usuarios del cajero automático, 10 usuarios calificaron el servicio como bueno
y no accedieron al cajero 2 veces .
f3,4=1; Del total de usuarios del cajero automático, 1 usuario calificó el servicio como regular y no
accedieron al cajero 3 veces.
46
TABLA DE CONTINGENCIA CON RESPECTO AL PORCENTAJE DEL TOTAL GENERAL
INTERPRETACIÓN:
h3,2=11.7%; Del 100% de los usuarios, el 11.7% de los usuarios calificaron el servicio como regular y
no accedieron al cajero 1 vez.
h4,3=5%; Del 100% de los usuarios, el 5% de los usuarios calificaron el servicio como malo y no
accedieron 2 veces al cajero.
47
TABLA DE CONTINGENCIA CON RESPECTO AL TOTAL FILA
INTERPRETACIÓN:
H3,3% total fila=11.1%; Del 100% de los usuarios que calificaron el servicio del cajero como
regular; el 11.1% no accedieron al cajero 2 veces.
H2,4% total fila= 7.1%; Del 100% de los usuarios que calificaron el servicio del cajero como
bueno, el 7.1% no accedieron al 3 veces.
48
TABLA DE CONTINGENCIA CON RESPECTO TOTAL COLUMNA
INTERPRETACIÓN:
H1,3: 6.7%; Del 100% de usuarios que no acceden al cajero 2 veces, el 66.7% califica el servicio
como excelente.
H4,3: 20%; Del 100% de usuarios que no acceden al cajero 2 veces, el 20% califica el servicio como
malo.
49
TABLA DE CONTINGENCIA: Variable Capa: Género
50
características de los clientes que acceden a los servicios que ofrece el
cajero automático del Banco RENTAMÁS, en los distritos: La Victoria, San
Luis, San Borja y Santa Anita. Para comprender mejor las exigencias de los
clientes y el compromiso de mejorar los servicios brindados las 24 horas del
día. El gerente del banco, encarga al área del servicio al cliente realizar el
estudio, considerando una muestra aleatoria de n= 60 clientes que acceden
al cajero automático en un día determinado.
Consideramos algunas variables del estudio para el desarrollo de la
unidad I.
Servicio: Servicios que brinda el cajero automático.
Nro. Servicio que brinda el cajero

2 Pagos varios
Transferencia hacia tus cuentas y cuentas de terceros
5 (MN,MEX)
51
GRÁFICOS
BARRAS - CIRCULAR
PRESENTACIÓN GRÁFICA DE LOS DATOS
VARIABLE CUALITATIVA:
GRÁFICO DE BARRAS:
Características de un Gráfico de Barras
a) El número de barras debe ser suficiente para contener a todos los datos. Las barras
deben ser mutuamente excluyentes y deben graficarse a una distancia constante de
separación.
b) La altura de cada barra es proporcional al tamaño de la frecuencia (Absoluta o relativa)
respectiva. El ancho de las barras debe ser igual para todas y deben estar igualmente
espaciadas.
c) Debe ser fundamentalmente ilustrativo (barras ordenadas).
53
GRÁFICO VARIABLE CUALITATIVA
Características de un Gráfico Circular

a) El número de sectores circulares debe ser suficiente para contener a todos los datos. Los
sectores circulares deben ser mutuamente excluyentes.
b) El tamaño de cada sector circular es proporcional al total de la muestra. °G = hi % x 360.
c) Debe ser ilustrativo ( categoría y sus respectivos porcentajes).
GRÁFICO DE
BARRAS: GRÁFICO
CIRCULAR
54
VARIABLE CUANTITATIVA DISCRETA
Número de tarjetas de crédito

GRÁFICO DE BARRAS:
Gráfico: Número de tarjetas de crédito de los usuarios del cajero automático
56
Gráficos de Líneas
SERIES DE TIEMPO
Gráfico de Líneas:
.
Analiza tendencias en el trascurso del tiempo

EJERCICIO 1: Caso: Tipo de Cambio
La Superintendencia de Banca y Seguros presenta la información de los tipos de cambio del US$
(dólar americano) cotización de la moneda extranjera a moneda nacional (S/.). Durante los meses
del Enero 2016 a Marzo 2017.
BD_Tipo de cambio.sav
Meses 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3
Tipo de cambio del $ 3,4052 3,4761 3,5132 3,3054 3,27 3,3746 3,2907 3,342 3,3909 3,3815 3,359 3,4096 3,355 3,2705 3,2645
TIPO DE CAMBIO DE LA MEX A LA MN

GRÁFICOS
HISTOGRAMA – POLIGONO DE
FRECUENCIA
59
VARIABLE CUANTITATIVA CONTINUA
Saldo de cuenta de la tarjeta de crédito

GRÁFICOS EN SPSS: HISTOGRAMA – POLIGONO DE FRECUENCIA
Histograma
Gráficos:
Histograma y curva de la normal del histograma
Saldo Intervalo
1 [80-434[
2 [434-788[
3 [788-1142[
4 [1142-1496[
5 [1496-1850[
6 [1850-2204[
7 [2204-2558]
Polígono de
frecuencia
61
GRÁFICOS
TALLOS Y HOJAS
62
GRÁFICO DE TALLOS Y HOJAS: (Stem-and-Leaf Diagram)
Es una técnica que se utiliza para la organización de datos como primer paso en un análisis
exploratorio (AED). Resume y describe variables cuantitativas.
Permite visualizar la forma de distribución y también la existencia de datos discordantes.
Eje vertical Eje horizontal
Tallo Hojas
4 1 2 5 7 8
5 1 3 4 5 5 8 8 9
6 0 1 2 2 3 3 5 5 5 7 8 8 8 8
7 0 0 0 2 4 5 7 8 9 9
8 0 3 4 5 6 8 9
9 0
Tallos y Hojas
Número de transacciones en el cajero automático
Frecuencia Stem & Hoja
5.00 0 . 22444
20.00 0 . 56666667777788888899
26.00 1 . 00000001111122222223344444
7.00 1 . 5667788
2.00 2 . 00
Ancho del tallo: 10

Cada hoja: 1 caso(s)
n=60 usuarios
GRÁFICOS
CAJAS
65
GRÁFICO DE CAJAS:
Es la representación gráfica, basada en cuartiles. Se puede graficar conociendo 5 estadísticos:

Dato menor, dato mayor, Q1, Q2 ( mediana),Q3. Permite visualizar el comportamiento de la
información resumida de acuerdo a su:
1.- Dispersión.
2.- Simetría.
3. Presencia de valores atípicos.
Datos
atípicos Datos
atípicos
Datos Atípicos: No concuerda con el resto de los datos. ◦ ………. Leve

*…………. Extremo
GRÁFICO DE CAJAS:
La presentación puede ser Horizontal La presentación puede ser Vertical.

GRÁFICO DE CAJAS:
COMPARACIÓN DE LOS GRÁFICOS DE CAJAS:
1.- Gran impacto visual y fácil de comprender.

2.-Permite comparar.
2.1.- La variabilidad de los estudiantes del género femenino es mayor que la de
los estudiantes del género masculino.
2.2.- La distribución de los pesos de las estudiantes mujeres presenta un valor
atípico.
2.3.- La distribución de los pesos de los estudiantes del género masculino , presenta
una distribución asimétrica negativa; mientras que la distribución de pesos de
los estudiantes del género femenino, presenta una distribución asimétrica
positiva.

características de los clientes que acceden a los servicios que ofrece el cajero automático
del Banco RENTAMÁS, en los distritos: La Victoria, San Luis, San Borja y Santa Anita. Para
comprender mejor las exigencias de los clientes y el compromiso de mejorar los servicios
brindados las 24 horas del día.
El gerente del banco, encarga al área del servicio al cliente realizar el estudio,
considerando una muestra aleatoria de n= 60 clientes que acceden al cajero automático
en un día determinado. Base de Datos: BD_operaciones bancarias.sav.
GRÁFICO DE CAJAS
Variable: Saldo de cuenta de la tarjeta de débito.
GRÁFICO DE CAJAS COMPARATIVO
Variable: Género*Número de transacciones que se realiza en el cajero.

Gráfico Cualitativo
DIAGRAMA DE PARETO
DIAGRAMA DE PARETO
El análisis de Pareto es una técnica para llevar la cuenta del número de defectos
de un producto o servicio. Con frecuencia denominado la regla de 80 – 20.
El principio de Pareto afirma que el 20% de las causas vitales originan alrededor
del 80% de los efectos.
Para elaborar un diagrama de Pareto se consideran el número de defectos del
producto o servicio, considerando las frecuencias en el orden de mayor a menor.
Caso: Bancos
Un local de una entidad bancaria ha realizado un estudio de Satisfacción del

cliente. Los resultados se encuentran en la base de datos:
Base de datos: BD_operaciones bancarias.sav
TABLA DE FRECUENCIA DE RECUENTOS DESCENDENTES
Porcentaje
Motivos de Queja Frecuencia Porcentaje
Acumulado
Poca seguridad en los cajeros 18 30% 30%

No se puede realizar pago de servicios públicos 13 21.70% 51.70%
Pocos cajeros disponibles 11 18.30% 70%
Fuera de servicio 7 11.70% 81.70%
No emite voucher 4 6.70% 88.30%
No se puede realizar movimientos de la CTS 4 6.70% 95%
No se puede realizar operaciones con moneda extranjera 3 5% 100%
TOTAL 60
¿Cuáles son las causas que el banco debe resolver para lograr la mejora más
significativa?
DIAGRAMA DE PARETO
Las causas que debe resolver son:

1. Poca seguridad en los cajeros.
2. No se puede realizar pago de servicios públicos.
3. Pocos cajeros disponibles.
Caso: TRÍO RAP: Internet + Teléfono Fijo + TV
Durante los últimos meses la liquidez de la empresa que

ofrece servicios de TRÍO RAP. Se ha visto afectada por el
incremento de la deuda pendiente por cobrar a sus
clientes, a quienes les brinda el servicio de cable. En tal
sentido, tiene la necesidad de conocer los motivos por
los cuáles sus clientes han dejado de cumplir con sus
pagos oportunamente. El gerente de la empresa se
encuentra realizando un estudio dirigido a los clientes
con deudas pendientes.
Para realizar el estudio se seleccionó una muestra
significativa de 100 clientes con deuda en Lima y
provincias con la finalidad de obtener información y
aplicar estrategias y acciones necesarias para dar
solución a este problema.
En el estudio se recabaron datos asociados a diversas
características, entre las que se encuentran las
siguientes variables en el estudio:
VARIABLES EN ESTUDIO
VARIABLES:
1. Ciudad: Lugar de residencia del cliente.
2. N_recibos: N° de recibos vencidos por los clientes.
3. Monto: Monto de la deuda del cliente. (en nuevos soles)
4. N_días: Días de antigüedad de la deuda
5. Género: Género del cliente
6. Queja: Motivos del no pago del servicio.
La base de datos se encuentra en la Base de Datos: BD_Monto de deuda_Excel
De acuerdo a la información proporcionada, del caso Trio Rap Responda:
I.- Identificar:
Población:
Unidad de análisis:
II.- COMPLETAR LOS ESPACIOS EN BLANCO DE LA SIGUIENTE TABLA
Variable Tipo de variable Nivel de medición Tipo de grafico Total datos
Cuantitativa
discreta
Nominal
Monto
RESPONDER DE ACUERDO A LOS REPORTES DEL SPSS

III.- Tabla de frecuencia para la variable Ciudad
Ciudad del usuario deudor

Frecuencia Porcentaje Acumulada Acumulado
Válido Arequipa 23 23,0 % 23,0%
Cusco 14 14,0% 37,0%
Huancayo 10 10,0% 47,0%
Lima 41 41,0% 88,0%
Trujillo 12 12,0% 100,0%
Total 100 100,0%
RESPONDER EN LA TABLA
f4 = Interprete:
h2%= Interprete:
i) ¿Qué ciudad presenta el

mayor porcentaje de clientes
deudores?
ii) Diga si la afirmación es Menos del 50% de los clientes deudores pertenecen a
Verdadera / Falsa (Justificar ) la ciudad de Lima y Arequipa. ( )
Justificar:
IV.- REALIZAR EL GRÁFICO APROPIADO PARA LA VARIABLE CIUDAD
Comentar la gráfica:
V.- Responda de la TDF para la variable MONTO y complete la TDF
Tabla de_______________________________________________________________
Porcentaje
Marcas de Porcentaje Frecuencia acumulado
Monto clase Frecuencia (%) Acumulada (%)
[132- [ 8
[ [ 10
[ [ 13
[ [ 15
[ [ 18
[ [ 20
[ [ 10
[ -540] 6
TOTAL 100 1.0
Realice la construcción de la Tabla de frecuencia - interprete
Identificar: Amplitud:_________________
Xmin=______ Xmax=____________
Nº de intervalos:_______________________
f6= Interprete:
H3% Interprete:
Interprete: F7 – F3
¿Qué porcentaje de clientes tiene una deuda mayor de S/. 360?
Interprete h4 usando la marca de clase

CONSTRUYA EL HISTOGRAMA DE FRECUENCIA
Diga que forma de

distribución tiene la
variable.
Comente el gráfico:
VI.- Tabla de Contingencia (Doble entrada)
Completar tabla para las frecuencias relativas o total general:

Tabla cruzada Ciudad del usuario deudor*N° de recibos vencidos
Recuento
N° de recibos vencidos
1 2 3 4 Total
Ciudad del usuario Arequipa 9 9 4 1 23
deudor
Cusco 3 6 3 2 14
Huancayo 4 3 0 3 10
Lima 10 16 9 6 41
Trujillo 2 5 4 1 12
Total 28 39 20 13 100
Tabla de Contingencia …………
TABLA PARA LAS FRECUENCIAS RELATIVAS O TOTAL GENERAL
Tabla cruzada Ciudad del usuario deudor*N° de recibos vencidos

Recuento
N° de recibos vencidos
1 2 3 4 Total
Ciudad del usuario Arequipa
deudor
Cusco
Huancayo
Lima
Trujillo
Total
INTERPRETAR:
f4,3=
De todos los clientes deudores que residen en la ciudad de Arequipa. ¿Cuàl es el porcentaje
de cliente deudores que tienen 2 recibos vencidos?
¿Cuál es el porcentaje de deudores que son de la ciudad de Huancayo y tienen 3 recibos

vencidos?
De todos los deudores que residen en la ciudad de Lima. ¿Cuál es el porcentaje de clientes
deudores que tienen hasta 3 recibos vencidos?.
De todos los deudores que residen en la ciudad de Trujillo. ¿Cuál es el porcentaje de

clientes deudores que tiene por lo menos 3 recibos vencidos?.
VI.- DE SU REPORTE RESPONDA DEL DIAGRAMA DE PARETO :
TABLA DE FRECUENCIA CON RECUENTOS DESCENDENTES
Porcentaje
MOTIVO DE QUEJA Frecuencia Porcentaje acumulado
No recibió recibos 20 20,0 20,0
No reconoce monto facturado 18 18,0 38,0
Falta de capacidad de pago 16 16,0 54,0
Solicito otra clase de servicio 14 14,0 68,0
Falta de lugares de pago cercanos 11 11,0 79,0
Mala instalación del servicio 8 8,0 87,0

No solucionan el problema de señal en el 8 8,0 95,0
plazo indicado
Mala señal del servicio 5 5,0 100,0
Total 100 100,0
ELABORE EL DIAGRAMA DE PARETO
¿Determinar las causas que

impiden dar un buen
servicio al cliente?
_____________________
_____________________
_____________________
_____________________
_____________________
_____________________
_____________________
______________________
______________________
______________________
DEL REPORTE DEL GRÁFICOS DE CAJAS
Variable: Monto de deuda según ciudad: Responda

Forma de distribución:
Dispersión:
Valores atípicos:
UNIDAD II
Medidas de Tendencia Central y Dispersión
Calcula e interpreta las
principales medidas de
tendencia central y medidas
de posición
Un motivo para hacer sospechar que la Estadística es más un arte que una
ciencia, gira en torno a la ambigüedad con que se usa el término “promedio”.
5.1 LAS MEDIDAS RESUMEN
1. Tendencia central
MEDIDAS DE 2. Posición
RESUMEN
3. De dispersión
4. De forma de la distribución
LAS MEDIDAS DE TENDENCIA CENTRAL
Se refieren al punto medio de una distribución

Ejemplo: A partir del gráfico siguiente, se observa que la posición central de la curva B
está a la derecha de la posición central de las curvas A y C. Obsérvese que la posición
central de la curva A es la misma que la curva C.
La nota promedio de los alumnos de la sección 15M es 12.8 (curva A), la nota promedio
de la sección 10T es también 12.8 (curva C) pero la nota promedio de la sección 23N es
15.4 (curva B)
LAS MEDIDAS DE DISPERSIÓN
1. Se refieren a la extensión o amplitud de los datos de una distribución

2. Representan el grado de variabilidad de los datos.
Ejemplo: Observe que la curva A en el siguiente gráfico tiene una mayor dispersión que la
curva B, a pesar que la posición central es la misma.
Las notas de los alumnos de la sección 13M varía entre 08 y 17 y su

promedio es 13.8 (curva A), en cambio las notas de la sección 10T varían
entre 12 y 15 y su promedio es también 13.8 (curva B). Las notas de la
sección 13M son más dispersas.
LAS MEDIDAS DE LA FORMA DE LA CURVA
Las curvas que representan a un conjunto de datos, pueden ser analizadas de

acuerdo a su:
a) Simetría b) Curtósis
SIMETRIA
Las curvas simétricas, tienen una forma tal que con una línea vertical que pase
por el punto más alto de la curva, dividirá el área de ésta en dos partes iguales.
SIMETRÍA
Las curvas sesgadas son aquellas cuyos valores están concentrados en el extremo
inferior o superior de la escala de medición del eje horizontal. La “cola” indica el tipo de
sesgo.
CURTOSIS
Cuando medimos la curtósis nos referimos al grado de agudeza. Pueden ser:

leptocúrtica (concentración al centro) mesocúrtica distribuidos simétricamente) o
platicúrtica (aplanada).
AGENDA
LAS MEDIDAS DE RESUMEN:

1. Medidas de tendencia central
A. La media aritmética
B. La mediana
C. La moda
2. Medidas de Posición
A. Cuartiles
B. Deciles
C. Percentiles
5.1 MEDIDAS DE TENDENCIA CENTRAL
Una vez clasificados los datos originales en tablas y gráficas, será necesario calcular
un conjunto de medidas centrales que caractericen en forma más precisa la
distribución que se está estudiando, usualmente se llaman PROMEDIOS y son de
extraordinaria utilidad tanto en el análisis de una distribución, como en la
comparación de distribuciones.
Por lo general el conjunto de datos presentan una tendencia de agruparse alrededor
de un punto central que describe el conjunto de series de datos.
Estas medidas descriptiva se conoce como medidas de Tendencia Central y
comprende:
o La media aritmética.
o La mediana.
o La moda.
A. LA MEDIA ARITMETICA
CALCULO A PARTIR DE DATOS NO AGRUPADOS
o Media aritmética de una población: Parámetro

N
X
 i 1
N
o Media aritmética de una muestra: Estadístico
x i
X  i 1
n
Ejemplo 1
Calcule e interprete la media aritmética para los datos correspondiente al número de

reclamos y quejas presentadas por clientes a lo largo de una semana.
Día/Semana Lun Mar Mier Jue Vier Sab
Reclamos/día 8 10 5 12 10 15
• Calcule la media aritmética:

6
x
i 1
i
8  10  5  12  10  15 60
x    10
6 6 6
• Interprete:
Si se selecciona al azar un día de la semana, se espera que se haya presentado 10
reclamos durante ese día.
Ejemplo 2
Se presenta pesos (en kgs.) un grupo de estudiantes

Tiempo (minutos)
90 83 94 89 119 112
91 110 92 100 113 83
• Calcule la media aritmética:

12
x
i 1
i
90  83  ......  113  83 1176
x    98
12 12 12
• Interprete:
Si se selecciona dentro de este grupo a un estudiante al azar, se espera que su
peso sea 98 kgs.
CALCULO DE A PARTIR DE DATOS DISCRETOS AGRUPADOS
x1 , x2 , x3 , ............, xk Diferentes valores de la variable
Frecuencias absolutas
f1 , f 2 , f 3 , ............., f k
Xi fi xi fi
Media Aritmética
x1 f1 x1f1
x2 f2 x2f2 k
x3 f3 x3f3 x * f i i
. . x i 1
. .
f i
xk fk xkfk
k
 xi fi
TOTAL n i1
Ejemplo 3
Se presenta el número de créditos en que se ha matriculado un grupo de estudiantes de

estudios gerenciales de la USMP. Calcule el promedio de créditos por alumno. Interprete.
Solución
Edad (Años)
CREDITOS fi xi fi Cálculos
21 3 63
22 5 110 1191
23 10 230 x  23.82  24
50
24 16 384
25 12 300
26 4 104
TOTAL 50 1191
Interpretación: Si se elige un estudiante al azar, se espera que el número de créditos

matriculados sea aprox. 24.
CALCULO A PARTIR DE DATOS CONTINUOS AGRUPADOS
Ejemplo 4
Se presenta las pensiones de enseñanza (S/.) de una muestra de 25 estudiantes de
la USMP. Calcule la media aritmética e interprete.
Xi
m
x '* i fi
x i 1
f i
Solución:
Pensión
m
x '*
Mensual
Xi fi
(S/.) Marcas de Clase fi xi *fi i
x i 1
[435-512>
[512-589>
473.5
550.5
5
6
2367.5
3303
f i
[589-666> 627.5 7 4392.5

[666-743> 704.5 4 2818 15,225.5
x  S / .609.02
[743-820] 781.5 3 2344.5 25
TOTAL 25 15225.5
Interprete: Si se selecciona a un estudiante de la USMP al azar, lo más probable es que

su pensión de enseñanza sea S/. 609,02 mensual
EJERCICIO APLICATIVO
Las calificaciones en un examen parcial del curso de Gestión de la Calidad de los alumnos
del quinto ciclo de la USMP se presentan a continuación:
16 09 07 07 16 06
09 08 09 11 16 16
03 08 20 17 15 17
13 07 01 09 11 08
01 17 06 07 06 16
03 06 20 01 17 16
17 05 03 16 15 18
02 18 04 15 07 02
13 06 02 18 13 17
16 01 12 15 11 08
15 20 04 10 17 03
a) Calcule la media aritmética a partir de los datos sin agrupar

b) Construya una tabla de distribución de frecuencias y utilícela para calcular la
media aritmética.
c) Compare los resultados obtenidos en a) y en b). ¿Por qué son diferentes? ¿Cuál
es más exacta?
LA MEDIA ARITMÉTICA PONDERADA xp
n
donde:
 wi X i wi = factor de ponderación
xp  i 1
n
= datos
w
i 1
i Xi
Ejemplo 5: Una empresa comercializadora de Seguros Médicos dispone de 3
representantes para la zona de Miraflores, cada uno de los cuales cobra diferente
comisión por póliza vendida, y realiza diferente número de contratos. Calcule e interprete
el valor medio de la comisión.
Nº de polizas de Comisión
Vendedor Seguro Médico: wi por venta $: Xi
Pedro 30 30
Juan 25 40
Pablo 20 50
SOLUCIÓN:
x p  30(30)  25(40)  20(50)  2900  $38.67

30  25  20 75
Interpretación:
Si se elige al azar un representante se espera que cobre una comisión

de $38.67 por cada póliza vendida.
5.2. LA MEDIANA
Es un valor que divide a un conjunto de observaciones ordenadas en forma

ascendente o descendente en dos grupos de igual número de observaciones, es decir
50% de los datos toma valores menores o iguales a la mediana y la otra mitad valores
superiores a la mediana.
PROCEDIMIENTO PARA CALCULAR LA MEDIANA: Me
1) Ordene los datos (ascendente o descendente).

2) Ubicación de la mediana.
n 1
i
2
Se presentan dos casos:
a) Cuando n es IMPAR, la mediana es igual al valor que ocupa la posición

central.
b) Cuando n es PAR, la mediana es igual al promedio de los dos valores
que ocupan la posición central.
3) La mediana es el dato que ocupa la posición i.

Ejemplo 6
Calcule e interprete la mediana para los datos correspondientes a la variable: número de

hijos por trabajador.
0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 4 4 4
n = 22
Calcule la mediana: n  1 22  1 23
lugar     11.5
1) Ubicación de la mediana: 2 2 2
2) La mediana entonces será igual al promedio de los valores ubicados la posición 11° y
12° de la serie ordenada, luego:
Me = 2
Interprete:
La mitad de los trabajadores tienen a lo mucho dos hijos y el resto tiene dos hijos o
más.
5.3. LA MODA
Es el valor de la observación que aparece con más frecuencia. La moda es

especialmente útil para describir niveles nominales y ordinales de medición.
Ejemplos:
a) Sea el conjunto de datos. (unimodal)
2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 13
Tiene moda Mo = 9, porque es el dato que más se repite.

b) El conjunto de datos (amodal)
3, 5, 8, 10, 12, 16, 18
No tiene moda porque ningún valor se repite.
c) El conjunto de datos (bimodal)

2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9
Tiene dos modas 4 y 7, porque 4 se repite tres veces al igual que 7 que también se
repite tres veces.
Ejemplo 7
Toyota emplea a 25 vendedores. El número de automóviles nuevos vendidos el

mes pasado por sus respectivos vendedores fueron:
Datos Ordenados de menor a mayor:
4 5 6 7 7
8 9 10 10 10
12 12 12 12 13
13 13 15 15 15
18 19 19 23 28
Interprete : El número de autos vendidos más frecuente por un vendedor,

durante el mes pasado es 12. Entonces M O = 12.
MEDIDAS DE POSICIÓN
2013 - 1
Las medidas de posición o cuantíeles son los valores que determinan la posición
de un dato respecto a todos los demás datos de una serie y que previamente ha
sido ordenada de menor a mayor.
Cuantiles
Cuartiles Deciles Percentiles

(en 4) (en 10) (en 100)
Dividen el conjunto de datos en

Dividen el conjunto de datos Dividen el conjunto de datos 100 partes porcentualmente
en cuatro partes en 10 partes porcentualmente iguales.
porcentualmente iguales iguales. El percentil k, Pk. Es el valor
Se les denota como Q1, Q2 y Se les denota como D1 , D2, numérico tal que
Q3 respectivamente. D3, …, D9 respectivamente. aproximadamente el k por ciento
Se denomina así a cada uno Se denomina así a cada uno de los datos ordenados está por
de los tres percentiles: P25, de los nueve percentiles: P10, debajo de ese valor y el (100 – k)
P50, P75. P20, ...P90. por ciento de los datos está por
encima de ese valor.
115
Son los valores que dividen a la distribución en 4 , en 10 y en 100 partes iguales, con
respecto a los datos previamente ordenados de menor a mayor.
Tenemos:
• Cuartiles : Datos previamente ordenados se dividen en 4 partes iguales que
representan 25%, 50% y 75% de la distribución. Se denotan por Q 1 , Q 2 , Q 3 .
• Deciles : Datos previamente ordenados se dividen en 10 partes iguales. Se denotan

por D 1 , D 2 , ... , D 8 , D 9 .
Se define así al valor que divide a un conjunto ordenado de datos en dos partes
con porcentajes específicos por debajo y sobre éste valor.
• PERCENTILES: Dividen un conjunto de datos ordenados en 100 partes

porcentualmente iguales.
El percentil que divide al conjunto de datos ordenados en dos partes, el

inferior con k% de los datos y el superior con el (100-k)% de los datos se le
denomina Pk. P1 , P 2 , ... , P 10 ,……, P 45 …………...P 99 .
117
2. CUARTILES.- Primer cuartil
Un cuartil es una medida de posición que divide al total de las

observaciones, debidamente ordenadas en cuatro partes de igual
tamaño. Esto significa que entre cuartiles consecutivos se encuentra no
más del 25 % del total de las "n" observaciones.
Primer Cuartil, o Cuartil inferior, o percentil 25:
El 25 % de las observaciones tienen valores menores o iguales a Q 1 y

el 75 % restante tienen valores mayores a Q 1 .
25% 25% 25% 25%
Xmin ≤ > Xmax
Q1 = P25
2. CUARTILES.- Tercer cuartil
Segundo cuartil, o percentil 50 (también la mediana):
Es el valor que está en el centro, por lo tanto coincide con la mediana

Q 2 = Me.
Tercer cuartil, o Cuartil superior, o percentil 75:
El 75 % de las observaciones tienen valores menores o iguales a Q 3 y

el 25 % restante tienen valores mayores a Q 3 .
25% 25% 25% 25%
Xmin ≤ Xmax
>
Q3 = P75
Ejercicio 1
A continuación se presenta los datos para una muestra de 12 empleados del sector
minero respecto a la variable sueldo mensual.
Sueldos Mensuales:
2850 2950 3050 2880 2755 2710

2890 3130 2940 3325 2920 2880
Ordenar los datos en forma creciente:
Sueldos 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Mensuales
Forma de cálculo.-
Calcule e interprete el primer cuartil
Variable: Sueldo mensual de los empleados del sector minero.
Posición del primer cuartil:
 p   25 
i n   12  3
 100   100 
Como i es entero, de acuerdo con el paso 3b) el primer cuartil, o

percentil 25 es el promedio del tercer y cuarto valor de los datos
entonces:
2850  2880
Q1   2865
2
Interpretación: El 25% de los empleados del sector minero perciben

sueldos mensuales menores o iguales a S/.2865 y el 75% restante
perciben sueldos mensuales mayores o iguales a S/.2865.
Forma de cálculo.-
Calcule e interprete el tercer cuartil

Variable: Sueldo mensual de los empleados del sector minero.
Posición del tercer cuartil :
 p   75 
i n   12  9
 100   100 
Como i es entero, de acuerdo con el paso 3b) el tercer cuartil, o percentil 75 es

el promedio del noveno y décimo valor de los datos entonces:
2950  3050
Q3   3000
2
Interpretación: El 75% de los empleados del sector minero perciben sueldos

mensuales menores o iguales a S/.3000 y el 25% restante perciben sueldos
mensuales mayores o iguales a S/.3000
Ejemplo Aplicativo 1
Toyota emplea a 25 vendedores . El número de automóviles nuevos

vendidos el mes pasado por sus respectivos vendedores fueron:
# de automóviles vendidos:
15 23 4 19 18
10 10 8 28 19
13 13 12 15 7
15 5 12 6 7
12 10 9 13 12
Se ordenan los datos de menor a mayor:

Datos Ordenados de menor a mayor:
4 5 6 7 7
8 9 10 10 10
12 12 12 12 13
13 13 15 15 15
18 19 19 23 28
Forma de cálculo
Posición del Q1
 p   25 
i n   25  6.25  7 Q1 = 9
 100   100 
Interpretación : El 25% de los vendedores realizaron ventas menores

o iguales a 9 automóviles y el 75% restante tendrán ventas superiores
a 9.
Posición del Q3
 p   75  Q 3= 15
i n   25  18.75  19
 100   100 
Interpretamos: El 75% de los vendedores realizaron ventas menores o

iguales a 15 automóviles y el 25% restante tendrán ventas iguales o
superiores a 15.
Ejemplo Aplicativo 2
Una muestra de 20 trabajadores de una compañía obtuvo los siguientes

montos netos de pago tras deducciones en una semana dada, se disponen
estos datos en orden ascendente.
240 240 240 240 240 240 240 240 255 255
265 265 280 280 290 300 305 325 330 340
Calcule: El tercer cuartil, el noveno decil, el percentil 50, el percentil 84.
125
1. PERCENTIL – PROCEDIMIENTO DE CALCULO
• Paso 1: Ordene los datos de forma ascendente.

• Paso 2: Calcule el lugar o posición i, para ubicar el valor del percentil.
 p 
i n
 100 
donde p es el percentil de interés y n es la cantidad de observaciones.

Se presenta dos casos:
a) Si i no es entero, i se redondea (con exceso) a la posición inmediata mayor.
El p-ésimo percentil es el dato que ocupa la posición i.
b) Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos
ubicados en los lugares i e i+1.
• Paso 3: El percentil es el dato que ocupa la posición i.

Ejemplo 1
A continuación se presenta los datos para una muestra de 12 empleados del

sector minero respecto a la variable sueldo mensual.
Sueldo Mensual Sueldo Mensual

Empleado Empleado
S/. S/.
1 2850 7 2890
2 2950 8 3130
3 3050 9 2940
4 2880 10 3325
5 2755 11 2920
6 2710 12 2880
Determinar el percentil 85.

Forma de cálculo
• Paso 1: Ordene los datos en forma ascendente.
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
• Paso 2: Ubicación del percentil 85

 p   85 
i  n   12  10.2
 100   100 
• Paso 3: Como i no es entero, redondeamos al inmediato mayor. El

percentil 85 es el datos que ocupa la posición 11.
P85 = 3130.
Interpretación:
El 85% de los empleados del sector minero perciben sueldos mensuales
menores o iguales a S/.3130 y el 15% restante perciben sueldos mensuales
iguales o superiores a S/.3130
CARACTERISTICAS DE LA MEDIA ARITMETICA
1. A todo conjunto de datos registrados en escala de intervalo o de razón, se le puede

calcular la media aritmética.
2. Para el cálculo de la media se incluyen todos los valores (x).
3. Solo existe una única media aritmética en un conjunto de datos.
4. La suma de las desviaciones de las observaciones con respecto a su valor medio es
cero. n
 ( xi - x) = 0
i=1
5. La media es afectada por valores extremos (grandes o pequeños) comparadas con
el resto de datos.
6. Es muy útil cuando queremos comparar dos o más distribuciones.
7. El cálculo de la media aritmética a partir de datos agrupados con extremos abiertos
no es conveniente.
PROPIEDADES DE LA MEDIA
2013 - 1
• La media aritmética de una cantidad constante es la misma constante.
M(k) = k
• La media de una variable a la que se le suma o resta una constante equivale a la media
de la variable más o menos dicha constante.
M(X  k) = M(X)  k
• La media de una variable multiplicada por una constante equivale a la media de la

variable multiplicada por dicha constante.
M(kX) = kM(X)
• En general, para dos constantes a y b tenemos.
M(aX  b) = aM(X)  b
130
DESVENTAJAS DE LA MEDIA ARITMÉTICA
• Para datos que contienen uno o dos valores sumamente grandes o muy
pequeños, la media aritmética no es una medida adecuada para representar los
datos.
• La media aritmética es inadecuada si existen intervalos con límites extremos

abiertos para datos agrupados en una distribución tabla de distribución de
frecuencias.
PROPIEDADES DE LA MEDIANA
1. La mediana no es afectada por los valores extremos.

2. Solo existe una mediana en un conjunto de datos.
3. Es posible determinarla para datos registrados en una escala ordinal.
Facilidad de
Navegar por la
Web # de personas Fi
Sobresaliente 30 30
Excelente 58 88 180  1
Buena 42 130  90.5
2
Regular 30 160
Mala 20 180
TOTAL 180
Interprete: La mitad de los usuarios opinan que la facilidad para navegar por web se
encuentra entre sobresaliente, excelente y buena. La otra mitad, entre regular y mala.
PROPIEDADES DE LA MODA
o Muy útil para variables cualitativas registrada en una escala nominal.

o Es posible determinar la moda en todas las escalas de medición.
o No tiene influencia por los valores extremos.
o Es posible calcular la moda, a partir de una tabla de distribución de
frecuencias con límites extremos abiertos.
o La moda puede no existir, si existe, no siempre es la única.
o Una distribución de datos puede tener más de una moda. Siendo Unimodal
(1 moda), Bimodal (2 modas), Multimodal (más de 2modas).
APLICACIÓN EN VARIABLES CUALITATIVAS
ORDINALES NOMINALES
Facilidad de Cargo que Frecuencia Frecuencia

Navegar por la desempeña Absoluta relativa
Web # de personas Tesorero 12 13%
Sobresaliente 30 Contador 20 22%
Excelente 58 Analista de
Sistemas 36 40%
Buena 42 Asistente de
Regular 30 personal 15 17%
Mala 20 Administrador
TOTAL 180 7 8%
TOTAL 90 100%
Interprete: La facilidad de Interprete: El cargo ocupacional

Navegar por la Web que es que tiene mayor presencia, es el
más frecuente en las Analista de Sistemas.
personas es Excelente.
PROPIEDADES DE LA MODA
o Muy útil para variables cualitativas registrada en una escala nominal.

o Es posible determinar la moda en todas las escalas de medición.
o No tiene influencia por los valores extremos.
o Es posible calcular la moda, a partir de una tabla de distribución de frecuencias
con límites extremos abiertos.
o La moda puede no existir, si existe, no siempre es la única.
o Una distribución de datos puede tener más de una moda. Siendo Unimodal (1
moda), Bimodal (2 modas), Multimodal (más de 2modas).
POSICIÓN DE LAS MEDIDAS DE TENDENCIA CENTRAL Y FORMA DE LA DISTRIBUCIÓN
a. Sí la x  Me  Mo , la distribución es asimétrica positiva o sesgada a la

derecha.
b. Sí la x  Me  Mo
, la distribución es asimétrica negativa o sesgada a la
izquierda.
c. Si la x  Me  Mo
, la distribución es simétrica .
Ejercicio
Se realizó un estudio para comparar los tipos de pago efectuado en la
compra de artículos de primera necesidad en un supermercado. Para el
estudio, se evalúan dos modalidades de pago: efectivo y crédito. Se
seleccionó al azar una muestra de 15 clientes de cada tipo de pago y se
registró el consumo diario (en nuevos soles).
Efectiv
o
58 57 57 56 57 55 58 57 55 59 58 57 54 55 57
Crédito 62 61 63 62 60 62 63 62 64 62 61 63 62 64 62
a) Identifique la variable, tipo de variable y unidad de análisis.

b) Calcule e interprete para la modalidad pago a crédito, las medidas de
tendencia central: media aritmética, mediana y moda.
c) ¿La media aritmética que obtuvo en b) es un estadígrafo o un
parámetro? ¿Por qué?
d) Realice un análisis comparativo de acuerdo a las medidas de tendencia
central. ¿Cuál es el indicador de centralidad más adecuado?
e) Calcule las medidas de posición: cuartiles y P 35 . Interprete los
resultados obtenidos para el grupo pago efectivo.
DIAGRAMA DE CAJA Y BIGOTES (BOXPLOT)
Es un gráfico que suministra información sobre los valores mínimo y

máximo, la media aritmética, los cuartiles Q 1 , Q 2 y Q 3 , y sobre la
existencia de valores atípicos y la simetría de la distribución.
PROCEDIMIENTO:
1. Determinar el valor máximo, mínimo, los percentiles 25, 50 y 75.
2. Calcular el Rango Intercuartílico: P 75 – P 25 .
3. Determinar los LIMITES, tanto superior como inferior
LI = P25 – 1.5RIC LS = P75 +1.5RIC
4. Los datos que toman valores por encima o por de debajo de estos
límites, constituyen valores atípicos.
5. Los valores atípicos pueden ser cercanos o alejados. Los cercanos
se denominas outliers y los lejanos se denominas extremos. Las
frontera entre estos tipos de atípicos se determina por la fórmula:
Limite extremo inferior: P 25 – 3RIC Límite extremo superior: P 75
+ 3RIC
Ejemplo
Se desea analizar el consumo de gas natural en los hogares de un

distrito limeño, el gasto mensual en este combustible, en soles de 36
hogares se muestra a continuación:
Comentarios
• El mínimo (20,6) es mayor al Límite Inferior (17,1375), por lo tanto no hay

valores atípicos inferiores.
• El máximo (37,6) es mayor al Límite Superior (37,0375), por lo tanto hay
valores atípicos superiores.
• ¿Cuántos valores atípicos superiores hay en esta muestra?. Para ello
ordenamos los datos, de menor a mayor, y buscamos si existe otros
valores mayores a 37,0375 (por supuesto menores o iguales a 37,6,
puesto que es el máximo). No hay otros valores. Hay solo un valor atípico.
• ¿Este valor atípico es un outliers o un extremo? Observamos que el 37,6
está entre el 37,0375 y 44,5 por lo tanto es un outliers. Si el dato hubiese
estado por encimo a 44,5 hubiese sido un extremo.
Conclusiones
Puesto que el valor atípico es a la derecha, el mínimo está por encima del
límite inferior y la diferencia entre P 50 – P 25 es mayor a la diferencia entre
P 75 – P 50 , se puede concluir que los datos se ajustan a una distribución
asimétrica a la derecha, o sesgo positivo .
1. MEDIDAS DE
DISPERSIÓN
142
Medidas de dispersión
2013 - 1
143
Medidas de dispersión
2013 - 1
144
A. EL RANGO o AMPLITUD o RECORRIDO
Es diferencia entre el valor máximo y el valor mínimo. Es un valor muy afectado por la
A) El derango
presencia (R) Tiene una limitación: no toma en cuenta ni el número de
valores extremos.
datos ni el valor de los datos intermedios.
R = Xmax – Xmin
APLICACIÓN: Los siguientes datos representan el peso de 10 cajas con mercancías
(en Kg.) que han sido separadas del lote pues su peso sobrepasa el límite de tolerancia.
Calcule e interprete el rango.
2,860 3,150 3,450 2,950 3,780 4,170 3,920 3,280 4,050 3,120
B. EL RANGO INTERCUARTÍLICO
Es la diferencia entre el Tercer Cuartil y el Primer Cuartil. Es un valor

robusto, extremadamente resistente a los valores extremos.
RIC = Q3 – Q1
APLICACIÓN
A fin de mejorar el nivel de satisfacción de los clientes, la

Gerencia de Calidad apertura una línea gratuita para atender las
quejas de sus clientes. Los siguientes datos muestran la
cantidad de llamadas recibidas durante 134 días. Calcule e
interprete el rango intercuartílico.
Utilizando el Excel
Interpretación :
el número de
llamadas diarias del
50% de días central,
tiene una dispersión
de 13 llamadas.
VARIANZA Y DESVIACIÓN ESTÁNDAR:
2013 - 1
Poblacional Muestral
σ2 S2
Varianza
=VAR.P =VAR.S
σ S
Desviación estándar
=DESVEST.P =DESVEST.M
• La varianza y la desviación estándar son números reales no negativos.

• La desviación estándar se define como la raíz cuadrada positiva de la
varianza
• La varianza es expresada en unidades cuadráticas a las unidades de
los datos, mientras que la desviación estándar es expresada en las
mismas unidades de los datos
149
DATOS NO AGRUPADOS
Para una muestra Para una población

n N
Varianza
 (x i  x) 2
 i x
( x   ) 2
S2  i 1
2  i 1
n 1 N
n N
Desviación  i
( x  x ) 2
 i x
( x   ) 2
estándar S i 1
  i 1
n 1 N
150
EJEMPLO 1
Sean los siguientes valores poblacionales: X1 = 10 , X2 = 13, X3 = 10, X4 = 14, X5 = 13

• Calcular la varianza:
• Calculamos la media aritmética poblacional
• Cálculo de las desviaciones y desviaciones al cuadrado respecto a la media.
Desviación respecto a la media Desviación respecto a la media

Valores Media aritmética aritmética aritmética elevada al cuadrado
 ( X i ) ( X i  ) 2
10 12 -2 4
13 12 1 1
10 12 -2 4
14 12 2 4
13 12 1 1
TOTAL 14
N 5
X X
N
i i
10  13  10  14  13 60 (X i  )2
14
 i 1
 i 1
   12 2  i 1
  2.8
N 5 5 5 N 5
• OBSERVACIÓN: Si la varianza de un conjunto de observaciones es

grande, se dice que los datos tienen mayor variabilidad, que un conjunto de
datos que tenga una varianza más pequeña.
151
PROPIEDADES DE LA VARIANZA
1. Si el valor de las observaciones son todas iguales, entonces la varianza

es cero.
V(k) = 0, k = constante
2. La varianza del producto de una constante por una variable, es igual al

cuadrado de la constante por la varianza de la variable.
V(k.X) = k 2 V(X)
3. La varianza de la suma de una variable más una constante, es igual a la

varianza de la variable.
V(X + k) = V(X)
152
LA DESVIACIÓN ESTÁNDAR
La Desviación Estándar o Desviación Típica, se define como la raíz

cuadrada de la varianza
• Desviación estándar de una muestra: S  S2
• Desviación estándar de una población:   2
• Es la medida de dispersión de mayor uso, en la cual las

unidades de la variable ya no están elevadas al cuadrado. La
desviación estándar, al igual que la varianza, es no negativa
(S  0), puesto que es la raíz cuadrada positiva de la varianza. A

mayor dispersión le corresponderá una mayor desviación estándar.
153
Aplicación
La siguiente información se refiere al número de

devoluciones en una farmacia, durante una semana.
Calcule la desviación estándar.
8, 10, 5, 12, 10, 15
• Ya sabemos por el ejemplo anterior que S 2 = 11,6 Entonces
S
2
s
S  11,6
S  3,4 devoluciones
EL COEFICIENTE DE VARIACIÓN
• Es una medida de dispersión relativa, no posee unidades.
Para una muestra Para una población
S 
CV   100 CV  100
x 
• Permite comparar variabilidad de conjuntos de datos registra-dos en
diferentes unidades de medida:
• Peso: kilos y libras o

• Temperatura: °C y °F
• También cuando las medias aritméticas de los conjuntos de datos a

comparar son diferentes.
155
Ejemplo
• Los datos que se presentan a continuación corresponden al tiempo

de horas extras semanales trabajadas de una muestra de 18
operarios de una empresa textil
2,8 2,0 3,2 4,0 4,0 4,4 1,3 2,8 3,9

2,1 2,4 1,6 1,5 2,2 2,4 1,3 2,5 2,7
• Calcule la varianza, desviación estándar y coeficiente de variación
del tiempo de horas extras semanales realizado por los 18
operarios.
2.8 2 3.2 4 4 4.4 1.3 2.8 3.9
2.1 2.4 1.6 1.5 2.2 2.4 1.3 2.5 2.7
Varianza 0.926176471
Desviación estándar 0.962380627
Media aritmética 2.616666667
Coeficiente. de
36.78%
variación
156
2. Medidas de las
formas de la
distribución
157
MEDIDAS DE FORMAS
1. COEFICIENTE DE ASIMETRÍA (SESGO)

COEFICIENTE DE ASIMETRÍA DE PEARSON
Válido para el caso unimodal y moderadamente asimétricas.
3(𝑀𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎 −𝑀𝑒𝑑𝑖𝑎𝑛𝑎)

Ap =
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑠𝑡á𝑛𝑑𝑎𝑟
Sí:
Ap > 0; Distribución asimétrica positiva
Ap = 0; Distribución simétrica
Ap < 0; Distribución asimétrica negativa
158
Aplicación
PRECIOS
18
3(media  mediana) 3(18.615 - 18)
16 AP  
21 desviación estándar 15
22 AP  0,123
15
14
15
15
18 Interpretación: Los precios se ajustan
22 a una distribución con leve sesgo
25 positivo (o asimetría a la derecha)
20
21
Media 18.615
Mediana 18
Desviación Estándar 15
159
2. EL COEFICIENTE DE CURTOSIS
• Entendemos como curtosis al grado de apuntamiento de una distribución, la

curtosis se analiza comparando la distribución con la forma de la curva
normal o simétrica.
COEFICIENTE DE CURTOSIS DE PEARSON:
Q3  Q1
KP 
2( P90  P10 )
Si:
KP = 0.263 Curva Mesocúrtica
KP > 0.263 Curva Leptocúrtica
KP < 0.263 Curva Platicúrtica
160
APLICACIÓN
Los siguientes datos se refieren a la cantidad de productos defectuosos diarios

durante la última quincena.
12 29 32 15 27 22 32 25 18 20 27 18 25 28 30
Interpretación: los datos se

ajustan a una distribución
asimétrica negativa (sesgo a
la izquierda) y es aplana
(platicúrtica)
Comprobación del aprendizaje
Los siguientes datos representan la tardanza de 20 trabajadores:
10 40 35 20 60 30 20 30 25 15
35 30 25 54 60 30 15 10 20 30
a) ¿Cuáles es la tardanza más frecuente? ________

b) Si elijo un trabajador al azar ¿Cuál es la tardanza ________
esperada?
c) ¿Sobre cuantos minutos de tardanza se encuentra 20 % ________

de los trabajadores de los más retrasados?
d) ¿Los datos son simétricos? ________

¿ Qué aprendimos en esta sesión?
1. Caracterizar y diferenciar las diferentes medidas de resumen: dispersión, de

asimetría y curtosis.
2. Calcular e interpretar medidas de dispersión
3. Calcular e interpretar medidas de la forma de la distribución
BIBLIOGRAFÍA
o LEVIN, Richard y David Rubin (2010) Estadística para Administración y

Economía. 7ª ed. Pearson. México. Cap. 3: Medidas de tendencia central
y dispersión en distribuciones de frecuencias. 57 - 126 págs.
o LIND, Douglas; William Marchal y Robert Mason (2004) Estadística para
Administración y Economía. 11ª ed. Alfaomega. México. Cap.3:
Descripción de datos: medidas de tendencia central 64 - 98 págs. Cap.
4: Otras medidas descriptivas 99 – 148 págs.
o WEIERS, Ronald (2006). Introducción a la Estadística para Negocios. 5ta
ed. Cengage Learning. México. Cap. 3: Descripción estadística de datos
69 - 120 págs.
1. Medidas de
asociación entre dos
variables
165
MEDIDAS DE ASOCIACION ENTRE DOS
VARIABLES
OBJETIVOS GENERAL:
 Introducir el Coeficiente de correlación lineal entre dos
variables, determinando la asociación entre dos
variables X e Y.
OBJETIVOS ESPECÍFICOS:
 Determinar si dos variables X e Y , están asociadas.
 Determinar que tan fuerte es esta relación.
 Pronosticar en forma intuitiva el grado de asociación
lineal entre dos variables, en base al diagrama de
dispersión.
166
MEDIDAS DE ASOCIACION ENTRE DOS VARIABLES
1. Covarianza:
• Para un conjunto de observaciones, la covarianza se define

como:
Covarianza de una muestra: Covarianza de una población:
n _ _
 ( x  x)( y
N
i i  y) (X i  x )(Yi   y )
S xy  i 1
 xy i 1
n 1 N
167
Ejemplo 1
El departamento de logística de una tienda
de equipos de sonido, ha usado
comerciales de televisión los fines de
semana para promover sus ventas. El
administrador de la tienda le interesa
investigar la relación entre la cantidad de
comerciales de televisión que aparecen los
fines de semana y las ventas en su
negocio durante la siguiente semana. En la
siguiente tabla aparecen datos de la
muestra, donde las ventas se expresan en
miles de dólares, con una observación
para cada semana.
168
Ejemplo 1
Cantidad de Volumen de
Semana comerciales ventas
x y
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
169
Ejemplo 1
_ _ _ _
xi yi ( xi  x ) ( yi  y ) ( xi  x)( yi  y )
2 50 -1 -1 1
5 57 2 6 12
1 41 -2 -10 20
3 54 0 3 0
4 54 1 3 3
1 38 -2 -13 26
5 63 2 12 24
3 48 0 -3 0
4 59 1 8 8
2 46 -1 -5 5
30 510 0 0 99
170
Ejemplo 1
• Reemplazando valores en la fórmula
10 _ _
 ( x  x)( y  y)
i i
99
S xy  i 1
  11
10  1 10  1
Interpretación :
Para ayudarnos en la interpretación de la covarianza de la
muestra es necesario tomar en cuenta el diagrama de dispersión
de x e y
171
Solución con Excel
172
Ejemplo 1
173
INTERPRETACION DE COVARIANZA
En la gráfica quedan cuatro cuadrantes:
• Los puntos del cuadrante I corresponde a valores de x mayores
que su media y a valores de y mayores que su media.
• Los puntos del cuadrante II corresponde a valores de x
menores que su media y a valores de y mayores que su
media.
• Los puntos del cuadrante III corresponde a valores de x
menores que su media y a valores de y menores que su
media.
• Los puntos del cuadrante IV corresponde a valores de x
mayores que su media y a valores de y menores que su
media.
174
INTERPRETACION DE COVARIANZA
Si el valor de Sxy es positivo, los puntos que tuvieron la

máxima influencia sobre Sxy deben estar en los cuadrantes I y
III, por consiguiente un valor positivo de Sxy indica una
asociación lineal positiva entre x e y.
Si el valor de Sxy es negativo los puntos que tuvieron mayor
influencia sobre Sxy están en los cuadrantes II y IV, por
consiguiente un valor negativo de Sxy indica una asociación
lineal negativa entre x e y.
Si los puntos se distribuyen uniformemente en los cuatro
cuadrantes el valor de Sxy será cercano a cero, indicando que
no hay asociación lineal entre x e y.
175
MEDIDAS DE ASOCIACION ENTRE DOS VARIABLES
• COEFICIENTE DE CORRELACIÓN:
Mide el grado de asociación existente entre variables
FUERTE POSITIVA SIN CORRELACIÓN FUERTE NEGATIVA
60 50
60
50
40
50
Variab le B
40
Va ria ble B
Variable B
40 30
30
30
20 20
20
10
10
10
0
0 10 20 30 40 50 60 0 0
0 10 20 30 40 50 60 0 10 20 30 40 50
Variable A
Variable A Variable A
176
Ejemplo 2
• Analizar la relación entre la edad y el tiempo de servicio de
15 trabajadores, contando con la siguiente información:
Tiempo de Tiempo de
Trabajador Edad Trabajador Edad
servicio servicio
1 48 24 9 34 10
2 40 18 10 46 20
3 30 9 11 32 12
4 39 14 12 42 18
5 46 22 13 40 16
6 42 22 14 32 8
7 27 4 15 27 6
8 36 13
177
Reemplazando los valores en la fórmula, el cociente de correlación es :
n
x y i i  nx y
r n
i 1
n
 0.97
 i
x 2
i 1
 nx 2
 i
y 2
 n
i 1
y 2
Se va debilitando
Fuerte relación Fuerte relación
-1 -0.70 0 0.70 1
Interpretación : Existe una correlación fuerte (0.97) entre la edad

y el tiempo de servicio del trabajador.
178
Solución con EXCEL
179
Ejemplo 3
• En una gran ciudad se contrató a un sociólogo para que
investigara la relación entre el número de días de ausencia de
los empleados sin autorización por año y la distancia desde su
domicilio a su centro laboral. Determine e interprete el
coeficiente de correlación. Elabore un gráfico de dispersión.
Distancia 1 3 4 6 8 10 12 14 14 18
N° Dias 8 5 8 7 6 3 5 2 4 2
Gráfico de Dispersión
9
y = -0.3442x + 8.0978
Número de días de ausencia
8
R² = 0.7109
7
6
5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20
Distancia (en millas)
Ejemplo 3
Distancia N° Días XY X2 Y2
1 8 8 1 64
3 5 15 9 25
4 8 32 16 64
r
10 * 365  90 * 50
8
10
6
3
48
30
64
100
36
9
10 *1086  902 * 10 * 296  502 
12 5 60 144 25
r  0.8431
14 2 28 196 2
14 4 56 196 16
18 2 36 324 4
90 50 355 1086 296
Interpretación: Buena relación entre el número de días ausentes y la

distancia en millas de su casa al trabajo. Correlación inversa X crece e Y
decrece
Ejercicio
• El profesor de estadística desea saber cuál es la relación entre
las horas destinadas al estudio y la calificación ganada en el
curso. A continuación se presentan los datos obtenidos por 10
estudiantes
Horas de Calificación Diagrama de Dispersión

estudio Ganada 100
45 40 90
30 35 80
calificación Ganada
70
90 75
60
60 65 50 y = 0.8295x + 5.847
105 90 40 R² = 0.8777
65 50 30
20
90 90
10
80 80 0
55 45 0 20 40 60 80 100 120
75 65 Horas destinadas al estudio

UNIDAD III
Teoría de la Probabilidad y Distribuciones Muestrales
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
1 Definiciones
Certidumbre: Bajo condiciones de certidumbre de un experimento,

se conoce el objetivo y se tiene información exacta y confiable
acerca del resultado de cada una de las alternativas que
consideremos.
Incertidumbre: Es poco lo que se sabe de las alternativas o de sus
resultados.
2 Experimento aleatorio (E)

Experimento que presenta resultados diferentes bajo las mismas
condiciones iniciales.
3 Espacio muestral (S)
Dado un experimento aleatorio (E), se define el espacio muestral S
como el conjunto de todos los posibles resultados en una sola
repetición del experimento.
4 Suceso - Evento
Cada elemento del espacio muestral es llamado suceso (s);
mientras que un conjunto particular de sucesos es llamado evento,
el cual es representado por letras mayúsculas.
Ejemplo: En el experimento de lanzar un dado, el espacio muestral
está constituido por seis sucesos.
6 sucesos
Sea el evento obtener puntaje par.
3 sucesos
Si el resultado observado no pertenece al evento A, se dice que

ocurre el evento contrario, o que no ocurre el evento, y se denota
con A .
3 sucesos
ALGEBRA DE EVENTOS:
Como el espacio muestral y los eventos son conjuntos, en el análisis

estadístico reciben un tratamiento particular propio de la teoría de
probabilidades. Así, dado un experimento aleatorio E y su espacio
muestral asociado S, entonces:
A) Al espacio muestral S se le denomina evento seguro
B) Si el evento A = , se dice que A es un evento imposible.
C) Si s  (A  B), se dice que ocurre el evento A o B.
D) Si s  (A  B), se dice que ocurre el evento A y B.
E) Si A  B = , se dice que A y B son eventos excluyentes

PROBABILIDAD
Sea el espacio muestral asociado con un experimento E y sea A un

evento cualquiera, se define la probabilidad del evento A con
n( A )
notación P(A) como: P(A) =
n(S )
n(A): Número de sucesos favorables al evento A.
n(S): Número de sucesos favorables al espacio muestral.
Se dice que P es una función de probabilidad si satisface los tres

axiomas siguientes:
A. La probabilidad de un evento es un número entre 0 y 1. Para

todo evento A definido en S. 0  P(A)  1
B. La probabilidad del evento seguro es 1. P(S) = 1.
C. Si A y B son eventos mutuamente excluyentes: A  B = ,

entonces: P(AB) = P(A) + P(B).
CASO: GREEN PERÚ

Green Perú es una empresa nacional dedicada al cultivo,
comercialización y exportación de frutas, verduras y hortalizas.
Actualmente se están realizando exportaciones de los siguientes
productos: alcachofas, espárragos blancos y paltas.
Los espárragos blancos, alcachofas y palta son comercializados de
acuerdo a la calidad del producto, la cual presenta la siguiente
clasificación: 1. Regular, 2. Superior y 3. Premium.
De acuerdo a la última cosecha procesada por la empresa se
lograron empaquetar 500 cajas en total de los mencionados
productos en sus diversas calidades.
CASO: GREEN PERÚ

Se ha elaborado una tabla de contingencia donde se presentan las
cantidades de cajas empacadas con cada uno de los productos
según sus calidades, la misma que se presenta a continuación:
Calidades
Productos Total
Regular Superior Premium
Alcachofa 40 50 70 160
Espárragos blanco 59 76 65 200
Palta 31 49 60 140
Total 130 175 195 500
CASO: GREEN PERÚ

Se selecciona al azar una de las cajas para una inspección de calidad.
Determine la probabilidad de que la caja seleccionada …:
a) Sea de paltas.
b) No sea de calidad superior.
CASO: GREEN PERÚ

c) Sea de alcachofas o sea de calidad regular.
d) Sea de calidad Premium dado que es de espárragos blancos.
Probabilidad condicional
• Sean A y B dos sucesos asociados a un espacio muestral, la
probabilidad de que ocurra el suceso A si ocurrió el suceso B,
esta dada por:
P( A  B)
P( A|B)  , P( B)  0 (1)
P( B)
• Si se sabe que ha ocurrido B, este suceso se convierte en el

nuevo espacio muestral, de ahí que el denominador sea P(B).
• El numerador es la intersección de los eventos A y B, pues si se
sabe que ocurrió B, esta es la única posibilidad de que A también
haya ocurrido.
La probabilidad de que ocurra el suceso B dado que ocurrió el suceso A,

esta dada por:
P( A  B)
P( B| A)  , P( A )  0 (2)
P( A)
Teorema del producto

De (1) y (2) se deduce el teorema del producto, el cual señala que:
P(A  B) = P(A)P(B|A) = P(B)P(A|B)
Ejemplo 01:
Un analista asigna probabilidades subjetivas a los eventos A y B, donde:
A: El producto presenta falla tipo A.
B: El producto presenta falla tipo B,
De tal modo que :
P(A) = 1/2 P(B) = 1/5 P(AB) = 1/16
¿Cuál es la probabilidad de que el producto presente falla tipo A dado que ha

presentado falla tipo B?
P( A  B) 1 / 16 5
P( A | B)     0.3125
P(B) 1/ 5 16
CASO: Refrescos
En un estudio relacionado a las preferencias, de los consumidores,
por las principales marcas de néctares de frutas existentes en el
mercado, se recabaron las opiniones provenientes de 400
encuestados. Los datos recabados se refieren a:
C1: Grupo-edad (Menos de 30 años, De 30 a menos de 50 años o

50 años a más)
C2: Marca (Frugos, Pulp, Tampico o Watts)
C3: Género (Hombre o Mujer)
CASO: Refrescos
A continuación se presenta la tabla asociada a las
características Grupo de edad y Marca
Marca
Grupo de edad Total
Frugos Pulp Tampico Watts
< 30 años 25 33 29 37 124
30 a 50 años 61 52 25 58 196
50 a más 18 23 14 25 80
Total 104 108 68 120 400
CASO: Refrescos
A continuación se presenta la tabla asociada a las
características Marca y Género
Género
Marcas Total
Hombres Mujeres
Frugos 48 56 104
Pulp 44 64 108
Tampico 30 38 68
Watts 62 58 120
Total 184 216 400
b) Si se selecciona un encuestado al azar, ¿Cuál es la

probabilidad de que sea mujer y prefiera la marca Pulp?
64
P(Mujeres|Pulp) = = 0.16
400
c) Si se selecciona un encuestado al azar, ¿Cuál es la

probabilidad qué prefiera la marca Frugos, si se sabe tiene
entre 30 a 50 años?
P(Frugos|30 a 50 años) =
P(Frugos  30 a 50 años ) n(Frugos  30 a 50 años ) 61

  
P(30 a 50 años ) n(30 a 50 años ) 196
d) Si se selecciona un encuestado de entre los que prefieren

Tampico, ¿Cuál es la probabilidad qué tenga de 30 años a más?
P(  30 años|Tampico) = 1 – P(< 30 años| Tampico) =
29
P(  30 años|Tampico) = 1 –  0.574
68
e) Si se selecciona un encuestado al azar, ¿Cuál es la

probabilidad de seleccionar a alguien que prefiera Frugos o
Tampico, dado de que es mujer?
56  38 94
P([Frugos  Tampico]|Mujer) =   0.435
216 216
f) Si se selecciona un encuestado al azar de entre los que

consumen Frugos o Watts, ¿cuál es la probabilidad de
seleccionar a un hombre?
48  62 110
P( H F  W )    0.491
104  120 224
Escenario: Del total de encuestados, se realizó una grabación en

video de las respuestas brindadas por 5 encuestados. De estos 5
encuestados, 3 eran hombres y 2 eran mujeres.
Se seleccionarán a 2 de los encuestados para otorgarles un premio
por su colaboración.
g) Si se selecciona a 2 encuestados al azar, uno después de otro,
¿cuál es la probabilidad de que los 2 sean hombres?
El diagrama de árbol es útil para representar esta situación.

 Cada nodo representa el estado posible del experimento.
 La ramas representan los resultados posibles. Cada rama es
rotulada por su resultado y la probabilidad de observarlo. La
suma de probabilidades de las ramas de cada nodo es igual a 1.
 Del nodo inicial, se dibuja una rama para cada una de las
primeras posibilidades en análisis. Las ramas posteriores
representan probabilidades condicionales.
 El fin de cada rama parcial, es a su vez un nodo del cual parten
nuevas ramas, según las posibilidades del siguiente paso, a
excepción del nodo que representa el final del experimento.
 Los nodos al final representan todos los resultados finales
posibles del experimento y se denominan hojas.
1er persona 2da persona

Seleccionada Diagrama de árbol Seleccionada
Mujer
encuestada 1/4
Mujer
encuestada
2/5
Hombre
3/4
encuestado
Mujer
2/4
encuestada
3/5
Hombre
encuestado
Hombre
encuestado 2/4
Mujer encuestada Hombre encuestado

Respuesta:
• La probabilidad de que el primer encuestado seleccionado sea
hombre: 3/5
• La probabilidad de que el segundo encuestado seleccionado

sea hombre: 2/4
3 2
• Probabilidad solicitada: *  0.30
5 4
h) Si se selecciona a 2 encuestados al azar, uno después de otro,

¿cuál es la probabilidad de se seleccione por lo menos a una
mujer?
La probabilidad de que el primer encuestado seleccionado sea

2
mujer:
5
La probabilidad de que el segundo encuestado seleccionado

3
sea hombre:
4
2 3
Probabilidad 1ero mujer y 2do hombre: *  0.30
5 4

2
mujer:
5

sea mujer: 1
4
2 1
Probabilidad 1ero mujer y 2do mujer: *  0.10
5 4

hombre: 3
5

2
sea mujer:
4
3 2
Probabilidad 1ero hombre y 2do mujer : *  0.30
5 4
Probabilidad solicitada:
2 3 2 1 3 2
* + * + * = 0.70
5 4 5 4 5 4
NOTA: La probabilidad solicitada es el complemento de la

probabilidad solicitada en el ítem anterior.
Teorema de Probabilidad Total

Permite calcular la probabilidad de un evento a partir de sus
probabilidades condicionadas a la ocurrencia de un conjunto de
eventos que conforma una partición del espacio muestral, y de las
probabilidades de los eventos de dicha partición:
Sea B1, B2,..., Bk un conjunto de
eventos que conforman una partición
del espacio muestral S, y A un evento
cualquiera.
Se concluye que:
Teorema de Bayes
Sea B1, B2, ..., Bk partición del espacio muestral S, y sea Bj un evento
de la partición, entonces:
Estas probabilidades P(Bj|A) provenientes de la expresión anterior,

son denominadas probabilidades a posteriori y son útiles porque
permiten comparar las probabilidades obtenidas después de la
ocurrencia del evento A de interés, con sus correspondientes
probabilidades a priori
CASO: Multiprint
Multiprint es una empresa que se dedica a la venta de equipos de
cómputo, periféricos y accesorios. En un reciente análisis de las
ventas de impresoras realizadas por sus 2 locales: Local A y Local B,
se ha resumido lo siguiente:
El Local A vende el 55% del total de las impresoras comercializadas

por la empresa, siendo las impresoras láser el 30 % del total de sus
ventas de impresoras del mencionado local. En el Local B las
impresoras láser representan el 40 % del total de sus ventas de
impresoras.
CASO: Multiprint
a) Elabore el árbol de probabilidades asociado a la información
proporcionada.
CASO: Multiprint
b) Si se selecciona un registro, de venta de impresoras, al azar de la
base de datos de la empresa, ¿cuál es la probabilidad de que sea de
una impresora láser?
Prop. venta impresoras láser

i Local (i) P(Local[i]) P(Local[i])*P(Láser|Local[i])
P(Láser|Local(i))
1 A 0.550 0.30 0.165
2 B 0.450 0.40 0.180
P(Láser) = 0.345
P(Láser) = 0.55*0.30 + 0.45*0.40 = 0.165 + 0.18 = 0.345

CASO: Multiprint
c) Al seleccionar un registro de venta de impresoras láser, ¿Cuál es la
probabilidad de que proceda de una venta realizada en el Local A?
¿del Local B?
i Local (i) P(Local[i]) P(Láser|Local(i)) P(Local[i])*P(Láser|Local[i]) P(Local[i]|Láser)
1 A 0.550 0.30 0.165 0.47826

2 B 0.450 0.40 0.180 0.52174
P(Láser) = 0.345
Variable Aleatoria
Definición: Se define como variable aleatoria a una función X que
asocia a cada uno de los elementos s que pertenecen al espacio
muestral S y un número real X(s):
Rango o recorrido de una variable aleatoria (R)
Rango es el conjunto de valores reales que adopta la variable
aleatoria: Rx = {x  R/x = X(s)}
Experimento aleatorio: Lanzar una moneda al aire y
observar el lado superior al caer. S = {Cara, Sello}. En este
caso los sucesos y eventos no son números reales.
Variable aleatoria: Si el resultado es “Sello” se pierde S/. 1,
y se gana S/. 1 si el resultado es “Cara”. Rx = {- 1, 1}
VARIABLE ALEATORIA DISCRETA

Sea X variable aleatoria discreta, con rango Rx, definida como: Rx = {x1, x2, ..., xn,...}. A cada xi se le asocia
n
una función p(xi) = P[X = xi] llamada función de cuantía: p(xi) ≥ 0, xi  R.  p(x )= 1
i 1
i
El conjunto de pares de la forma {xi, p(xi) } recibe el nombre de Distribución de Probabilidades de la

variable aleatoria discreta X y contiene toda la información necesaria para estudiarla.
Función de distribución acumulada de una variable aleatoria discreta
La función de distribución acumulada de una V. A. Discreta, se define como: Fx  a    p  xi 
i a
Características numéricas de una variable aleatoria discreta

Sea X variable aleatoria discreta con recorrido Rx y con función de cuantía p(xi)
Esperanza matemática Varianza
Valor esperado:  x2 = V(X) = E{[X – E(X)]2} = E(X2) – [E(X)]2 =  x 2
i * p( xi ) – [E(X)]2
E(x) = 
xi  Rx
xi p(xi) Desviación estándar: X = V( X )
1 Distribución de Poisson
Es una distribución muy usada en el entorno empresarial. Se deriva del
proceso de Poisson en honor al matemático francés Simeon Denis
Poisson (1781-1840).
Debe cumplir las siguientes condiciones:
La ocurrencia de los eventos son independientes.
El número promedio de veces () que ocurre un éxito por cada unidad
de tiempo o de espacio es constante.
Definición
Sea X una variable aleatoria que se distribuye como una Poisson
con parámetro , si su función de probabilidad es:
e 
 x
P( X  x ) 
x! donde x = 0, 1, 2, ...
Notación: X ~ Poisson ()
P(X = x) es la probabilidad de ocurrencia cuando la variable

discreta X toma un valor finito x.
Características
Sea X una variable aleatoria que sigue una distribución de Poisson,

entonces:
Esperanza: E(X) = 
Varianza: V(X) = 
La distribución de Poisson es la única distribución cuya esperanza y
varianza son iguales y tienen el valor del parámetro de la
distribución.
Ejemplos de aplicación
Se usa cuando se refiere a la distribución del número de
ocurrencias por unidad de medición (tiempo, espacio, etc.):
Distribución del N° de llamadas telefónicas por minuto en un

call center.
Distribución del N° de clientes que llegan a una entidad

financiera.
Caso: Inversis
El Administrador de una agencia del Banco Inversis, determinó que
la cantidad de clientes que ingresan a la mencionada agencia,
durante el horario de la mañana, sigue una distribución de Poisson
con un promedio de 3 clientes cada minuto.
a) Defina la variable de estudio, la distribución correspondiente y

su respectivo parámetro.
X: Cantidad de clientes que ingresan a la agencia, durante el
horario de la mañana, cada minuto.
X  Poisson ( = 3)
Caso: Inversis
b) ¿Cuál es la probabilidad qué ingresen 2 clientes en un período
de 1 minuto?
P(X = 2) = 0.224
Calculadora SPSS
Caso: Inversis
c) ¿Cuál es la probabilidad qué ingresen como máximo 4 clientes
en un período de 1 minuto?
P(X  4) = 0.8153
Calculadora SPSS
Caso: Inversis
d) ¿Cuál es la probabilidad qué ingresen más de 2 clientes en un
período de 1 minuto?
P(X > 2) = 1 – P(X  2) = 1 - 0.4232 = 0.5768
e) ¿Cuál es la probabilidad qué ingresen como mínimo 4 clientes en

un período de 1 minuto?
P(X ≥ 4) = 1 – P(X < 4) = 1 – P(X  3) = 1 - 0.6472 = 0.3528
f) ¿Cuál es la probabilidad qué ingresen más de 1 pero a lo más 4

clientes en un período de 1 minuto?
P(1 < X  4) = P(X  4) – P(X  1) = 0.8153 - 0.1991 = 0.6162
2 Distribución Normal
La distribución Normal es la más importante de las distribuciones
continuas y ha sido estudiada desde 1733 por DeMoivre (1667-
1754). En 1809, Gauss (1777-1855) la utilizó para modelar datos
astronómicos.
La distribución Normal es el soporte de todo lo que se conoce
como “estadística clásica”. Esto significa, que muchas técnicas
estadísticas requieren que los datos se comporten como la normal
para su correcta aplicación
Definición
Se dice que la variable aleatoria continua X, tiene distribución
Normal con parámetro  , σ. 2
X  N   , 
Función de densidad de probabilidad de una Normal con
parámetro (,σ) es:
2
1  x 
1   
f  x  e 2  
-   x  ; -    ;   0
2
2
Si X  N(, 2), entonces : E(X) = , Var(X) = 2
Ejemplos de aplicación
Distribución de las remuneraciones mensuales.
Contenido (peso) de productos empacados.
Tiempo de realización de determinadas actividades

Caso: Inversis
Se han presentado solicitudes para el refinanciamiento de los
créditos hipotecarios por parte de los clientes y no clientes de
Inversis. El tiempo de atención de las solicitudes, por parte de los
evaluadores financieros, desde su recepción hasta la entrega de
resultados presenta una media de 48 horas y una desviación
estándar de 2.5 horas.
a) Defina la variable de estudio, la distribución correspondiente y
su(s) respectivo(s) parámetros.
X: Tiempo de atención de las solicitudes.
X  Normal ( = 48, 2 = 2.52)
Caso: Inversis
b) ¿Cuál es la probabilidad de que el tiempo de atención de una
solicitud de refinanciamiento demore menos de 50 horas?
P(X < 50) = 0.7881
Calculadora SPSS
Caso: Inversis
c) ¿Cuál es la probabilidad de que el tiempo de atención de una
solicitud de refinanciamiento demore por lo menos 45 horas?
P(X  45) = 1 – P(X < 45) = 0.8849
Calculadora SPSS
Caso: Inversis
d) ¿Cuál es la probabilidad de que el tiempo de atención de una
solicitud de refinanciamiento demore más de 45 horas pero
menos de 50 horas?
P(45 < X < 50) = P(X < 50) - P(X < 45) = 0.6731
Calculadora SPSS
Caso: Inversis
e) Si se sabe que P(X < k) = 0.80, ¿cuál es el valor de k?
k = 50.10 horas
Calculadora SPSS
Distribución Normal Estandarizada Z  N  0, 1

Si la variable aleatoria continua X, tiene distribución Normal,
entonces, la variable aleatoria estándar determinada por Z   X   

tiene una distribución normal estándar: Z  N(0,1)
Función de Densidad de Probabilidad de una Normal
Estandarizada es:
1
1  x2
f  x  e 2 -  x  
2
     y   0
Si X  N(o, 12), entonces : E(Z) = 0, Var(Z) = 1
1
1  x2
f  x  e 2 -  x  
2
3 Distribuciones muestrales de la media y proporción

Una distribución muestral permiten analizar el comportamiento
de los estimadores obtenidos a partir de una muestra, tales
como: la media muestral ( x ) o la proporción muestral (p).
Distribución de una media con varianza poblacional conocida

Sea una variable X que se distribuye normalmente:
X  N   , 2 
Si se obtienen muestras de tamaño “n” y se calculan las media

muestrales, entonces, la media muestral también se distribuye
normalmente:
 2 
x  N  , 
 n 
Caso: Suministros de cómputo

En una revista de negocios se ha encargado la realización de un
estudio orientado a las tiendas especializadas en artículos de
cómputo. De acuerdo a los datos recabados a nivel nacional se ha
determinado que el monto de ventas semanal, en el rubro de
suministros, de las tiendas se distribuye en forma normal con una
media de S/ 36400 y una desviación estándar de S/ 4800.
X: Monto de ventas semanal de las tiendas (rubro de suministros).

X  Normal ( = 36400, 2 = 48002)

a) En una muestra de 64 tiendas, obtenga la probabilidad que la
media muestral del monto de ventas semanal sea de por lo
menos S/ 36000
x : Media muestral del monto de ventas semanal de las tiendas.
n = 64 tiendas
 48002 
x : Normal  36400,   x : N36400,600 2

 64 
Hallar: P( x ≥ 36000) = 0.5332

Distribución muestral de una proporción

Sea x1, x2, …, xn una muestra aleatoria de tamaño “n” extraída de una
población de Bernoulli B(1, p), donde p es la proporción de éxitos en
la muestra definida como:
x1  x2  ...  xn X
p 
n n
Si n es suficientemente    1    
p  Normal  , 
grande, entonces:  n 

Se sabe que el 40% de los microprocesadores que se comercializan
son de la marca AMD.
a) De 100 clientes que adquirirán un microprocesador, obtenga la
probabilidad que a lo más el 45% adquiera procesadores de la
marca AMD.
n = 100 clientes

p  N  0.40,
 0.40 1  0.40  
 p : N  0.40,0.049 2


 100 
Hallar: P(p  0.45) = 0.8462
Plantea pruebas de hipótesis enfocándose en los entornos empresariales
1 Hipótesis estadística
Una hipótesis estadística es una aseveración que se hace acerca de
la distribución de probabilidad de una o más variables aleatorias,
la cual puede ser verdadera o falsa.
Clases de hipótesis
Hipótesis Nula (H0). Es la primera afirmación que se va a someter
a prueba para ser aceptada o rechazada, es decir, la que se desea
verificar.
Hipótesis Alternativa (H1). Es aquella que se acepta si la hipótesis
nula es rechazada.
Hipótesis estadística
Según la forma de la región de rechazo, existen dos tipos de
prueba de hipótesis:
Prueba unilateral Prueba bilateral
Prueba de cola izquierda o inferior

H0:  = 0
Prueba de 2 colas o Bilateral
H1:  < 0
H0:  = 0
Prueba de cola derecha o superior H1:   0
H0:  = 0
H1:  > 0
Tipos de error
Error de Tipo I.- Este error consiste en tomar la decisión de
rechazar H0 cuando es cierta y su medida en términos de
probabilidad está dada por:
  P error tipo I  P rechazar H0 cuando Ha es verdadera 


  f ( x )dx   f 0 ( x )dx
X0 C
NOTA: a la letra griega alfa () se denomina nivel de significación.
Tipos de error
Error de Tipo II.- Este tipo de error consiste en tomar la decisión
de aceptar H0 cuando es falsa y su medida esta dada por:
  P error tipo II  P aceptar H0 cuando Ha es verdadera 
X0
  f ( x )dx   f1 ( x )dx
 A
Función de potencia
El complemento del Error tipo II es la Función de Potencia ó
Potencia de la Dócima, es decir:

P    1     f1  x  dx
C
NOTA: La potencia de la prueba es la probabilidad de rechazar lo

que es falso.
Descripción gráfica del error tipo I y tipo II

Error tipo I Pto. Crítico Error tipo II
“”
“”
Rechazar H0 Aceptar H0
cuando es cuando es falsa
verdadero
-  = 1 X0  = 0 +
H1 H0
Reg. Rechazo Reg. Aceptación
Cuadro resumen
H0 Verdadera H0 Falsa
Error Tipo I Decisión correcta
Rechaza H0
 1-
Decisión correcta Error Tipo II
Aceptar H0
1- 
Suposición básica: X  N( , 2)

Media poblacional () x  0
Varianza Poblacional Conocida Estadístico de Prueba: Z0 
 n
Prueba unilateral – Cola izquierda Prueba unilateral – Cola derecha
H 0 :   0 H 0 :   0
H a :   0 H a :   0
R.A R.A
R.C. . . R.C.
Z  Z1 

Prueba bilateral
H 0 :   0
H a :   0
R.A
.
R.C. R.C.
Z Z 1
 2  2 
Regla de decisión: Si Z0  R.C., entonces, se Rechaza H0, en caso contrario se

Acepta.
Suposición básica: X  B(n , )

p 0
Proporción poblacional () Estadístico de Prueba: Z0 
 0 1   0 
n
Prueba unilateral – Cola izquierda Prueba unilateral – Cola derecha
H0 :    0 H0 :    0
Ha :    0 Ha :    0
R.A R.A
R.C. . . R.C.
Z  Z1 

Prueba bilateral
H0 :    0
Ha :    0
R.A
.
R.C. R.C.
Z Z 1
 2  2 
Regla de decisión: Si Z0  R.C., entonces, se Rechaza H0, en caso contrario se

Acepta.
Caso: Comics y manga

Un joven emprendedor posee una tienda on line donde comercializa
artículos de las principales editoriales de comics y de manga. Se ha
elaborado una base de datos con los últimos 120 clientes que
adquirieron artículos, entre las que destacan las siguientes
características.
• Línea: Línea de producto (DC Comics, Marvel, Manga)
• Valorización: Monto ($) de compras realizadas por el usuario
durante el último semestre.
Archivo: Comics y manga.sav
Anteriormente lo artículos de la línea Marvel representaba el 40% de
la participación de las ventas.

a) Plantee la hipótesis asociada al presente caso.
H0: Marvel = 0.40

H1: Marvel > 0.40
b) Luego de la recopilación de datos (ver archivo), ¿cuál sería su

conclusión al respecto?  = 0.05.
Para responder a la pregunta se ingresará al SPSS y se realizará el
siguiente procedimiento.
Seleccionar “Personalizar análisis”, y luego pasar a Configuración
Seleccionar “Personalizar pruebas”, marcar 1ra casilla, y luego Opciones
Completar de acuerdo a lo señalado
Nota: Para la variable Línea, en la configuración de valores: 3 = Marvel

Luego de Aceptar y Ejecutar se obtiene el siguiente reporte:

El empresario con anterioridad había determinado que sus clientes
gastaban S/ 445 cada semestre en la adquisición de artículos, pero
considera que el volumen ventas viene disminuyendo, de tal forma
que ha señalado que si comprueba que la venta promedio por cliente
ha disminuido, entonces, implementará algunas estrategias de
marketing para revertir tal situación.  = 0.03.
c) Plantee la hipótesis asociada al presente caso, y realice la prueba
correspondiente.
H0:  = 445
H1:  445
Ingresar al SPSS y seguir el siguiente procedimiento:
Editar la ventana según se muestra:
Luego de Aceptar se obtiene el siguiente reporte:
P value = 0.15/2 = 0.075 (Prueba unilateral) > 0.03 = , entonces, no

se rechaza H0, es decir, la media poblacional del monto de venta es
de S/ 445 (no ha disminuido)
UNIDAD IV
Regresión Lineal Simple. Series de tiempo y Herramientas
Estadisticas de Control de Calidad
1. Regresión Lineal
Simple
266
Objetivo
Encontrar modelos estadísticos que puedan ser usados para predecir los valores
de una variable dependiente basado en los valores de una variable
independiente.
2
Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable dependiente
“Y”, en base a lo que ocurre o lo que sucede con la variable independiente ”X”.
Modelo Poblacional:
Yi = β0 +β1 Xi + εi
Donde:
Yi = Variable dependiente (respuesta).

Xi = Variable independiente (explicativa, regresora, predictora).
β0 = Intercepto en la ordenada. Cuando X= 0, Y= β0
β1 = Pendiente de la recta.
Pendiente positiva (β1 > 0). Existe una relación lineal directa.
Pendiente negativa (β1 < 0). Existe una relación Lineal inversa.
εi = Variable aleatoria no observable, denominada también error aleatorio, representa a las otras
variables no consideradas en el modelo.
268
Ejemplos:
Pueden existir variables que presenten un grado de relación natural entre sí, como por
ejemplo :
¿Existe una relación lineal entre las dos variables?

1. El ingreso de un trabajador se relaciona con el número de horas trabajadas.
2. Las ventas en función a los gastos de publicidad.
3. Los egresos en relación a los ingresos de los trabajadores de una empresa.
4. El precio de un producto en relación a la producción.
5. El precio de entrada a un evento en relación al número de entradas vendidas.
6. Nota obtenida en un curso en relación al número de horas dedicada al estudio.
269
Procedimiento para realizar un análisis de
Regresión Lineal Simple
1. Identificar la variable dependiente y la variable independiente.
2. Realizar un diagrama de dispersión.
3. Definir la función de regresión.
4. Estimación de los coeficientes mediante el método de mínimos cuadrados.
5. Estudio de la adecuación del modelo, para analizar la bondad de ajuste del modelo a
los datos, se realiza mediante:
a) Coeficiente de Correlación.
b) Coeficiente de Determinación.
d) Prueba de hipótesis global (Prueba F).
6. Validación del modelo. Se realiza la comprobación de los supuestos en relación al
término ε del modelo:
a) Normalidad
b) Homocedasticidad
7. Uso del modelo para realizar predicciones.
5
1. Identificación de:
Variable dependiente: Y
Variable independiente: X
2. Identificar el tipo de relación existente entre las variables a través del diagrama de
dispersión.
6
DIAGRAMA DE DISPERSIÓN
y
y
x
x
Relación lineal directa Relación lineal inversa
y y
x x
Relación no-lineal No hay relación
272
3. Definir la función de regresión lineal.
Y = f (x)
Ecuación de la recta:
Y = a + bX + Ԑ
Y = β0 + β1 X + Ԑ
9
4. Estimación de los coeficientes de la recta de regresión.
Realizada la gráfica, se procede a calcular cuál es la ecuación de regresión lineal apropiada
que mejor represente los datos. La recta apropiada tendrá que ser la que tenga la suma
mínima del cuadrado de los errores definido como la diferencia entre el valor observado (Y) y
el valor estimado por la ecuación de regresión lineal (Ŷ). A este método se denomina Mínimos
Cuadrados.
Modelo de regresión poblacional:

Y = a + bX +Ԑ o Y = β0 +β1 X1 + Ԑ
Modelo de regresión muestral:
Y = a + bX + ei o Y = β0 +β1 X1 + ei
10
4. Estimación de los coeficientes de la recta de regresión.
Estimar los coeficientes a través del Método de Mínimos cuadrados (MMC)
El método de los Mínimos cuadrados minimiza la expresión:
 
n n
 i  i i  m ínim o
  ˆ
2 2
e Y Y
i 1 i 1
donde:
ei= Residual (diferencia entre el valor observado y el valor estimado).
Yi= Valor observado.
Ŷi= Valor estimado por la ecuación de regresión lineal.
11
Estimación del modelo de regresión lineal simple:
Recta de Mínimos
Cuadrados
Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011
14
Fórmula para calcular la pendiente:
n n n
n  x i yi   x i  yi
b  1  i 1 i 1 i 1
2
n
 
n
n xi    xi 
2
i 1  i 1 
Fórmula para calcular el intercepto:

n n

 y i   x i 
a   0  i 1 b i 1 
n  n 
 
 
a  y  bx
277
5. Adecuación del Modelo
a) Coeficiente de Correlación : r
El análisis de CORRELACIÓN nos permite determinar el grado en el que están relacionadas
las variables X e Y.
El análisis de CORRELACIÓN, nos dice qué tan bien la ecuación de regresión describe la
relación de las variables.
Fórmula: n n n
n xi yi   xi  yi
r i 1 i 1 i 1
 n 2  n  2  n 2  n  2 
     
 n x   x   n y   y  
 
i i i i
 i 1  i 1   i 1  i 1
-1 ≤ r ≤ 1
-1 -0.70 0 0.70 1
Cuando r se aproxime a 1 ó -1, existe una relación fuerte.
278
b) Coeficiente de Determinación ( r2 ) :
Indica en qué proporción la variable independiente X explica el comportamiento de la

variable dependiente Y.
Fórmula:
 n n

 n  X i  Yi 
0≤ r2 ≤1
b *   X iYi  i 1 i 1 
 i 1 
 Yˆ  Y 
n
2 n
2 i  
r2 
SCR S Yˆ
 2  i 1
  
n 2
 Y Y   n 
STC S Y
  Yi 
2
i
Yi   i 1 
i 1 n

2
i 1 n
Donde:
2
S Yˆ = Es la varianza explicada por la ecuación.
2
S Y = Es la varianza Total
279
c) Prueba de hipótesis: Análisis de Varianza (ANOVA)
El análisis de la adecuación del modelo a nivel población, se reduce al análisis de la
significancia estadística de la suma de cuadrados debido a la regresión, respecto de la suma de
los cuadrados de los errores. Esta significancia se mide con el estadístico F, también conocida
como prueba de significancia global.
Pasos a seguir:
1) Planteamiento de la hipótesis:
H0: βi = 0 (El modelo de regresión lineal no es adecuado a nivel poblacional)
H1: βi ≠ 0 (El modelo de regresión lineal es adecuado a nivel poblacional)
2) Nivel de significancia
α = 0.05 (Nivel de confianza 95%)
3) Estadística de Prueba
Para ello se construye la tabla ANOVA
17
Tabla de Análisis de Varianza
(ANOVA)
Fuente de Suma de Grados de Cuadrado Estadística P_Valor
Variación Cuadrados Libertad Medio de prueba

(Prueba F)
Regresión SCR k-1 CMR =SCR/k-1
CMR
Fcal 
Residual SCE n–k CME =SCE/n-k CME
Total SCT n-1
n __ 2 n 
SCT   (Yi  Y) SCE   (Yi  Y ) 2 SCR = SCT - SCE

i 1
i
i 1
281
Entonces el estadístico de prueba es:
CMR
Fcal 
CME
4) Comparar:
Decisión 1:
Si Fcal > Ftab. Entonces se rechaza la hipótesis nula.
FTab(α ;k-1,n-k) = Este valor se halla en la tabla de la distribución F.
Se llega a la misma conclusión observando el “P_valor”
Decisión 2:
Si P_valor < . Entonces se rechaza la hipótesis nula
19
6. Validación del modelo: Comprobación de supuestos
a) Homocedasticidad:
En el diagrama no debe existir tendencias, que la variabilidad de los residuos se mantengan
aproximadamente constante, que exista homocedasticidad.
20
b) Normalidad:
Si los puntos están alineados alrededor de la recta diagonal, se considera que los residuales tienen una
buena aproximación a la curva normal.
284
7. Uso del modelo para realizar estimaciones futuras de la variable dependiente en
función de la variable independiente.
Luego de verificar la adecuación y la validación del modelo y si el modelo logra pasar
este proceso, entonces estamos en condiciones de utilizar el modelo de regresión
lineal simple para predecir una nueva observación de la variable Y para un valor
determinado de X.
Está estimación puede realizarse de dos formas: puntual y por intervalos, para el
curso se utilizará la estimación puntual.
22
2. Series de Tiempo
286
Objetivo
Realizar un análisis de la serie de tiempo con la finalidad de determinar patrones

de cambio en la información de datos recolectados a través del tiempo, proyectar
estos patrones para obtener una estimación para el futuro.
287
Introducción
Los cambios futuros no sólo de la demanda, sino también de la oferta, se conocen con cierta
exactitud si se usan las técnicas estadísticas adecuadas para analizar el presente. Para ello se usan
las llamadas series de tiempo, pues lo que se desea observar es el comportamiento de un
fenómeno respecto al tiempo.
288
Variación en las series de tiempo
Las variaciones de una serie se clasifican en sistemáticas y aleatorias. Las variaciones
sistemáticas ocurren con regularidad, siendo posible ser medidas y pronosticadas; por otra
parte las variaciones aleatorias son causadas por sucesos aislados tales como huelgas,
desastres naturales, etc. En consecuencia no pueden ser pronosticados.
Una serie se compone de los siguientes tipos de variaciones:
1) Variaciones sistemáticas:
Tendencia
Cíclica
Estacional
2) Variación irregular o variación aleatoria.
289
Análisis de tendencia
La tendencia es la más común en las variaciones sistemáticas de las series de

tiempo para estudiar la demanda y la oferta.
La tendencia es el componente que constituye la base del crecimiento o
decrecimiento de una serie, en un período a largo plazo.
Para calcular una tendencia existe varios métodos:
• El Gráfico
• El de Medias Móviles
• El de Mínimos Cuadrados
Cuando la tendencia es no lineal (la parabólica y la exponencial).
290
Serie original y sus componentes
291
Estimación de la componente de la tendencia a través
del Método de Mínimos Cuadrados
Y = f (t)
Variable Tiempo
Dependiente
Modelo:
Y = a + bt + ei
Para estimar los valores de a y b aplicamos el MMC
Yˆ  ( ) ( )t
292
Regresión Lineal Múltiple
(Una extensión de los modelos de RLS)




Encontrar modelos estadísticos que puedan ser usados para predecir los
valores de una variable dependiente conocida también como variable
respuesta, basado en los valores de varias variables independientes
denominadas variable explicativas.
293
REGRESIÓN LINEAL MÚLTIPLE
El objetivo del Análisis de Regresión Lineal Múltiple es el de construir un modelo que

permita pronosticar o estimar el valor de una variable Y, en base a un conjunto de
variables X1, X2,....,Xp
Y=f (X1, X2,X3,……………….....,Xp)
A la variable Y se le llama variable dependiente (respuesta) y es la que se quiere

estimar o predecir.
Las variables X1, X2,....,Xp son las variables independientes o variables predictoras, o
variables explicativas o variables regresoras.
294
REGRESIÓN LINEAL MÚLTIPLE
El modelo poblacional de regresión lineal múltiple, con p variables independientes, es el

siguiente:
Yi  β 0  β1X1  β 2 X 2  ...  β p X p  ε i
Donde:
βo: Representa el valor medio de la variable respuesta Y cuanto todas las variables explicativas
Xi = 0
βi: Parámetros desconocidos, llamados coeficientes de regresión. i = 0,1,2,3,...,p
εi: Error aleatorio del modelo, y se suponen independientes y normalmente distribuidos
con media 0 y varianza σ2
Los parámetros desconocidos llamados coeficientes de regresión son estimados Mediante
el Método de los Mínimos Cuadrados.
Ŷi   0  1 X1   2 X 2  ...   p X p
Donde: βi = Son los estimadores de los coeficientes de regresión i = 0, 1,2,3,...,p
295
Pasos a seguir para realizar un análisis de
Regresión Lineal Múltiple
1. Realizar los diagramas de dispersión y análisis de la matriz de correlaciones.

2. Definir la función de regresión.
3. Estimación de los coeficientes mediante el método de Mínimos Cuadrados.
4. Estudio de la adecuación del modelo.
a) Coeficiente de Correlación Múltiple.
b) Coeficiente de Determinación y Coeficiente de Determinación Ajustado.
c) Prueba de hipótesis (Prueba F y Prueba t).
5. Validación del modelo: Comprobación de supuestos
6. Uso del modelo para realizar predicciones (Modelo Final).
296
EJEMPLO
El gerente de personal de una empresa textil de Gamarra, realizó un estudio con 26 operarios
para determinar la relación entre las siguientes variables:
Y : COMPORTAMIENTO HACIA EL TRABAJO
X1 : Horas semanales de trabajo

X2 : Nº de prendas que confecciona por semana
X3 : Años de experiencia
297
1. Realizar los diagramas de dispersión
298
Análisis de la Matriz de correlaciones
299
2. Definir la función de regresión (Modelo propuesto):
Y = f (X1, X2 , X3)
Yi  β 0  β1X1  β 2 X 2   3 X 3  ei
3. Estimación de los coeficientes del modelo (Método de Mínimos Cuadrados):
Modelo estimado:
Y=-21.664+0.277X1 + 0.394X2 +0.002X3
300
4. Estudio de la adecuación del Modelo
0.985
a) COEFICIENTE DE CORRELACIÓN:
r = 0.985
Existe una relación lineal fuerte (0.985) entre la variable comportamiento hacia el trabajo
con las variables horas semanales de trabajo, número de prendas confeccionadas y años
de experiencia.
b) COEFICIENTE DE DETERMINACIÓN:
r2= 0.970
El 97% las variaciones de la variable comportamiento hacia el trabajo se ven explicadas
por las variaciones de las variables: horas semanales de trabajo, número de prendas
confeccionadas y años de experiencia y el 3% no explica dicha variación, al 95% de
confianza el ajuste realizado es adecuado.
301
c) Prueba de Hipótesis:
1) Prueba Global ( F ) de significancia del modelo
Esta prueba permite determinar si el modelo es significativo o no, para esto se contrasta la
siguiente hipótesis:
Valor crítico:
H0: 1 = 2 = .... = p = 0
Ftab  F ;k 1,n  k
H1: 1 ≠ 2 ≠ .... ≠ p ≠0 (Al menos uno de los βi es diferente de
cero)
Decisión:
Nivel de significancia : α = 0.05
Estadístico de Prueba: (Ver Tabla ANOVA)
CMR
Fcal 
CME
Re chazar H o si :
Fcal  Ftab ( ,k 1,n  k )
302
Tabla ANOVA
Ho= βi = 0
H1= βi ≠ 0
α = 0.05
0.00
FCal= 369.26
Ftab = F(0.05;3,22)= 3.05
Como Fcal > Ftab, Entonces se rechaza Ho, se concluye que por lo menos algunos de βi, interviene
en el modelo.
Como se ha concluido que por lo menos algunas de las variables intervienen en el modelo,
pasaremos a realizar una prueba t, para averiguar cuales son las variables que contribuyen
significativamente al modelo y que variables podemos eliminar.
303
2) Prueba de significancia individual: Prueba T
Esta prueba permiten determinar la significancia de cada uno de los parámetros individuales es decir
si las variable regresoras Xj (i=1,2,...,p), aporta información al modelo. Así para cualquier parámetro βi
se plantea lo siguiente:
Planteamiento de la hipótesis: Decisión:

H0: i = 0 (La variable Xi no es estadísticamente significativa)
H1: i  0 (La variable Xi es estadísticamente significativa)
Nivel de significancia:
α=0.05
Estadística de prueba:
tn-1;α/2 tn-1;1-α/2
𝛽𝑖
𝑡𝑐𝑎𝑙 = ~ 𝑡(𝑛−1) Re chazar Ho si :
𝑆𝛽𝑖
tCal  t n 1; 1 / 2
304
Tabla para realizar la prueba t
T calculado
=0.277/0.093 2.97849462 Es significativa
=0.394/0.122 3.2295082 Es significativa
=0.002/0.005 0.4 No es significativa
t25,0.975 = 2.060
La variable eliminada es Años de experiencia:
305
En la Prueba t, para los coeficientes de Regresión. Se elimina la variable: X3 = años de experiencia.
Trabajamos el modelo de regresión con las variables que resultaron estadísticamente significativas:
X1= Horas semanales de trabajo.
X2= Número de prendas confeccionadas.
Realizamos una nueva corrida con las variables significativas para llegar al modelo final.
Tabla de estimación de los coeficientes para el modelo final:
Modelo final de regresión lineal múltiple estimado:

Y=-21.994+0.278X1 + 0.402X2
Este modelo, resulta útil para determinar un valor estimado para la variable Y en función de
valores conocidos de las variables independientes.
306
Diagramas de Control
para variables y
atributos
William Edward Deming, considerado el padre de la calidad moderna (1900-1993). Su trabajo más exitoso es
la trasformación de la industria japonesa, su relación con Japón sucedió cuando el gobierno americano lo
envío a este país para instruir a los industriales en los métodos del control de calidad. Los métodos de
Deming fueron utilizados por las escuelas de negocios de Estados Unidos después de 30 años de ser
aplicados con mucho éxito en Japón, hoy en día sus obras se resumen en una serie de trabajos de
enseñanza internacional en las diversas escuelas de negocios.
307
• Herramienta estadística utilizada para detectar variaciones de la calidad de un

producto, durante un proceso de fabricación.
• El gráfico de control es una forma gráfica y cronológica de representar el

comportamiento de una o más características de calidad, fijando límites que sean
acordes con experiencias y valores especificados previamente establecidos.
308
Estadísticamente, el gráfico de control se puede definir como un intervalo de confianza en una

escala serie-tiempo, en donde los límites de control son niveles de significación, con sus
coeficientes correspondientes a la desviación estándar de la característica en estudio
Estructura de un diagrama de control
309
Estructura de un diagrama de control
Un gráfico de control permite identificar causas asignables y determinar si un proceso

está bajo o fuera de control.
Bajo control: trabaja en presencia de variaciones aleatorias.

Fuera de control: hay variaciones debidas a causas asignables.
310
Causas de Variación
Causas no Asignables. Ocurren al azar y se deben a la naturaleza tecnológica de máquinas,

procesos y materiales. Estas causas tienen una influencia muy pequeña sobre la calidad del
producto y no son determinantes para que el proceso salga fuera de control. Estas causas son
independientes entre sí.
Causas Asignables. Ocurren debido al comportamiento anormal de uno o más factores de

calidad, son pocas en número pero de gran influencia en la calidad del producto. Estas causas
pueden ser estudiadas a fondo para disminuir o anular su influencia.
311
Tipo de diagramas de control
Característica cuantitativa; puede expresarse

VARIABLE mediante un número real o ser medida o
recopilada en una escala continua.
Dureza, peso,
velocidad, longitud
Característica cualitativa; se observa si un

artículo posee o no dicha característica.
La característica no responde
ATRIBUTO
a una escala de medida y debe ser clasificada
dentro de un conjunto
de categorías.
Color,
rajaduras
312
Diagramas de control para variables
Gráficos x -R
Se utilizan cuando la característica de calidad que se desea controlar es una variable
continua.
Se requieren k muestras de tamaño n.
Ejemplo: Fábrica que produce piezas cilíndricas de madera. La característica de

calidad que se desea controlar es el diámetro.
313
Diagrama x-R
Se usa para controlar y analizar un proceso en el cual la característica de calidad

del producto que se está midiendo toma valores continuos, tales como longitud,
peso o concentración.
Los gráficos de control para variables se componen de dos partes: una se basa
en promedios y controla la exactitud; la otra se basa en medidas de dispersión y
controla la precisión.
314
Procedimiento para Construir el diagrama x- R
Límites de control para la media (Diagrama x ):
Donde:
_  
LSC  X  3 _ LSC  X  A2 R
x
_
LIC  X  3 _  
x LIC  X  A2 R

 

X n Con estas
formulas trabaja
el SPSS
315
Procedimiento para Construir el diagrama x -R
Límites de control para el Rango (Diagrama R):
Las gráficas de rango (gráfica R) se utilizan para controlar la variabilidad de un proceso.
LSC  D4 R D4 y D3: Valores obtenidos de la tabla

factores para construir diagramas de
Línea Central  R control
LIC  D3 R Con estas

formulas trabaja
el SPSS
Los diagramas x y R son necesarias para dar un seguimiento preciso al proceso.

316
Factores para la construcción de los diagramas X-R
Factores paras la construcción de gráficos de control

n A2 d2 D3 D4
2 1.88 1.128 0 3.267
3 1.023 1.693 0 2.575
4 0.729 2.059 0 2.282
5 0.577 2.326 0 2.115
6 0.483 2.534 0 2.004
7 0.419 2.704 0.076 1.924
8 0.373 2.847 0.136 1.864
9 0.337 2.97 0.184 1.816
10 0.308 3.078 0.223 1.777
317
Interpretación de los diagramas de control
318
Patrones observables en los diagramas de control
319
Diagrama de control para atributos
• En muchas ocasiones una línea de producción tiene dificultades

con dos o más características de calidad, las cuales pueden o no
ser llevadas a una escala de medición.
• Ante esta situación, se pueden aplicar los gráficos para atributos,

los cuales permiten el control de varias características a la vez.
320
Diagrama P
Muestra la evolución de la proporción (p) de unidades que tienen cierto atributo.
Miden el porcentaje de defectos encontrados en una muestra.
• Artículos defectuosos.
• Proporción de clientes que presentan un reclamo.
Límites de control para el Diagrama p
p (1  p )
LSC  p  3
n
LC  p
p (1  p )
LIC  p  3
n
321
Ejemplo: Defectos en varillas de acero
Un fabricante de varillas de acero prueba con frecuencia si las varillas resisten 50%
más de presión de lo que la compañía dice que puede resistir. Un ejemplar que no
pase esta prueba es defectuoso. En cierto tiempo se obtuvieron veinte muestras de
200 varillas cada una y el número de defectos. Realice la gráfica P y analizar si el
proceso esta bajo control.
322
Sub grupos Defectos ̅ ͞p
1 13 0.065
2 12 0.06
3 11 0.055
4 13 0.065 n= 200
5 12 0.06 K=20
6 15 0.075
7 13 0.065
8 11 0.055
9 10 0.05
10 8 0.04 LSC  0.06175  3 * 0.06175 * 1  0.06175  0.11
11 15 0.075
12 9 0.045 LIC  0.06175  3 * 0.06175 * 1  0.06175  0.01
13 12 0.06
14 12 0.06
15 12 0.06
16 16 0.08
17 12 0.06
18 12 0.06
19 16 0.08
20 13 0.065
Total 1.235
͞p 0.06175
323
324
Tiempo Peso
1 140
1 144
2 137
2 139
3 139
Ejemplo: Diagrama x-R

3 140
4 135
4 139
5 128
5 130
6 130
6 133
7 134
7 134
8 136
Los siguientes datos provienen de una empresa fabricante,

8 139
9 124
9 130
que baña uno de sus productos metálicos con un 10

10
11
130
132
137
recubrimiento especial para evitar la corrosión. La empresa 11

12
139
136
12 141
acaba de empezar a aplicar el control estadístico de 13
13
136
133
proceso.
14 134
14 140
15 131
15 132
16 138
16 141
17 124
El peso del recubrimiento se registra en miligramos, con dos 17

18
18
129
138
143
observaciones tomadas 28 veces diarias. Note que la 19

19
126
131
20 129
información está distribuida de modo diferente: la columna 20
21
126
138
tiempo indica el número de subgrupos.

21 140
22 130
22 133
23 134
23 136
24 127
24 132
25 130
25 132
26 134
26 134
27 130
27 141
28 140
28 141
325
Ejemplo: Diagrama x -R
Diagrama x Diagrama R
326

Estadistica Aplicada A La Gestiã"n Empresarial Completo (Iszabel Garrcia)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estadistica Aplicada A La Gestiã"n Empresarial Completo (Iszabel Garrcia)

Transféré par

Droits d'auteur :

Formats disponibles

ESTADISTICA APLICADA A LA GESTION EMPRESARIAL

DEFINICIÓN: Es la ciencia que trata de la recolección, organización, análisis e

ORGANIZAR DATOS: ANALIZAR LA INFORMACIÓN

INTERPRETAR RESULTADOS PRESENTAR INFORMACIÓN TOMAR DECISIONES

• Procedimientos empleados que permiten resumir,

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

POBLACIÓN: Es la TOTALIDAD de personas, elementos,

• Muestreo Aleatorio Simple (M.A.S)

• Muestreo por Conveniencia

La muestra obtenida mediante el muestreo aleatorio presenta dos propiedades:

Estratificar significa dividir a la población en varias partes de acuerdo con ciertas

PARÁMETRO: Valor numérico de al menos una característica medible u observable

 = La desviación estándar de la edad de los empleados de las tiendas METRO.

ESTADÍGRAFO: Valor numérico de al menos una característica medible de la

ENTREVISTA GRUPO FOCAL

CUANTITATIVAS: Sirven para medir cantidad, intensidad y frecuencia.

La encuesta por Internet.

La encuesta Panel o de panel.

CUALITATIVA O DE ATRIBUTO CUANTITATIVA O NUMÉRICA

NOMINAL ORDINAL INTERVALOS RAZON

DATO : Los diferentes valores que toma la unidad de análisis.

FORMULAREMOS UNA BASE DE DATOS:

6.-¿Cuántos años de Servicio tiene:___________

VARIABLE CUALITATIVA VARIABLE CUANTITATIVA VARIABLE CUANTITATIVA

La información recopilada es necesario presentarlo en forma resumida, elaborando tablas y

a) Para variables cualitativas

b) Para variables cuantitativas:

2. Calidad: Calidad del servicio que brinda el cajero automático.

3.- N_tarj: Número de tarjetas de crédito.

Variable Clasificación de la variable Niveles de Medición

PASOS A SEGUIR : Variable en Recuento de Frecuencia

ELEMENTOS DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIA

1.- FRECUENCIA ABSOLUTA: ( fi ) Es el número de veces que se repite cada categoría o

2.- FRECUENCIA RELATIVA: ( hi ) Es el cociente de cada frecuencia absoluta y el tamaño de la

Servicio que brinda el cajero [SERVICIO ]

Calidad del Servicio que brinda el cajero

Servicio que brinda el cajero

Pago de servicios públicos 5 8,3

Pagos varios 8 13,3

Consulta de saldos 18 30,0

Una variable cuantitativa discreta, es aquella variable que proviene de un proceso

NÚMERO DE NÚMERO DE TARJETAS DE CRÉDITO

Variable en Tipo de Medición de la

Tabla de distribución de frecuencia de los usuarios de cajero automático según el

Gráfico: Número de tarjetas de crédito de los usuarios del cajero automático

Una variable cuantitativa continua, es aquella variable que proviene de un

EDAD ESTATURA TEMPERATURA

Variable Tipo Medición

3. Se determina la amplitud del intervalo: A  Valor máximo  Valor mínimo

4. .Construimos los “m” intervalos, comenzando por el valor mínimo.

SALDO DE Frecuencia Porcentaje

Categoría de la variable Y (columna j)

 Frecuencias observadas (absolutas).

INTERPRETACIÓN FRECUENCIA ABSOLUTA:

Nro. Servicio que brinda el cajero

Características de un Gráfico de Barras

Características de un Gráfico Circular

CASO: Servicio del cajero automático

Número de tarjetas de crédito

Gráfico: Número de tarjetas de crédito de los usuarios del cajero automático

Analiza tendencias en el trascurso del tiempo

TIPO DE CAMBIO DE LA MEX A LA MN

CASO: Servicio del cajero automático