Vous êtes sur la page 1sur 326

ESTADISTICA APLICADA A LA GESTION EMPRESARIAL

UNIDAD I
Recolección, organización y presentación de información
Estadística

DEFINICIÓN: Es la ciencia que trata de la recolección, organización, análisis e


interpretación de datos con el fin de describirlos o de realizar generalizaciones, válidas
para la toma de decisiones de manera eficiente y eficaz.

ORGANIZAR DATOS: ANALIZAR LA INFORMACIÓN


RECOLECTAR DATOS
Tablas estadísticas - Gráficas

INTERPRETAR RESULTADOS PRESENTAR INFORMACIÓN TOMAR DECISIONES


DIVISIÓN DE LA ESTADÍSTICA

Estadística Descriptiva

• Procedimientos empleados que permiten resumir,


describir los datos y presentarlos en forma tabular y/o
gráfica, gráficas para su análisis e interpretación de los
datos.
Estadística Inferencial
• Métodos empleados para la generalización o la inferencia
sobre una población a partir de la muestra aleatoria y
obtener conclusiones válidas sobre fenómenos o líneas
de investigación en estudio.
ESTADÍSTICA DIVIDIDA EN DOS GRANDES GRUPOS

ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL


1.- Recolecta datos. 1.- Estimación
(Mediante encuestas). Estimación Puntual
2.- Presentación de datos.
Estimación Intervalo
Mediante: Tablas y gráficas.
3.- Resume datos. 2.- Prueba de Hipótesis
Mediante indicadores: media, Contrasta parámetros poblacionales en base a
mediana, moda, desviación resultados de una muestra representativa.
estándar, proporción, etc.
Interpretándolos en forma
conveniente.
PROCESO ESTADÍSTICO

Estadística
Descriptiva

Generalizamos hacia
la población en
estudio
Muestreo Probabilístico
1.- Muestreo Simple Aleatorio. Resultados
2.- Muestreo Sistemático. presentan una
3.- Muestreo Estratificado. Estadística confiabilidad
4.- Muestreo por Conglomerado. Descriptiva (1-α) y margen
de error α.
Muestra representativa
(selección aleatoria)
DEFINICIONES Y CONCEPTOS DE ESTADÍSTICA

POBLACIÓN: Es la TOTALIDAD de personas, elementos,


objetos, fenómenos, experiencias, etc. que tienen al
menos una característica de interés susceptible
de ser estudiada, medida o cuantificada.
LA MUESTRA: Es una parte o subconjunto de la
población de interés.
Se puede clasificar:
Muestra probabilística.- De acuerdo al listado de
todos los elementos de la población , cada elemento
tiene una posibilidad conocida de integrar la muestra.
Muestra no- probabilística.- Cuando los elementos de
la población se escoge en forma arbitraria o a juicio del
investigador.
UNIDAD DE ANÁLISIS: Es el individuo, elemento que
conforman la población de interés. Es la unidad
informante que contiene una o más características
observable.
Tipos de Muestreo

• Muestreo Aleatorio Simple (M.A.S)


• Muestreo Aleatorio Estratificado
Muestreo
• Muestreo por Conglomerados
Probabilístico
• Muestreo Sistemático
• Muestreo por Etapas

• Muestreo por Conveniencia


Muestreo No • Muestreo por Juicio de Expertos
• Muestreo por Cuotas
Probabilístico • Muestreo de Bola de Nieve
• Muestreo de Rutas Aleatorias
Tipos de Muestreo

La muestra obtenida mediante el muestreo aleatorio presenta dos propiedades:


• Representativa: Cada unidad tiene las mismas probabilidad de ser seleccionada.
• Independencia: La selección de una unidad no influye en la selección de otras
unidades.
MUESTREO ALEATORIO SIMPLE

Procedimiento
1. Enumere sucesivamente las unidades del marco muestral.
2. Seleccione tantos elementos del marco muestral como sea el tamaño requerido de
la muestra.
En este procedimiento, se selecciona una muestra en forma aleatoria y sin reemplazo a n
unidades de muestreo de una población que contiene un total de N unidades. Se
garantiza que cada una de las muestras posibles tiene la misma probabilidad de ser
elegida.
MUESTREO SISTEMÁTICO

En el muestreo sistemático se elige un elemento del marco muestral cada cierto intervalo.
Este muestreo supone que se cuenta con una enumeración completa de los elementos de
la población.
Procedimiento
1. Calcule el valor de k=Intervalo de selección, donde k = N/n . El valor de k se redondea
al valor del entero menor.
2. Seleccione aleatoriamente un número entero entre 1 y k llamado arranque aleatorio (A).
3. çA partir de este número elegido, seleccione el siguiente que ocupa la posición (A + k) del
listado del marco muestral y así sucesivamente hasta completar los elementos de la muestra.

k = Intervalo de selección
A=Arranque aleatorio
MUESTREO ESTRATIFICADO

Estratificar significa dividir a la población en varias partes de acuerdo con ciertas


características de sus elementos.
El objetivo de estratificar la población es buscar homogeneidad entre los estratos.

Procedimiento

1. Divida a la población en estratos que sean mutuamente excluyentes. Esto es, que
incluyan a todos los elementos de la población y que cada elemento pertenezca
solamente a un estrato.
2. Calcule la cantidad de elementos a seleccionar en cada estrato.
3. Seleccione muestras aleatorias simples para cada uno de los estratos
MUESTREO NO PROBABILISTICO

1.- MUESTREO POR CONVENIENCIA.- Se eligen los elementos que se encuentran a mayor
alcance del investigador.
2.- MUESTREO POR JUICIO DE EXPERTO.- En este caso los elementos con base en criterios o
juicios preestablecidos por el investigador.
3.- MUESTREO POR CUOTAS.- Consiste en dividir la población bajo estudio en sub grupos o cuotas
según ciertas características: Edad, sexo, estado civil.
4.- MUESTREO DE BOLA DE NIEVES.- Este modelo es particularmente útil debido a que pocos
individuos elegidos por el investigador, con ayuda de los primeros se va conociendo a nuevos
miembros de la muestra.
5.- MUESTREO DE RUTAS ALEATORIAS.- La selección de las unidades muestrales la realiza
de forma aleatoria el personal de campo dentro de un recorrido establecido.
Se establece un área de muestreo para cada entrevistador con un punto de partida y se le
proporcionan una serie de criterios de actuación que permiten la evolución del itinerario o
recorrido asignado y la selección de la muestra.
En los demás métodos, las unidades que formarán parte de la muestra se fijan de antemano.
LINK:
http://www.universoformulas.com/estadistica/inferencia/muestreo-discrecional/
http://www.universoformulas.com/estadistica/inferencia/muestreo-bola-nieve/
http://www.universoformulas.com/estadistica/inferencia/muestreo-cuotas/
DEFINICIONES Y CONCEPTOS DE ESTADÍSTICA

PARÁMETRO: Valor numérico de al menos una característica medible u observable


de la población. Se simboliza:
 = La edad promedio de los empleados de las tiendas METRO.

 = La desviación estándar de la edad de los empleados de las tiendas METRO.

ESTADÍGRAFO: Valor numérico de al menos una característica medible de la


muestra. Se simboliza:
x = La edad promedio de una parte representativa de los empleados de la tienda
METRO, ubicado entre Canadá y Arriola.
s = La desviación estándar de la edad de una parte representativa de los empleados
de la tienda METRO, ubicado entre Canadá y Arriola.

ESTIMADOR: Es una función que se obtiene a partir de los datos de una muestra
Se espera que difiera muy poco respecto al parámetro poblacional.
POBLACIÓN - MUESTRA

Parámetros a estimar

Población (N)
Xi = Variable
Parámetro
μ= Media aritmética poblacional
Π = Proporción poblacional
Muestra (n)
σ2 = Varianza poblacional
N= Tamaño de la población Estimador
X = Media aritmética muestral
p = Proporción muestral
S2 = Varianza muestral
n= Tamaño de la muestra

ESTIMACIÓN
TÉCNICAS DE RECOPILACIÓN DE DATOS

ENTREVISTA GRUPO FOCAL


OBSERVACIÓN
1. Cualitativas.

2. Cuantitativas.
ENCUESTA ENCUESTA
TELEFÓNICA ENCUESTA
POR CORREO
TÉCNICAS DE RECOPILACIÓN DE LA INFORMACIÓN

CUALITATIVA:
Sirve para identificar la manera de sentir y de pensar de las personas sobre
determinados temas.

ENTREVISTA A PROFUNDIDAD
GRUPOS FOCALES
TÉCNICAS DE RECOPILACIÓN DE LA INFORMACIÓN

CUANTITATIVAS: Sirven para medir cantidad, intensidad y frecuencia.


Trata de la asociación o relación de variables cuantificables.

Ejemplo:

La encuesta personal.

La encuesta en establecimiento.

La encuesta Telefónica.

La encuesta por Internet.

La encuesta Ómnibus.

La encuesta Panel o de panel.


VARIABLES

 Cuantificar
 Medir
Características:
Observables VARIABLES:
 Género.
 Edad.
 Estatura.
 Peso.
 Ingresos mensual.
medición  Profesión.
observación conteo
 Estado Civil.
 Gasto mensual.
 Tiempo de servicio.
 # de hijos.
 # de tarjetas de crédito.
 Calificación del servicio.
CLASIFICACIÓN DE LA VARIABLE

VARIABLE

CUALITATIVA O DE ATRIBUTO CUANTITATIVA O NUMÉRICA

DISCRETA CONTINUA
(Conteo) (Medición)
Niveles de Medición de los datos

NOMINAL ORDINAL INTERVALOS RAZON


Ningún atributo Orden Orden-Distancia Orden – Distancia- Origen

 longitud, etc. Nominal: No existe algún orden específico; se agrupan por categorías y se cuentan.
Ejemplo: Género, colores, bebidas gaseosas, distrito de residencia, Tipos de tarjetas de crédito, estado civil,
etc.
 Ordinal: Sigue un orden de acuerdo a las características particulares.
Ejemplo: Grado de instrucción, Rendimiento Académico, NSE, Calidad del servicio.
 Intervalo: Son categorías de datos establecidos. El cero no indica ausencia de propiedad. Se considera la
magnitud que hay entre dos medidas cualesquiera y es posible ordenar mediciones.
Ejemplo: Temperatura, tallas de ropa.
 Razón: Es un cociente de dos números que expresa cierta característica. El cero indica ausencia de
propiedad. Por lo general todas las variables cuantitativas son de razón.
Ejemplo: Porcentaje de productos defectuosos en un lote, ingresos, Tasa de natalidad, peso, estatura,
UNIDAD DE ANÁLISIS.- Es el objeto del cual se desea tener información. También llamada unidad
elemental, presenta características que puede ser medidas ú observables.

DATO : Los diferentes valores que toma la unidad de análisis.

 Género: Masculino
 Edad: 54 años
 Estatura: 170 cms
 Peso: 65 Kgrs.
 Ingresos: S/. 4500 c/mes.
 Profesión: Ingeniero de Sistemas
 Estado Civil: Casado.
 Cargo que desempeña: Gerente
 Número de hijos: 2
 Años de servicio en la empresa: 18
BASE DE DATOS:

FORMULAREMOS UNA BASE DE DATOS:


CUESTIONARIO: OBJETIVO: Perfil de un empleado
1.-Género: Masculino ______ Femenino _______
2.-¿Qué edad tiene usted? ______ años.
3.-¿Qué grado de instrucción tiene?

Marque con
Estudios un Aspa
Superior universitaria
superior no-universitaria
4.-En qué tipo de Entidad trabaja? Pública ______ Privada _______
5.-¿Cuál es su Estado Civil?
Marque con
un aspa
Soltero
Casado
Viudo
Divorciado
Conviviente

6.-¿Cuántos años de Servicio tiene:___________


7.-¿Cuál es el Ingreso Mensual que percibe?
Marque con
un aspa
Menos de 1000
1000 - 1500
1500-2000
2000-2500
3000-3500
Más de 3500
EJEMPLOS

EJM 1:
Población: Todos los empleados del BCP.
Muestra: Se considera a 1 500 empleados del BCP.
Estudiar: La experiencia (años) de los empleados del BCP.
EJM 2:
Población: Todos los votantes del Perú.
Muestra: Se selecciona una muestra del 30% de los votantes del Perú.
Estudiar: La preferencia hacia un candidato presidencial.
EJM 3:
Población: Todas las facturas de la empresa Schuler.
Muestra: Se eligen 100 facturas de la empresa.
Estudiar: Exactitud de cada factura.
EJM 4:
Población: Todas las utilidades ( nuevos soles) de las Mypes.
Muestra: Se eligen 50 Mypes.
Estudiar: La utilidad promedio anual (nuevos soles) de las Mypes.
Caso Aplicativo

EJEMPLO:
Estudios realizados sobre el transporte público, con el propósito de disminuir los accidentes de tránsito como el
principal causante de las muertes y lesiones graves del peatón y los conductores de los vehículos que utilizan esta ruta.
Estudios realizados sobre este tema, es la selección de una muestra de 30 choferes de la ruta Lima-Chorrillos (Línea
38M), encontrándose los siguientes resultados:
1. El número promedio de infracciones de tránsito cometidos por los choferes es de 9 veces al año.
2. La ganancia promedio diaria de los choferes es de S/. 120,75.
3. Solo 10 choferes poseen grado de instrucción secundaria.
4. El 50% de los choferes realizan no más de 1 revisión técnica al año y el otro 50% realizan más de 1revisión técnica.
5. 10 choferes manifestaron ser casados.
6. Tienen en promedio 4 papeletas impagas.
7. El 40% trabaja en el turno de la mañana.
8. El 20% de los choferes tiene experiencia de a lo más 3 años.
9. La edad promedio de los choferes es de 38.25 años. Población
10. Solo el 5% de sus vehículos presentan una antigüedad de 2 años. Muestra
Unidad de análisis
Indique:
a.- Población. Variables Tipo de variable Medición
b.- Muestra y su unidad elemental. variable 1
c.- En el estudio realizado. ¿Qué variables, tipo de variable y nivel .
de medición .
d.- ¿Cómo se denominan estos resultados de la muestra?. variable n
TABLA DE DISTRIBUCIÓN DE FRECUENCIA PARA CADA TIPO DE VARIABLE

VARIABLE CUALITATIVA VARIABLE CUANTITATIVA VARIABLE CUANTITATIVA


DISCRETA CONTINUA
Frecuencia Acumulada Frecuencia Acumulada
Variable Frecuencia Frecuencia Variable Frecuencia Frecuencia Variable Frecuencia Frecuencia
Cualitativa Absoluta relativa Discreta Absoluta relativa Absoluta Relativa Cuantitativa Absoluta relativa Absoluta Relativa
Modalidad 1 X1 [ >
Modalidad 2 X2 [ >
Modalidad 3 X3 [ >
. . .
. . .
Modalidad k Xk n 100% [ > n 100%
Total n 100% Total n 100% n 100%
Organización de los datos en tabla de distribución de frecuencias

La información recopilada es necesario presentarlo en forma resumida, elaborando tablas y


gráficas. Se presentan todas las técnicas de organizar y presentar de manera más efectiva
estos “datos masivos”. Elaboramos la tabla de frecuencia de acuerdo a la variable en estudio
que pueden ser tanto cualitativa como cuantitativa.

a) Para variables cualitativas


Género Estado Civil

b) Para variables cuantitativas:


- Discretas
- Continuas
Nº Libros Edad Estatura
comprados

25
CASO: Servicio del cajero automático
Se requiere realizar un análisis de datos y preparar un informe escrito de las
características de los clientes que acceden a los servicios que ofrece el cajero
automático del Banco RENTAMÁS, en los distritos: La Victoria, San Luis, San Borja
y Santa Anita. Para comprender mejor las exigencias de los clientes y el
compromiso de mejorar los servicios brindados las 24 horas del día. El gerente del
banco, encarga al área del servicio al cliente realizar el estudio, considerando una
muestra aleatoria de n= 60 clientes que acceden al cajero automático en un día
determinado.
Consideramos algunas variables del estudio para el desarrollo de la unidad I.
1. Servicio: Servicios que brinda el cajero automático.
Nro. Servicio que brinda el cajero
1 Pago de servicios públicos
2 Pagos varios
3 Retiros en efectivo (MN,MEX)
4 Consulta de Saldos (MN,MEX)
5 Transferencia hacia tus cuentas y cuentas de terceros (MN,MEX)
6 Movimientos de cuenta (MN,MEX)

2. Calidad: Calidad del servicio que brinda el cajero automático.


Calidad del Servicio que brinda el
Nro. cajero
1 Excelente
2 Bueno
3 Regular
4 Malo
ACREDITACIONES RECONOCIMIENTOS

26
CASO: Servicio del cajero automático

3.- N_tarj: Número de tarjetas de crédito.


4.- Saldo: Saldo de cuenta de la tarjeta de débito.

Variable Clasificación de la variable Niveles de Medición


Servicios Cualitativa Nominal
Calidad Cualitativa Ordinal
N_tarj Cuantitativa Discreta Razón
Saldo Cuantitativa continua Razón

27
ELABORACIÓN DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIA

PASOS A SEGUIR : Variable en Recuento de Frecuencia


1.- CLASIFICACIÓN.- De acuerdo a tipo de variable en estudio. estudio Datos Absoluta
2.- Tabulación o recuento de los datos para cada tipo de variable:
2.1. Modalidad o categoría.
2.2. Diferente valor de la variable.
2.3. Diferente intervalo de clase de la variable.
3.- Se asigna las respectivas frecuencias absolutas ( fi ).
4.- Se completa los elementos restantes de la tabla de
frecuencia: frecuencia relativa ( hi ) , frecuencia absoluta TOTAL n
acumulada (Fi ) y frecuencia relativa acumulada (Hi ).

ELEMENTOS DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIA


La distribución de frecuencia de una variable en estudio facilita la exposición ordenada del
conjunto de datos u observaciones.

28
ELEMENTOS DE LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA:

1.- FRECUENCIA ABSOLUTA: ( fi ) Es el número de veces que se repite cada categoría o


modalidad de la variable en estudio. La suma de las frecuencias absolutas es el tamaño de la
muestra.
n = f1 + f2 + f3 + ……. + fk i = 1, 2, ……….., k.

n= Tamaño de la muestra.

2.- FRECUENCIA RELATIVA: ( hi ) Es el cociente de cada frecuencia absoluta y el tamaño de la


muestra. Se expresa en tanto ( % ) por uno o tanto por ciento (%).
100
k
f
hi  i
n
h
i 1
i  1 ó 100% i=1,2,……, k

3.- FRECUENCIAS ACUMULADAS: (Fi , Hi % ) Son las frecuencias que se van acumulando a
través de los diferentes categorías, valores de la variable o diferentes intervalos de la variable
en estudio, tanto para las frecuencias absolutas o relativas.

29
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS – ELEMENTOS

FRECUENCIAS ACUMULADAS
VARIABLE FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA
EN ESTUDIO ABSOLUTA RELATIVA ABSOLUTA RELATIVA
A1 f1 h1=f1/n F1=f1 H1=h1
A2 f2 h2=f2/n F2=F1+f2 H2=H1+h2
. .
. .
. .
AK fk hk =fk /n Fk =Fk-1+fk = n Hk =Hk-1+hk = 100%
TOTAL n 100%

30
Tablas de distribución de frecuencias para variables cualitativas

Una variable cualitativa es aquella que expresa una cualidad, característica o atributo, sus
datos se expresan mediante una palabra. Las tablas de frecuencias se construyen
contabilizando las veces que se repite cada categoría o modalidad.

Variables:

Servicio que brinda el cajero [SERVICIO ]


1 Pago de servicios públicos
2 Pagos varios
3 Retiros en efectivo (MN,MEX)
4 Consulta de Saldos (MN,MEX)
Transferencia hacia tus cuentas y cuentas de terceros
5 (MN,MEX)
6 Movimientos de cuenta (MN,MEX)

Calidad del Servicio que brinda el cajero


[CALIDAD]
1 Excelente
2 Bueno
3 Regular
4 Malo

31
TABLA DE DISTRIBUCIÓN DE FRECUENCIA DE LOS USUARIOS SEGÚN SERVICIO QUE
UTILIZAN EN EL CAJERO

Servicio que brinda el cajero


Frecuencia Porcentaje

Pago de servicios públicos 5 8,3

Pagos varios 8 13,3


Retiros en efectivo 10 16,7

Consulta de saldos 18 30,0


Transferencias hacia tus cuentas y cuentas de 12 20,0
terceros (MN,MEX)
Movimientos de cuenta (MN,MEX) 7 11,7
TOTAL 60 100,0
INTERPRETACIÓN:
f3=Del total de usuarios que utilizan el cajero automático , 10 realizan retiros en efectivos.
h2%=Del 100% de usuarios que utilizan el cajero automático, el 13.3% de los usuarios realizan
pagos varios.

32
Tablas de distribución de frecuencias para variable cuantitativa discreta

Una variable cuantitativa discreta, es aquella variable que proviene de un proceso


de conteo.

NÚMERO DE NÚMERO DE TARJETAS DE CRÉDITO


NÚMERO DE CELULARES
INVESTIGACIONES

Variable en Tipo de Medición de la


estudio Variable variable
Variable
Cuantitativa
N_tarj Discreta Razón
NÚMERO DE HIJOS

33
Tablas de distribución de frecuencias para variable cuantitativa discreta

Tabla de distribución de frecuencia de los usuarios de cajero automático según el


numero de tarjetas de crédito
Número de tarjetas de crédito
N° de Frecuencia Porcentaje Frecuencia Porcentaje
tarjetas acumulada acumulado
1 9 15,0 9 15,0
2 16 26,7 25 41,7
3 15 25,0 40 66,7
4 13 21,7 53 88,3
5 7 11,7 60 100,0
TOTAL 60 100,0

INTERPRETE:
f3=15; Del total de usuarios que utilizan el cajero automático, 15 tienen 3 tarjetas de crédito.
h2%=26.7%; Del 100% de usuarios que utilizan el cajero automático, el 26.7% tiene 2 tarjetas
de crédito.
F4=53; Del total de usuarios que utilizan el cajero automático, 53 tienen hasta 4 tarjetas de crédito.
H3%=66.7%; Del 100% de usuarios que utilizan el cajero automático, el 66.7% tiene hasta
3 tarjetas de crédito.

34
GRÁFICO DE BARRAS:

Gráfico: Número de tarjetas de crédito de los usuarios del cajero automático

35
Tablas de distribución de frecuencias para variable cuantitativa continua

Una variable cuantitativa continua, es aquella variable que proviene de un


proceso de medición.

EDAD ESTATURA TEMPERATURA

Variable Tipo Medición


Edad Cuantitativa Continua Razón
Estatura Cuantitativa Continua Razón
Temperatura Cuantitativa Continua Intervalo

36
CONSTRUCCIÓN DE LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA
VARIABLE CUANTITATIVA CONTINUA

1. Identificamos:
Valor mínimo = X max
Valor máximo = X min
Calculamos:
R=Valor máximo- Valor mínimo
Como el recorrido es demasiado amplio, entonces se construye intervalos, en
estadística se trabaja con intervalos semi-abiertos [ >, [ [
2. Se determina el número de intervalos con la regla de Sturges:
Para nuestro caso: m = 1+3.322*log(n) =

3. Se determina la amplitud del intervalo: A  Valor máximo  Valor mínimo


m

R
Para nuestro caso la amplitud es: A
m

37
………… construcción de la variable continua

4. .Construimos los “m” intervalos, comenzando por el valor mínimo.


LI LS=LI+A
[ Li – Li+A >
[ Li+A – Li+2A >
[ Li+2A – Li+3A >
……………………
[ Li + (m-1)*A – Li + m*A >
5. Construimos la tabla de distribución de frecuencias, con asignación de la frecuencia
absoluta (fi ) y el resto de elementos (hi, Fi, Hi ).
BASE DE DATOS: LABORATORIO N°1
VARIABLE CONTINUA.- Saldo de cuenta de la tarjeta de débito ( S/.)
FORMA DE CÁCULO:
Paso 1: Identificamos el dato mayor y dato menor de la base de datos.
Dato mayor =2 558
Dato menor =80

38
VARIABLE CONTINUA.- SALDO DE CUENTA

En el SPSS:

El reporte para
realizar el Paso 1

39
CONSTRUCCIÓN:
Paso 1: Determinar el Rango: Paso 4: Construcción de
R=Valor máximo- Valor mínimo intervalos
Dato mayor: 2558
Dato menor: 80 m LI LS=LI+A
Rango= 2558-80 1 80 434
Rango= 2478 2 434 788
Paso 2: Aplicamos la Regla de Sturges: 3 788 1142
m= 1+3.322 * Log (n) 4 1142 1496
m= 1+3.322* Log (60)
5 1496 1850
m = 6.907 intervalos de clase
6 1850 2204
m = 7 intervalos de clase
7 2204 2558
Paso 3: Calculamos la amplitud
Amplitud= R/m
Amplitud= 2478/7
Amplitud= 354

40
TABLA DE DISTRIBUCIÓN DE FRECUENCIA DE LOS
USUARIOS SEGÚN LA VARIABLE SALDO DE CUENTA DE
LAS TARJETAS DE DÉBITO

SALDO DE CUENTA

SALDO DE Frecuencia Porcentaje


CUENTA Frecuencia Porcentaje Acumulada Acumulado
[80-434[ 1 1,7 1 1,7
[434-788[ 3 5,0 4 6,7
[788-1142[ 10 16,7 14 23,3
[1142-1496[ 12 20,0 26 43,3
[1496-1850[ 16 26,7 42 70,0
[1850-2204[ 12 20,0 54 90,0
[2204-2558] 6 10,0 60 100,0

TOTAL 60 100,0

41
INTERPRETE:
f3=10; Del total de usuarios del cajero automático, 10 tienen saldos de cuenta de S/. 788
a menos de S/. 1 142.
h4%=20%; Del 100% de usuarios del cajero automático, el 20% tiene saldos de cuenta
de S/. 1 142 a menos de S/. 1 496.
F6=54; Del total de usuarios del cajero automático,54 tienen saldos de cuenta de S/. 80 a
menos de S/. 2 204.
H5%=70%; Del 100% de usuarios del cajero automático, el 70% tienen saldos de cuenta
de S/. 80 a menos de S/. 1 850.

42
VARIABLES CUANTITATIVAS CONTINUAS:

1.- HISTOGRAMA.
2.- POLÍGONO DE FRECUENCIA.
HISTOGRAMA.-
Es un conjunto de rectángulos consecutivos con altura igual a la frecuencia (absoluta , relativa).
POLÍGONO DE FRECUENCIA.-
Se consideran líneas suavizadas, que tienen inicio en un intervalo anterior y posterior a los
establecidos en la Tabla de distribución de frecuencia. Se considera la marca de clase.
( LI  L S )
Marca de clase  TABLA DE DISTRIBUCIÓN DE FRECUENCIA DE LOS USUARIOS
2 SEGÚN LA VARIABLE SALDO DE CUENTA DE LAS TARJETAS DE DÉBITO
SALDO DE Marcas de Frecuencia Porcentaje
Frecuencia Porcentaje
CUENTA clase Acumulada Acumulado
[80-434[ 257 1 1,7 1 1,7
[434-788[ 611 3 5,0 4 6,7
[788-1142[ 965 10 16,7 14 23,3
[1142-1496[ 1319 12 20,0 26 43,3
[1496-1850[ 1673 16 26,7 42 70,0
[1850-2204[ 2027 12 20,0 54 90,0
[2204-2588] 2381 6 10,0 60 100,0
Total 60 100,0

43
TABLAS CRUZADAS
(2 ó más variables)

44
TABLA DE CONTINGENCIA ( DE DOBLE ENTRADA)

Categoría de la variable Y (columna j)


Categoría de
la variable X Total
(fila i) 1 2 …… j ni. fila
1 n11 n12 …. n1j n1.
2 n21 n22 …. n2j n2.
. . . ….. . .
. . . ….. . .
i ni1 ni2 …… nij ni.
Total Total
columna n.j n.1 n.2 ….. n.j n General

 Frecuencias observadas (absolutas).


 Frecuencias relativas con respecto al TOTAL GENERAL.
 Frecuencias relativas con respecto al TOTAL FILA.
 Frecuencias relativas con respecto al TOTAL COLUMNA.

45
TABLA DE CONTINGENCIA CON RESPECTO A LA FRECUENCIA ABSOLUTA:

INTERPRETACIÓN FRECUENCIA ABSOLUTA:


f2,3=10; Del total de usuarios del cajero automático, 10 usuarios calificaron el servicio como bueno
y no accedieron al cajero 2 veces .

f3,4=1; Del total de usuarios del cajero automático, 1 usuario calificó el servicio como regular y no
accedieron al cajero 3 veces.

46
TABLA DE CONTINGENCIA CON RESPECTO AL PORCENTAJE DEL TOTAL GENERAL

INTERPRETACIÓN:
h3,2=11.7%; Del 100% de los usuarios, el 11.7% de los usuarios calificaron el servicio como regular y
no accedieron al cajero 1 vez.
h4,3=5%; Del 100% de los usuarios, el 5% de los usuarios calificaron el servicio como malo y no
accedieron 2 veces al cajero.

47
TABLA DE CONTINGENCIA CON RESPECTO AL TOTAL FILA

INTERPRETACIÓN:
H3,3% total fila=11.1%; Del 100% de los usuarios que calificaron el servicio del cajero como
regular; el 11.1% no accedieron al cajero 2 veces.
H2,4% total fila= 7.1%; Del 100% de los usuarios que calificaron el servicio del cajero como
bueno, el 7.1% no accedieron al 3 veces.

48
TABLA DE CONTINGENCIA CON RESPECTO TOTAL COLUMNA

INTERPRETACIÓN:
H1,3: 6.7%; Del 100% de usuarios que no acceden al cajero 2 veces, el 66.7% califica el servicio
como excelente.
H4,3: 20%; Del 100% de usuarios que no acceden al cajero 2 veces, el 20% califica el servicio como
malo.

49
TABLA DE CONTINGENCIA: Variable Capa: Género

50
CASO: Servicio del cajero automático
Se requiere realizar un análisis de datos y preparar un informe escrito de las
características de los clientes que acceden a los servicios que ofrece el
cajero automático del Banco RENTAMÁS, en los distritos: La Victoria, San
Luis, San Borja y Santa Anita. Para comprender mejor las exigencias de los
clientes y el compromiso de mejorar los servicios brindados las 24 horas del
día. El gerente del banco, encarga al área del servicio al cliente realizar el
estudio, considerando una muestra aleatoria de n= 60 clientes que acceden
al cajero automático en un día determinado.
Consideramos algunas variables del estudio para el desarrollo de la
unidad I.
Servicio: Servicios que brinda el cajero automático.

Nro. Servicio que brinda el cajero


1 Pago de servicios públicos
2 Pagos varios
3 Retiros en efectivo (MN,MEX)
4 Consulta de Saldos (MN,MEX)
Transferencia hacia tus cuentas y cuentas de terceros
5 (MN,MEX)
6 Movimientos de cuenta (MN,MEX)

51
GRÁFICOS
BARRAS - CIRCULAR
PRESENTACIÓN GRÁFICA DE LOS DATOS

VARIABLE CUALITATIVA:

GRÁFICO DE BARRAS:

Características de un Gráfico de Barras

a) El número de barras debe ser suficiente para contener a todos los datos. Las barras
deben ser mutuamente excluyentes y deben graficarse a una distancia constante de
separación.
b) La altura de cada barra es proporcional al tamaño de la frecuencia (Absoluta o relativa)
respectiva. El ancho de las barras debe ser igual para todas y deben estar igualmente
espaciadas.
c) Debe ser fundamentalmente ilustrativo (barras ordenadas).

53
GRÁFICO VARIABLE CUALITATIVA

Características de un Gráfico Circular


a) El número de sectores circulares debe ser suficiente para contener a todos los datos. Los
sectores circulares deben ser mutuamente excluyentes.
b) El tamaño de cada sector circular es proporcional al total de la muestra. °G = hi % x 360.
c) Debe ser ilustrativo ( categoría y sus respectivos porcentajes).

GRÁFICO DE
BARRAS: GRÁFICO
CIRCULAR

54
VARIABLE CUANTITATIVA DISCRETA

CASO: Servicio del cajero automático

Número de tarjetas de crédito


GRÁFICO DE BARRAS:

Gráfico: Número de tarjetas de crédito de los usuarios del cajero automático

56
Gráficos de Líneas
SERIES DE TIEMPO
Gráfico de Líneas:
.

Analiza tendencias en el trascurso del tiempo


EJERCICIO 1: Caso: Tipo de Cambio
La Superintendencia de Banca y Seguros presenta la información de los tipos de cambio del US$
(dólar americano) cotización de la moneda extranjera a moneda nacional (S/.). Durante los meses
del Enero 2016 a Marzo 2017.
BD_Tipo de cambio.sav
Meses 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3
Tipo de cambio del $ 3,4052 3,4761 3,5132 3,3054 3,27 3,3746 3,2907 3,342 3,3909 3,3815 3,359 3,4096 3,355 3,2705 3,2645

TIPO DE CAMBIO DE LA MEX A LA MN


GRÁFICOS
HISTOGRAMA – POLIGONO DE
FRECUENCIA

59
VARIABLE CUANTITATIVA CONTINUA

CASO: Servicio del cajero automático

Saldo de cuenta de la tarjeta de crédito


GRÁFICOS EN SPSS: HISTOGRAMA – POLIGONO DE FRECUENCIA

Histograma
Gráficos:
Histograma y curva de la normal del histograma
Saldo Intervalo
1 [80-434[
2 [434-788[
3 [788-1142[
4 [1142-1496[
5 [1496-1850[
6 [1850-2204[
7 [2204-2558]

Polígono de
frecuencia

61
GRÁFICOS
TALLOS Y HOJAS

62
GRÁFICO DE TALLOS Y HOJAS: (Stem-and-Leaf Diagram)

Es una técnica que se utiliza para la organización de datos como primer paso en un análisis
exploratorio (AED). Resume y describe variables cuantitativas.
Permite visualizar la forma de distribución y también la existencia de datos discordantes.

Eje vertical Eje horizontal

Tallo Hojas
4 1 2 5 7 8
5 1 3 4 5 5 8 8 9
6 0 1 2 2 3 3 5 5 5 7 8 8 8 8
7 0 0 0 2 4 5 7 8 9 9
8 0 3 4 5 6 8 9
9 0
Tallos y Hojas

Número de transacciones en el cajero automático

Frecuencia Stem & Hoja

5.00 0 . 22444
20.00 0 . 56666667777788888899
26.00 1 . 00000001111122222223344444
7.00 1 . 5667788
2.00 2 . 00

Ancho del tallo: 10


Cada hoja: 1 caso(s)
n=60 usuarios
GRÁFICOS
CAJAS

65
GRÁFICO DE CAJAS:

Es la representación gráfica, basada en cuartiles. Se puede graficar conociendo 5 estadísticos:


Dato menor, dato mayor, Q1, Q2 ( mediana),Q3. Permite visualizar el comportamiento de la
información resumida de acuerdo a su:
1.- Dispersión.
2.- Simetría.
3. Presencia de valores atípicos.

Datos
atípicos Datos
atípicos

Datos Atípicos: No concuerda con el resto de los datos. ◦ ………. Leve


*…………. Extremo
GRÁFICO DE CAJAS:

La presentación puede ser Horizontal La presentación puede ser Vertical.


GRÁFICO DE CAJAS:

COMPARACIÓN DE LOS GRÁFICOS DE CAJAS:

1.- Gran impacto visual y fácil de comprender.


2.-Permite comparar.
2.1.- La variabilidad de los estudiantes del género femenino es mayor que la de
los estudiantes del género masculino.
2.2.- La distribución de los pesos de las estudiantes mujeres presenta un valor
atípico.
2.3.- La distribución de los pesos de los estudiantes del género masculino , presenta
una distribución asimétrica negativa; mientras que la distribución de pesos de
los estudiantes del género femenino, presenta una distribución asimétrica
positiva.
CASO: Servicio del cajero automático

Se requiere realizar un análisis de datos y preparar un informe escrito de las


características de los clientes que acceden a los servicios que ofrece el cajero automático
del Banco RENTAMÁS, en los distritos: La Victoria, San Luis, San Borja y Santa Anita. Para
comprender mejor las exigencias de los clientes y el compromiso de mejorar los servicios
brindados las 24 horas del día.
El gerente del banco, encarga al área del servicio al cliente realizar el estudio,
considerando una muestra aleatoria de n= 60 clientes que acceden al cajero automático
en un día determinado. Base de Datos: BD_operaciones bancarias.sav.
GRÁFICO DE CAJAS
Variable: Saldo de cuenta de la tarjeta de débito.
GRÁFICO DE CAJAS COMPARATIVO

Variable: Género*Número de transacciones que se realiza en el cajero.


Gráfico Cualitativo
DIAGRAMA DE PARETO
DIAGRAMA DE PARETO
El análisis de Pareto es una técnica para llevar la cuenta del número de defectos
de un producto o servicio. Con frecuencia denominado la regla de 80 – 20.
El principio de Pareto afirma que el 20% de las causas vitales originan alrededor
del 80% de los efectos.
Para elaborar un diagrama de Pareto se consideran el número de defectos del
producto o servicio, considerando las frecuencias en el orden de mayor a menor.
Caso: Bancos

Un local de una entidad bancaria ha realizado un estudio de Satisfacción del


cliente. Los resultados se encuentran en la base de datos:
Base de datos: BD_operaciones bancarias.sav
TABLA DE FRECUENCIA DE RECUENTOS DESCENDENTES

Porcentaje
Motivos de Queja Frecuencia Porcentaje
Acumulado

Poca seguridad en los cajeros 18 30% 30%


No se puede realizar pago de servicios públicos 13 21.70% 51.70%
Pocos cajeros disponibles 11 18.30% 70%
Fuera de servicio 7 11.70% 81.70%
No emite voucher 4 6.70% 88.30%
No se puede realizar movimientos de la CTS 4 6.70% 95%
No se puede realizar operaciones con moneda extranjera 3 5% 100%
TOTAL 60

¿Cuáles son las causas que el banco debe resolver para lograr la mejora más
significativa?
DIAGRAMA DE PARETO

Las causas que debe resolver son:


1. Poca seguridad en los cajeros.
2. No se puede realizar pago de servicios públicos.
3. Pocos cajeros disponibles.
Caso: TRÍO RAP: Internet + Teléfono Fijo + TV

Durante los últimos meses la liquidez de la empresa que


ofrece servicios de TRÍO RAP. Se ha visto afectada por el
incremento de la deuda pendiente por cobrar a sus
clientes, a quienes les brinda el servicio de cable. En tal
sentido, tiene la necesidad de conocer los motivos por
los cuáles sus clientes han dejado de cumplir con sus
pagos oportunamente. El gerente de la empresa se
encuentra realizando un estudio dirigido a los clientes
con deudas pendientes.
Para realizar el estudio se seleccionó una muestra
significativa de 100 clientes con deuda en Lima y
provincias con la finalidad de obtener información y
aplicar estrategias y acciones necesarias para dar
solución a este problema.
En el estudio se recabaron datos asociados a diversas
características, entre las que se encuentran las
siguientes variables en el estudio:
VARIABLES EN ESTUDIO
VARIABLES:
1. Ciudad: Lugar de residencia del cliente.
2. N_recibos: N° de recibos vencidos por los clientes.
3. Monto: Monto de la deuda del cliente. (en nuevos soles)
4. N_días: Días de antigüedad de la deuda
5. Género: Género del cliente
6. Queja: Motivos del no pago del servicio.
La base de datos se encuentra en la Base de Datos: BD_Monto de deuda_Excel
De acuerdo a la información proporcionada, del caso Trio Rap Responda:

I.- Identificar:

Población:
Unidad de análisis:
II.- COMPLETAR LOS ESPACIOS EN BLANCO DE LA SIGUIENTE TABLA

Variable Tipo de variable Nivel de medición Tipo de grafico Total datos

Cuantitativa
discreta
Nominal
Monto

RESPONDER DE ACUERDO A LOS REPORTES DEL SPSS


III.- Tabla de frecuencia para la variable Ciudad

Ciudad del usuario deudor


Frecuencia Porcentaje
Frecuencia Porcentaje Acumulada Acumulado
Válido Arequipa 23 23,0 % 23,0%
Cusco 14 14,0% 37,0%
Huancayo 10 10,0% 47,0%
Lima 41 41,0% 88,0%
Trujillo 12 12,0% 100,0%
Total 100 100,0%
RESPONDER EN LA TABLA

f4 = Interprete:

h2%= Interprete:

i) ¿Qué ciudad presenta el


mayor porcentaje de clientes
deudores?
ii) Diga si la afirmación es Menos del 50% de los clientes deudores pertenecen a
Verdadera / Falsa (Justificar ) la ciudad de Lima y Arequipa. ( )
Justificar:
IV.- REALIZAR EL GRÁFICO APROPIADO PARA LA VARIABLE CIUDAD

Comentar la gráfica:
V.- Responda de la TDF para la variable MONTO y complete la TDF

Tabla de_______________________________________________________________

Porcentaje
Marcas de Porcentaje Frecuencia acumulado
Monto clase Frecuencia (%) Acumulada (%)
[132- [ 8
[ [ 10
[ [ 13
[ [ 15
[ [ 18
[ [ 20
[ [ 10
[ -540] 6
TOTAL 100 1.0
Realice la construcción de la Tabla de frecuencia - interprete

Identificar: Amplitud:_________________
Xmin=______ Xmax=____________
Nº de intervalos:_______________________
f6= Interprete:

H3% Interprete:

Interprete: F7 – F3

¿Qué porcentaje de clientes tiene una deuda mayor de S/. 360?

Interprete h4 usando la marca de clase


CONSTRUYA EL HISTOGRAMA DE FRECUENCIA

Diga que forma de


distribución tiene la
variable.

Comente el gráfico:
VI.- Tabla de Contingencia (Doble entrada)

Completar tabla para las frecuencias relativas o total general:


Tabla cruzada Ciudad del usuario deudor*N° de recibos vencidos

Recuento
N° de recibos vencidos
1 2 3 4 Total
Ciudad del usuario Arequipa 9 9 4 1 23
deudor
Cusco 3 6 3 2 14
Huancayo 4 3 0 3 10
Lima 10 16 9 6 41
Trujillo 2 5 4 1 12
Total 28 39 20 13 100
Tabla de Contingencia …………

TABLA PARA LAS FRECUENCIAS RELATIVAS O TOTAL GENERAL

Tabla cruzada Ciudad del usuario deudor*N° de recibos vencidos


Recuento
N° de recibos vencidos
1 2 3 4 Total
Ciudad del usuario Arequipa
deudor
Cusco
Huancayo
Lima
Trujillo
Total
INTERPRETAR:

f4,3=

De todos los clientes deudores que residen en la ciudad de Arequipa. ¿Cuàl es el porcentaje
de cliente deudores que tienen 2 recibos vencidos?

¿Cuál es el porcentaje de deudores que son de la ciudad de Huancayo y tienen 3 recibos


vencidos?

De todos los deudores que residen en la ciudad de Lima. ¿Cuál es el porcentaje de clientes
deudores que tienen hasta 3 recibos vencidos?.

De todos los deudores que residen en la ciudad de Trujillo. ¿Cuál es el porcentaje de


clientes deudores que tiene por lo menos 3 recibos vencidos?.
VI.- DE SU REPORTE RESPONDA DEL DIAGRAMA DE PARETO :

TABLA DE FRECUENCIA CON RECUENTOS DESCENDENTES

Porcentaje
MOTIVO DE QUEJA Frecuencia Porcentaje acumulado
No recibió recibos 20 20,0 20,0
No reconoce monto facturado 18 18,0 38,0
Falta de capacidad de pago 16 16,0 54,0
Solicito otra clase de servicio 14 14,0 68,0
Falta de lugares de pago cercanos 11 11,0 79,0

Mala instalación del servicio 8 8,0 87,0


No solucionan el problema de señal en el 8 8,0 95,0
plazo indicado
Mala señal del servicio 5 5,0 100,0
Total 100 100,0
ELABORE EL DIAGRAMA DE PARETO

¿Determinar las causas que


impiden dar un buen
servicio al cliente?
_____________________
_____________________
_____________________
_____________________
_____________________
_____________________
_____________________
______________________
______________________
______________________
DEL REPORTE DEL GRÁFICOS DE CAJAS

Variable: Monto de deuda según ciudad: Responda


Forma de distribución:

Dispersión:

Valores atípicos:
ESTADISTICA APLICADA A LA GESTION EMPRESARIAL

UNIDAD II
Medidas de Tendencia Central y Dispersión
Calcula e interpreta las
principales medidas de
tendencia central y medidas
de posición

Un motivo para hacer sospechar que la Estadística es más un arte que una
ciencia, gira en torno a la ambigüedad con que se usa el término “promedio”.
5.1 LAS MEDIDAS RESUMEN

1. Tendencia central

MEDIDAS DE 2. Posición
RESUMEN

3. De dispersión

4. De forma de la distribución
LAS MEDIDAS DE TENDENCIA CENTRAL

Se refieren al punto medio de una distribución


Ejemplo: A partir del gráfico siguiente, se observa que la posición central de la curva B
está a la derecha de la posición central de las curvas A y C. Obsérvese que la posición
central de la curva A es la misma que la curva C.

La nota promedio de los alumnos de la sección 15M es 12.8 (curva A), la nota promedio
de la sección 10T es también 12.8 (curva C) pero la nota promedio de la sección 23N es
15.4 (curva B)
LAS MEDIDAS DE DISPERSIÓN

1. Se refieren a la extensión o amplitud de los datos de una distribución


2. Representan el grado de variabilidad de los datos.
Ejemplo: Observe que la curva A en el siguiente gráfico tiene una mayor dispersión que la
curva B, a pesar que la posición central es la misma.

Las notas de los alumnos de la sección 13M varía entre 08 y 17 y su


promedio es 13.8 (curva A), en cambio las notas de la sección 10T varían
entre 12 y 15 y su promedio es también 13.8 (curva B). Las notas de la
sección 13M son más dispersas.
LAS MEDIDAS DE LA FORMA DE LA CURVA

Las curvas que representan a un conjunto de datos, pueden ser analizadas de


acuerdo a su:

a) Simetría b) Curtósis

SIMETRIA
Las curvas simétricas, tienen una forma tal que con una línea vertical que pase
por el punto más alto de la curva, dividirá el área de ésta en dos partes iguales.
SIMETRÍA

Las curvas sesgadas son aquellas cuyos valores están concentrados en el extremo
inferior o superior de la escala de medición del eje horizontal. La “cola” indica el tipo de
sesgo.
CURTOSIS

Cuando medimos la curtósis nos referimos al grado de agudeza. Pueden ser:


leptocúrtica (concentración al centro) mesocúrtica distribuidos simétricamente) o
platicúrtica (aplanada).
AGENDA

LAS MEDIDAS DE RESUMEN:


1. Medidas de tendencia central
A. La media aritmética
B. La mediana
C. La moda

2. Medidas de Posición
A. Cuartiles
B. Deciles
C. Percentiles
5.1 MEDIDAS DE TENDENCIA CENTRAL

Una vez clasificados los datos originales en tablas y gráficas, será necesario calcular
un conjunto de medidas centrales que caractericen en forma más precisa la
distribución que se está estudiando, usualmente se llaman PROMEDIOS y son de
extraordinaria utilidad tanto en el análisis de una distribución, como en la
comparación de distribuciones.
Por lo general el conjunto de datos presentan una tendencia de agruparse alrededor
de un punto central que describe el conjunto de series de datos.
Estas medidas descriptiva se conoce como medidas de Tendencia Central y
comprende:
o La media aritmética.
o La mediana.
o La moda.
A. LA MEDIA ARITMETICA

CALCULO A PARTIR DE DATOS NO AGRUPADOS

o Media aritmética de una población: Parámetro


N

X
 i 1

N
o Media aritmética de una muestra: Estadístico

x i
X  i 1

n
Ejemplo 1

Calcule e interprete la media aritmética para los datos correspondiente al número de


reclamos y quejas presentadas por clientes a lo largo de una semana.
Día/Semana Lun Mar Mier Jue Vier Sab
Reclamos/día 8 10 5 12 10 15

• Calcule la media aritmética:


6

x
i 1
i
8  10  5  12  10  15 60
x    10
6 6 6

• Interprete:
Si se selecciona al azar un día de la semana, se espera que se haya presentado 10
reclamos durante ese día.
Ejemplo 2

Se presenta pesos (en kgs.) un grupo de estudiantes


Tiempo (minutos)
90 83 94 89 119 112
91 110 92 100 113 83

• Calcule la media aritmética:


12

x
i 1
i
90  83  ......  113  83 1176
x    98
12 12 12

• Interprete:
Si se selecciona dentro de este grupo a un estudiante al azar, se espera que su
peso sea 98 kgs.
CALCULO DE A PARTIR DE DATOS DISCRETOS AGRUPADOS

x1 , x2 , x3 , ............, xk Diferentes valores de la variable

Frecuencias absolutas
f1 , f 2 , f 3 , ............., f k

Xi fi xi fi
Media Aritmética
x1 f1 x1f1
x2 f2 x2f2 k
x3 f3 x3f3 x * f i i

. . x i 1

. .
f i

xk fk xkfk
k

 xi fi
TOTAL n i1
Ejemplo 3

Se presenta el número de créditos en que se ha matriculado un grupo de estudiantes de


estudios gerenciales de la USMP. Calcule el promedio de créditos por alumno. Interprete.
Solución

Edad (Años)
CREDITOS fi xi fi Cálculos
21 3 63
22 5 110 1191
23 10 230 x  23.82  24
50
24 16 384
25 12 300
26 4 104
TOTAL 50 1191

Interpretación: Si se elige un estudiante al azar, se espera que el número de créditos


matriculados sea aprox. 24.
CALCULO A PARTIR DE DATOS CONTINUOS AGRUPADOS

Ejemplo 4
Se presenta las pensiones de enseñanza (S/.) de una muestra de 25 estudiantes de
la USMP. Calcule la media aritmética e interprete.

Xi
m

x '* i fi
x i 1

f i
Solución:

Pensión
m

x '*
Mensual
Xi fi
(S/.) Marcas de Clase fi xi *fi i
x i 1
[435-512>
[512-589>
473.5
550.5
5
6
2367.5
3303
f i

[589-666> 627.5 7 4392.5


[666-743> 704.5 4 2818 15,225.5
x  S / .609.02
[743-820] 781.5 3 2344.5 25
TOTAL 25 15225.5

Interprete: Si se selecciona a un estudiante de la USMP al azar, lo más probable es que


su pensión de enseñanza sea S/. 609,02 mensual
EJERCICIO APLICATIVO
Las calificaciones en un examen parcial del curso de Gestión de la Calidad de los alumnos
del quinto ciclo de la USMP se presentan a continuación:
16 09 07 07 16 06
09 08 09 11 16 16
03 08 20 17 15 17
13 07 01 09 11 08
01 17 06 07 06 16
03 06 20 01 17 16
17 05 03 16 15 18
02 18 04 15 07 02
13 06 02 18 13 17
16 01 12 15 11 08
15 20 04 10 17 03

a) Calcule la media aritmética a partir de los datos sin agrupar


b) Construya una tabla de distribución de frecuencias y utilícela para calcular la
media aritmética.
c) Compare los resultados obtenidos en a) y en b). ¿Por qué son diferentes? ¿Cuál
es más exacta?
LA MEDIA ARITMÉTICA PONDERADA xp
n
donde:
 wi X i wi = factor de ponderación
xp  i 1
n
= datos
w
i 1
i Xi
Ejemplo 5: Una empresa comercializadora de Seguros Médicos dispone de 3
representantes para la zona de Miraflores, cada uno de los cuales cobra diferente
comisión por póliza vendida, y realiza diferente número de contratos. Calcule e interprete
el valor medio de la comisión.

Nº de polizas de Comisión
Vendedor Seguro Médico: wi por venta $: Xi

Pedro 30 30
Juan 25 40
Pablo 20 50
SOLUCIÓN:

x p  30(30)  25(40)  20(50)  2900  $38.67


30  25  20 75

Interpretación:

Si se elige al azar un representante se espera que cobre una comisión


de $38.67 por cada póliza vendida.
5.2. LA MEDIANA

Es un valor que divide a un conjunto de observaciones ordenadas en forma


ascendente o descendente en dos grupos de igual número de observaciones, es decir
50% de los datos toma valores menores o iguales a la mediana y la otra mitad valores
superiores a la mediana.
PROCEDIMIENTO PARA CALCULAR LA MEDIANA: Me

1) Ordene los datos (ascendente o descendente).


2) Ubicación de la mediana.
n 1
i
2
Se presentan dos casos:

a) Cuando n es IMPAR, la mediana es igual al valor que ocupa la posición


central.
b) Cuando n es PAR, la mediana es igual al promedio de los dos valores
que ocupan la posición central.

3) La mediana es el dato que ocupa la posición i.


Ejemplo 6

Calcule e interprete la mediana para los datos correspondientes a la variable: número de


hijos por trabajador.
0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 4 4 4
n = 22
Calcule la mediana: n  1 22  1 23
lugar     11.5
1) Ubicación de la mediana: 2 2 2

2) La mediana entonces será igual al promedio de los valores ubicados la posición 11° y
12° de la serie ordenada, luego:
Me = 2
Interprete:
La mitad de los trabajadores tienen a lo mucho dos hijos y el resto tiene dos hijos o
más.
5.3. LA MODA

Es el valor de la observación que aparece con más frecuencia. La moda es


especialmente útil para describir niveles nominales y ordinales de medición.
Ejemplos:
a) Sea el conjunto de datos. (unimodal)
2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 13

Tiene moda Mo = 9, porque es el dato que más se repite.


b) El conjunto de datos (amodal)
3, 5, 8, 10, 12, 16, 18

No tiene moda porque ningún valor se repite.

c) El conjunto de datos (bimodal)


2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9

Tiene dos modas 4 y 7, porque 4 se repite tres veces al igual que 7 que también se
repite tres veces.
Ejemplo 7

Toyota emplea a 25 vendedores. El número de automóviles nuevos vendidos el


mes pasado por sus respectivos vendedores fueron:
Datos Ordenados de menor a mayor:
4 5 6 7 7
8 9 10 10 10
12 12 12 12 13
13 13 15 15 15
18 19 19 23 28

Interprete : El número de autos vendidos más frecuente por un vendedor,


durante el mes pasado es 12. Entonces M O = 12.
MEDIDAS DE POSICIÓN

2013 - 1
Las medidas de posición o cuantíeles son los valores que determinan la posición
de un dato respecto a todos los demás datos de una serie y que previamente ha
sido ordenada de menor a mayor.

Cuantiles

Cuartiles Deciles Percentiles


(en 4) (en 10) (en 100)

Dividen el conjunto de datos en


Dividen el conjunto de datos Dividen el conjunto de datos 100 partes porcentualmente
en cuatro partes en 10 partes porcentualmente iguales.
porcentualmente iguales iguales. El percentil k, Pk. Es el valor
Se les denota como Q1, Q2 y Se les denota como D1 , D2, numérico tal que
Q3 respectivamente. D3, …, D9 respectivamente. aproximadamente el k por ciento
Se denomina así a cada uno Se denomina así a cada uno de los datos ordenados está por
de los tres percentiles: P25, de los nueve percentiles: P10, debajo de ese valor y el (100 – k)
P50, P75. P20, ...P90. por ciento de los datos está por
encima de ese valor.

115
MEDIDAS DE POSICIÓN

Son los valores que dividen a la distribución en 4 , en 10 y en 100 partes iguales, con
respecto a los datos previamente ordenados de menor a mayor.
Tenemos:
• Cuartiles : Datos previamente ordenados se dividen en 4 partes iguales que
representan 25%, 50% y 75% de la distribución. Se denotan por Q 1 , Q 2 , Q 3 .

• Deciles : Datos previamente ordenados se dividen en 10 partes iguales. Se denotan


por D 1 , D 2 , ... , D 8 , D 9 .
MEDIDAS DE POSICIÓN

Se define así al valor que divide a un conjunto ordenado de datos en dos partes
con porcentajes específicos por debajo y sobre éste valor.

• PERCENTILES: Dividen un conjunto de datos ordenados en 100 partes


porcentualmente iguales.

El percentil que divide al conjunto de datos ordenados en dos partes, el


inferior con k% de los datos y el superior con el (100-k)% de los datos se le
denomina Pk. P1 , P 2 , ... , P 10 ,……, P 45 …………...P 99 .

117
2. CUARTILES.- Primer cuartil

Un cuartil es una medida de posición que divide al total de las


observaciones, debidamente ordenadas en cuatro partes de igual
tamaño. Esto significa que entre cuartiles consecutivos se encuentra no
más del 25 % del total de las "n" observaciones.

Primer Cuartil, o Cuartil inferior, o percentil 25:

El 25 % de las observaciones tienen valores menores o iguales a Q 1 y


el 75 % restante tienen valores mayores a Q 1 .

25% 25% 25% 25%

Xmin ≤ > Xmax

Q1 = P25
2. CUARTILES.- Tercer cuartil

Segundo cuartil, o percentil 50 (también la mediana):

Es el valor que está en el centro, por lo tanto coincide con la mediana


Q 2 = Me.

Tercer cuartil, o Cuartil superior, o percentil 75:

El 75 % de las observaciones tienen valores menores o iguales a Q 3 y


el 25 % restante tienen valores mayores a Q 3 .

25% 25% 25% 25%

Xmin ≤ Xmax
>
Q3 = P75
Ejercicio 1

A continuación se presenta los datos para una muestra de 12 empleados del sector
minero respecto a la variable sueldo mensual.

Sueldos Mensuales:

2850 2950 3050 2880 2755 2710


2890 3130 2940 3325 2920 2880

Ordenar los datos en forma creciente:

Sueldos 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Mensuales
Forma de cálculo.-
Calcule e interprete el primer cuartil
Variable: Sueldo mensual de los empleados del sector minero.
Posición del primer cuartil:
 p   25 
i n   12  3
 100   100 

Como i es entero, de acuerdo con el paso 3b) el primer cuartil, o


percentil 25 es el promedio del tercer y cuarto valor de los datos
entonces:

2850  2880
Q1   2865
2

Interpretación: El 25% de los empleados del sector minero perciben


sueldos mensuales menores o iguales a S/.2865 y el 75% restante
perciben sueldos mensuales mayores o iguales a S/.2865.
Forma de cálculo.-

Calcule e interprete el tercer cuartil


Variable: Sueldo mensual de los empleados del sector minero.
Posición del tercer cuartil :
 p   75 
i n   12  9
 100   100 

Como i es entero, de acuerdo con el paso 3b) el tercer cuartil, o percentil 75 es


el promedio del noveno y décimo valor de los datos entonces:

2950  3050
Q3   3000
2

Interpretación: El 75% de los empleados del sector minero perciben sueldos


mensuales menores o iguales a S/.3000 y el 25% restante perciben sueldos
mensuales mayores o iguales a S/.3000
Ejemplo Aplicativo 1

Toyota emplea a 25 vendedores . El número de automóviles nuevos


vendidos el mes pasado por sus respectivos vendedores fueron:
# de automóviles vendidos:
15 23 4 19 18
10 10 8 28 19
13 13 12 15 7
15 5 12 6 7
12 10 9 13 12

Se ordenan los datos de menor a mayor:


Datos Ordenados de menor a mayor:
4 5 6 7 7
8 9 10 10 10
12 12 12 12 13
13 13 15 15 15
18 19 19 23 28
Forma de cálculo

Posición del Q1
 p   25 
i n   25  6.25  7 Q1 = 9
 100   100 

Interpretación : El 25% de los vendedores realizaron ventas menores


o iguales a 9 automóviles y el 75% restante tendrán ventas superiores
a 9.

Posición del Q3
 p   75  Q 3= 15
i n   25  18.75  19
 100   100 

Interpretamos: El 75% de los vendedores realizaron ventas menores o


iguales a 15 automóviles y el 25% restante tendrán ventas iguales o
superiores a 15.
Ejemplo Aplicativo 2

Una muestra de 20 trabajadores de una compañía obtuvo los siguientes


montos netos de pago tras deducciones en una semana dada, se disponen
estos datos en orden ascendente.

240 240 240 240 240 240 240 240 255 255

265 265 280 280 290 300 305 325 330 340

Calcule: El tercer cuartil, el noveno decil, el percentil 50, el percentil 84.

125
1. PERCENTIL – PROCEDIMIENTO DE CALCULO

• Paso 1: Ordene los datos de forma ascendente.


• Paso 2: Calcule el lugar o posición i, para ubicar el valor del percentil.
 p 
i n
 100 

donde p es el percentil de interés y n es la cantidad de observaciones.


Se presenta dos casos:
a) Si i no es entero, i se redondea (con exceso) a la posición inmediata mayor.
El p-ésimo percentil es el dato que ocupa la posición i.
b) Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos
ubicados en los lugares i e i+1.

• Paso 3: El percentil es el dato que ocupa la posición i.


Ejemplo 1

A continuación se presenta los datos para una muestra de 12 empleados del


sector minero respecto a la variable sueldo mensual.

Sueldo Mensual Sueldo Mensual


Empleado Empleado
S/. S/.
1 2850 7 2890
2 2950 8 3130
3 3050 9 2940
4 2880 10 3325
5 2755 11 2920
6 2710 12 2880

Determinar el percentil 85.


Forma de cálculo

• Paso 1: Ordene los datos en forma ascendente.

2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325

• Paso 2: Ubicación del percentil 85


 p   85 
i  n   12  10.2
 100   100 

• Paso 3: Como i no es entero, redondeamos al inmediato mayor. El


percentil 85 es el datos que ocupa la posición 11.

P85 = 3130.

Interpretación:
El 85% de los empleados del sector minero perciben sueldos mensuales
menores o iguales a S/.3130 y el 15% restante perciben sueldos mensuales
iguales o superiores a S/.3130
CARACTERISTICAS DE LA MEDIA ARITMETICA

1. A todo conjunto de datos registrados en escala de intervalo o de razón, se le puede


calcular la media aritmética.
2. Para el cálculo de la media se incluyen todos los valores (x).
3. Solo existe una única media aritmética en un conjunto de datos.
4. La suma de las desviaciones de las observaciones con respecto a su valor medio es
cero. n
 ( xi - x) = 0
i=1
5. La media es afectada por valores extremos (grandes o pequeños) comparadas con
el resto de datos.
6. Es muy útil cuando queremos comparar dos o más distribuciones.
7. El cálculo de la media aritmética a partir de datos agrupados con extremos abiertos
no es conveniente.
PROPIEDADES DE LA MEDIA

2013 - 1
• La media aritmética de una cantidad constante es la misma constante.
M(k) = k

• La media de una variable a la que se le suma o resta una constante equivale a la media
de la variable más o menos dicha constante.
M(X  k) = M(X)  k

• La media de una variable multiplicada por una constante equivale a la media de la


variable multiplicada por dicha constante.

M(kX) = kM(X)

• En general, para dos constantes a y b tenemos.

M(aX  b) = aM(X)  b

130
DESVENTAJAS DE LA MEDIA ARITMÉTICA

• Para datos que contienen uno o dos valores sumamente grandes o muy
pequeños, la media aritmética no es una medida adecuada para representar los
datos.

• La media aritmética es inadecuada si existen intervalos con límites extremos


abiertos para datos agrupados en una distribución tabla de distribución de
frecuencias.
PROPIEDADES DE LA MEDIANA

1. La mediana no es afectada por los valores extremos.


2. Solo existe una mediana en un conjunto de datos.
3. Es posible determinarla para datos registrados en una escala ordinal.
Facilidad de
Navegar por la
Web # de personas Fi
Sobresaliente 30 30
Excelente 58 88 180  1
Buena 42 130  90.5
2
Regular 30 160
Mala 20 180
TOTAL 180

Interprete: La mitad de los usuarios opinan que la facilidad para navegar por web se
encuentra entre sobresaliente, excelente y buena. La otra mitad, entre regular y mala.
PROPIEDADES DE LA MODA

o Muy útil para variables cualitativas registrada en una escala nominal.


o Es posible determinar la moda en todas las escalas de medición.
o No tiene influencia por los valores extremos.
o Es posible calcular la moda, a partir de una tabla de distribución de
frecuencias con límites extremos abiertos.
o La moda puede no existir, si existe, no siempre es la única.
o Una distribución de datos puede tener más de una moda. Siendo Unimodal
(1 moda), Bimodal (2 modas), Multimodal (más de 2modas).
APLICACIÓN EN VARIABLES CUALITATIVAS

ORDINALES NOMINALES

Facilidad de Cargo que Frecuencia Frecuencia


Navegar por la desempeña Absoluta relativa
Web # de personas Tesorero 12 13%
Sobresaliente 30 Contador 20 22%
Excelente 58 Analista de
Sistemas 36 40%
Buena 42 Asistente de
Regular 30 personal 15 17%
Mala 20 Administrador
TOTAL 180 7 8%
TOTAL 90 100%

Interprete: La facilidad de Interprete: El cargo ocupacional


Navegar por la Web que es que tiene mayor presencia, es el
más frecuente en las Analista de Sistemas.
personas es Excelente.
PROPIEDADES DE LA MODA

o Muy útil para variables cualitativas registrada en una escala nominal.


o Es posible determinar la moda en todas las escalas de medición.
o No tiene influencia por los valores extremos.
o Es posible calcular la moda, a partir de una tabla de distribución de frecuencias
con límites extremos abiertos.
o La moda puede no existir, si existe, no siempre es la única.
o Una distribución de datos puede tener más de una moda. Siendo Unimodal (1
moda), Bimodal (2 modas), Multimodal (más de 2modas).
POSICIÓN DE LAS MEDIDAS DE TENDENCIA CENTRAL Y FORMA DE LA DISTRIBUCIÓN

a. Sí la x  Me  Mo , la distribución es asimétrica positiva o sesgada a la


derecha.
b. Sí la x  Me  Mo
, la distribución es asimétrica negativa o sesgada a la
izquierda.
c. Si la x  Me  Mo
, la distribución es simétrica .
Ejercicio
Se realizó un estudio para comparar los tipos de pago efectuado en la
compra de artículos de primera necesidad en un supermercado. Para el
estudio, se evalúan dos modalidades de pago: efectivo y crédito. Se
seleccionó al azar una muestra de 15 clientes de cada tipo de pago y se
registró el consumo diario (en nuevos soles).
Efectiv
o
58 57 57 56 57 55 58 57 55 59 58 57 54 55 57
Crédito 62 61 63 62 60 62 63 62 64 62 61 63 62 64 62

a) Identifique la variable, tipo de variable y unidad de análisis.


b) Calcule e interprete para la modalidad pago a crédito, las medidas de
tendencia central: media aritmética, mediana y moda.
c) ¿La media aritmética que obtuvo en b) es un estadígrafo o un
parámetro? ¿Por qué?
d) Realice un análisis comparativo de acuerdo a las medidas de tendencia
central. ¿Cuál es el indicador de centralidad más adecuado?
e) Calcule las medidas de posición: cuartiles y P 35 . Interprete los
resultados obtenidos para el grupo pago efectivo.
DIAGRAMA DE CAJA Y BIGOTES (BOXPLOT)

Es un gráfico que suministra información sobre los valores mínimo y


máximo, la media aritmética, los cuartiles Q 1 , Q 2 y Q 3 , y sobre la
existencia de valores atípicos y la simetría de la distribución.

PROCEDIMIENTO:
1. Determinar el valor máximo, mínimo, los percentiles 25, 50 y 75.
2. Calcular el Rango Intercuartílico: P 75 – P 25 .
3. Determinar los LIMITES, tanto superior como inferior
LI = P25 – 1.5RIC LS = P75 +1.5RIC
4. Los datos que toman valores por encima o por de debajo de estos
límites, constituyen valores atípicos.
5. Los valores atípicos pueden ser cercanos o alejados. Los cercanos
se denominas outliers y los lejanos se denominas extremos. Las
frontera entre estos tipos de atípicos se determina por la fórmula:
Limite extremo inferior: P 25 – 3RIC Límite extremo superior: P 75
+ 3RIC
Ejemplo

Se desea analizar el consumo de gas natural en los hogares de un


distrito limeño, el gasto mensual en este combustible, en soles de 36
hogares se muestra a continuación:
Comentarios

• El mínimo (20,6) es mayor al Límite Inferior (17,1375), por lo tanto no hay


valores atípicos inferiores.
• El máximo (37,6) es mayor al Límite Superior (37,0375), por lo tanto hay
valores atípicos superiores.
• ¿Cuántos valores atípicos superiores hay en esta muestra?. Para ello
ordenamos los datos, de menor a mayor, y buscamos si existe otros
valores mayores a 37,0375 (por supuesto menores o iguales a 37,6,
puesto que es el máximo). No hay otros valores. Hay solo un valor atípico.
• ¿Este valor atípico es un outliers o un extremo? Observamos que el 37,6
está entre el 37,0375 y 44,5 por lo tanto es un outliers. Si el dato hubiese
estado por encimo a 44,5 hubiese sido un extremo.
Conclusiones

Puesto que el valor atípico es a la derecha, el mínimo está por encima del
límite inferior y la diferencia entre P 50 – P 25 es mayor a la diferencia entre
P 75 – P 50 , se puede concluir que los datos se ajustan a una distribución
asimétrica a la derecha, o sesgo positivo .
1. MEDIDAS DE
DISPERSIÓN

142
Medidas de dispersión

2013 - 1
143
Medidas de dispersión

2013 - 1
144
A. EL RANGO o AMPLITUD o RECORRIDO

Es diferencia entre el valor máximo y el valor mínimo. Es un valor muy afectado por la
A) El derango
presencia (R) Tiene una limitación: no toma en cuenta ni el número de
valores extremos.
datos ni el valor de los datos intermedios.

R = Xmax – Xmin
APLICACIÓN: Los siguientes datos representan el peso de 10 cajas con mercancías
(en Kg.) que han sido separadas del lote pues su peso sobrepasa el límite de tolerancia.
Calcule e interprete el rango.
2,860 3,150 3,450 2,950 3,780 4,170 3,920 3,280 4,050 3,120
B. EL RANGO INTERCUARTÍLICO

Es la diferencia entre el Tercer Cuartil y el Primer Cuartil. Es un valor


robusto, extremadamente resistente a los valores extremos.
RIC = Q3 – Q1
APLICACIÓN

A fin de mejorar el nivel de satisfacción de los clientes, la


Gerencia de Calidad apertura una línea gratuita para atender las
quejas de sus clientes. Los siguientes datos muestran la
cantidad de llamadas recibidas durante 134 días. Calcule e
interprete el rango intercuartílico.
Utilizando el Excel

Interpretación :
el número de
llamadas diarias del
50% de días central,
tiene una dispersión
de 13 llamadas.
VARIANZA Y DESVIACIÓN ESTÁNDAR:

2013 - 1
Poblacional Muestral

σ2 S2
Varianza
=VAR.P =VAR.S

σ S
Desviación estándar
=DESVEST.P =DESVEST.M

• La varianza y la desviación estándar son números reales no negativos.


• La desviación estándar se define como la raíz cuadrada positiva de la
varianza
• La varianza es expresada en unidades cuadráticas a las unidades de
los datos, mientras que la desviación estándar es expresada en las
mismas unidades de los datos

149
DATOS NO AGRUPADOS

Para una muestra Para una población


n N

Varianza
 (x i  x) 2
 i x
( x   ) 2

S2  i 1
2  i 1
n 1 N

n N
Desviación  i
( x  x ) 2
 i x
( x   ) 2

estándar S i 1
  i 1
n 1 N

150
EJEMPLO 1

Sean los siguientes valores poblacionales: X1 = 10 , X2 = 13, X3 = 10, X4 = 14, X5 = 13


• Calcular la varianza:
• Calculamos la media aritmética poblacional
• Cálculo de las desviaciones y desviaciones al cuadrado respecto a la media.

Desviación respecto a la media Desviación respecto a la media


Valores Media aritmética aritmética aritmética elevada al cuadrado
 ( X i ) ( X i  ) 2
10 12 -2 4
13 12 1 1
10 12 -2 4
14 12 2 4
13 12 1 1
TOTAL 14
N 5

X X
N

i i
10  13  10  14  13 60 (X i  )2
14
 i 1
 i 1
   12 2  i 1
  2.8
N 5 5 5 N 5

• OBSERVACIÓN: Si la varianza de un conjunto de observaciones es


grande, se dice que los datos tienen mayor variabilidad, que un conjunto de
datos que tenga una varianza más pequeña.

151
PROPIEDADES DE LA VARIANZA

1. Si el valor de las observaciones son todas iguales, entonces la varianza


es cero.
V(k) = 0, k = constante

2. La varianza del producto de una constante por una variable, es igual al


cuadrado de la constante por la varianza de la variable.
V(k.X) = k 2 V(X)

3. La varianza de la suma de una variable más una constante, es igual a la


varianza de la variable.
V(X + k) = V(X)

152
LA DESVIACIÓN ESTÁNDAR

La Desviación Estándar o Desviación Típica, se define como la raíz


cuadrada de la varianza

• Desviación estándar de una muestra: S  S2

• Desviación estándar de una población:   2

• Es la medida de dispersión de mayor uso, en la cual las


unidades de la variable ya no están elevadas al cuadrado. La
desviación estándar, al igual que la varianza, es no negativa

(S  0), puesto que es la raíz cuadrada positiva de la varianza. A


mayor dispersión le corresponderá una mayor desviación estándar.

153
Aplicación

La siguiente información se refiere al número de


devoluciones en una farmacia, durante una semana.
Calcule la desviación estándar.

8, 10, 5, 12, 10, 15

• Ya sabemos por el ejemplo anterior que S 2 = 11,6 Entonces

S
2
s
S  11,6

S  3,4 devoluciones
EL COEFICIENTE DE VARIACIÓN

• Es una medida de dispersión relativa, no posee unidades.

Para una muestra Para una población

S 
CV   100 CV  100
x 
• Permite comparar variabilidad de conjuntos de datos registra-dos en
diferentes unidades de medida:

• Peso: kilos y libras o


• Temperatura: °C y °F

• También cuando las medias aritméticas de los conjuntos de datos a


comparar son diferentes.

155
Ejemplo

• Los datos que se presentan a continuación corresponden al tiempo


de horas extras semanales trabajadas de una muestra de 18
operarios de una empresa textil

2,8 2,0 3,2 4,0 4,0 4,4 1,3 2,8 3,9


2,1 2,4 1,6 1,5 2,2 2,4 1,3 2,5 2,7
• Calcule la varianza, desviación estándar y coeficiente de variación
del tiempo de horas extras semanales realizado por los 18
operarios.
2.8 2 3.2 4 4 4.4 1.3 2.8 3.9
2.1 2.4 1.6 1.5 2.2 2.4 1.3 2.5 2.7
Varianza 0.926176471
Desviación estándar 0.962380627
Media aritmética 2.616666667

Coeficiente. de
36.78%
variación

156
2. Medidas de las
formas de la
distribución

157
MEDIDAS DE FORMAS

1. COEFICIENTE DE ASIMETRÍA (SESGO)


COEFICIENTE DE ASIMETRÍA DE PEARSON
Válido para el caso unimodal y moderadamente asimétricas.

3(𝑀𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎 −𝑀𝑒𝑑𝑖𝑎𝑛𝑎)


Ap =
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑠𝑡á𝑛𝑑𝑎𝑟
Sí:
Ap > 0; Distribución asimétrica positiva
Ap = 0; Distribución simétrica
Ap < 0; Distribución asimétrica negativa

158
Aplicación

PRECIOS
18
3(media  mediana) 3(18.615 - 18)
16 AP  
21 desviación estándar 15
22 AP  0,123
15
14
15
15
18 Interpretación: Los precios se ajustan
22 a una distribución con leve sesgo
25 positivo (o asimetría a la derecha)
20
21

Media 18.615
Mediana 18
Desviación Estándar 15

159
2. EL COEFICIENTE DE CURTOSIS

• Entendemos como curtosis al grado de apuntamiento de una distribución, la


curtosis se analiza comparando la distribución con la forma de la curva
normal o simétrica.

COEFICIENTE DE CURTOSIS DE PEARSON:

Q3  Q1
KP 
2( P90  P10 )
Si:
KP = 0.263 Curva Mesocúrtica
KP > 0.263 Curva Leptocúrtica
KP < 0.263 Curva Platicúrtica

160
APLICACIÓN

Los siguientes datos se refieren a la cantidad de productos defectuosos diarios


durante la última quincena.

12 29 32 15 27 22 32 25 18 20 27 18 25 28 30

Interpretación: los datos se


ajustan a una distribución
asimétrica negativa (sesgo a
la izquierda) y es aplana
(platicúrtica)
Comprobación del aprendizaje

Los siguientes datos representan la tardanza de 20 trabajadores:

10 40 35 20 60 30 20 30 25 15
35 30 25 54 60 30 15 10 20 30

a) ¿Cuáles es la tardanza más frecuente? ________


b) Si elijo un trabajador al azar ¿Cuál es la tardanza ________
esperada?

c) ¿Sobre cuantos minutos de tardanza se encuentra 20 % ________


de los trabajadores de los más retrasados?

d) ¿Los datos son simétricos? ________


¿ Qué aprendimos en esta sesión?

1. Caracterizar y diferenciar las diferentes medidas de resumen: dispersión, de


asimetría y curtosis.
2. Calcular e interpretar medidas de dispersión
3. Calcular e interpretar medidas de la forma de la distribución
BIBLIOGRAFÍA

o LEVIN, Richard y David Rubin (2010) Estadística para Administración y


Economía. 7ª ed. Pearson. México. Cap. 3: Medidas de tendencia central
y dispersión en distribuciones de frecuencias. 57 - 126 págs.
o LIND, Douglas; William Marchal y Robert Mason (2004) Estadística para
Administración y Economía. 11ª ed. Alfaomega. México. Cap.3:
Descripción de datos: medidas de tendencia central 64 - 98 págs. Cap.
4: Otras medidas descriptivas 99 – 148 págs.
o WEIERS, Ronald (2006). Introducción a la Estadística para Negocios. 5ta
ed. Cengage Learning. México. Cap. 3: Descripción estadística de datos
69 - 120 págs.
1. Medidas de
asociación entre dos
variables

165
MEDIDAS DE ASOCIACION ENTRE DOS
VARIABLES
OBJETIVOS GENERAL:
 Introducir el Coeficiente de correlación lineal entre dos
variables, determinando la asociación entre dos
variables X e Y.

OBJETIVOS ESPECÍFICOS:
 Determinar si dos variables X e Y , están asociadas.
 Determinar que tan fuerte es esta relación.
 Pronosticar en forma intuitiva el grado de asociación
lineal entre dos variables, en base al diagrama de
dispersión.

166
MEDIDAS DE ASOCIACION ENTRE DOS VARIABLES

1. Covarianza:

• Para un conjunto de observaciones, la covarianza se define


como:

Covarianza de una muestra: Covarianza de una población:

n _ _

 ( x  x)( y
N
i i  y) (X i  x )(Yi   y )
S xy  i 1
 xy i 1

n 1 N

167
Ejemplo 1
El departamento de logística de una tienda
de equipos de sonido, ha usado
comerciales de televisión los fines de
semana para promover sus ventas. El
administrador de la tienda le interesa
investigar la relación entre la cantidad de
comerciales de televisión que aparecen los
fines de semana y las ventas en su
negocio durante la siguiente semana. En la
siguiente tabla aparecen datos de la
muestra, donde las ventas se expresan en
miles de dólares, con una observación
para cada semana.

168
Ejemplo 1

Cantidad de Volumen de
Semana comerciales ventas
x y
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46

169
Ejemplo 1

_ _ _ _
xi yi ( xi  x ) ( yi  y ) ( xi  x)( yi  y )

2 50 -1 -1 1
5 57 2 6 12
1 41 -2 -10 20
3 54 0 3 0
4 54 1 3 3
1 38 -2 -13 26
5 63 2 12 24
3 48 0 -3 0
4 59 1 8 8
2 46 -1 -5 5
30 510 0 0 99

170
Ejemplo 1

• Reemplazando valores en la fórmula

10 _ _

 ( x  x)( y  y)
i i
99
S xy  i 1
  11
10  1 10  1

Interpretación :
Para ayudarnos en la interpretación de la covarianza de la
muestra es necesario tomar en cuenta el diagrama de dispersión
de x e y

171
Solución con Excel

172
Ejemplo 1

173
INTERPRETACION DE COVARIANZA
En la gráfica quedan cuatro cuadrantes:
• Los puntos del cuadrante I corresponde a valores de x mayores
que su media y a valores de y mayores que su media.
• Los puntos del cuadrante II corresponde a valores de x
menores que su media y a valores de y mayores que su
media.
• Los puntos del cuadrante III corresponde a valores de x
menores que su media y a valores de y menores que su
media.
• Los puntos del cuadrante IV corresponde a valores de x
mayores que su media y a valores de y menores que su
media.

174
INTERPRETACION DE COVARIANZA

Si el valor de Sxy es positivo, los puntos que tuvieron la


máxima influencia sobre Sxy deben estar en los cuadrantes I y
III, por consiguiente un valor positivo de Sxy indica una
asociación lineal positiva entre x e y.
Si el valor de Sxy es negativo los puntos que tuvieron mayor
influencia sobre Sxy están en los cuadrantes II y IV, por
consiguiente un valor negativo de Sxy indica una asociación
lineal negativa entre x e y.
Si los puntos se distribuyen uniformemente en los cuatro
cuadrantes el valor de Sxy será cercano a cero, indicando que
no hay asociación lineal entre x e y.

175
MEDIDAS DE ASOCIACION ENTRE DOS VARIABLES

• COEFICIENTE DE CORRELACIÓN:

Mide el grado de asociación existente entre variables

FUERTE POSITIVA SIN CORRELACIÓN FUERTE NEGATIVA

60 50
60
50
40
50
Variab le B

40

Va ria ble B
Variable B

40 30
30
30
20 20
20
10
10
10
0
0 10 20 30 40 50 60 0 0
0 10 20 30 40 50 60 0 10 20 30 40 50
Variable A
Variable A Variable A

176
Ejemplo 2
• Analizar la relación entre la edad y el tiempo de servicio de
15 trabajadores, contando con la siguiente información:

Tiempo de Tiempo de
Trabajador Edad Trabajador Edad
servicio servicio

1 48 24 9 34 10

2 40 18 10 46 20
3 30 9 11 32 12
4 39 14 12 42 18
5 46 22 13 40 16
6 42 22 14 32 8

7 27 4 15 27 6
8 36 13

177
Reemplazando los valores en la fórmula, el cociente de correlación es :
n

x y i i  nx y
r n
i 1
n
 0.97
 i
x 2

i 1
 nx 2
 i
y 2
 n
i 1
y 2

Se va debilitando
Fuerte relación Fuerte relación

-1 -0.70 0 0.70 1

Interpretación : Existe una correlación fuerte (0.97) entre la edad


y el tiempo de servicio del trabajador.

178
Solución con EXCEL

179
Ejemplo 3
• En una gran ciudad se contrató a un sociólogo para que
investigara la relación entre el número de días de ausencia de
los empleados sin autorización por año y la distancia desde su
domicilio a su centro laboral. Determine e interprete el
coeficiente de correlación. Elabore un gráfico de dispersión.

Distancia 1 3 4 6 8 10 12 14 14 18
N° Dias 8 5 8 7 6 3 5 2 4 2

Gráfico de Dispersión
9
y = -0.3442x + 8.0978
Número de días de ausencia

8
R² = 0.7109
7
6
5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20
Distancia (en millas)
Ejemplo 3
Distancia N° Días XY X2 Y2
1 8 8 1 64
3 5 15 9 25
4 8 32 16 64
r
10 * 365  90 * 50
8
10
6
3
48
30
64
100
36
9
10 *1086  902 * 10 * 296  502 
12 5 60 144 25
r  0.8431
14 2 28 196 2
14 4 56 196 16
18 2 36 324 4
90 50 355 1086 296

Interpretación: Buena relación entre el número de días ausentes y la


distancia en millas de su casa al trabajo. Correlación inversa X crece e Y
decrece
Ejercicio
• El profesor de estadística desea saber cuál es la relación entre
las horas destinadas al estudio y la calificación ganada en el
curso. A continuación se presentan los datos obtenidos por 10
estudiantes

Horas de Calificación Diagrama de Dispersión


estudio Ganada 100
45 40 90

30 35 80

calificación Ganada
70
90 75
60
60 65 50 y = 0.8295x + 5.847
105 90 40 R² = 0.8777

65 50 30
20
90 90
10
80 80 0
55 45 0 20 40 60 80 100 120

75 65 Horas destinadas al estudio


ESTADISTICA APLICADA A LA GESTION EMPRESARIAL

UNIDAD III
Teoría de la Probabilidad y Distribuciones Muestrales
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

1 Definiciones

Certidumbre: Bajo condiciones de certidumbre de un experimento,


se conoce el objetivo y se tiene información exacta y confiable
acerca del resultado de cada una de las alternativas que
consideremos.
Incertidumbre: Es poco lo que se sabe de las alternativas o de sus
resultados.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

2 Experimento aleatorio (E)


Experimento que presenta resultados diferentes bajo las mismas
condiciones iniciales.
3 Espacio muestral (S)
Dado un experimento aleatorio (E), se define el espacio muestral S
como el conjunto de todos los posibles resultados en una sola
repetición del experimento.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

4 Suceso - Evento
Cada elemento del espacio muestral es llamado suceso (s);
mientras que un conjunto particular de sucesos es llamado evento,
el cual es representado por letras mayúsculas.
Ejemplo: En el experimento de lanzar un dado, el espacio muestral
está constituido por seis sucesos.

6 sucesos
Sea el evento obtener puntaje par.

3 sucesos
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Si el resultado observado no pertenece al evento A, se dice que


ocurre el evento contrario, o que no ocurre el evento, y se denota
con A .

3 sucesos

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

ALGEBRA DE EVENTOS:

Como el espacio muestral y los eventos son conjuntos, en el análisis


estadístico reciben un tratamiento particular propio de la teoría de
probabilidades. Así, dado un experimento aleatorio E y su espacio
muestral asociado S, entonces:

A) Al espacio muestral S se le denomina evento seguro

B) Si el evento A = , se dice que A es un evento imposible.

C) Si s  (A  B), se dice que ocurre el evento A o B.

D) Si s  (A  B), se dice que ocurre el evento A y B.

E) Si A  B = , se dice que A y B son eventos excluyentes


ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

PROBABILIDAD

Sea el espacio muestral asociado con un experimento E y sea A un


evento cualquiera, se define la probabilidad del evento A con
n( A )
notación P(A) como: P(A) =
n(S )

n(A): Número de sucesos favorables al evento A.

n(S): Número de sucesos favorables al espacio muestral.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Se dice que P es una función de probabilidad si satisface los tres


axiomas siguientes:

A. La probabilidad de un evento es un número entre 0 y 1. Para


todo evento A definido en S. 0  P(A)  1

B. La probabilidad del evento seguro es 1. P(S) = 1.

C. Si A y B son eventos mutuamente excluyentes: A  B = ,


entonces: P(AB) = P(A) + P(B).

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: GREEN PERÚ


Green Perú es una empresa nacional dedicada al cultivo,
comercialización y exportación de frutas, verduras y hortalizas.
Actualmente se están realizando exportaciones de los siguientes
productos: alcachofas, espárragos blancos y paltas.
Los espárragos blancos, alcachofas y palta son comercializados de
acuerdo a la calidad del producto, la cual presenta la siguiente
clasificación: 1. Regular, 2. Superior y 3. Premium.
De acuerdo a la última cosecha procesada por la empresa se
lograron empaquetar 500 cajas en total de los mencionados
productos en sus diversas calidades.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: GREEN PERÚ


Se ha elaborado una tabla de contingencia donde se presentan las
cantidades de cajas empacadas con cada uno de los productos
según sus calidades, la misma que se presenta a continuación:

Calidades
Productos Total
Regular Superior Premium

Alcachofa 40 50 70 160

Espárragos blanco 59 76 65 200

Palta 31 49 60 140

Total 130 175 195 500

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: GREEN PERÚ


Se selecciona al azar una de las cajas para una inspección de calidad.
Determine la probabilidad de que la caja seleccionada …:
a) Sea de paltas.

b) No sea de calidad superior.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: GREEN PERÚ


c) Sea de alcachofas o sea de calidad regular.

d) Sea de calidad Premium dado que es de espárragos blancos.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Probabilidad condicional
• Sean A y B dos sucesos asociados a un espacio muestral, la
probabilidad de que ocurra el suceso A si ocurrió el suceso B,
esta dada por:
P( A  B)
P( A|B)  , P( B)  0 (1)
P( B)

• Si se sabe que ha ocurrido B, este suceso se convierte en el


nuevo espacio muestral, de ahí que el denominador sea P(B).
• El numerador es la intersección de los eventos A y B, pues si se
sabe que ocurrió B, esta es la única posibilidad de que A también
haya ocurrido.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

La probabilidad de que ocurra el suceso B dado que ocurrió el suceso A,


esta dada por:

P( A  B)
P( B| A)  , P( A )  0 (2)
P( A)

Teorema del producto


De (1) y (2) se deduce el teorema del producto, el cual señala que:

P(A  B) = P(A)P(B|A) = P(B)P(A|B)

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Ejemplo 01:
Un analista asigna probabilidades subjetivas a los eventos A y B, donde:

A: El producto presenta falla tipo A.

B: El producto presenta falla tipo B,

De tal modo que :

P(A) = 1/2 P(B) = 1/5 P(AB) = 1/16

¿Cuál es la probabilidad de que el producto presente falla tipo A dado que ha


presentado falla tipo B?
P( A  B) 1 / 16 5
P( A | B)     0.3125
P(B) 1/ 5 16

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: Refrescos
En un estudio relacionado a las preferencias, de los consumidores,
por las principales marcas de néctares de frutas existentes en el
mercado, se recabaron las opiniones provenientes de 400
encuestados. Los datos recabados se refieren a:

C1: Grupo-edad (Menos de 30 años, De 30 a menos de 50 años o


50 años a más)
C2: Marca (Frugos, Pulp, Tampico o Watts)
C3: Género (Hombre o Mujer)

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: Refrescos
A continuación se presenta la tabla asociada a las
características Grupo de edad y Marca

Marca
Grupo de edad Total
Frugos Pulp Tampico Watts
< 30 años 25 33 29 37 124
30 a 50 años 61 52 25 58 196
50 a más 18 23 14 25 80
Total 104 108 68 120 400

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: Refrescos
A continuación se presenta la tabla asociada a las
características Marca y Género

Género
Marcas Total
Hombres Mujeres
Frugos 48 56 104
Pulp 44 64 108
Tampico 30 38 68
Watts 62 58 120
Total 184 216 400

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

b) Si se selecciona un encuestado al azar, ¿Cuál es la


probabilidad de que sea mujer y prefiera la marca Pulp?
64
P(Mujeres|Pulp) = = 0.16
400

c) Si se selecciona un encuestado al azar, ¿Cuál es la


probabilidad qué prefiera la marca Frugos, si se sabe tiene
entre 30 a 50 años?
P(Frugos|30 a 50 años) =

P(Frugos  30 a 50 años ) n(Frugos  30 a 50 años ) 61


  
P(30 a 50 años ) n(30 a 50 años ) 196

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

d) Si se selecciona un encuestado de entre los que prefieren


Tampico, ¿Cuál es la probabilidad qué tenga de 30 años a más?

P(  30 años|Tampico) = 1 – P(< 30 años| Tampico) =

29
P(  30 años|Tampico) = 1 –  0.574
68

e) Si se selecciona un encuestado al azar, ¿Cuál es la


probabilidad de seleccionar a alguien que prefiera Frugos o
Tampico, dado de que es mujer?
56  38 94
P([Frugos  Tampico]|Mujer) =   0.435
216 216

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

f) Si se selecciona un encuestado al azar de entre los que


consumen Frugos o Watts, ¿cuál es la probabilidad de
seleccionar a un hombre?
48  62 110
P( H F  W )    0.491
104  120 224

Escenario: Del total de encuestados, se realizó una grabación en


video de las respuestas brindadas por 5 encuestados. De estos 5
encuestados, 3 eran hombres y 2 eran mujeres.
Se seleccionarán a 2 de los encuestados para otorgarles un premio
por su colaboración.
g) Si se selecciona a 2 encuestados al azar, uno después de otro,
¿cuál es la probabilidad de que los 2 sean hombres?

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

El diagrama de árbol es útil para representar esta situación.


 Cada nodo representa el estado posible del experimento.
 La ramas representan los resultados posibles. Cada rama es
rotulada por su resultado y la probabilidad de observarlo. La
suma de probabilidades de las ramas de cada nodo es igual a 1.
 Del nodo inicial, se dibuja una rama para cada una de las
primeras posibilidades en análisis. Las ramas posteriores
representan probabilidades condicionales.
 El fin de cada rama parcial, es a su vez un nodo del cual parten
nuevas ramas, según las posibilidades del siguiente paso, a
excepción del nodo que representa el final del experimento.
 Los nodos al final representan todos los resultados finales
posibles del experimento y se denominan hojas.
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

1er persona 2da persona


Seleccionada Diagrama de árbol Seleccionada

Mujer
encuestada 1/4
Mujer
encuestada

2/5
Hombre
3/4
encuestado

Mujer
2/4
encuestada
3/5

Hombre
encuestado
Hombre
encuestado 2/4

Mujer encuestada Hombre encuestado


ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Respuesta:
• La probabilidad de que el primer encuestado seleccionado sea
hombre: 3/5

• La probabilidad de que el segundo encuestado seleccionado


sea hombre: 2/4
3 2
• Probabilidad solicitada: *  0.30
5 4

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

h) Si se selecciona a 2 encuestados al azar, uno después de otro,


¿cuál es la probabilidad de se seleccione por lo menos a una
mujer?

La probabilidad de que el primer encuestado seleccionado sea


2
mujer:
5

La probabilidad de que el segundo encuestado seleccionado


3
sea hombre:
4
2 3
Probabilidad 1ero mujer y 2do hombre: *  0.30
5 4
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

La probabilidad de que el primer encuestado seleccionado sea


2
mujer:
5

La probabilidad de que el segundo encuestado seleccionado


sea mujer: 1
4

2 1
Probabilidad 1ero mujer y 2do mujer: *  0.10
5 4

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

La probabilidad de que el primer encuestado seleccionado sea


hombre: 3
5

La probabilidad de que el segundo encuestado seleccionado


2
sea mujer:
4

3 2
Probabilidad 1ero hombre y 2do mujer : *  0.30
5 4

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Probabilidad solicitada:

2 3 2 1 3 2
* + * + * = 0.70
5 4 5 4 5 4

NOTA: La probabilidad solicitada es el complemento de la


probabilidad solicitada en el ítem anterior.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Teorema de Probabilidad Total


Permite calcular la probabilidad de un evento a partir de sus
probabilidades condicionadas a la ocurrencia de un conjunto de
eventos que conforma una partición del espacio muestral, y de las
probabilidades de los eventos de dicha partición:
Sea B1, B2,..., Bk un conjunto de
eventos que conforman una partición
del espacio muestral S, y A un evento
cualquiera.
Se concluye que:

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Teorema de Bayes
Sea B1, B2, ..., Bk partición del espacio muestral S, y sea Bj un evento
de la partición, entonces:

Estas probabilidades P(Bj|A) provenientes de la expresión anterior,


son denominadas probabilidades a posteriori y son útiles porque
permiten comparar las probabilidades obtenidas después de la
ocurrencia del evento A de interés, con sus correspondientes
probabilidades a priori
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: Multiprint
Multiprint es una empresa que se dedica a la venta de equipos de
cómputo, periféricos y accesorios. En un reciente análisis de las
ventas de impresoras realizadas por sus 2 locales: Local A y Local B,
se ha resumido lo siguiente:

El Local A vende el 55% del total de las impresoras comercializadas


por la empresa, siendo las impresoras láser el 30 % del total de sus
ventas de impresoras del mencionado local. En el Local B las
impresoras láser representan el 40 % del total de sus ventas de
impresoras.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: Multiprint
a) Elabore el árbol de probabilidades asociado a la información
proporcionada.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: Multiprint
b) Si se selecciona un registro, de venta de impresoras, al azar de la
base de datos de la empresa, ¿cuál es la probabilidad de que sea de
una impresora láser?

Prop. venta impresoras láser


i Local (i) P(Local[i]) P(Local[i])*P(Láser|Local[i])
P(Láser|Local(i))

1 A 0.550 0.30 0.165

2 B 0.450 0.40 0.180

P(Láser) = 0.345

P(Láser) = 0.55*0.30 + 0.45*0.40 = 0.165 + 0.18 = 0.345


ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

CASO: Multiprint
c) Al seleccionar un registro de venta de impresoras láser, ¿Cuál es la
probabilidad de que proceda de una venta realizada en el Local A?
¿del Local B?
i Local (i) P(Local[i]) P(Láser|Local(i)) P(Local[i])*P(Láser|Local[i]) P(Local[i]|Láser)

1 A 0.550 0.30 0.165 0.47826


2 B 0.450 0.40 0.180 0.52174
P(Láser) = 0.345

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Variable Aleatoria
Definición: Se define como variable aleatoria a una función X que
asocia a cada uno de los elementos s que pertenecen al espacio
muestral S y un número real X(s):
Rango o recorrido de una variable aleatoria (R)
Rango es el conjunto de valores reales que adopta la variable
aleatoria: Rx = {x  R/x = X(s)}
Experimento aleatorio: Lanzar una moneda al aire y
observar el lado superior al caer. S = {Cara, Sello}. En este
caso los sucesos y eventos no son números reales.
Variable aleatoria: Si el resultado es “Sello” se pierde S/. 1,
y se gana S/. 1 si el resultado es “Cara”. Rx = {- 1, 1}
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

VARIABLE ALEATORIA DISCRETA


Sea X variable aleatoria discreta, con rango Rx, definida como: Rx = {x1, x2, ..., xn,...}. A cada xi se le asocia
n
una función p(xi) = P[X = xi] llamada función de cuantía: p(xi) ≥ 0, xi  R.  p(x )= 1
i 1
i

El conjunto de pares de la forma {xi, p(xi) } recibe el nombre de Distribución de Probabilidades de la


variable aleatoria discreta X y contiene toda la información necesaria para estudiarla.
Función de distribución acumulada de una variable aleatoria discreta
La función de distribución acumulada de una V. A. Discreta, se define como: Fx  a    p  xi 
i a

Características numéricas de una variable aleatoria discreta


Sea X variable aleatoria discreta con recorrido Rx y con función de cuantía p(xi)
Esperanza matemática Varianza
Valor esperado:  x2 = V(X) = E{[X – E(X)]2} = E(X2) – [E(X)]2 =  x 2
i * p( xi ) – [E(X)]2
E(x) = 
xi  Rx
xi p(xi) Desviación estándar: X = V( X )

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

1 Distribución de Poisson
Es una distribución muy usada en el entorno empresarial. Se deriva del
proceso de Poisson en honor al matemático francés Simeon Denis
Poisson (1781-1840).

Debe cumplir las siguientes condiciones:

La ocurrencia de los eventos son independientes.

El número promedio de veces () que ocurre un éxito por cada unidad
de tiempo o de espacio es constante.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Definición
Sea X una variable aleatoria que se distribuye como una Poisson
con parámetro , si su función de probabilidad es:

e 
 x

P( X  x ) 
x! donde x = 0, 1, 2, ...

Notación: X ~ Poisson ()

P(X = x) es la probabilidad de ocurrencia cuando la variable


discreta X toma un valor finito x.
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Características

Sea X una variable aleatoria que sigue una distribución de Poisson,


entonces:
Esperanza: E(X) = 
Varianza: V(X) = 
La distribución de Poisson es la única distribución cuya esperanza y
varianza son iguales y tienen el valor del parámetro de la
distribución.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Ejemplos de aplicación
Se usa cuando se refiere a la distribución del número de
ocurrencias por unidad de medición (tiempo, espacio, etc.):

Distribución del N° de llamadas telefónicas por minuto en un


call center.

Distribución del N° de clientes que llegan a una entidad


financiera.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Inversis
El Administrador de una agencia del Banco Inversis, determinó que
la cantidad de clientes que ingresan a la mencionada agencia,
durante el horario de la mañana, sigue una distribución de Poisson
con un promedio de 3 clientes cada minuto.

a) Defina la variable de estudio, la distribución correspondiente y


su respectivo parámetro.
X: Cantidad de clientes que ingresan a la agencia, durante el
horario de la mañana, cada minuto.
X  Poisson ( = 3)

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Inversis
b) ¿Cuál es la probabilidad qué ingresen 2 clientes en un período
de 1 minuto?
P(X = 2) = 0.224

Calculadora SPSS

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Inversis
c) ¿Cuál es la probabilidad qué ingresen como máximo 4 clientes
en un período de 1 minuto?
P(X  4) = 0.8153

Calculadora SPSS

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Inversis
d) ¿Cuál es la probabilidad qué ingresen más de 2 clientes en un
período de 1 minuto?
P(X > 2) = 1 – P(X  2) = 1 - 0.4232 = 0.5768

e) ¿Cuál es la probabilidad qué ingresen como mínimo 4 clientes en


un período de 1 minuto?
P(X ≥ 4) = 1 – P(X < 4) = 1 – P(X  3) = 1 - 0.6472 = 0.3528

f) ¿Cuál es la probabilidad qué ingresen más de 1 pero a lo más 4


clientes en un período de 1 minuto?
P(1 < X  4) = P(X  4) – P(X  1) = 0.8153 - 0.1991 = 0.6162
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

2 Distribución Normal
La distribución Normal es la más importante de las distribuciones
continuas y ha sido estudiada desde 1733 por DeMoivre (1667-
1754). En 1809, Gauss (1777-1855) la utilizó para modelar datos
astronómicos.
La distribución Normal es el soporte de todo lo que se conoce
como “estadística clásica”. Esto significa, que muchas técnicas
estadísticas requieren que los datos se comporten como la normal
para su correcta aplicación
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Definición
Se dice que la variable aleatoria continua X, tiene distribución
Normal con parámetro  , σ. 2
X  N   , 
Función de densidad de probabilidad de una Normal con
parámetro (,σ) es:
2
1  x 
1   
f  x  e 2  
-   x  ; -    ;   0
2
2
Si X  N(, 2), entonces : E(X) = , Var(X) = 2

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Ejemplos de aplicación

Distribución de las remuneraciones mensuales.

Contenido (peso) de productos empacados.

Tiempo de realización de determinadas actividades


Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Inversis
Se han presentado solicitudes para el refinanciamiento de los
créditos hipotecarios por parte de los clientes y no clientes de
Inversis. El tiempo de atención de las solicitudes, por parte de los
evaluadores financieros, desde su recepción hasta la entrega de
resultados presenta una media de 48 horas y una desviación
estándar de 2.5 horas.
a) Defina la variable de estudio, la distribución correspondiente y
su(s) respectivo(s) parámetros.
X: Tiempo de atención de las solicitudes.
X  Normal ( = 48, 2 = 2.52)

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Inversis
b) ¿Cuál es la probabilidad de que el tiempo de atención de una
solicitud de refinanciamiento demore menos de 50 horas?
P(X < 50) = 0.7881

Calculadora SPSS

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Inversis
c) ¿Cuál es la probabilidad de que el tiempo de atención de una
solicitud de refinanciamiento demore por lo menos 45 horas?
P(X  45) = 1 – P(X < 45) = 0.8849

Calculadora SPSS

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Inversis
d) ¿Cuál es la probabilidad de que el tiempo de atención de una
solicitud de refinanciamiento demore más de 45 horas pero
menos de 50 horas?
P(45 < X < 50) = P(X < 50) - P(X < 45) = 0.6731

Calculadora SPSS

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Inversis
e) Si se sabe que P(X < k) = 0.80, ¿cuál es el valor de k?

k = 50.10 horas

Calculadora SPSS

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Distribución Normal Estandarizada Z  N  0, 1


Si la variable aleatoria continua X, tiene distribución Normal,
entonces, la variable aleatoria estándar determinada por Z   X   

tiene una distribución normal estándar: Z  N(0,1)
Función de Densidad de Probabilidad de una Normal
Estandarizada es:
1
1  x2
f  x  e 2 -  x  
2
     y   0
Si X  N(o, 12), entonces : E(Z) = 0, Var(Z) = 1
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

1
1  x2
f  x  e 2 -  x  
2

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

3 Distribuciones muestrales de la media y proporción


Una distribución muestral permiten analizar el comportamiento
de los estimadores obtenidos a partir de una muestra, tales
como: la media muestral ( x ) o la proporción muestral (p).

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Distribución de una media con varianza poblacional conocida


Sea una variable X que se distribuye normalmente:
X  N   , 2 

Si se obtienen muestras de tamaño “n” y se calculan las media


muestrales, entonces, la media muestral también se distribuye
normalmente:
 2 
x  N  , 
 n 

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Suministros de cómputo


En una revista de negocios se ha encargado la realización de un
estudio orientado a las tiendas especializadas en artículos de
cómputo. De acuerdo a los datos recabados a nivel nacional se ha
determinado que el monto de ventas semanal, en el rubro de
suministros, de las tiendas se distribuye en forma normal con una
media de S/ 36400 y una desviación estándar de S/ 4800.

X: Monto de ventas semanal de las tiendas (rubro de suministros).


X  Normal ( = 36400, 2 = 48002)

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Suministros de cómputo


a) En una muestra de 64 tiendas, obtenga la probabilidad que la
media muestral del monto de ventas semanal sea de por lo
menos S/ 36000
x : Media muestral del monto de ventas semanal de las tiendas.

n = 64 tiendas
 48002 
x : Normal  36400,   x : N36400,600 2

 64 

Hallar: P( x ≥ 36000) = 0.5332


ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Distribución muestral de una proporción


Sea x1, x2, …, xn una muestra aleatoria de tamaño “n” extraída de una
población de Bernoulli B(1, p), donde p es la proporción de éxitos en
la muestra definida como:
x1  x2  ...  xn X
p 
n n

Si n es suficientemente    1    
p  Normal  , 
grande, entonces:  n 

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Suministros de cómputo


Se sabe que el 40% de los microprocesadores que se comercializan
son de la marca AMD.
a) De 100 clientes que adquirirán un microprocesador, obtenga la
probabilidad que a lo más el 45% adquiera procesadores de la
marca AMD.
n = 100 clientes

p  N  0.40,
 0.40 1  0.40  
 p : N  0.40,0.049 2


 100 
Hallar: P(p  0.45) = 0.8462

ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales

1 Hipótesis estadística
Una hipótesis estadística es una aseveración que se hace acerca de
la distribución de probabilidad de una o más variables aleatorias,
la cual puede ser verdadera o falsa.
Clases de hipótesis
Hipótesis Nula (H0). Es la primera afirmación que se va a someter
a prueba para ser aceptada o rechazada, es decir, la que se desea
verificar.
Hipótesis Alternativa (H1). Es aquella que se acepta si la hipótesis
nula es rechazada.
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales

Hipótesis estadística
Según la forma de la región de rechazo, existen dos tipos de
prueba de hipótesis:
Prueba unilateral Prueba bilateral

Prueba de cola izquierda o inferior


H0:  = 0
Prueba de 2 colas o Bilateral
H1:  < 0
H0:  = 0
Prueba de cola derecha o superior H1:   0
H0:  = 0
H1:  > 0
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales

Tipos de error
Error de Tipo I.- Este error consiste en tomar la decisión de
rechazar H0 cuando es cierta y su medida en términos de
probabilidad está dada por:

  P error tipo I  P rechazar H0 cuando Ha es verdadera 



  f ( x )dx   f 0 ( x )dx
X0 C

NOTA: a la letra griega alfa () se denomina nivel de significación.

ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales

Tipos de error
Error de Tipo II.- Este tipo de error consiste en tomar la decisión
de aceptar H0 cuando es falsa y su medida esta dada por:

  P error tipo II  P aceptar H0 cuando Ha es verdadera 

X0
  f ( x )dx   f1 ( x )dx
 A

ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales

Función de potencia
El complemento del Error tipo II es la Función de Potencia ó
Potencia de la Dócima, es decir:

P    1     f1  x  dx
C

NOTA: La potencia de la prueba es la probabilidad de rechazar lo


que es falso.

ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales

Descripción gráfica del error tipo I y tipo II


Error tipo I Pto. Crítico Error tipo II
“”
“”
Rechazar H0 Aceptar H0
cuando es cuando es falsa
verdadero

-  = 1 X0  = 0 +
H1 H0
Reg. Rechazo Reg. Aceptación
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales

Cuadro resumen

H0 Verdadera H0 Falsa
Error Tipo I Decisión correcta
Rechaza H0
 1-
Decisión correcta Error Tipo II
Aceptar H0
1- 

ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales

Suposición básica: X  N( , 2)


Media poblacional () x  0
Varianza Poblacional Conocida Estadístico de Prueba: Z0 
 n
Prueba unilateral – Cola izquierda Prueba unilateral – Cola derecha
H 0 :   0 H 0 :   0
H a :   0 H a :   0

R.A R.A
R.C. . . R.C.
Z  Z1 

Prueba bilateral
H 0 :   0
H a :   0

R.A
.
R.C. R.C.
Z Z 1
 2  2 

Regla de decisión: Si Z0  R.C., entonces, se Rechaza H0, en caso contrario se


Acepta.
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales

Suposición básica: X  B(n , )


p 0
Proporción poblacional () Estadístico de Prueba: Z0 
 0 1   0 
n
Prueba unilateral – Cola izquierda Prueba unilateral – Cola derecha
H0 :    0 H0 :    0
Ha :    0 Ha :    0

R.A R.A
R.C. . . R.C.
Z  Z1 

Prueba bilateral
H0 :    0
Ha :    0

R.A
.
R.C. R.C.
Z Z 1
 2  2 

Regla de decisión: Si Z0  R.C., entonces, se Rechaza H0, en caso contrario se


Acepta.
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Comics y manga


Un joven emprendedor posee una tienda on line donde comercializa
artículos de las principales editoriales de comics y de manga. Se ha
elaborado una base de datos con los últimos 120 clientes que
adquirieron artículos, entre las que destacan las siguientes
características.
• Línea: Línea de producto (DC Comics, Marvel, Manga)
• Valorización: Monto ($) de compras realizadas por el usuario
durante el último semestre.
Archivo: Comics y manga.sav
Anteriormente lo artículos de la línea Marvel representaba el 40% de
la participación de las ventas.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Comics y manga


a) Plantee la hipótesis asociada al presente caso.

H0: Marvel = 0.40


H1: Marvel > 0.40

b) Luego de la recopilación de datos (ver archivo), ¿cuál sería su


conclusión al respecto?  = 0.05.
Para responder a la pregunta se ingresará al SPSS y se realizará el
siguiente procedimiento.

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Seleccionar “Personalizar análisis”, y luego pasar a Configuración

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Seleccionar “Personalizar pruebas”, marcar 1ra casilla, y luego Opciones

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Completar de acuerdo a lo señalado

Nota: Para la variable Línea, en la configuración de valores: 3 = Marvel


ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Luego de Aceptar y Ejecutar se obtiene el siguiente reporte:

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Caso: Comics y manga


El empresario con anterioridad había determinado que sus clientes
gastaban S/ 445 cada semestre en la adquisición de artículos, pero
considera que el volumen ventas viene disminuyendo, de tal forma
que ha señalado que si comprueba que la venta promedio por cliente
ha disminuido, entonces, implementará algunas estrategias de
marketing para revertir tal situación.  = 0.03.
c) Plantee la hipótesis asociada al presente caso, y realice la prueba
correspondiente.
H0:  = 445
H1:  445
Ingresar al SPSS y seguir el siguiente procedimiento:
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Editar la ventana según se muestra:

ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad

Luego de Aceptar se obtiene el siguiente reporte:

P value = 0.15/2 = 0.075 (Prueba unilateral) > 0.03 = , entonces, no


se rechaza H0, es decir, la media poblacional del monto de venta es
de S/ 445 (no ha disminuido)
ACREDITACIONES RECONOCIMIENTOS
ESTADISTICA APLICADA A LA GESTION EMPRESARIAL

UNIDAD IV
Regresión Lineal Simple. Series de tiempo y Herramientas
Estadisticas de Control de Calidad
1. Regresión Lineal
Simple

266
Objetivo

Encontrar modelos estadísticos que puedan ser usados para predecir los valores
de una variable dependiente basado en los valores de una variable
independiente.

2
Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable dependiente
“Y”, en base a lo que ocurre o lo que sucede con la variable independiente ”X”.

Modelo Poblacional:
Yi = β0 +β1 Xi + εi
Donde:

Yi = Variable dependiente (respuesta).


Xi = Variable independiente (explicativa, regresora, predictora).
β0 = Intercepto en la ordenada. Cuando X= 0, Y= β0
β1 = Pendiente de la recta.
Pendiente positiva (β1 > 0). Existe una relación lineal directa.
Pendiente negativa (β1 < 0). Existe una relación Lineal inversa.
εi = Variable aleatoria no observable, denominada también error aleatorio, representa a las otras
variables no consideradas en el modelo.

268
Ejemplos:

Pueden existir variables que presenten un grado de relación natural entre sí, como por
ejemplo :

¿Existe una relación lineal entre las dos variables?


1. El ingreso de un trabajador se relaciona con el número de horas trabajadas.
2. Las ventas en función a los gastos de publicidad.
3. Los egresos en relación a los ingresos de los trabajadores de una empresa.
4. El precio de un producto en relación a la producción.
5. El precio de entrada a un evento en relación al número de entradas vendidas.
6. Nota obtenida en un curso en relación al número de horas dedicada al estudio.

269
Procedimiento para realizar un análisis de
Regresión Lineal Simple
1. Identificar la variable dependiente y la variable independiente.
2. Realizar un diagrama de dispersión.
3. Definir la función de regresión.
4. Estimación de los coeficientes mediante el método de mínimos cuadrados.
5. Estudio de la adecuación del modelo, para analizar la bondad de ajuste del modelo a
los datos, se realiza mediante:
a) Coeficiente de Correlación.
b) Coeficiente de Determinación.
d) Prueba de hipótesis global (Prueba F).
6. Validación del modelo. Se realiza la comprobación de los supuestos en relación al
término ε del modelo:
a) Normalidad
b) Homocedasticidad
7. Uso del modelo para realizar predicciones.

5
1. Identificación de:
Variable dependiente: Y
Variable independiente: X

2. Identificar el tipo de relación existente entre las variables a través del diagrama de
dispersión.

6
DIAGRAMA DE DISPERSIÓN

y
y

x
x
Relación lineal directa Relación lineal inversa

y y

x x
Relación no-lineal No hay relación

272
3. Definir la función de regresión lineal.
Y = f (x)
Ecuación de la recta:
Y = a + bX + Ԑ
Y = β0 + β1 X + Ԑ

9
4. Estimación de los coeficientes de la recta de regresión.
Realizada la gráfica, se procede a calcular cuál es la ecuación de regresión lineal apropiada
que mejor represente los datos. La recta apropiada tendrá que ser la que tenga la suma
mínima del cuadrado de los errores definido como la diferencia entre el valor observado (Y) y
el valor estimado por la ecuación de regresión lineal (Ŷ). A este método se denomina Mínimos
Cuadrados.

Modelo de regresión poblacional:


Y = a + bX +Ԑ o Y = β0 +β1 X1 + Ԑ

Modelo de regresión muestral:

Y = a + bX + ei o Y = β0 +β1 X1 + ei

10
4. Estimación de los coeficientes de la recta de regresión.
Estimar los coeficientes a través del Método de Mínimos cuadrados (MMC)

El método de los Mínimos cuadrados minimiza la expresión:

 
n n

 i  i i  m ínim o
  ˆ
2 2
e Y Y
i 1 i 1

donde:
ei= Residual (diferencia entre el valor observado y el valor estimado).
Yi= Valor observado.
Ŷi= Valor estimado por la ecuación de regresión lineal.

11
Estimación del modelo de regresión lineal simple:

Recta de Mínimos
Cuadrados

Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011

14
Fórmula para calcular la pendiente:
n n n
n  x i yi   x i  yi
b  1  i 1 i 1 i 1
2
n
 
n
n xi    xi 
2

i 1  i 1 

Fórmula para calcular el intercepto:


n n

 y i   x i 
a   0  i 1 b i 1 
n  n 
 
 
a  y  bx

277
5. Adecuación del Modelo
a) Coeficiente de Correlación : r
El análisis de CORRELACIÓN nos permite determinar el grado en el que están relacionadas
las variables X e Y.
El análisis de CORRELACIÓN, nos dice qué tan bien la ecuación de regresión describe la
relación de las variables.
Fórmula: n n n
n xi yi   xi  yi
r i 1 i 1 i 1

 n 2  n  2  n 2  n  2 
     
 n x   x   n y   y  
 
i i i i
 i 1  i 1   i 1  i 1

-1 ≤ r ≤ 1

-1 -0.70 0 0.70 1
Cuando r se aproxime a 1 ó -1, existe una relación fuerte.

278
b) Coeficiente de Determinación ( r2 ) :

Indica en qué proporción la variable independiente X explica el comportamiento de la


variable dependiente Y.
Fórmula:
 n n

 n  X i  Yi 
0≤ r2 ≤1
b *   X iYi  i 1 i 1 
 i 1 
 Yˆ  Y 
n
2 n
2 i  
r2 
SCR S Yˆ
 2  i 1
  
n 2

 Y Y   n 
STC S Y
  Yi 
2
i

Yi   i 1 
i 1 n


2

i 1 n
Donde:
2
S Yˆ = Es la varianza explicada por la ecuación.
2
S Y = Es la varianza Total

279
c) Prueba de hipótesis: Análisis de Varianza (ANOVA)
El análisis de la adecuación del modelo a nivel población, se reduce al análisis de la
significancia estadística de la suma de cuadrados debido a la regresión, respecto de la suma de
los cuadrados de los errores. Esta significancia se mide con el estadístico F, también conocida
como prueba de significancia global.

Pasos a seguir:
1) Planteamiento de la hipótesis:
H0: βi = 0 (El modelo de regresión lineal no es adecuado a nivel poblacional)
H1: βi ≠ 0 (El modelo de regresión lineal es adecuado a nivel poblacional)

2) Nivel de significancia
α = 0.05 (Nivel de confianza 95%)

3) Estadística de Prueba
Para ello se construye la tabla ANOVA

17
Tabla de Análisis de Varianza
(ANOVA)

Fuente de Suma de Grados de Cuadrado Estadística P_Valor

Variación Cuadrados Libertad Medio de prueba


(Prueba F)
Regresión SCR k-1 CMR =SCR/k-1
CMR
Fcal 
Residual SCE n–k CME =SCE/n-k CME

Total SCT n-1

n __ 2 n 

SCT   (Yi  Y) SCE   (Yi  Y ) 2 SCR = SCT - SCE


i 1
i
i 1

281
Entonces el estadístico de prueba es:

CMR
Fcal 
CME
4) Comparar:
Decisión 1:
Si Fcal > Ftab. Entonces se rechaza la hipótesis nula.
FTab(α ;k-1,n-k) = Este valor se halla en la tabla de la distribución F.
Se llega a la misma conclusión observando el “P_valor”

Decisión 2:
Si P_valor < . Entonces se rechaza la hipótesis nula

19
6. Validación del modelo: Comprobación de supuestos
a) Homocedasticidad:
En el diagrama no debe existir tendencias, que la variabilidad de los residuos se mantengan
aproximadamente constante, que exista homocedasticidad.

Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011

20
b) Normalidad:
Si los puntos están alineados alrededor de la recta diagonal, se considera que los residuales tienen una
buena aproximación a la curva normal.

Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011

284
7. Uso del modelo para realizar estimaciones futuras de la variable dependiente en
función de la variable independiente.
Luego de verificar la adecuación y la validación del modelo y si el modelo logra pasar
este proceso, entonces estamos en condiciones de utilizar el modelo de regresión
lineal simple para predecir una nueva observación de la variable Y para un valor
determinado de X.
Está estimación puede realizarse de dos formas: puntual y por intervalos, para el
curso se utilizará la estimación puntual.

22
2. Series de Tiempo

286
Objetivo

Realizar un análisis de la serie de tiempo con la finalidad de determinar patrones


de cambio en la información de datos recolectados a través del tiempo, proyectar
estos patrones para obtener una estimación para el futuro.

287
Introducción

Los cambios futuros no sólo de la demanda, sino también de la oferta, se conocen con cierta
exactitud si se usan las técnicas estadísticas adecuadas para analizar el presente. Para ello se usan
las llamadas series de tiempo, pues lo que se desea observar es el comportamiento de un
fenómeno respecto al tiempo.

288
Variación en las series de tiempo
Las variaciones de una serie se clasifican en sistemáticas y aleatorias. Las variaciones
sistemáticas ocurren con regularidad, siendo posible ser medidas y pronosticadas; por otra
parte las variaciones aleatorias son causadas por sucesos aislados tales como huelgas,
desastres naturales, etc. En consecuencia no pueden ser pronosticados.
Una serie se compone de los siguientes tipos de variaciones:
1) Variaciones sistemáticas:
Tendencia
Cíclica
Estacional

2) Variación irregular o variación aleatoria.

289
Análisis de tendencia

La tendencia es la más común en las variaciones sistemáticas de las series de


tiempo para estudiar la demanda y la oferta.
La tendencia es el componente que constituye la base del crecimiento o
decrecimiento de una serie, en un período a largo plazo.
Para calcular una tendencia existe varios métodos:
• El Gráfico
• El de Medias Móviles
• El de Mínimos Cuadrados
Cuando la tendencia es no lineal (la parabólica y la exponencial).

290
Serie original y sus componentes

291
Estimación de la componente de la tendencia a través
del Método de Mínimos Cuadrados
Y = f (t)

Variable Tiempo
Dependiente
Modelo:
Y = a + bt + ei
Para estimar los valores de a y b aplicamos el MMC

Yˆ  ( ) ( )t
292
Regresión Lineal Múltiple
(Una extensión de los modelos de RLS)



Encontrar modelos estadísticos que puedan ser usados para predecir los
valores de una variable dependiente conocida también como variable
respuesta, basado en los valores de varias variables independientes
denominadas variable explicativas.

293
REGRESIÓN LINEAL MÚLTIPLE

El objetivo del Análisis de Regresión Lineal Múltiple es el de construir un modelo que


permita pronosticar o estimar el valor de una variable Y, en base a un conjunto de
variables X1, X2,....,Xp
Y=f (X1, X2,X3,……………….....,Xp)

A la variable Y se le llama variable dependiente (respuesta) y es la que se quiere


estimar o predecir.

Las variables X1, X2,....,Xp son las variables independientes o variables predictoras, o
variables explicativas o variables regresoras.

294
REGRESIÓN LINEAL MÚLTIPLE

El modelo poblacional de regresión lineal múltiple, con p variables independientes, es el


siguiente:
Yi  β 0  β1X1  β 2 X 2  ...  β p X p  ε i
Donde:
βo: Representa el valor medio de la variable respuesta Y cuanto todas las variables explicativas
Xi = 0
βi: Parámetros desconocidos, llamados coeficientes de regresión. i = 0,1,2,3,...,p
εi: Error aleatorio del modelo, y se suponen independientes y normalmente distribuidos
con media 0 y varianza σ2
Los parámetros desconocidos llamados coeficientes de regresión son estimados Mediante
el Método de los Mínimos Cuadrados.

Ŷi   0  1 X1   2 X 2  ...   p X p
Donde: βi = Son los estimadores de los coeficientes de regresión i = 0, 1,2,3,...,p

295
Pasos a seguir para realizar un análisis de
Regresión Lineal Múltiple

1. Realizar los diagramas de dispersión y análisis de la matriz de correlaciones.


2. Definir la función de regresión.
3. Estimación de los coeficientes mediante el método de Mínimos Cuadrados.
4. Estudio de la adecuación del modelo.
a) Coeficiente de Correlación Múltiple.
b) Coeficiente de Determinación y Coeficiente de Determinación Ajustado.
c) Prueba de hipótesis (Prueba F y Prueba t).
5. Validación del modelo: Comprobación de supuestos
6. Uso del modelo para realizar predicciones (Modelo Final).

296
EJEMPLO
El gerente de personal de una empresa textil de Gamarra, realizó un estudio con 26 operarios
para determinar la relación entre las siguientes variables:

Y : COMPORTAMIENTO HACIA EL TRABAJO

X1 : Horas semanales de trabajo


X2 : Nº de prendas que confecciona por semana
X3 : Años de experiencia

297
1. Realizar los diagramas de dispersión

298
Análisis de la Matriz de correlaciones

299
2. Definir la función de regresión (Modelo propuesto):
Y = f (X1, X2 , X3)

Yi  β 0  β1X1  β 2 X 2   3 X 3  ei

3. Estimación de los coeficientes del modelo (Método de Mínimos Cuadrados):

Modelo estimado:
Y=-21.664+0.277X1 + 0.394X2 +0.002X3

300
4. Estudio de la adecuación del Modelo

0.985

a) COEFICIENTE DE CORRELACIÓN:
r = 0.985
Existe una relación lineal fuerte (0.985) entre la variable comportamiento hacia el trabajo
con las variables horas semanales de trabajo, número de prendas confeccionadas y años
de experiencia.

b) COEFICIENTE DE DETERMINACIÓN:
r2= 0.970
El 97% las variaciones de la variable comportamiento hacia el trabajo se ven explicadas
por las variaciones de las variables: horas semanales de trabajo, número de prendas
confeccionadas y años de experiencia y el 3% no explica dicha variación, al 95% de
confianza el ajuste realizado es adecuado.

301
c) Prueba de Hipótesis:
1) Prueba Global ( F ) de significancia del modelo
Esta prueba permite determinar si el modelo es significativo o no, para esto se contrasta la
siguiente hipótesis:
Valor crítico:
H0: 1 = 2 = .... = p = 0
Ftab  F ;k 1,n  k
H1: 1 ≠ 2 ≠ .... ≠ p ≠0 (Al menos uno de los βi es diferente de
cero)
Decisión:
Nivel de significancia : α = 0.05
Estadístico de Prueba: (Ver Tabla ANOVA)

CMR
Fcal 
CME
Re chazar H o si :
Fcal  Ftab ( ,k 1,n  k )

302
Tabla ANOVA
Ho= βi = 0
H1= βi ≠ 0

α = 0.05

0.00

FCal= 369.26
Ftab = F(0.05;3,22)= 3.05

Como Fcal > Ftab, Entonces se rechaza Ho, se concluye que por lo menos algunos de βi, interviene
en el modelo.
Como se ha concluido que por lo menos algunas de las variables intervienen en el modelo,
pasaremos a realizar una prueba t, para averiguar cuales son las variables que contribuyen
significativamente al modelo y que variables podemos eliminar.

303
2) Prueba de significancia individual: Prueba T
Esta prueba permiten determinar la significancia de cada uno de los parámetros individuales es decir
si las variable regresoras Xj (i=1,2,...,p), aporta información al modelo. Así para cualquier parámetro βi
se plantea lo siguiente:

Planteamiento de la hipótesis: Decisión:


H0: i = 0 (La variable Xi no es estadísticamente significativa)
H1: i  0 (La variable Xi es estadísticamente significativa)
Nivel de significancia:
α=0.05
Estadística de prueba:
tn-1;α/2 tn-1;1-α/2

𝛽𝑖
𝑡𝑐𝑎𝑙 = ~ 𝑡(𝑛−1) Re chazar Ho si :
𝑆𝛽𝑖
tCal  t n 1; 1 / 2

304
Tabla para realizar la prueba t

T calculado
=0.277/0.093 2.97849462 Es significativa
=0.394/0.122 3.2295082 Es significativa
=0.002/0.005 0.4 No es significativa
t25,0.975 = 2.060

La variable eliminada es Años de experiencia:

305
En la Prueba t, para los coeficientes de Regresión. Se elimina la variable: X3 = años de experiencia.
Trabajamos el modelo de regresión con las variables que resultaron estadísticamente significativas:
X1= Horas semanales de trabajo.
X2= Número de prendas confeccionadas.
Realizamos una nueva corrida con las variables significativas para llegar al modelo final.

Tabla de estimación de los coeficientes para el modelo final:

Modelo final de regresión lineal múltiple estimado:


Y=-21.994+0.278X1 + 0.402X2
Este modelo, resulta útil para determinar un valor estimado para la variable Y en función de
valores conocidos de las variables independientes.

306
Diagramas de Control

Diagramas de Control
para variables y
atributos

William Edward Deming, considerado el padre de la calidad moderna (1900-1993). Su trabajo más exitoso es
la trasformación de la industria japonesa, su relación con Japón sucedió cuando el gobierno americano lo
envío a este país para instruir a los industriales en los métodos del control de calidad. Los métodos de
Deming fueron utilizados por las escuelas de negocios de Estados Unidos después de 30 años de ser
aplicados con mucho éxito en Japón, hoy en día sus obras se resumen en una serie de trabajos de
enseñanza internacional en las diversas escuelas de negocios.

307
Diagramas de Control

• Herramienta estadística utilizada para detectar variaciones de la calidad de un


producto, durante un proceso de fabricación.

• El gráfico de control es una forma gráfica y cronológica de representar el


comportamiento de una o más características de calidad, fijando límites que sean
acordes con experiencias y valores especificados previamente establecidos.

308
Diagramas de Control

Estadísticamente, el gráfico de control se puede definir como un intervalo de confianza en una


escala serie-tiempo, en donde los límites de control son niveles de significación, con sus
coeficientes correspondientes a la desviación estándar de la característica en estudio

Estructura de un diagrama de control

309
Estructura de un diagrama de control

Un gráfico de control permite identificar causas asignables y determinar si un proceso


está bajo o fuera de control.

Bajo control: trabaja en presencia de variaciones aleatorias.


Fuera de control: hay variaciones debidas a causas asignables.

310
Causas de Variación

Causas no Asignables. Ocurren al azar y se deben a la naturaleza tecnológica de máquinas,


procesos y materiales. Estas causas tienen una influencia muy pequeña sobre la calidad del
producto y no son determinantes para que el proceso salga fuera de control. Estas causas son
independientes entre sí.

Causas Asignables. Ocurren debido al comportamiento anormal de uno o más factores de


calidad, son pocas en número pero de gran influencia en la calidad del producto. Estas causas
pueden ser estudiadas a fondo para disminuir o anular su influencia.

311
Tipo de diagramas de control

Característica cuantitativa; puede expresarse


VARIABLE mediante un número real o ser medida o
recopilada en una escala continua.

Dureza, peso,
velocidad, longitud

Característica cualitativa; se observa si un


artículo posee o no dicha característica.
La característica no responde
ATRIBUTO
a una escala de medida y debe ser clasificada
dentro de un conjunto
de categorías.
Color,
rajaduras

312
Diagramas de control para variables

Gráficos x -R
Se utilizan cuando la característica de calidad que se desea controlar es una variable
continua.

Se requieren k muestras de tamaño n.

Ejemplo: Fábrica que produce piezas cilíndricas de madera. La característica de


calidad que se desea controlar es el diámetro.

313
Diagrama x-R

Se usa para controlar y analizar un proceso en el cual la característica de calidad


del producto que se está midiendo toma valores continuos, tales como longitud,
peso o concentración.

Los gráficos de control para variables se componen de dos partes: una se basa
en promedios y controla la exactitud; la otra se basa en medidas de dispersión y
controla la precisión.

314
Procedimiento para Construir el diagrama x- R
Límites de control para la media (Diagrama x ):

Donde:
_  
LSC  X  3 _ LSC  X  A2 R
x

_
LIC  X  3 _  
x LIC  X  A2 R


 

X n Con estas
formulas trabaja
el SPSS

315
Procedimiento para Construir el diagrama x -R
Límites de control para el Rango (Diagrama R):
Las gráficas de rango (gráfica R) se utilizan para controlar la variabilidad de un proceso.

LSC  D4 R D4 y D3: Valores obtenidos de la tabla


factores para construir diagramas de
Línea Central  R control

LIC  D3 R Con estas


formulas trabaja
el SPSS

Los diagramas x y R son necesarias para dar un seguimiento preciso al proceso.


316
Factores para la construcción de los diagramas X-R

Factores paras la construcción de gráficos de control


n A2 d2 D3 D4
2 1.88 1.128 0 3.267
3 1.023 1.693 0 2.575
4 0.729 2.059 0 2.282
5 0.577 2.326 0 2.115
6 0.483 2.534 0 2.004
7 0.419 2.704 0.076 1.924
8 0.373 2.847 0.136 1.864
9 0.337 2.97 0.184 1.816
10 0.308 3.078 0.223 1.777

317
Interpretación de los diagramas de control

318
Patrones observables en los diagramas de control

319
Diagrama de control para atributos

• En muchas ocasiones una línea de producción tiene dificultades


con dos o más características de calidad, las cuales pueden o no
ser llevadas a una escala de medición.

• Ante esta situación, se pueden aplicar los gráficos para atributos,


los cuales permiten el control de varias características a la vez.

320
Diagrama P
Muestra la evolución de la proporción (p) de unidades que tienen cierto atributo.
Miden el porcentaje de defectos encontrados en una muestra.
• Artículos defectuosos.
• Proporción de clientes que presentan un reclamo.

Límites de control para el Diagrama p

p (1  p )
LSC  p  3
n

LC  p

p (1  p )
LIC  p  3
n

321
Ejemplo: Defectos en varillas de acero

Un fabricante de varillas de acero prueba con frecuencia si las varillas resisten 50%
más de presión de lo que la compañía dice que puede resistir. Un ejemplar que no
pase esta prueba es defectuoso. En cierto tiempo se obtuvieron veinte muestras de
200 varillas cada una y el número de defectos. Realice la gráfica P y analizar si el
proceso esta bajo control.

322
Ejemplo: Defectos en varillas de acero
Sub grupos Defectos ̅ ͞p
1 13 0.065
2 12 0.06
3 11 0.055
4 13 0.065 n= 200
5 12 0.06 K=20
6 15 0.075
7 13 0.065
8 11 0.055
9 10 0.05
10 8 0.04 LSC  0.06175  3 * 0.06175 * 1  0.06175  0.11
11 15 0.075
12 9 0.045 LIC  0.06175  3 * 0.06175 * 1  0.06175  0.01
13 12 0.06
14 12 0.06
15 12 0.06
16 16 0.08
17 12 0.06
18 12 0.06
19 16 0.08
20 13 0.065
Total 1.235
͞p 0.06175

323
Ejemplo: Defectos en varillas de acero

324
Tiempo Peso
1 140
1 144
2 137
2 139
3 139

Ejemplo: Diagrama x-R


3 140
4 135
4 139
5 128
5 130
6 130
6 133
7 134
7 134
8 136

Los siguientes datos provienen de una empresa fabricante,


8 139
9 124
9 130

que baña uno de sus productos metálicos con un 10


10
11
130
132
137

recubrimiento especial para evitar la corrosión. La empresa 11


12
139
136
12 141
acaba de empezar a aplicar el control estadístico de 13
13
136
133

proceso.
14 134
14 140
15 131
15 132
16 138
16 141
17 124

El peso del recubrimiento se registra en miligramos, con dos 17


18
18
129
138
143

observaciones tomadas 28 veces diarias. Note que la 19


19
126
131
20 129
información está distribuida de modo diferente: la columna 20
21
126
138

tiempo indica el número de subgrupos.


21 140
22 130
22 133
23 134
23 136
24 127
24 132
25 130
25 132
26 134
26 134
27 130
27 141
28 140
28 141

325
Ejemplo: Diagrama x -R
Diagrama x Diagrama R

326

Vous aimerez peut-être aussi