Académique Documents
Professionnel Documents
Culture Documents
UNIDAD I
Recolección, organización y presentación de información
Estadística
Estadística Descriptiva
ESTADÍSTICA
Estadística
Descriptiva
Generalizamos hacia
la población en
estudio
Muestreo Probabilístico
1.- Muestreo Simple Aleatorio. Resultados
2.- Muestreo Sistemático. presentan una
3.- Muestreo Estratificado. Estadística confiabilidad
4.- Muestreo por Conglomerado. Descriptiva (1-α) y margen
de error α.
Muestra representativa
(selección aleatoria)
DEFINICIONES Y CONCEPTOS DE ESTADÍSTICA
Procedimiento
1. Enumere sucesivamente las unidades del marco muestral.
2. Seleccione tantos elementos del marco muestral como sea el tamaño requerido de
la muestra.
En este procedimiento, se selecciona una muestra en forma aleatoria y sin reemplazo a n
unidades de muestreo de una población que contiene un total de N unidades. Se
garantiza que cada una de las muestras posibles tiene la misma probabilidad de ser
elegida.
MUESTREO SISTEMÁTICO
En el muestreo sistemático se elige un elemento del marco muestral cada cierto intervalo.
Este muestreo supone que se cuenta con una enumeración completa de los elementos de
la población.
Procedimiento
1. Calcule el valor de k=Intervalo de selección, donde k = N/n . El valor de k se redondea
al valor del entero menor.
2. Seleccione aleatoriamente un número entero entre 1 y k llamado arranque aleatorio (A).
3. çA partir de este número elegido, seleccione el siguiente que ocupa la posición (A + k) del
listado del marco muestral y así sucesivamente hasta completar los elementos de la muestra.
k = Intervalo de selección
A=Arranque aleatorio
MUESTREO ESTRATIFICADO
Procedimiento
1. Divida a la población en estratos que sean mutuamente excluyentes. Esto es, que
incluyan a todos los elementos de la población y que cada elemento pertenezca
solamente a un estrato.
2. Calcule la cantidad de elementos a seleccionar en cada estrato.
3. Seleccione muestras aleatorias simples para cada uno de los estratos
MUESTREO NO PROBABILISTICO
1.- MUESTREO POR CONVENIENCIA.- Se eligen los elementos que se encuentran a mayor
alcance del investigador.
2.- MUESTREO POR JUICIO DE EXPERTO.- En este caso los elementos con base en criterios o
juicios preestablecidos por el investigador.
3.- MUESTREO POR CUOTAS.- Consiste en dividir la población bajo estudio en sub grupos o cuotas
según ciertas características: Edad, sexo, estado civil.
4.- MUESTREO DE BOLA DE NIEVES.- Este modelo es particularmente útil debido a que pocos
individuos elegidos por el investigador, con ayuda de los primeros se va conociendo a nuevos
miembros de la muestra.
5.- MUESTREO DE RUTAS ALEATORIAS.- La selección de las unidades muestrales la realiza
de forma aleatoria el personal de campo dentro de un recorrido establecido.
Se establece un área de muestreo para cada entrevistador con un punto de partida y se le
proporcionan una serie de criterios de actuación que permiten la evolución del itinerario o
recorrido asignado y la selección de la muestra.
En los demás métodos, las unidades que formarán parte de la muestra se fijan de antemano.
LINK:
http://www.universoformulas.com/estadistica/inferencia/muestreo-discrecional/
http://www.universoformulas.com/estadistica/inferencia/muestreo-bola-nieve/
http://www.universoformulas.com/estadistica/inferencia/muestreo-cuotas/
DEFINICIONES Y CONCEPTOS DE ESTADÍSTICA
ESTIMADOR: Es una función que se obtiene a partir de los datos de una muestra
Se espera que difiera muy poco respecto al parámetro poblacional.
POBLACIÓN - MUESTRA
Parámetros a estimar
Población (N)
Xi = Variable
Parámetro
μ= Media aritmética poblacional
Π = Proporción poblacional
Muestra (n)
σ2 = Varianza poblacional
N= Tamaño de la población Estimador
X = Media aritmética muestral
p = Proporción muestral
S2 = Varianza muestral
n= Tamaño de la muestra
ESTIMACIÓN
TÉCNICAS DE RECOPILACIÓN DE DATOS
2. Cuantitativas.
ENCUESTA ENCUESTA
TELEFÓNICA ENCUESTA
POR CORREO
TÉCNICAS DE RECOPILACIÓN DE LA INFORMACIÓN
CUALITATIVA:
Sirve para identificar la manera de sentir y de pensar de las personas sobre
determinados temas.
ENTREVISTA A PROFUNDIDAD
GRUPOS FOCALES
TÉCNICAS DE RECOPILACIÓN DE LA INFORMACIÓN
Ejemplo:
La encuesta personal.
La encuesta en establecimiento.
La encuesta Telefónica.
La encuesta Ómnibus.
Cuantificar
Medir
Características:
Observables VARIABLES:
Género.
Edad.
Estatura.
Peso.
Ingresos mensual.
medición Profesión.
observación conteo
Estado Civil.
Gasto mensual.
Tiempo de servicio.
# de hijos.
# de tarjetas de crédito.
Calificación del servicio.
CLASIFICACIÓN DE LA VARIABLE
VARIABLE
DISCRETA CONTINUA
(Conteo) (Medición)
Niveles de Medición de los datos
longitud, etc. Nominal: No existe algún orden específico; se agrupan por categorías y se cuentan.
Ejemplo: Género, colores, bebidas gaseosas, distrito de residencia, Tipos de tarjetas de crédito, estado civil,
etc.
Ordinal: Sigue un orden de acuerdo a las características particulares.
Ejemplo: Grado de instrucción, Rendimiento Académico, NSE, Calidad del servicio.
Intervalo: Son categorías de datos establecidos. El cero no indica ausencia de propiedad. Se considera la
magnitud que hay entre dos medidas cualesquiera y es posible ordenar mediciones.
Ejemplo: Temperatura, tallas de ropa.
Razón: Es un cociente de dos números que expresa cierta característica. El cero indica ausencia de
propiedad. Por lo general todas las variables cuantitativas son de razón.
Ejemplo: Porcentaje de productos defectuosos en un lote, ingresos, Tasa de natalidad, peso, estatura,
UNIDAD DE ANÁLISIS.- Es el objeto del cual se desea tener información. También llamada unidad
elemental, presenta características que puede ser medidas ú observables.
Género: Masculino
Edad: 54 años
Estatura: 170 cms
Peso: 65 Kgrs.
Ingresos: S/. 4500 c/mes.
Profesión: Ingeniero de Sistemas
Estado Civil: Casado.
Cargo que desempeña: Gerente
Número de hijos: 2
Años de servicio en la empresa: 18
BASE DE DATOS:
Marque con
Estudios un Aspa
Superior universitaria
superior no-universitaria
4.-En qué tipo de Entidad trabaja? Pública ______ Privada _______
5.-¿Cuál es su Estado Civil?
Marque con
un aspa
Soltero
Casado
Viudo
Divorciado
Conviviente
EJM 1:
Población: Todos los empleados del BCP.
Muestra: Se considera a 1 500 empleados del BCP.
Estudiar: La experiencia (años) de los empleados del BCP.
EJM 2:
Población: Todos los votantes del Perú.
Muestra: Se selecciona una muestra del 30% de los votantes del Perú.
Estudiar: La preferencia hacia un candidato presidencial.
EJM 3:
Población: Todas las facturas de la empresa Schuler.
Muestra: Se eligen 100 facturas de la empresa.
Estudiar: Exactitud de cada factura.
EJM 4:
Población: Todas las utilidades ( nuevos soles) de las Mypes.
Muestra: Se eligen 50 Mypes.
Estudiar: La utilidad promedio anual (nuevos soles) de las Mypes.
Caso Aplicativo
EJEMPLO:
Estudios realizados sobre el transporte público, con el propósito de disminuir los accidentes de tránsito como el
principal causante de las muertes y lesiones graves del peatón y los conductores de los vehículos que utilizan esta ruta.
Estudios realizados sobre este tema, es la selección de una muestra de 30 choferes de la ruta Lima-Chorrillos (Línea
38M), encontrándose los siguientes resultados:
1. El número promedio de infracciones de tránsito cometidos por los choferes es de 9 veces al año.
2. La ganancia promedio diaria de los choferes es de S/. 120,75.
3. Solo 10 choferes poseen grado de instrucción secundaria.
4. El 50% de los choferes realizan no más de 1 revisión técnica al año y el otro 50% realizan más de 1revisión técnica.
5. 10 choferes manifestaron ser casados.
6. Tienen en promedio 4 papeletas impagas.
7. El 40% trabaja en el turno de la mañana.
8. El 20% de los choferes tiene experiencia de a lo más 3 años.
9. La edad promedio de los choferes es de 38.25 años. Población
10. Solo el 5% de sus vehículos presentan una antigüedad de 2 años. Muestra
Unidad de análisis
Indique:
a.- Población. Variables Tipo de variable Medición
b.- Muestra y su unidad elemental. variable 1
c.- En el estudio realizado. ¿Qué variables, tipo de variable y nivel .
de medición .
d.- ¿Cómo se denominan estos resultados de la muestra?. variable n
TABLA DE DISTRIBUCIÓN DE FRECUENCIA PARA CADA TIPO DE VARIABLE
25
CASO: Servicio del cajero automático
Se requiere realizar un análisis de datos y preparar un informe escrito de las
características de los clientes que acceden a los servicios que ofrece el cajero
automático del Banco RENTAMÁS, en los distritos: La Victoria, San Luis, San Borja
y Santa Anita. Para comprender mejor las exigencias de los clientes y el
compromiso de mejorar los servicios brindados las 24 horas del día. El gerente del
banco, encarga al área del servicio al cliente realizar el estudio, considerando una
muestra aleatoria de n= 60 clientes que acceden al cajero automático en un día
determinado.
Consideramos algunas variables del estudio para el desarrollo de la unidad I.
1. Servicio: Servicios que brinda el cajero automático.
Nro. Servicio que brinda el cajero
1 Pago de servicios públicos
2 Pagos varios
3 Retiros en efectivo (MN,MEX)
4 Consulta de Saldos (MN,MEX)
5 Transferencia hacia tus cuentas y cuentas de terceros (MN,MEX)
6 Movimientos de cuenta (MN,MEX)
26
CASO: Servicio del cajero automático
27
ELABORACIÓN DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIA
28
ELEMENTOS DE LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA:
n= Tamaño de la muestra.
3.- FRECUENCIAS ACUMULADAS: (Fi , Hi % ) Son las frecuencias que se van acumulando a
través de los diferentes categorías, valores de la variable o diferentes intervalos de la variable
en estudio, tanto para las frecuencias absolutas o relativas.
29
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS – ELEMENTOS
FRECUENCIAS ACUMULADAS
VARIABLE FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA
EN ESTUDIO ABSOLUTA RELATIVA ABSOLUTA RELATIVA
A1 f1 h1=f1/n F1=f1 H1=h1
A2 f2 h2=f2/n F2=F1+f2 H2=H1+h2
. .
. .
. .
AK fk hk =fk /n Fk =Fk-1+fk = n Hk =Hk-1+hk = 100%
TOTAL n 100%
30
Tablas de distribución de frecuencias para variables cualitativas
Una variable cualitativa es aquella que expresa una cualidad, característica o atributo, sus
datos se expresan mediante una palabra. Las tablas de frecuencias se construyen
contabilizando las veces que se repite cada categoría o modalidad.
Variables:
31
TABLA DE DISTRIBUCIÓN DE FRECUENCIA DE LOS USUARIOS SEGÚN SERVICIO QUE
UTILIZAN EN EL CAJERO
32
Tablas de distribución de frecuencias para variable cuantitativa discreta
33
Tablas de distribución de frecuencias para variable cuantitativa discreta
INTERPRETE:
f3=15; Del total de usuarios que utilizan el cajero automático, 15 tienen 3 tarjetas de crédito.
h2%=26.7%; Del 100% de usuarios que utilizan el cajero automático, el 26.7% tiene 2 tarjetas
de crédito.
F4=53; Del total de usuarios que utilizan el cajero automático, 53 tienen hasta 4 tarjetas de crédito.
H3%=66.7%; Del 100% de usuarios que utilizan el cajero automático, el 66.7% tiene hasta
3 tarjetas de crédito.
34
GRÁFICO DE BARRAS:
35
Tablas de distribución de frecuencias para variable cuantitativa continua
36
CONSTRUCCIÓN DE LA TABLA DE DISTRIBUCIÓN DE FRECUENCIA
VARIABLE CUANTITATIVA CONTINUA
1. Identificamos:
Valor mínimo = X max
Valor máximo = X min
Calculamos:
R=Valor máximo- Valor mínimo
Como el recorrido es demasiado amplio, entonces se construye intervalos, en
estadística se trabaja con intervalos semi-abiertos [ >, [ [
2. Se determina el número de intervalos con la regla de Sturges:
Para nuestro caso: m = 1+3.322*log(n) =
R
Para nuestro caso la amplitud es: A
m
37
………… construcción de la variable continua
38
VARIABLE CONTINUA.- SALDO DE CUENTA
En el SPSS:
El reporte para
realizar el Paso 1
39
CONSTRUCCIÓN:
Paso 1: Determinar el Rango: Paso 4: Construcción de
R=Valor máximo- Valor mínimo intervalos
Dato mayor: 2558
Dato menor: 80 m LI LS=LI+A
Rango= 2558-80 1 80 434
Rango= 2478 2 434 788
Paso 2: Aplicamos la Regla de Sturges: 3 788 1142
m= 1+3.322 * Log (n) 4 1142 1496
m= 1+3.322* Log (60)
5 1496 1850
m = 6.907 intervalos de clase
6 1850 2204
m = 7 intervalos de clase
7 2204 2558
Paso 3: Calculamos la amplitud
Amplitud= R/m
Amplitud= 2478/7
Amplitud= 354
40
TABLA DE DISTRIBUCIÓN DE FRECUENCIA DE LOS
USUARIOS SEGÚN LA VARIABLE SALDO DE CUENTA DE
LAS TARJETAS DE DÉBITO
SALDO DE CUENTA
TOTAL 60 100,0
41
INTERPRETE:
f3=10; Del total de usuarios del cajero automático, 10 tienen saldos de cuenta de S/. 788
a menos de S/. 1 142.
h4%=20%; Del 100% de usuarios del cajero automático, el 20% tiene saldos de cuenta
de S/. 1 142 a menos de S/. 1 496.
F6=54; Del total de usuarios del cajero automático,54 tienen saldos de cuenta de S/. 80 a
menos de S/. 2 204.
H5%=70%; Del 100% de usuarios del cajero automático, el 70% tienen saldos de cuenta
de S/. 80 a menos de S/. 1 850.
42
VARIABLES CUANTITATIVAS CONTINUAS:
1.- HISTOGRAMA.
2.- POLÍGONO DE FRECUENCIA.
HISTOGRAMA.-
Es un conjunto de rectángulos consecutivos con altura igual a la frecuencia (absoluta , relativa).
POLÍGONO DE FRECUENCIA.-
Se consideran líneas suavizadas, que tienen inicio en un intervalo anterior y posterior a los
establecidos en la Tabla de distribución de frecuencia. Se considera la marca de clase.
( LI L S )
Marca de clase TABLA DE DISTRIBUCIÓN DE FRECUENCIA DE LOS USUARIOS
2 SEGÚN LA VARIABLE SALDO DE CUENTA DE LAS TARJETAS DE DÉBITO
SALDO DE Marcas de Frecuencia Porcentaje
Frecuencia Porcentaje
CUENTA clase Acumulada Acumulado
[80-434[ 257 1 1,7 1 1,7
[434-788[ 611 3 5,0 4 6,7
[788-1142[ 965 10 16,7 14 23,3
[1142-1496[ 1319 12 20,0 26 43,3
[1496-1850[ 1673 16 26,7 42 70,0
[1850-2204[ 2027 12 20,0 54 90,0
[2204-2588] 2381 6 10,0 60 100,0
Total 60 100,0
43
TABLAS CRUZADAS
(2 ó más variables)
44
TABLA DE CONTINGENCIA ( DE DOBLE ENTRADA)
45
TABLA DE CONTINGENCIA CON RESPECTO A LA FRECUENCIA ABSOLUTA:
f3,4=1; Del total de usuarios del cajero automático, 1 usuario calificó el servicio como regular y no
accedieron al cajero 3 veces.
46
TABLA DE CONTINGENCIA CON RESPECTO AL PORCENTAJE DEL TOTAL GENERAL
INTERPRETACIÓN:
h3,2=11.7%; Del 100% de los usuarios, el 11.7% de los usuarios calificaron el servicio como regular y
no accedieron al cajero 1 vez.
h4,3=5%; Del 100% de los usuarios, el 5% de los usuarios calificaron el servicio como malo y no
accedieron 2 veces al cajero.
47
TABLA DE CONTINGENCIA CON RESPECTO AL TOTAL FILA
INTERPRETACIÓN:
H3,3% total fila=11.1%; Del 100% de los usuarios que calificaron el servicio del cajero como
regular; el 11.1% no accedieron al cajero 2 veces.
H2,4% total fila= 7.1%; Del 100% de los usuarios que calificaron el servicio del cajero como
bueno, el 7.1% no accedieron al 3 veces.
48
TABLA DE CONTINGENCIA CON RESPECTO TOTAL COLUMNA
INTERPRETACIÓN:
H1,3: 6.7%; Del 100% de usuarios que no acceden al cajero 2 veces, el 66.7% califica el servicio
como excelente.
H4,3: 20%; Del 100% de usuarios que no acceden al cajero 2 veces, el 20% califica el servicio como
malo.
49
TABLA DE CONTINGENCIA: Variable Capa: Género
50
CASO: Servicio del cajero automático
Se requiere realizar un análisis de datos y preparar un informe escrito de las
características de los clientes que acceden a los servicios que ofrece el
cajero automático del Banco RENTAMÁS, en los distritos: La Victoria, San
Luis, San Borja y Santa Anita. Para comprender mejor las exigencias de los
clientes y el compromiso de mejorar los servicios brindados las 24 horas del
día. El gerente del banco, encarga al área del servicio al cliente realizar el
estudio, considerando una muestra aleatoria de n= 60 clientes que acceden
al cajero automático en un día determinado.
Consideramos algunas variables del estudio para el desarrollo de la
unidad I.
Servicio: Servicios que brinda el cajero automático.
51
GRÁFICOS
BARRAS - CIRCULAR
PRESENTACIÓN GRÁFICA DE LOS DATOS
VARIABLE CUALITATIVA:
GRÁFICO DE BARRAS:
a) El número de barras debe ser suficiente para contener a todos los datos. Las barras
deben ser mutuamente excluyentes y deben graficarse a una distancia constante de
separación.
b) La altura de cada barra es proporcional al tamaño de la frecuencia (Absoluta o relativa)
respectiva. El ancho de las barras debe ser igual para todas y deben estar igualmente
espaciadas.
c) Debe ser fundamentalmente ilustrativo (barras ordenadas).
53
GRÁFICO VARIABLE CUALITATIVA
GRÁFICO DE
BARRAS: GRÁFICO
CIRCULAR
54
VARIABLE CUANTITATIVA DISCRETA
56
Gráficos de Líneas
SERIES DE TIEMPO
Gráfico de Líneas:
.
59
VARIABLE CUANTITATIVA CONTINUA
Histograma
Gráficos:
Histograma y curva de la normal del histograma
Saldo Intervalo
1 [80-434[
2 [434-788[
3 [788-1142[
4 [1142-1496[
5 [1496-1850[
6 [1850-2204[
7 [2204-2558]
Polígono de
frecuencia
61
GRÁFICOS
TALLOS Y HOJAS
62
GRÁFICO DE TALLOS Y HOJAS: (Stem-and-Leaf Diagram)
Es una técnica que se utiliza para la organización de datos como primer paso en un análisis
exploratorio (AED). Resume y describe variables cuantitativas.
Permite visualizar la forma de distribución y también la existencia de datos discordantes.
Tallo Hojas
4 1 2 5 7 8
5 1 3 4 5 5 8 8 9
6 0 1 2 2 3 3 5 5 5 7 8 8 8 8
7 0 0 0 2 4 5 7 8 9 9
8 0 3 4 5 6 8 9
9 0
Tallos y Hojas
5.00 0 . 22444
20.00 0 . 56666667777788888899
26.00 1 . 00000001111122222223344444
7.00 1 . 5667788
2.00 2 . 00
65
GRÁFICO DE CAJAS:
Datos
atípicos Datos
atípicos
Porcentaje
Motivos de Queja Frecuencia Porcentaje
Acumulado
¿Cuáles son las causas que el banco debe resolver para lograr la mejora más
significativa?
DIAGRAMA DE PARETO
I.- Identificar:
Población:
Unidad de análisis:
II.- COMPLETAR LOS ESPACIOS EN BLANCO DE LA SIGUIENTE TABLA
Cuantitativa
discreta
Nominal
Monto
f4 = Interprete:
h2%= Interprete:
Comentar la gráfica:
V.- Responda de la TDF para la variable MONTO y complete la TDF
Tabla de_______________________________________________________________
Porcentaje
Marcas de Porcentaje Frecuencia acumulado
Monto clase Frecuencia (%) Acumulada (%)
[132- [ 8
[ [ 10
[ [ 13
[ [ 15
[ [ 18
[ [ 20
[ [ 10
[ -540] 6
TOTAL 100 1.0
Realice la construcción de la Tabla de frecuencia - interprete
Identificar: Amplitud:_________________
Xmin=______ Xmax=____________
Nº de intervalos:_______________________
f6= Interprete:
H3% Interprete:
Interprete: F7 – F3
Comente el gráfico:
VI.- Tabla de Contingencia (Doble entrada)
Recuento
N° de recibos vencidos
1 2 3 4 Total
Ciudad del usuario Arequipa 9 9 4 1 23
deudor
Cusco 3 6 3 2 14
Huancayo 4 3 0 3 10
Lima 10 16 9 6 41
Trujillo 2 5 4 1 12
Total 28 39 20 13 100
Tabla de Contingencia …………
f4,3=
De todos los clientes deudores que residen en la ciudad de Arequipa. ¿Cuàl es el porcentaje
de cliente deudores que tienen 2 recibos vencidos?
De todos los deudores que residen en la ciudad de Lima. ¿Cuál es el porcentaje de clientes
deudores que tienen hasta 3 recibos vencidos?.
Porcentaje
MOTIVO DE QUEJA Frecuencia Porcentaje acumulado
No recibió recibos 20 20,0 20,0
No reconoce monto facturado 18 18,0 38,0
Falta de capacidad de pago 16 16,0 54,0
Solicito otra clase de servicio 14 14,0 68,0
Falta de lugares de pago cercanos 11 11,0 79,0
Dispersión:
Valores atípicos:
ESTADISTICA APLICADA A LA GESTION EMPRESARIAL
UNIDAD II
Medidas de Tendencia Central y Dispersión
Calcula e interpreta las
principales medidas de
tendencia central y medidas
de posición
Un motivo para hacer sospechar que la Estadística es más un arte que una
ciencia, gira en torno a la ambigüedad con que se usa el término “promedio”.
5.1 LAS MEDIDAS RESUMEN
1. Tendencia central
MEDIDAS DE 2. Posición
RESUMEN
3. De dispersión
4. De forma de la distribución
LAS MEDIDAS DE TENDENCIA CENTRAL
La nota promedio de los alumnos de la sección 15M es 12.8 (curva A), la nota promedio
de la sección 10T es también 12.8 (curva C) pero la nota promedio de la sección 23N es
15.4 (curva B)
LAS MEDIDAS DE DISPERSIÓN
a) Simetría b) Curtósis
SIMETRIA
Las curvas simétricas, tienen una forma tal que con una línea vertical que pase
por el punto más alto de la curva, dividirá el área de ésta en dos partes iguales.
SIMETRÍA
Las curvas sesgadas son aquellas cuyos valores están concentrados en el extremo
inferior o superior de la escala de medición del eje horizontal. La “cola” indica el tipo de
sesgo.
CURTOSIS
2. Medidas de Posición
A. Cuartiles
B. Deciles
C. Percentiles
5.1 MEDIDAS DE TENDENCIA CENTRAL
Una vez clasificados los datos originales en tablas y gráficas, será necesario calcular
un conjunto de medidas centrales que caractericen en forma más precisa la
distribución que se está estudiando, usualmente se llaman PROMEDIOS y son de
extraordinaria utilidad tanto en el análisis de una distribución, como en la
comparación de distribuciones.
Por lo general el conjunto de datos presentan una tendencia de agruparse alrededor
de un punto central que describe el conjunto de series de datos.
Estas medidas descriptiva se conoce como medidas de Tendencia Central y
comprende:
o La media aritmética.
o La mediana.
o La moda.
A. LA MEDIA ARITMETICA
X
i 1
N
o Media aritmética de una muestra: Estadístico
x i
X i 1
n
Ejemplo 1
x
i 1
i
8 10 5 12 10 15 60
x 10
6 6 6
• Interprete:
Si se selecciona al azar un día de la semana, se espera que se haya presentado 10
reclamos durante ese día.
Ejemplo 2
x
i 1
i
90 83 ...... 113 83 1176
x 98
12 12 12
• Interprete:
Si se selecciona dentro de este grupo a un estudiante al azar, se espera que su
peso sea 98 kgs.
CALCULO DE A PARTIR DE DATOS DISCRETOS AGRUPADOS
Frecuencias absolutas
f1 , f 2 , f 3 , ............., f k
Xi fi xi fi
Media Aritmética
x1 f1 x1f1
x2 f2 x2f2 k
x3 f3 x3f3 x * f i i
. . x i 1
. .
f i
xk fk xkfk
k
xi fi
TOTAL n i1
Ejemplo 3
Edad (Años)
CREDITOS fi xi fi Cálculos
21 3 63
22 5 110 1191
23 10 230 x 23.82 24
50
24 16 384
25 12 300
26 4 104
TOTAL 50 1191
Ejemplo 4
Se presenta las pensiones de enseñanza (S/.) de una muestra de 25 estudiantes de
la USMP. Calcule la media aritmética e interprete.
Xi
m
x '* i fi
x i 1
f i
Solución:
Pensión
m
x '*
Mensual
Xi fi
(S/.) Marcas de Clase fi xi *fi i
x i 1
[435-512>
[512-589>
473.5
550.5
5
6
2367.5
3303
f i
Nº de polizas de Comisión
Vendedor Seguro Médico: wi por venta $: Xi
Pedro 30 30
Juan 25 40
Pablo 20 50
SOLUCIÓN:
Interpretación:
2) La mediana entonces será igual al promedio de los valores ubicados la posición 11° y
12° de la serie ordenada, luego:
Me = 2
Interprete:
La mitad de los trabajadores tienen a lo mucho dos hijos y el resto tiene dos hijos o
más.
5.3. LA MODA
Tiene dos modas 4 y 7, porque 4 se repite tres veces al igual que 7 que también se
repite tres veces.
Ejemplo 7
2013 - 1
Las medidas de posición o cuantíeles son los valores que determinan la posición
de un dato respecto a todos los demás datos de una serie y que previamente ha
sido ordenada de menor a mayor.
Cuantiles
115
MEDIDAS DE POSICIÓN
Son los valores que dividen a la distribución en 4 , en 10 y en 100 partes iguales, con
respecto a los datos previamente ordenados de menor a mayor.
Tenemos:
• Cuartiles : Datos previamente ordenados se dividen en 4 partes iguales que
representan 25%, 50% y 75% de la distribución. Se denotan por Q 1 , Q 2 , Q 3 .
Se define así al valor que divide a un conjunto ordenado de datos en dos partes
con porcentajes específicos por debajo y sobre éste valor.
117
2. CUARTILES.- Primer cuartil
Q1 = P25
2. CUARTILES.- Tercer cuartil
Xmin ≤ Xmax
>
Q3 = P75
Ejercicio 1
A continuación se presenta los datos para una muestra de 12 empleados del sector
minero respecto a la variable sueldo mensual.
Sueldos Mensuales:
Sueldos 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Mensuales
Forma de cálculo.-
Calcule e interprete el primer cuartil
Variable: Sueldo mensual de los empleados del sector minero.
Posición del primer cuartil:
p 25
i n 12 3
100 100
2850 2880
Q1 2865
2
2950 3050
Q3 3000
2
Posición del Q1
p 25
i n 25 6.25 7 Q1 = 9
100 100
Posición del Q3
p 75 Q 3= 15
i n 25 18.75 19
100 100
240 240 240 240 240 240 240 240 255 255
265 265 280 280 290 300 305 325 330 340
125
1. PERCENTIL – PROCEDIMIENTO DE CALCULO
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
P85 = 3130.
Interpretación:
El 85% de los empleados del sector minero perciben sueldos mensuales
menores o iguales a S/.3130 y el 15% restante perciben sueldos mensuales
iguales o superiores a S/.3130
CARACTERISTICAS DE LA MEDIA ARITMETICA
2013 - 1
• La media aritmética de una cantidad constante es la misma constante.
M(k) = k
• La media de una variable a la que se le suma o resta una constante equivale a la media
de la variable más o menos dicha constante.
M(X k) = M(X) k
M(kX) = kM(X)
M(aX b) = aM(X) b
130
DESVENTAJAS DE LA MEDIA ARITMÉTICA
• Para datos que contienen uno o dos valores sumamente grandes o muy
pequeños, la media aritmética no es una medida adecuada para representar los
datos.
Interprete: La mitad de los usuarios opinan que la facilidad para navegar por web se
encuentra entre sobresaliente, excelente y buena. La otra mitad, entre regular y mala.
PROPIEDADES DE LA MODA
ORDINALES NOMINALES
PROCEDIMIENTO:
1. Determinar el valor máximo, mínimo, los percentiles 25, 50 y 75.
2. Calcular el Rango Intercuartílico: P 75 – P 25 .
3. Determinar los LIMITES, tanto superior como inferior
LI = P25 – 1.5RIC LS = P75 +1.5RIC
4. Los datos que toman valores por encima o por de debajo de estos
límites, constituyen valores atípicos.
5. Los valores atípicos pueden ser cercanos o alejados. Los cercanos
se denominas outliers y los lejanos se denominas extremos. Las
frontera entre estos tipos de atípicos se determina por la fórmula:
Limite extremo inferior: P 25 – 3RIC Límite extremo superior: P 75
+ 3RIC
Ejemplo
Puesto que el valor atípico es a la derecha, el mínimo está por encima del
límite inferior y la diferencia entre P 50 – P 25 es mayor a la diferencia entre
P 75 – P 50 , se puede concluir que los datos se ajustan a una distribución
asimétrica a la derecha, o sesgo positivo .
1. MEDIDAS DE
DISPERSIÓN
142
Medidas de dispersión
2013 - 1
143
Medidas de dispersión
2013 - 1
144
A. EL RANGO o AMPLITUD o RECORRIDO
Es diferencia entre el valor máximo y el valor mínimo. Es un valor muy afectado por la
A) El derango
presencia (R) Tiene una limitación: no toma en cuenta ni el número de
valores extremos.
datos ni el valor de los datos intermedios.
R = Xmax – Xmin
APLICACIÓN: Los siguientes datos representan el peso de 10 cajas con mercancías
(en Kg.) que han sido separadas del lote pues su peso sobrepasa el límite de tolerancia.
Calcule e interprete el rango.
2,860 3,150 3,450 2,950 3,780 4,170 3,920 3,280 4,050 3,120
B. EL RANGO INTERCUARTÍLICO
Interpretación :
el número de
llamadas diarias del
50% de días central,
tiene una dispersión
de 13 llamadas.
VARIANZA Y DESVIACIÓN ESTÁNDAR:
2013 - 1
Poblacional Muestral
σ2 S2
Varianza
=VAR.P =VAR.S
σ S
Desviación estándar
=DESVEST.P =DESVEST.M
149
DATOS NO AGRUPADOS
Varianza
(x i x) 2
i x
( x ) 2
S2 i 1
2 i 1
n 1 N
n N
Desviación i
( x x ) 2
i x
( x ) 2
estándar S i 1
i 1
n 1 N
150
EJEMPLO 1
X X
N
i i
10 13 10 14 13 60 (X i )2
14
i 1
i 1
12 2 i 1
2.8
N 5 5 5 N 5
151
PROPIEDADES DE LA VARIANZA
152
LA DESVIACIÓN ESTÁNDAR
153
Aplicación
S
2
s
S 11,6
S 3,4 devoluciones
EL COEFICIENTE DE VARIACIÓN
S
CV 100 CV 100
x
• Permite comparar variabilidad de conjuntos de datos registra-dos en
diferentes unidades de medida:
155
Ejemplo
Coeficiente. de
36.78%
variación
156
2. Medidas de las
formas de la
distribución
157
MEDIDAS DE FORMAS
158
Aplicación
PRECIOS
18
3(media mediana) 3(18.615 - 18)
16 AP
21 desviación estándar 15
22 AP 0,123
15
14
15
15
18 Interpretación: Los precios se ajustan
22 a una distribución con leve sesgo
25 positivo (o asimetría a la derecha)
20
21
Media 18.615
Mediana 18
Desviación Estándar 15
159
2. EL COEFICIENTE DE CURTOSIS
Q3 Q1
KP
2( P90 P10 )
Si:
KP = 0.263 Curva Mesocúrtica
KP > 0.263 Curva Leptocúrtica
KP < 0.263 Curva Platicúrtica
160
APLICACIÓN
12 29 32 15 27 22 32 25 18 20 27 18 25 28 30
10 40 35 20 60 30 20 30 25 15
35 30 25 54 60 30 15 10 20 30
165
MEDIDAS DE ASOCIACION ENTRE DOS
VARIABLES
OBJETIVOS GENERAL:
Introducir el Coeficiente de correlación lineal entre dos
variables, determinando la asociación entre dos
variables X e Y.
OBJETIVOS ESPECÍFICOS:
Determinar si dos variables X e Y , están asociadas.
Determinar que tan fuerte es esta relación.
Pronosticar en forma intuitiva el grado de asociación
lineal entre dos variables, en base al diagrama de
dispersión.
166
MEDIDAS DE ASOCIACION ENTRE DOS VARIABLES
1. Covarianza:
n _ _
( x x)( y
N
i i y) (X i x )(Yi y )
S xy i 1
xy i 1
n 1 N
167
Ejemplo 1
El departamento de logística de una tienda
de equipos de sonido, ha usado
comerciales de televisión los fines de
semana para promover sus ventas. El
administrador de la tienda le interesa
investigar la relación entre la cantidad de
comerciales de televisión que aparecen los
fines de semana y las ventas en su
negocio durante la siguiente semana. En la
siguiente tabla aparecen datos de la
muestra, donde las ventas se expresan en
miles de dólares, con una observación
para cada semana.
168
Ejemplo 1
Cantidad de Volumen de
Semana comerciales ventas
x y
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
169
Ejemplo 1
_ _ _ _
xi yi ( xi x ) ( yi y ) ( xi x)( yi y )
2 50 -1 -1 1
5 57 2 6 12
1 41 -2 -10 20
3 54 0 3 0
4 54 1 3 3
1 38 -2 -13 26
5 63 2 12 24
3 48 0 -3 0
4 59 1 8 8
2 46 -1 -5 5
30 510 0 0 99
170
Ejemplo 1
10 _ _
( x x)( y y)
i i
99
S xy i 1
11
10 1 10 1
Interpretación :
Para ayudarnos en la interpretación de la covarianza de la
muestra es necesario tomar en cuenta el diagrama de dispersión
de x e y
171
Solución con Excel
172
Ejemplo 1
173
INTERPRETACION DE COVARIANZA
En la gráfica quedan cuatro cuadrantes:
• Los puntos del cuadrante I corresponde a valores de x mayores
que su media y a valores de y mayores que su media.
• Los puntos del cuadrante II corresponde a valores de x
menores que su media y a valores de y mayores que su
media.
• Los puntos del cuadrante III corresponde a valores de x
menores que su media y a valores de y menores que su
media.
• Los puntos del cuadrante IV corresponde a valores de x
mayores que su media y a valores de y menores que su
media.
174
INTERPRETACION DE COVARIANZA
175
MEDIDAS DE ASOCIACION ENTRE DOS VARIABLES
• COEFICIENTE DE CORRELACIÓN:
60 50
60
50
40
50
Variab le B
40
Va ria ble B
Variable B
40 30
30
30
20 20
20
10
10
10
0
0 10 20 30 40 50 60 0 0
0 10 20 30 40 50 60 0 10 20 30 40 50
Variable A
Variable A Variable A
176
Ejemplo 2
• Analizar la relación entre la edad y el tiempo de servicio de
15 trabajadores, contando con la siguiente información:
Tiempo de Tiempo de
Trabajador Edad Trabajador Edad
servicio servicio
1 48 24 9 34 10
2 40 18 10 46 20
3 30 9 11 32 12
4 39 14 12 42 18
5 46 22 13 40 16
6 42 22 14 32 8
7 27 4 15 27 6
8 36 13
177
Reemplazando los valores en la fórmula, el cociente de correlación es :
n
x y i i nx y
r n
i 1
n
0.97
i
x 2
i 1
nx 2
i
y 2
n
i 1
y 2
Se va debilitando
Fuerte relación Fuerte relación
-1 -0.70 0 0.70 1
178
Solución con EXCEL
179
Ejemplo 3
• En una gran ciudad se contrató a un sociólogo para que
investigara la relación entre el número de días de ausencia de
los empleados sin autorización por año y la distancia desde su
domicilio a su centro laboral. Determine e interprete el
coeficiente de correlación. Elabore un gráfico de dispersión.
Distancia 1 3 4 6 8 10 12 14 14 18
N° Dias 8 5 8 7 6 3 5 2 4 2
Gráfico de Dispersión
9
y = -0.3442x + 8.0978
Número de días de ausencia
8
R² = 0.7109
7
6
5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20
Distancia (en millas)
Ejemplo 3
Distancia N° Días XY X2 Y2
1 8 8 1 64
3 5 15 9 25
4 8 32 16 64
r
10 * 365 90 * 50
8
10
6
3
48
30
64
100
36
9
10 *1086 902 * 10 * 296 502
12 5 60 144 25
r 0.8431
14 2 28 196 2
14 4 56 196 16
18 2 36 324 4
90 50 355 1086 296
30 35 80
calificación Ganada
70
90 75
60
60 65 50 y = 0.8295x + 5.847
105 90 40 R² = 0.8777
65 50 30
20
90 90
10
80 80 0
55 45 0 20 40 60 80 100 120
UNIDAD III
Teoría de la Probabilidad y Distribuciones Muestrales
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
1 Definiciones
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
4 Suceso - Evento
Cada elemento del espacio muestral es llamado suceso (s);
mientras que un conjunto particular de sucesos es llamado evento,
el cual es representado por letras mayúsculas.
Ejemplo: En el experimento de lanzar un dado, el espacio muestral
está constituido por seis sucesos.
6 sucesos
Sea el evento obtener puntaje par.
3 sucesos
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
3 sucesos
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ALGEBRA DE EVENTOS:
PROBABILIDAD
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Calidades
Productos Total
Regular Superior Premium
Alcachofa 40 50 70 160
Palta 31 49 60 140
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Probabilidad condicional
• Sean A y B dos sucesos asociados a un espacio muestral, la
probabilidad de que ocurra el suceso A si ocurrió el suceso B,
esta dada por:
P( A B)
P( A|B) , P( B) 0 (1)
P( B)
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
P( A B)
P( B| A) , P( A ) 0 (2)
P( A)
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Ejemplo 01:
Un analista asigna probabilidades subjetivas a los eventos A y B, donde:
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
CASO: Refrescos
En un estudio relacionado a las preferencias, de los consumidores,
por las principales marcas de néctares de frutas existentes en el
mercado, se recabaron las opiniones provenientes de 400
encuestados. Los datos recabados se refieren a:
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
CASO: Refrescos
A continuación se presenta la tabla asociada a las
características Grupo de edad y Marca
Marca
Grupo de edad Total
Frugos Pulp Tampico Watts
< 30 años 25 33 29 37 124
30 a 50 años 61 52 25 58 196
50 a más 18 23 14 25 80
Total 104 108 68 120 400
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
CASO: Refrescos
A continuación se presenta la tabla asociada a las
características Marca y Género
Género
Marcas Total
Hombres Mujeres
Frugos 48 56 104
Pulp 44 64 108
Tampico 30 38 68
Watts 62 58 120
Total 184 216 400
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
29
P( 30 años|Tampico) = 1 – 0.574
68
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Mujer
encuestada 1/4
Mujer
encuestada
2/5
Hombre
3/4
encuestado
Mujer
2/4
encuestada
3/5
Hombre
encuestado
Hombre
encuestado 2/4
Respuesta:
• La probabilidad de que el primer encuestado seleccionado sea
hombre: 3/5
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
2 1
Probabilidad 1ero mujer y 2do mujer: * 0.10
5 4
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
3 2
Probabilidad 1ero hombre y 2do mujer : * 0.30
5 4
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Probabilidad solicitada:
2 3 2 1 3 2
* + * + * = 0.70
5 4 5 4 5 4
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Teorema de Bayes
Sea B1, B2, ..., Bk partición del espacio muestral S, y sea Bj un evento
de la partición, entonces:
CASO: Multiprint
Multiprint es una empresa que se dedica a la venta de equipos de
cómputo, periféricos y accesorios. En un reciente análisis de las
ventas de impresoras realizadas por sus 2 locales: Local A y Local B,
se ha resumido lo siguiente:
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
CASO: Multiprint
a) Elabore el árbol de probabilidades asociado a la información
proporcionada.
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
CASO: Multiprint
b) Si se selecciona un registro, de venta de impresoras, al azar de la
base de datos de la empresa, ¿cuál es la probabilidad de que sea de
una impresora láser?
P(Láser) = 0.345
CASO: Multiprint
c) Al seleccionar un registro de venta de impresoras láser, ¿Cuál es la
probabilidad de que proceda de una venta realizada en el Local A?
¿del Local B?
i Local (i) P(Local[i]) P(Láser|Local(i)) P(Local[i])*P(Láser|Local[i]) P(Local[i]|Láser)
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Variable Aleatoria
Definición: Se define como variable aleatoria a una función X que
asocia a cada uno de los elementos s que pertenecen al espacio
muestral S y un número real X(s):
Rango o recorrido de una variable aleatoria (R)
Rango es el conjunto de valores reales que adopta la variable
aleatoria: Rx = {x R/x = X(s)}
Experimento aleatorio: Lanzar una moneda al aire y
observar el lado superior al caer. S = {Cara, Sello}. En este
caso los sucesos y eventos no son números reales.
Variable aleatoria: Si el resultado es “Sello” se pierde S/. 1,
y se gana S/. 1 si el resultado es “Cara”. Rx = {- 1, 1}
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
1 Distribución de Poisson
Es una distribución muy usada en el entorno empresarial. Se deriva del
proceso de Poisson en honor al matemático francés Simeon Denis
Poisson (1781-1840).
El número promedio de veces () que ocurre un éxito por cada unidad
de tiempo o de espacio es constante.
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Definición
Sea X una variable aleatoria que se distribuye como una Poisson
con parámetro , si su función de probabilidad es:
e
x
P( X x )
x! donde x = 0, 1, 2, ...
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Características
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Ejemplos de aplicación
Se usa cuando se refiere a la distribución del número de
ocurrencias por unidad de medición (tiempo, espacio, etc.):
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Caso: Inversis
El Administrador de una agencia del Banco Inversis, determinó que
la cantidad de clientes que ingresan a la mencionada agencia,
durante el horario de la mañana, sigue una distribución de Poisson
con un promedio de 3 clientes cada minuto.
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Caso: Inversis
b) ¿Cuál es la probabilidad qué ingresen 2 clientes en un período
de 1 minuto?
P(X = 2) = 0.224
Calculadora SPSS
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Caso: Inversis
c) ¿Cuál es la probabilidad qué ingresen como máximo 4 clientes
en un período de 1 minuto?
P(X 4) = 0.8153
Calculadora SPSS
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Caso: Inversis
d) ¿Cuál es la probabilidad qué ingresen más de 2 clientes en un
período de 1 minuto?
P(X > 2) = 1 – P(X 2) = 1 - 0.4232 = 0.5768
2 Distribución Normal
La distribución Normal es la más importante de las distribuciones
continuas y ha sido estudiada desde 1733 por DeMoivre (1667-
1754). En 1809, Gauss (1777-1855) la utilizó para modelar datos
astronómicos.
La distribución Normal es el soporte de todo lo que se conoce
como “estadística clásica”. Esto significa, que muchas técnicas
estadísticas requieren que los datos se comporten como la normal
para su correcta aplicación
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Definición
Se dice que la variable aleatoria continua X, tiene distribución
Normal con parámetro , σ. 2
X N ,
Función de densidad de probabilidad de una Normal con
parámetro (,σ) es:
2
1 x
1
f x e 2
- x ; - ; 0
2
2
Si X N(, 2), entonces : E(X) = , Var(X) = 2
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Ejemplos de aplicación
Caso: Inversis
Se han presentado solicitudes para el refinanciamiento de los
créditos hipotecarios por parte de los clientes y no clientes de
Inversis. El tiempo de atención de las solicitudes, por parte de los
evaluadores financieros, desde su recepción hasta la entrega de
resultados presenta una media de 48 horas y una desviación
estándar de 2.5 horas.
a) Defina la variable de estudio, la distribución correspondiente y
su(s) respectivo(s) parámetros.
X: Tiempo de atención de las solicitudes.
X Normal ( = 48, 2 = 2.52)
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Caso: Inversis
b) ¿Cuál es la probabilidad de que el tiempo de atención de una
solicitud de refinanciamiento demore menos de 50 horas?
P(X < 50) = 0.7881
Calculadora SPSS
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Caso: Inversis
c) ¿Cuál es la probabilidad de que el tiempo de atención de una
solicitud de refinanciamiento demore por lo menos 45 horas?
P(X 45) = 1 – P(X < 45) = 0.8849
Calculadora SPSS
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Caso: Inversis
d) ¿Cuál es la probabilidad de que el tiempo de atención de una
solicitud de refinanciamiento demore más de 45 horas pero
menos de 50 horas?
P(45 < X < 50) = P(X < 50) - P(X < 45) = 0.6731
Calculadora SPSS
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
Caso: Inversis
e) Si se sabe que P(X < k) = 0.80, ¿cuál es el valor de k?
k = 50.10 horas
Calculadora SPSS
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
1
1 x2
f x e 2 - x
2
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
n = 64 tiendas
48002
x : Normal 36400, x : N36400,600 2
64
Si n es suficientemente 1
p Normal ,
grande, entonces: n
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales
1 Hipótesis estadística
Una hipótesis estadística es una aseveración que se hace acerca de
la distribución de probabilidad de una o más variables aleatorias,
la cual puede ser verdadera o falsa.
Clases de hipótesis
Hipótesis Nula (H0). Es la primera afirmación que se va a someter
a prueba para ser aceptada o rechazada, es decir, la que se desea
verificar.
Hipótesis Alternativa (H1). Es aquella que se acepta si la hipótesis
nula es rechazada.
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales
Hipótesis estadística
Según la forma de la región de rechazo, existen dos tipos de
prueba de hipótesis:
Prueba unilateral Prueba bilateral
Tipos de error
Error de Tipo I.- Este error consiste en tomar la decisión de
rechazar H0 cuando es cierta y su medida en términos de
probabilidad está dada por:
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales
Tipos de error
Error de Tipo II.- Este tipo de error consiste en tomar la decisión
de aceptar H0 cuando es falsa y su medida esta dada por:
X0
f ( x )dx f1 ( x )dx
A
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales
Función de potencia
El complemento del Error tipo II es la Función de Potencia ó
Potencia de la Dócima, es decir:
P 1 f1 x dx
C
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales
- = 1 X0 = 0 +
H1 H0
Reg. Rechazo Reg. Aceptación
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales
Cuadro resumen
H0 Verdadera H0 Falsa
Error Tipo I Decisión correcta
Rechaza H0
1-
Decisión correcta Error Tipo II
Aceptar H0
1-
ACREDITACIONES RECONOCIMIENTOS
Plantea pruebas de hipótesis enfocándose en los entornos empresariales
R.A R.A
R.C. . . R.C.
Z Z1
Prueba bilateral
H 0 : 0
H a : 0
R.A
.
R.C. R.C.
Z Z 1
2 2
R.A R.A
R.C. . . R.C.
Z Z1
Prueba bilateral
H0 : 0
Ha : 0
R.A
.
R.C. R.C.
Z Z 1
2 2
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
ACREDITACIONES RECONOCIMIENTOS
Aplica modelos probabilísticos a partir de conceptos y teoremas de probabilidad
UNIDAD IV
Regresión Lineal Simple. Series de tiempo y Herramientas
Estadisticas de Control de Calidad
1. Regresión Lineal
Simple
266
Objetivo
Encontrar modelos estadísticos que puedan ser usados para predecir los valores
de una variable dependiente basado en los valores de una variable
independiente.
2
Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable dependiente
“Y”, en base a lo que ocurre o lo que sucede con la variable independiente ”X”.
Modelo Poblacional:
Yi = β0 +β1 Xi + εi
Donde:
268
Ejemplos:
Pueden existir variables que presenten un grado de relación natural entre sí, como por
ejemplo :
269
Procedimiento para realizar un análisis de
Regresión Lineal Simple
1. Identificar la variable dependiente y la variable independiente.
2. Realizar un diagrama de dispersión.
3. Definir la función de regresión.
4. Estimación de los coeficientes mediante el método de mínimos cuadrados.
5. Estudio de la adecuación del modelo, para analizar la bondad de ajuste del modelo a
los datos, se realiza mediante:
a) Coeficiente de Correlación.
b) Coeficiente de Determinación.
d) Prueba de hipótesis global (Prueba F).
6. Validación del modelo. Se realiza la comprobación de los supuestos en relación al
término ε del modelo:
a) Normalidad
b) Homocedasticidad
7. Uso del modelo para realizar predicciones.
5
1. Identificación de:
Variable dependiente: Y
Variable independiente: X
2. Identificar el tipo de relación existente entre las variables a través del diagrama de
dispersión.
6
DIAGRAMA DE DISPERSIÓN
y
y
x
x
Relación lineal directa Relación lineal inversa
y y
x x
Relación no-lineal No hay relación
272
3. Definir la función de regresión lineal.
Y = f (x)
Ecuación de la recta:
Y = a + bX + Ԑ
Y = β0 + β1 X + Ԑ
9
4. Estimación de los coeficientes de la recta de regresión.
Realizada la gráfica, se procede a calcular cuál es la ecuación de regresión lineal apropiada
que mejor represente los datos. La recta apropiada tendrá que ser la que tenga la suma
mínima del cuadrado de los errores definido como la diferencia entre el valor observado (Y) y
el valor estimado por la ecuación de regresión lineal (Ŷ). A este método se denomina Mínimos
Cuadrados.
Y = a + bX + ei o Y = β0 +β1 X1 + ei
10
4. Estimación de los coeficientes de la recta de regresión.
Estimar los coeficientes a través del Método de Mínimos cuadrados (MMC)
n n
i i i m ínim o
ˆ
2 2
e Y Y
i 1 i 1
donde:
ei= Residual (diferencia entre el valor observado y el valor estimado).
Yi= Valor observado.
Ŷi= Valor estimado por la ecuación de regresión lineal.
11
Estimación del modelo de regresión lineal simple:
Recta de Mínimos
Cuadrados
14
Fórmula para calcular la pendiente:
n n n
n x i yi x i yi
b 1 i 1 i 1 i 1
2
n
n
n xi xi
2
i 1 i 1
277
5. Adecuación del Modelo
a) Coeficiente de Correlación : r
El análisis de CORRELACIÓN nos permite determinar el grado en el que están relacionadas
las variables X e Y.
El análisis de CORRELACIÓN, nos dice qué tan bien la ecuación de regresión describe la
relación de las variables.
Fórmula: n n n
n xi yi xi yi
r i 1 i 1 i 1
n 2 n 2 n 2 n 2
n x x n y y
i i i i
i 1 i 1 i 1 i 1
-1 ≤ r ≤ 1
-1 -0.70 0 0.70 1
Cuando r se aproxime a 1 ó -1, existe una relación fuerte.
278
b) Coeficiente de Determinación ( r2 ) :
Y Y n
STC S Y
Yi
2
i
Yi i 1
i 1 n
2
i 1 n
Donde:
2
S Yˆ = Es la varianza explicada por la ecuación.
2
S Y = Es la varianza Total
279
c) Prueba de hipótesis: Análisis de Varianza (ANOVA)
El análisis de la adecuación del modelo a nivel población, se reduce al análisis de la
significancia estadística de la suma de cuadrados debido a la regresión, respecto de la suma de
los cuadrados de los errores. Esta significancia se mide con el estadístico F, también conocida
como prueba de significancia global.
Pasos a seguir:
1) Planteamiento de la hipótesis:
H0: βi = 0 (El modelo de regresión lineal no es adecuado a nivel poblacional)
H1: βi ≠ 0 (El modelo de regresión lineal es adecuado a nivel poblacional)
2) Nivel de significancia
α = 0.05 (Nivel de confianza 95%)
3) Estadística de Prueba
Para ello se construye la tabla ANOVA
17
Tabla de Análisis de Varianza
(ANOVA)
n __ 2 n
281
Entonces el estadístico de prueba es:
CMR
Fcal
CME
4) Comparar:
Decisión 1:
Si Fcal > Ftab. Entonces se rechaza la hipótesis nula.
FTab(α ;k-1,n-k) = Este valor se halla en la tabla de la distribución F.
Se llega a la misma conclusión observando el “P_valor”
Decisión 2:
Si P_valor < . Entonces se rechaza la hipótesis nula
19
6. Validación del modelo: Comprobación de supuestos
a) Homocedasticidad:
En el diagrama no debe existir tendencias, que la variabilidad de los residuos se mantengan
aproximadamente constante, que exista homocedasticidad.
20
b) Normalidad:
Si los puntos están alineados alrededor de la recta diagonal, se considera que los residuales tienen una
buena aproximación a la curva normal.
284
7. Uso del modelo para realizar estimaciones futuras de la variable dependiente en
función de la variable independiente.
Luego de verificar la adecuación y la validación del modelo y si el modelo logra pasar
este proceso, entonces estamos en condiciones de utilizar el modelo de regresión
lineal simple para predecir una nueva observación de la variable Y para un valor
determinado de X.
Está estimación puede realizarse de dos formas: puntual y por intervalos, para el
curso se utilizará la estimación puntual.
22
2. Series de Tiempo
286
Objetivo
287
Introducción
Los cambios futuros no sólo de la demanda, sino también de la oferta, se conocen con cierta
exactitud si se usan las técnicas estadísticas adecuadas para analizar el presente. Para ello se usan
las llamadas series de tiempo, pues lo que se desea observar es el comportamiento de un
fenómeno respecto al tiempo.
288
Variación en las series de tiempo
Las variaciones de una serie se clasifican en sistemáticas y aleatorias. Las variaciones
sistemáticas ocurren con regularidad, siendo posible ser medidas y pronosticadas; por otra
parte las variaciones aleatorias son causadas por sucesos aislados tales como huelgas,
desastres naturales, etc. En consecuencia no pueden ser pronosticados.
Una serie se compone de los siguientes tipos de variaciones:
1) Variaciones sistemáticas:
Tendencia
Cíclica
Estacional
289
Análisis de tendencia
290
Serie original y sus componentes
291
Estimación de la componente de la tendencia a través
del Método de Mínimos Cuadrados
Y = f (t)
Variable Tiempo
Dependiente
Modelo:
Y = a + bt + ei
Para estimar los valores de a y b aplicamos el MMC
Yˆ ( ) ( )t
292
Regresión Lineal Múltiple
(Una extensión de los modelos de RLS)
Encontrar modelos estadísticos que puedan ser usados para predecir los
valores de una variable dependiente conocida también como variable
respuesta, basado en los valores de varias variables independientes
denominadas variable explicativas.
293
REGRESIÓN LINEAL MÚLTIPLE
Las variables X1, X2,....,Xp son las variables independientes o variables predictoras, o
variables explicativas o variables regresoras.
294
REGRESIÓN LINEAL MÚLTIPLE
Ŷi 0 1 X1 2 X 2 ... p X p
Donde: βi = Son los estimadores de los coeficientes de regresión i = 0, 1,2,3,...,p
295
Pasos a seguir para realizar un análisis de
Regresión Lineal Múltiple
296
EJEMPLO
El gerente de personal de una empresa textil de Gamarra, realizó un estudio con 26 operarios
para determinar la relación entre las siguientes variables:
297
1. Realizar los diagramas de dispersión
298
Análisis de la Matriz de correlaciones
299
2. Definir la función de regresión (Modelo propuesto):
Y = f (X1, X2 , X3)
Yi β 0 β1X1 β 2 X 2 3 X 3 ei
Modelo estimado:
Y=-21.664+0.277X1 + 0.394X2 +0.002X3
300
4. Estudio de la adecuación del Modelo
0.985
a) COEFICIENTE DE CORRELACIÓN:
r = 0.985
Existe una relación lineal fuerte (0.985) entre la variable comportamiento hacia el trabajo
con las variables horas semanales de trabajo, número de prendas confeccionadas y años
de experiencia.
b) COEFICIENTE DE DETERMINACIÓN:
r2= 0.970
El 97% las variaciones de la variable comportamiento hacia el trabajo se ven explicadas
por las variaciones de las variables: horas semanales de trabajo, número de prendas
confeccionadas y años de experiencia y el 3% no explica dicha variación, al 95% de
confianza el ajuste realizado es adecuado.
301
c) Prueba de Hipótesis:
1) Prueba Global ( F ) de significancia del modelo
Esta prueba permite determinar si el modelo es significativo o no, para esto se contrasta la
siguiente hipótesis:
Valor crítico:
H0: 1 = 2 = .... = p = 0
Ftab F ;k 1,n k
H1: 1 ≠ 2 ≠ .... ≠ p ≠0 (Al menos uno de los βi es diferente de
cero)
Decisión:
Nivel de significancia : α = 0.05
Estadístico de Prueba: (Ver Tabla ANOVA)
CMR
Fcal
CME
Re chazar H o si :
Fcal Ftab ( ,k 1,n k )
302
Tabla ANOVA
Ho= βi = 0
H1= βi ≠ 0
α = 0.05
0.00
FCal= 369.26
Ftab = F(0.05;3,22)= 3.05
Como Fcal > Ftab, Entonces se rechaza Ho, se concluye que por lo menos algunos de βi, interviene
en el modelo.
Como se ha concluido que por lo menos algunas de las variables intervienen en el modelo,
pasaremos a realizar una prueba t, para averiguar cuales son las variables que contribuyen
significativamente al modelo y que variables podemos eliminar.
303
2) Prueba de significancia individual: Prueba T
Esta prueba permiten determinar la significancia de cada uno de los parámetros individuales es decir
si las variable regresoras Xj (i=1,2,...,p), aporta información al modelo. Así para cualquier parámetro βi
se plantea lo siguiente:
𝛽𝑖
𝑡𝑐𝑎𝑙 = ~ 𝑡(𝑛−1) Re chazar Ho si :
𝑆𝛽𝑖
tCal t n 1; 1 / 2
304
Tabla para realizar la prueba t
T calculado
=0.277/0.093 2.97849462 Es significativa
=0.394/0.122 3.2295082 Es significativa
=0.002/0.005 0.4 No es significativa
t25,0.975 = 2.060
305
En la Prueba t, para los coeficientes de Regresión. Se elimina la variable: X3 = años de experiencia.
Trabajamos el modelo de regresión con las variables que resultaron estadísticamente significativas:
X1= Horas semanales de trabajo.
X2= Número de prendas confeccionadas.
Realizamos una nueva corrida con las variables significativas para llegar al modelo final.
306
Diagramas de Control
Diagramas de Control
para variables y
atributos
William Edward Deming, considerado el padre de la calidad moderna (1900-1993). Su trabajo más exitoso es
la trasformación de la industria japonesa, su relación con Japón sucedió cuando el gobierno americano lo
envío a este país para instruir a los industriales en los métodos del control de calidad. Los métodos de
Deming fueron utilizados por las escuelas de negocios de Estados Unidos después de 30 años de ser
aplicados con mucho éxito en Japón, hoy en día sus obras se resumen en una serie de trabajos de
enseñanza internacional en las diversas escuelas de negocios.
307
Diagramas de Control
308
Diagramas de Control
309
Estructura de un diagrama de control
310
Causas de Variación
311
Tipo de diagramas de control
Dureza, peso,
velocidad, longitud
312
Diagramas de control para variables
Gráficos x -R
Se utilizan cuando la característica de calidad que se desea controlar es una variable
continua.
313
Diagrama x-R
Los gráficos de control para variables se componen de dos partes: una se basa
en promedios y controla la exactitud; la otra se basa en medidas de dispersión y
controla la precisión.
314
Procedimiento para Construir el diagrama x- R
Límites de control para la media (Diagrama x ):
Donde:
_
LSC X 3 _ LSC X A2 R
x
_
LIC X 3 _
x LIC X A2 R
X n Con estas
formulas trabaja
el SPSS
315
Procedimiento para Construir el diagrama x -R
Límites de control para el Rango (Diagrama R):
Las gráficas de rango (gráfica R) se utilizan para controlar la variabilidad de un proceso.
317
Interpretación de los diagramas de control
318
Patrones observables en los diagramas de control
319
Diagrama de control para atributos
320
Diagrama P
Muestra la evolución de la proporción (p) de unidades que tienen cierto atributo.
Miden el porcentaje de defectos encontrados en una muestra.
• Artículos defectuosos.
• Proporción de clientes que presentan un reclamo.
p (1 p )
LSC p 3
n
LC p
p (1 p )
LIC p 3
n
321
Ejemplo: Defectos en varillas de acero
Un fabricante de varillas de acero prueba con frecuencia si las varillas resisten 50%
más de presión de lo que la compañía dice que puede resistir. Un ejemplar que no
pase esta prueba es defectuoso. En cierto tiempo se obtuvieron veinte muestras de
200 varillas cada una y el número de defectos. Realice la gráfica P y analizar si el
proceso esta bajo control.
322
Ejemplo: Defectos en varillas de acero
Sub grupos Defectos ̅ ͞p
1 13 0.065
2 12 0.06
3 11 0.055
4 13 0.065 n= 200
5 12 0.06 K=20
6 15 0.075
7 13 0.065
8 11 0.055
9 10 0.05
10 8 0.04 LSC 0.06175 3 * 0.06175 * 1 0.06175 0.11
11 15 0.075
12 9 0.045 LIC 0.06175 3 * 0.06175 * 1 0.06175 0.01
13 12 0.06
14 12 0.06
15 12 0.06
16 16 0.08
17 12 0.06
18 12 0.06
19 16 0.08
20 13 0.065
Total 1.235
͞p 0.06175
323
Ejemplo: Defectos en varillas de acero
324
Tiempo Peso
1 140
1 144
2 137
2 139
3 139
proceso.
14 134
14 140
15 131
15 132
16 138
16 141
17 124
325
Ejemplo: Diagrama x -R
Diagrama x Diagrama R
326