Vous êtes sur la page 1sur 15

TRABAJO COLABORATIVO ESTADISTICA INFERENCIAL - GRUPO4

SUBGRUPO No. 3

CATERINE VIVIANA ROJAS ROJAS (Cod. 1911026492)


JULIAN CAMILO TRIANA ESCOBAR (Cód. 1320012400)
SERGIO ANDRES OVIEDO CASTRO (Cód. 1821025882)

INSTITUCIÓN UNIVERSITARIA
POLITÉCNICO GRANCOLOMBIANO
2020
ESTADISTICA INFERENCIAL

TABLA DE CONTENIDO

Descripción........................................................................................................................................................

SUBGRUPO NO. 3 2
ESTADISTICA INFERENCIAL

1. OBJETIVOS

OBJETIVO GENERAL

Realizar el respectivo análisis del problema de transporte planteado para la


Empresa Carrocerías el Toro Rojo.

Comprender el procedimiento para construir intervalo de confianza para estimar la


diferencia de dos promedios poblacionales e interpretarlo.

OBJETIVOS ESPECIFICOS

 Identificar nuestra función objetivo, en términos de variables de decisión.


 Buscar la solución más optima que nos permita cumplir con las con las respectivas
entregas de manera ágil y a un bajo costo.
 Realizar una correcta aplicación de las fórmulas del modelo lineal para lograr una
excelente ejecución.

SUBGRUPO NO. 3 3
ESTADISTICA INFERENCIAL

2. DESARROLLO DE LA ACTIVIDAD

El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las


transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el
comportamiento de compra del cliente frente a diferentes productos. Específicamente, el
problema que estamos tratando de predecir la variable dependiente (el monto de la
compra) con la ayuda de la información contenida en las otras variables.

Las variables del archivo adjunto son las siguientes:

User_ID Identificador único del comprador

Product_ID Identificador único del producto.

Gender Sexo del comprador

Age Edad del comprador dividida en contenedores

Occupation Ocupación del comprador.

City_Category Lugar de residencia del comprador.

Stay_In_Current_City_Years Número de años en la ciudad actual.

Marital_Status Estado civil del comprador

Product_Category_1 Categoría de producto de compra

Product_Category_2 El producto puede pertenecer a otra categoría

Product_Category_3 El producto puede pertenecer a otra categoría

Purchase Valor de la compra en dólares

Utilizando la variable del valor de la compra (Purchase), realice lo siguiente:

1. Realice un histograma y explique la forma y la curtosis según el contexto.

SUBGRUPO NO. 3 4
ESTADISTICA INFERENCIAL

No. de datos (N) 537577


Valor Máximo 23961
Valor Mínimo 185
Rango 23776
No de intervalos 20
Amplitud clase 1189

Una vez obtenida la diferencia se distribuyó entre el valor máximo y el mínimo como se
presenta en la siguiente tabla:

Rango Ajustado 23780


Diferencia 4
Valor Máximo Ajustado 23963
Valor Mínimo Ajustado 183

Con base en los ajustes realizados se presenta la siguiente tabla:

MARCA FRECUENCIA FRECUENCIA


LIMITE LIMITE FRECUENCIA FRECUENCIA
INTERVALOS DE ACUMULADA ACUMULADA
INFERIOR SUPERIOR ABSOLUTA RELATIVA
DE CLASE CLASE ABSOLUTA RELATIVA
($) USD ($) USD (fi) (hi)
(Xi) (Fi) (Hi)

1 183 1371 777 8046 8046 1,5% 1,5%


2 1372 2560 1966 24129 32175 4,5% 6,0%
3 2561 3749 3155 28819 60994 5,4% 11,3%
4 3750 4938 4344 28417 89411 5,3% 16,6%
5 4939 6127 5533 68294 157705 12,7% 29,3%
6 6128 7316 6722 61815 219520 11,5% 40,8%
7 7317 8505 7911 69581 289101 12,9% 53,8%
8 8506 9694 9100 34764 323865 6,5% 60,2%
9 9695 10883 10289 39978 363843 7,4% 67,7%
10 10884 12072 11478 39301 403144 7,3% 75,0%
11 12073 13261 12667 18933 422077 3,5% 78,5%
12 13262 14450 13856 6047 428124 1,1% 79,6%
13 14451 15639 15045 30066 458190 5,6% 85,2%
14 15640 16828 16234 33862 492052 6,3% 91,5%
15 16829 18017 17423 2098 494150 0,4% 91,9%
16 18018 19206 18612 11377 505527 2,1% 94,0%
17 19207 20395 19801 23463 528990 4,4% 98,4%
18 20396 21584 20990 6271 535261 1,2% 99,6%
19 21585 22773 22179 10 535271 0,0% 99,6%
20 22774 23962 23368 2306 537577 0,4% 100,0%
TOTAL 537577   100%  
Con base en esto se presente el histograma respectivo:

SUBGRUPO NO. 3 5
ESTADISTICA INFERENCIAL

HISTOGRAMA - PURCHASE
80000
FRECUENCIA ABSOLUTA (fi)

70000
60000
50000
40000
30000
20000
10000
0
7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8
7 7 19 6 3 1 5 4 3 4 55 3 6 7 2 7 9 1 91 0 0 2 8 1 4 7 2 6 6 3 8 5 5 0 4 6 2 3 7 4 2 8 6 1 9 8 0 0 9 9 2 1 7 3 3 6
1 1 1 1 1 1 1 1 1 2 2 2

Marca de clase (Xi)

Como se muestra en el anterior histograma, en el eje vertical se representan las


frecuencias de compra, respecto a los intervalos de clase definidos, evidenciándose una
dispersión de los datos; con base a lo anterior se determinó la curtosis obteniendo un
valor de -0,34324, el cual es inferior a cero, lo que nos indica que es Platicurtica ya que
los datos están alejados de la media aritmética.

Para determinar la curtosis se empleó la siguiente formula:

Donde
:
K = Curtosis
N = Población
µ = Media
Xi = Datos
fi = Frecuencia absoluta
δ = Desviación Estándar

A continuación, se presentan los datos obtenidos de la aplicación de ( X i−µ) ⁴∗fi para


cada uno de los intervalos:

SUBGRUPO NO. 3 6
ESTADISTICA INFERENCIAL

MARCA DE
INTERVALOS DE
CLASE FRECUENCIA ABSOLUTA (fi) (Xi-µ)⁴ * fi
CLASE
(Xi)

1 777 8046 4,30353E+19


2 1966 24129 7,09133E+19
3 3155 28819 4,18706E+19
4 4344 28417 1,75466E+19
5 5533 68294 1,41784E+19
6 6722 61815 2,85477E+18
7 7911 69581 2,81214E+17
8 9100 34764 9,53864E+13
9 10289 39978 3,39735E+16
10 11478 39301 8,38406E+17
11 12667 18933 2,35089E+18
12 13856 6047 2,53999E+18
13 15045 30066 3,20984E+19
14 16234 33862 7,69839E+19
15 17423 2098 9,00505E+18
16 18612 11377 8,449E+19
17 19801 23463 2,82178E+20
18 20990 6271 1,15958E+20
19 22179 10 2,72665E+17
20 23368 2306 8,95819E+19
TOTAL 537577 8,87011E+20

SUBGRUPO NO. 3 7
2
∑ ( X i−μ ) × f i
Varianza(δ ¿¿ 2)= ¿
N ESTADISTICA INFERENCIAL

2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e


interprete los resultados.

A continuación, se presentan las fórmulas empleadas para el cálculo de las variables


requeridas

Medidas de tendencia central

• Media ( 𝜇)=
∑ ( Xi f i)
N
N
−( f −1 )
• Mediana (Me) = Li+ 2 i ×a i
fi
f i −( f i−1 )
• Moda (Mo) = Li+ f − f −1 + f − f + 1 × ai
( i ( i )) ( i ( i ))
Medidas de dispersión

2
∑ ( X i−μ ) × f i
•Varianza(δ ¿¿ 2)= ¿
N

∑ ( X i−μ ) 2 × f i  
• Desviacion Estandar δ =
√ N
δ
•Coeficiente de Variacion ( Cv )= ×100
μ

Con base en los formulas presentadas y el contenido de la siguiente tabla se realizaron


los cálculos para determinar las variables solicitadas:

SUBGRUPO NO. 3 8
 9328,87

 Mediana(Me) 8158,90

 Moda( Mo) 7533,00

 Desviación Estándar (δ) 4992,11

 Varianza ( δ 2) 24921142,69

 Coeficiente de Variación(CV ) 53.51%

De acuerdo con los resultados obtenidos anteriormente podemos interpretar lo


siguiente:
 El promedio de compra en la tienda minorista es de $9328,87, así mismo el 50%
de las compras realizadas son inferiores o iguales $8158,90, paralelo a esto, las
compras con más frecuencia fueron por un valor de $7533,00. Ahora bien, la
desviación de las compras con respecto a su media es de $4992,11 en promedio
y se obtuvo una varianza de 24921142,69, lo que representa una dispersión alta
en los valores de las compras, lo cual es consecuente con el valor obtenido para el
coeficiente de variación el cual fue de 0.54.
En relación con las variables dadas en la tabla anterior, responda y justifique los
resultados:

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

Al revisar en los datos de la base adjunta correspondiente a las transacciones del black
friday observamos lo siguiente:
Total compradores: 537577

Xi = Variable aleatoria estadística (rango de edad de los compradores)

N = Población total = 537577

fi = Frecuencia absoluta = Número de veces que se repite el suceso

Rango de Frecuencia
edad Absoluta
0-17 14707
18-25 97634
26-35 214690
36-45 107499
46-50 44526
51-55 37618
55+ 20903
TOTAL 537577

De ésta manera se infiere que el rango de edad que más realiza compras en black-Friday
es el de 26-35 años ya que la frecuencia absoluta 214690 es la mayor.

3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra?

Rango de Frecuencia Gastos Totales


edad Absoluta (USD)
26-35 214690 1.999.749.106

Para esto debemos hallar la media con la siguiente fórmula:

μ=
∑ xi
N
1999749106 USD
μ=
214690

μ=9314,59USD

Al dividir los gastos totales o frecuencia absoluta de gastos , entre la población total del
rango de edades que más compra determinamos que el promedio de gastos es de
9314,59 USD.

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?

Género Frecuencia Absoluta


Femenino 132197
Masculino 405380
TOTAL 537577

Para determinar la proporción realizamos la siguiente operación:

población género x 100 %


x=
poblacióntotal

Proporción femenina

132197 x 100 %
x=
537577

x=24,59 %

Proporción masculina

405380 x 100 %
x=
537577

x=75,41 %

GÉNERO POBLACIÓN GASTOS ($US) PROPORCIÓN (%)


Femenino 132197 1.164.624.021  24,59
Masculino 405380 3.853.044.357 75,41
TOTAL 537577 5.017.668.378 100%
3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

Para calcular el gasto promedio por género tomamos los gastos totales de hombres y
mujeres y los dividimos por su respectiva población.

Promedio de gastos género femenino

1.164 .624 .021USD


x=
132197

x=8809,76 USD

Promedio de gastos género masculino

3.853.044 .357USD
x=
405380

x=9504,77 USD

Según esto el promedio de gastos de la población femenina es de 8809,76 USD y el de la


población masculina es de 9504,77 USD.

Intervalos de confianza

4.1 Proponga una alternativa para determinar el tamaño de una muestra para la variable
compra (Purchase).

Solución:

Para el desarrollo de este punto se aplicó y se consideró lo definido para el tamaño de la


muestra para estimar la media poblacional con distribución normal y varianza conocida
aplicando la siguiente formula:

Con la anterior formula calculamos la muestra y obtuvimos los siguientes resultados, los
representamos en la siguiente tabla.
VARIABLES VALORES
N 537577
Desviación Estándar 4992,11
Varianza 24921142,69
Error (e) 100
Intervalo de confianza 95%
Z Acumulada 1,96
muestra (n) 9406

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para
la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

Solución:

Para esto se aplicó lo definido para: "Intervalo para la media de una población normal y la
varianza de la población conocida", es por esto por lo que se definió el error estándar para
población finita o conocida empleando la siguiente formula:

σ N −n
σ x́=

√ n N −n
Para calcular los intervalos de confianza tanto superior e inferior con la siguiente formula:

x−¿± z σ −¿¿
x

Con base a la anterior formula obtuvimos los siguientes resultados de mostrados en la


siguiente tabla.

HOMBRE Y
VARIABLES HOMBRES MUJERES
MUJERES
N 537577 537577 537577
Muestra (n) 9406 405380 132197
Media 9328,87 9328,87 9328,87
Desviación Estándar 4992,11 4992,11 4992,11
Error Estándar (σẊ) 51,021 3,888 11,923
Intervalo de confianza 95% 95% 95%
Z Acumulada 1,96 1,96 1,96
 Intervalo (Ẋ+ZσẊ) 9428,87 9336,49 9352,24
 Intervalo (Ẋ-ZσẊ) 9228,87 9321,25 9305,50

Referencias:

https://conceptosclaros.com/intervalo-confianza/
https://es.wikihow.com/calcular-el-intervalo-de-confianza
https://www.youtube.com/watch?v=e2mIjtH64rE
Lectura fundamental 3 politécnico grancolombiano

Consolidar la información en un archivo PDF y con soporte de un archivo en excel, el cual


debe ser subido en el Foro: Desarrollo del trabajo colaborativo. Este PDF debe tener
(portada, objetivos, desarrollo de la actividad, resultados y referencias), el excel los
cálculos y procedimientos.

Vous aimerez peut-être aussi