Vous êtes sur la page 1sur 9

TRABAJO COLABORATIVO ESTADÍSTICA INFERENCIAL

PRESENTADO A:
Manuel Alvarado Martinez

PRESENTADO POR:
David Alexander Diaz Navas – 1821982444
Hugo Alberto Garcia Duque – 1821981498
Jessica Lizeth Lozano Mora - 1721981826
Andres Yecid Leon Gutierrez - 1811980799

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO


2019
OBJETIVOS

GENERAL

Aplicar los conceptos y procedimientos de la estadística inferencial necesarios para dar solución a
los ejercicios planteados a continuación.

ESPECIFICOS

 Aplicar los conocimientos aprendidos a un caso práctico de intervalos de confianza


 Aplicarlas bases de la probabilidad en la inferencia.
 Desarrollar la estimación de parámetros mediante el uso de intervalos de confianza.
Descripción

El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las


transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el
comportamiento de compra del cliente frente a diferentes productos. Específicamente, el
problema que estamos tratando de predecir la variable dependiente (el monto de la
compra) con la ayuda de la información contenida en las otras variables.

Las variables del archivo adjunto son las siguientes:

User_ID Identificador único del comprador

Product_ID Identificador único del producto.

Gender Sexo del comprador

Age Edad del comprador dividida en contenedores

Occupation Ocupación del comprador.

City_Category Lugar de residencia del comprador.

Stay_In_Current_City_Years Número de años en la ciudad actual.

Marital_Status Estado civil del comprador

Product_Category_1 Categoría de producto de compra

Product_Category_2 El producto puede pertenecer a otra categoría

Product_Category_3 El producto puede pertenecer a otra categoría

Purchase Valor de la compra en dólares

En el siguiente link podrá descargar el archivo: http://bit.ly/2M8AZmG

Por lo anterior se sugiere que realice la siguiente:


Utilizando la variable del valor de la compra (Purchase), realice lo siguiente:

1. Realice un histograma y explique la forma y la curtosis según el contexto.

2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e


interprete los resultados.

En relación a la variables dadas en la tabla anterior, responda y justifique los resultados:

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra?

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?

3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

Intervalos de confianza

4.1 ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error relativo del
2% y un nivel de confianza del 95%

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para
la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

Importante: En el Foro: Desarrollo del trabajo colaborativo. se debe evidenciar el borrador


de cada uno de los anteriores interrogantes.
Consolidar la información en un archivo PDF y con soporte de un archivo en excel, el cual
debe ser subido en el Foro: Desarrollo del trabajo colaborativo. Este PDF debe tener
(portada, objetivos, desarrollo de la actividad, resultados y referencias), el excel los
cálculos y procedimientos.

ACTIVIDAD

Realice un histograma y explique la forma y la curtosis según el contexto.


Tabla de frecuencias para los datos agrupados de la variable “Purchase”

 Curtosis
Y se calculó la Curtosis como sigue

De donde obtenemos lo siguiente

Li A fi Fi-1 k*n Resultado


P75 403180,5 12073 1188,8 18933,0 403144,0 40318050 12075,29
P25 134393,5 4940 1188,8 68396,0 89411,0 13439350 5722,05
P90 483816,6 15639 1188,8 33909,0 458133,0 48381660 16539,83
P10 53757,4 2563 1188,8 28860,0 32175,0 5375740 3451,62
Con lo que al calcular la curtosis
𝑃75 − 𝑃25 12075.29 − 5722.05
𝑘= − 0.5 = − 0.5 = −0.01458
𝑃90−𝑃10 16539.83 − 3451.62

Se obtiene una curtosis de forma “Platicurtica”

2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e


interprete los resultados.

promedio datos agrupados 22283,5


Varianza datos agrupados 959264770,9
Desviación E d. agrupados 30972,0
Coeficiente de variación 139,0

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

Se realizó una tabla con el promedio de gastos por rango de edades

0-17 14707
18-25 97634
26-35 214690
36-45 107499
46-50 44526
51-55 37618
55+ 20903
Total 537577

Así, se obtiene que la categoría de edades de 26 a 35 años son los que tienen un mayor promedio
de gastos en el Black-Friday.

3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra?

El promedio de datos se encontró empleando la suma total de Purchase en el rango de edades de


26 a 35 dividida entre entre el total de compras.
1.9997x109
x= = 9314.59
214690
Así, el promedio de gastos en la categoría de edad de 26 a 35 años fue de 3914.59 $.

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?

Se necesitan los siguientes datos


Número de compradores hombres = 405380
Numero de compradores mujeres = 132197
Así, la proporción de hombres sería
405380
𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖𝑜𝑛 (𝐻) = = 0.754
537577
Y la de las mujeres

𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖𝑜𝑛 (𝐹 ) = 1 − 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖𝑜𝑛 (𝐻) = 1 − 0.754 = 0.246

3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

Hombres Mujeres
promedio 9505 8810
Desviación 5051 4721
numero de datos 405380 132197

4.1 ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error relativo del 2%
y un nivel de confianza del 95%

Necesitamos la siguiente formula

𝑁 ∗ 𝑍𝛼2 ∗ 𝑝 ∗ 𝑞
𝑛=
𝑒 2 ∗ (𝑁 − 1) + 𝑍𝛼2 ∗ 𝑝 ∗ 𝑞

Donde

n es el tamaño de la muestra, N el numero total de datos, p es la probabilidad de que ocurra un


evento, q de que no ocurra el evento, y e es el error en la estimación.

Remplazando los datos obtenemos:


537577 ∗ 1.962 ∗ 0.5 ∗ 0.5
𝑛= = 2390 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠
0.022 ∗ (537576) + 1.962 ∗ 0.5 ∗ 0.5

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para
la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

Se emplea la siguiente ecuación

𝜎12 𝜎22
𝜇1−𝛼 = (𝑥̅ 1 − 𝑥̅ 2) ∓ 𝑧𝛼 ∗ √ +
2 𝑛1 𝑛2
En la cual se tienen los promedios de gastos de cada uno, las desviaciones estándar, y un valor
tabulado para un intervalo de confianza del 95% cuando los datos siguen una distribución normal.

Reemplazando los datos se obtiene el siguiente intervalo

665.18 < 𝜇ℎ − 𝜇𝑚 < 724.84


Obteniendo así el intervalo de la diferencia de gastos entre los hombres y las mujeres

CONCLUSIONES.

 Se determinaron valores estadísticos asociados a la variable “Purchase” de una


base de datos.
 Se emplearon la regla de sturges para realizar una organización de los datos en
clases y se determinaron intervalos de confianza para la diferencia de gastos entre
hombres y mujeres.

REFERENCIAS.

 Estadística inferencial 1: Para ingeniería y ciencias, Volumen 1, Eduardo Guitierrez Gonzales


 “Estadística inferencial”, Humberto Llinas Solano, Universidad del norte, 2017

Vous aimerez peut-être aussi