Académique Documents
Professionnel Documents
Culture Documents
12-14-2021
—
Méthodes statistiques pour la prise
de décision
—
Énoncé du problème 1 :
Un distributeur en gros opérant dans différentes régions du Portugal dispose d'informations sur les
dépenses annuelles de plusieurs articles dans ses magasins dans différentes régions et canaux. Les
données concernent les dépenses annuelles de 440 grands détaillants pour 6 variétés différentes de
produits dans 3 régions différentes (Lisbonne, Porto, Autres) et sur différents canaux de vente (Hôtel,
Commerce de détail).
Les données sont fournies dans le fichier « Wholesale+Customers+Data.csv » comme indiqué ci-dessous.
EDA de base
Les données comportent 440 instances avec 9 attributs. 7 types entiers et 2 types d'objet (chaînes dans
la colonne), comme le montre le résultat ci-dessous.
Le tableau suivant est dérivé de statistiques descriptives pour résumer les données.
Le graphique à barres ci-dessous représente les dépenses totales de toutes les régions.
À partir du graphique ci-dessus, on peut conclure que la région Autre a les dépenses les plus élevées et que
la région Porto a les dépenses les plus faibles.
Le graphique à barres ci-dessous représente les dépenses totales des deux canaux.
À partir du graphique ci-dessus, on peut conclure que le Channel Hotel a les dépenses les plus élevées
et que le Channel Retail a les dépenses les plus faibles.
1.2 Il existe 6 variétés différentes d’articles pris en compte. Toutes les variétés
présentent-elles un comportement similaire à travers la Région et la
Manche ? Justifiez votre réponse.
On peut voir que dans la région de Lisbonne , le produit Papier détergent a un coefficient de
variable maximum, il est donc très incohérent à Lisbonne , suivi par l'épicerie . Alors que, comme à
Porto, les produits surgelés présentent un comportement incohérent le plus élevé, suivis par le
papier détergent . En revanche, dans la région Autres épiceries fines, l'incohérence est la plus
élevée, suivie par le papier détergent.
Dans la région de Lisbonne, le produit Delicatessen a le plus faible coefficient de variable, c'est donc
le produit le plus cohérent à Lisbonne alors qu'à Porto, Fresh et Delicatessan sont les plus
cohérents. En revanche, dans les autres régions, seul le frais est le plus cohérent.
On peut voir que dans le canal Hôtel , le produit Charcuterie a un coefficient de variable maximum, il
est donc très incohérent dans Hôtel suivi de Surgelé . En revanche, dans le canal Retail Detergent
Paper, l'incohérence est la plus élevée, suivie par le lait .
Dans le canal Hôtel , le produit Papier détergent a le coefficient de variable le plus faible, c'est donc
le produit le plus cohérent dans le canal Hôtel , alors que, comme dans le commerce de détail , les
produits surgelés sont les plus cohérents.
Sur la base de l'analyse ci-dessus, nous pouvons conclure qu'en considérant les 6 variétés
d'articles, toutes les variétés ne présentent pas un comportement similaire à travers la
région et la Manche.
où:
σ = écart type
μ = moyenne
Le graphique à barres ci-dessus représente le coefficient de variance de tous les aliments. D'après le
graphique, il est évident que le coefficient de variance est le plus élevé pour les articles de charcuterie et le plus
bas pour les articles frais.
On peut donc conclure que l'article qui présente le comportement le plus incohérent est l'épicerie fine et que
l'article qui présente le comportement le moins incohérent est le produit frais.
Pour déterminer la présence de valeurs aberrantes dans les données, la meilleure méthode consiste à créer
un box plot de toutes les variables, comme indiqué ci-dessous.
1.5 Sur la base de votre analyse, quelles sont vos recommandations pour
l’entreprise ? Comment votre analyse peut-elle aider l’entreprise à
résoudre son problème ? Réponse du point de vue de l'entreprise.
Sur la base de l'analyse, on peut voir que la région Autre et le canal Vente au détail ont des dépenses
plus élevées que les autres canaux et régions. Par conséquent, du point de vue commercial, si une
nouvelle entreprise doit être ouverte, elle devrait être ouverte dans l' autre région avec Channel
Retail , car l'autre région absorbe le maximum de ventes, ce qui peut augmenter les revenus par
rapport à l'ouverture d'une nouvelle entreprise à Lisbonne ou Porto et avec le Channel Hotel.
Problème 2 :
Le service de presse étudiant de la Clear Mountain State University (CMSU) a décidé de recueillir des données
sur les étudiants de premier cycle qui fréquentent la CMSU. La CMSU crée et distribue une enquête de 14
questions et reçoit les réponses de 62 étudiants de premier cycle.
Les données sont stockées dans l'ensemble de données d'enquête comme suit :
La probabilité qu'un étudiant CMSU sélectionné au hasard soit une femme est de 53,23
%.
Probabilité qu'un étudiant choisi au hasard soit un homme et ait l'intention d'obtenir son diplôme
= Probabilité qu'un élève choisi au hasard soit un homme * Probabilité qu'un élève choisi au
hasard soit un homme
Probabilité qu'un étudiant sélectionné au hasard soit une femme et ne possède PAS d'ordinateur portable
= Probabilité qu'un étudiant choisi au hasard soit une femme * Probabilité qu'une femme n'ait
pas d'ordinateur portable
Probabilité qu'un étudiant choisi au hasard soit un homme ou ait un emploi à temps plein
= Probabilité qu'un étudiant soit un homme + Probabilité qu'un étudiant ait un emploi à temps
plein - Probabilité qu'un homme ait un emploi à temps plein
La probabilité qu'un étudiant choisi au hasard soit un homme ou ait un emploi à temps plein
79,87 %
Puisque le commerce international et la gestion sont indépendants les uns des autres
Probabilité de faire des affaires ou de gérer des affaires internationales étant donné Femme
= Probabilité de faire des affaires à l'international étant donné Femme + Probabilité de gestion
étant donné Femme
Tableau de contingence 2X2 du sexe et de l'intention d'obtenir un diplôme sans tenir compte
des étudiants indécis
Deux événements A et B peuvent être prouvés comme étant des événements indépendants lorsqu'ils satisfont à
la condition :
Où F = Femme
Oui = L'intention du diplômé est Oui
Par conséquent, l’intention d’obtenir un diplôme et le fait d’être une femme ne sont pas
des événements indépendants.
Étant donné que GPA est une variable continue, la probabilité d'un étudiant dont la GPA est inférieure à 3 peut
être calculée à l'aide de la distribution de Poisson.
Pour calculer la probabilité de GPA 3 ou moins, nous ajouterons la probabilité de 0,1,2 et 3 GPA obtenue dans
la distribution de Poisson.
Si un étudiant est choisi au hasard, quelle est la probabilité que sa moyenne cumulative
soit inférieure à 3 est de 39,49 %
Comme nous pouvons le voir, la distribution est normale, c'est pourquoi la probabilité conditionnelle qu'un
homme sélectionné au hasard gagne 50 ou plus peut être calculée à l'aide de la distribution normale.
Pour calculer cela, nous calculerons la probabilité cumulée de moins de 50 en utilisant la distribution normale,
puis soustrairons de 1.
Comme nous pouvons le voir, la distribution est normale, c'est pourquoi la probabilité conditionnelle qu'une
femme sélectionnée au hasard gagne 50 ou plus peut être calculée à l'aide de la distribution normale.
Pour calculer cela, nous calculerons la probabilité cumulée de moins de 50 en utilisant la distribution normale,
puis soustrairons de 1.
Problème 3
Une caractéristique de qualité importante utilisée par les fabricants de bardeaux d’asphalte ABC est la
quantité d’humidité que les bardeaux contiennent lorsqu’ils sont emballés. Les clients peuvent avoir
l’impression d’avoir acheté un produit de mauvaise qualité s’ils trouvent de l’humidité et des bardeaux
mouillés à l’intérieur de l’emballage. Dans certains cas, une humidité excessive peut faire tomber les
granules attachés aux bardeaux à des fins de texture et de coloration, ce qui entraîne des problèmes
d'apparence. Pour surveiller la quantité d’humidité présente, l’entreprise effectue des tests
d’humidité. Un bardeau est pesé puis séché. Le bardeau est ensuite pesé à nouveau et, en fonction de
la quantité d'humidité extraite du produit, le nombre de livres d'humidité par 100 pieds carrés est
calculé. L'entreprise souhaite démontrer que la teneur moyenne en humidité est inférieure à 0,35 livre
par 100 pieds carrés.
Le fichier (bardeaux A & B.csv) comprend 36 mesures (en livres par 100 pieds carrés) pour les
bardeaux A et 31 pour les bardeaux B.
Pour les bardeaux A, l'hypothèse nulle et alternative pour tester si la teneur en humidité moyenne de la
population est inférieure à 0,35 livre par 100 pieds carrés est donnée :
L'échantillon n'est pas un grand échantillon. Vous utilisez donc la distribution t et la statistique
du test tSTAT
Puisque nous testons uniquement l’échantillon A, nous utilisons le test T sur un échantillon.
Également comme python par défaut dans Python, ttest_1samp affiche le résultat du recto
verso, il est divisé par 2 car notre test est !_Sided.
Nous n'avons aucune preuve pour rejeter l'hypothèse nulle puisque valeur p > Niveau
de signification
Pour les bardeaux B, l’hypothèse nulle et alternative pour tester si la teneur en humidité moyenne de la
population est inférieure à 0,35 livre par 100 pieds carrés est donnée :
L'échantillon n'est pas un grand échantillon. Vous utilisez donc la distribution t et la statistique
du test tSTAT
Puisque nous testons uniquement l’échantillon A, nous utilisons le test T sur un échantillon. .
Également comme python par défaut dans Python, ttest_1samp affiche le résultat du recto
verso, il est divisé par 2 car notre test est !_Sided.
Nous avons des preuves pour rejeter l'hypothèse nulle puisque la valeur p < Niveau de
signification
Pour effectuer un test d'égalité de la moyenne de la population des bardeaux A et des bardeaux B, l'hypothèse
nulle et alternative pour tester si la teneur en humidité moyenne de la population est égale est donnée :
Nous avons deux échantillons A et B et nous ne connaissons pas l’écart type de la population.
Les échantillons ne sont pas de grande taille. Vous utilisez donc la distribution t et la statistique
du test tSTAT
Puisque nous testons l’égalité entre les échantillons A et B, nous utilisons le test T à deux
échantillons.
Nous n'avons pas suffisamment de preuves pour rejeter l'hypothèse nulle en faveur d'une
hypothèse alternative puisque valeur p > Niveau de signification
Par conséquent, on peut conclure que la moyenne de la population pour les bardeaux A et B est
égale.