Vous êtes sur la page 1sur 7

1.

Estimez un modèle de régression logistique en utilisant "acheteur" comme variable


dépendante et les variables suivantes comme variables prédictives
#1
bbbSfemale <- ifelse(bbbsgender = "F", 1, 0)
bbblogit <- glm(buyer ~ last + total + female +
child + youth + cook + do_it + refernce + art + geog , family=binomial(link='logit'), data = bbb )
bbb$purch_prob <- predict. glm(bbblogit, bbb, type = "response")
summa ry(bbblogit)

Coefficients :
Estimation Std. Erreur Valeur z Pr(>l zl)
(Intercept) -1.6001096 0.0520980 -30.713 < 2e-16 ***
dernier -0.0947124 0.0027924 -33.918 < 2e-16 ***
total_ 0.0011160 0.0001982 5.6301.80e-08 ***
femelle -0.7607204 0.0357608 -21.272 < 2e-16 ***
enfant -0.1862162 0.0172824 -10.775 < 2e-16 ***
la jeunesse -0.1129745 0.0261087 -4.3271.51e-05 ***
cuisiner -0.2703210 0.0171283 -15.782 < 2e-16 ***
le faire -0.5391648 0.0269657 -19.994 < 2e-16 ***
référence 0.2346876 0.0265583 8.837 < 2e-16 ***
l'art 1.1555840 0.0221439 52.185 < 2e-16 ***
géog 0.5742763 0.0186311 30.824 < 2e-16 ***

Codes significatifs : 0 ( ***')0.001 6**’ 0.01 6*1 0.05 .’ 0.1 ‘ ’ 1

2. Créez et interprétez les rapports de cotes pour chacun des prédicteurs. Résumer et
interpréter les résultats (pour qu'un responsable marketing puisse les comprendre).
Quelles sont les variables significatives ? Lesquels semblent "importants" ?
#2
exp(bbblogit$coef)
> exp(bbblogit$coef)
(Intercept) dernier total_ femme enfant jeune cook do_it refernce l'art géog
0.2018744 0.9096345 1.0011167 0.4673296 0.8300941 0.8931734 0.7631345 0.5832352 1.2645136 3.1758776 1.7758448

Pour chaque mois supplémentaire écoulé depuis le dernier achat, les chances d'effectuer un
achat diminuent de 9,04 %. Pour chaque augmentation du montant total dépensé, les chances
d'effectuer un achat augmentent de 0,11 %. Pour les femmes, il diminue les chances d'achat de
52,33 %. Pour chaque augmentation du nombre total de livres pour enfants achetés, les
chances d'achat diminuent de 17 %. Pour chaque augmentation du nombre total de livres pour
la jeunesse achetés, les chances d'achat diminuent de 10,7 %. Pour chaque augmentation du
nombre total de livres de cuisine achetés, la probabilité d'achat diminue de 23,7 %. Pour chaque
augmentation du nombre total de livres de bricolage achetés, les chances d'achat diminuent de
41,7 %. Pour chaque augmentation du nombre total d'ouvrages de référence achetés, les
chances d'achat augmentent de 26,5 %. Pour chaque augmentation du nombre total de livres
d'art achetés, les chances d'achat augmentent de 217,6 %. Pour chaque augmentation du
nombre total de livres de géographie achetés, les chances d'achat augmentent de 77,5 %.
Après avoir réalisé un modèle de régression logistique, toutes les variables sont statistiquement
significatives car les valeurs p sont inférieures à 0,05. Les variables do_it, art et geog semblent
importantes parce que leur augmentation ou leur diminution des chances d'achat est supérieure
à 25 % et qu'elles ont un effet plus important que les autres variables sur l'achat. Le total_, ou le
total des dollars dépensés, peut également être important même si le pourcentage est faible car,
logiquement, une augmentation d'une unité en dollars est une très petite unité à mesurer. Par
conséquent, une augmentation plus importante du nombre de dollars dépensés augmentera les
chances d'achat.

3. Affectez chaque client à un décile en fonction de sa probabilité d'achat prévue. Conseil : La


"probabilité d'achat prédite" est la variable "purch_prob" issue de la régression logistique après
l'exécution de la commande "predict.glm". Il représente la meilleure prédiction du modèle logit de
la probabilité qu'un client achète "L'histoire de l'art de Florence".
#3
bbb$predict<-11 ntile(bbb$purch_prob,10)

4. Créez un diagramme à barres représentant le taux de réponse par décile (tel que défini ci-
dessus).
Indice : le "taux de réponse" n'est pas le même que celui qui a acheté "L'histoire de l'art de
Florence".
#4
ggplot(bbb)+geom_bar(aes(x-predict, y=buyer),stat "summary", fun.y "mean")

5. Créez un rapport indiquant le nombre de clients, le nombre d'acheteurs de "L'histoire de l'art


de Florence" et le taux de réponse à l'offre par décile pour l'échantillon aléatoire (c'est-à-dire les
50 000 clients) de l'ensemble de données.
#5
bbb%>%group_by(bbb$predict)%>%summarize(count=length(acctnum) , buyers=sum(buyer), responserate=sum(buyer)/ sumcount))
bbb$predict count buyers responserate
<dbl> <int> <int> <dbl>
1 1 5000 1935 0.387
2 2 5000 836 0.167
3 3 5000 511 0.102
4 4 5000 368 0.0736
5 5 5000 284 0.0568
6 6 5000 196 0.0392
7 7 5000 139 0.0278
8 8 5000 121 0.0242
9 9 5000 90 0.018
10 10 5000 42 0.0084

6. Pour les 50 000 clients de l'ensemble de données, exécutez un modèle de régression


logistique dans lequel vous prédisez la réponse uniquement sur la base de la variable "enfant".
Pourquoi le rapport de cotes pour "enfant" est-il différent de celui de la régression logistique de
la première partie ? Veuillez être spécifique et investiguer au-delà du simple énoncé du
problème statistique.
bbbSpurch_prob < predict. glm(bbblogit, bbb, type = "response") summary(bbbSpurch_prob)

bbb.child <- glm(buyer child, family-binomial(link-'logit'), data = bbb) bbbSpurch_prob. child <- predict. glm(bbb. child, bbb, type = "response")

I (Intercept) enfant
0.09306608 1.07686752
L'odds ratio est significativement différent de la partie 1 car il ne prend pas en compte les effets
résiduels des autres variables de prédiction. Il s'agit plutôt d'isoler la variable "enfant" et de
générer une régression logistique par rapport à la probabilité d'acheter l'"Histoire de l'art de
Florence". Cela montre essentiellement que si l'on tient compte uniquement de l'effet de l'achat
d'un livre pour enfants sur l'achat de l'"Histoire de l'art de Florence", les chances d'achat
augmentent, alors que si l'on tient compte d'autres variables, comme indiqué ci-dessus, les
chances d'achat diminuent. En ne prédisant la réponse qu'à l'aide d'une seule variable, on la
pondère incorrectement sans tenir compte des autres variables.

7. Utilisez les informations du rapport de la question 5 ci-dessus pour créer un tableau montrant
l'effet de levier et l'effet de levier cumulé pour chaque décile. Vous pouvez utiliser Excel pour
effectuer ces calculs.
Nombre Nombre Taux de
Décile de Nombre de Cum. % de Cum. num. Taux de Cum.
cumulé de d'acheteu Ascense réponse
récence clients clients acheteurs réponse ur lift
clients rs cumulé

1 5000 5000 10% 1935 1935 38.70% 4.28 38.70% 4.28


2 5000 10000 20% 836 2771 16.72% 1.85 27.71% 3.06
3 5000 15000 30% 511 3282 10.22% 1.13 21.88% 2.42
4 5000 20000 40% 368 3650 7.36% 0.81 18.25% 2.02
5 5000 25000 50% 284 3934 5.68% 0.63 15.74% 1.74
6 5000 30000 60% 196 4130 3.92% 0.43 13.77% 1.52
7 5000 35000 70% 139 4269 2.78% 0.31 12.20% 1.35
8 5000 40000 80% 121 4390 2.42% 0.27 10.98% 1.21
9 5000 45000 90% 90 4480 1.80% 0.20 9.96% 1.10
10 5000 50000 100% 42 4522 0.84% 0.09 9.04% 1.00
Total 50000 4522 9.04%

8. Créez un graphique montrant l'augmentation cumulative par décile, ainsi qu'une ligne de
référence correspondant à la ligne de base "sans modèle".

9. Utilisez les informations du rapport de la question 5 ci-dessus pour créer un tableau montrant
les gains et les gains cumulés pour chaque décile. Vous pouvez utiliser Excel pour effectuer ces
calculs.
Nombre Nombre
Décile de Nombre de Cum. % de Cum. num. Cum.
cumulé de d'acheteu Gains
récence clients clients acheteurs Gains
clients rs
0 0 0 0 0 0 0 0
1 5000 5000 10% 1935 1935 42.8% 42.8%
2 5000 10000 20% 836 2771 18.5% 61.3%
3 5000 15000 30% 511 3282 11.3% 72.6%
4 5000 20000 40% 368 3650 8.1% 80.7%
5 5000 25000 50% 284 3934 6.3% 87.0%
6 5000 30000 60% 196 4130 4.3% 91.3%
7 5000 35000 70% 139 4269 3.1% 94.4%
8 5000 40000 80% 121 4390 2.7% 97.1%
9 5000 45000 90% 90 4480 2.0% 99.1%
10 5000 50000 100% 42 4522 0.9% 100.0%
Total 50000 4522

10. Créez un graphique montrant les gains cumulés par décile ainsi qu'une ligne de référence
correspondant à "aucun modèle".

Partie IV
Utilisez les informations suivantes sur les coûts pour évaluer la rentabilité de l'utilisation de la
régression logistique afin de déterminer lesquels des 500 000 clients restants devraient recevoir
une offre spécifique :

Coût de l'envoi de chaque offre : $0.50


Prix de vente de chaque livre, frais de port inclus : 18,00
Prix de gros payé par BookBinders à l'éditeur : 9,00
Frais d'expédition payés par BookBinders : 3,00

11. Quel est le taux de réponse minimal ?


8.33% #11
breakeven<-.5/(18-9-3)
seuil de rentabilité

12. Pour les clients de l'ensemble de données, créez une nouvelle variable (appelée "cible")
avec une valeur de 1 si la probabilité prédite du client est supérieure au taux de réponse du seuil
de rentabilité et de 0 dans le cas contraire.
#12
bbb$target<-ifelse(bbb$purch_prob>breakeven >1,0)

13. Supposons que BookBinders envoie l'offre d'achat de "L'histoire de l'art de Florence"
uniquement à ses clients cibles (c'est-à-dire ceux dont la probabilité prédite d'achat est
supérieure ou égale au seuil de rentabilité).
a. Quel est le nombre d'acheteurs attendu de ce mailing ?
3323
mailingcustomers<-sum(bbb$target)
mailingbuyingprob<- mean(subset(bbb, target ==1)$buyer) mai li ngbuyi ng prob*mailcustomers
b. Quel est le taux de réponse attendu pour ce mailing ?
0.2133072
#13b
mean(subset(bbb, target - 1 )$purch_prob)

c. Quel est le bénéfice attendu (en dollars) de ce mailing ?


$12,158
((18-9-3)*mailingbuyingprob*mailingcustomers)-( . 5*mailingcustomers )

d. Quel est le retour attendu sur les dépenses de marketing de ce mailing ?


156.27%
profit<-((18-9-3)*mailingbuyingprob*mailingcustomers)-(. 5*clientsmailing profit/( .5*clientsmailing)
Partie V : Prévision des dépenses totales (5 points)
Un autre responsable de BookBinders souhaite utiliser cet ensemble de données dans un but
différent : comprendre quels facteurs peuvent expliquer le montant des dépenses d'un client au
fil du temps. Plus précisément, elle aimerait comprendre comment les dépenses globales de
chaque client (la variable "total_") peuvent être expliquées par les variables suivantes :
e. Le nombre de mois écoulés depuis le premier achat du client (variable "first")
f. le nombre total de livres de géographie qu'ils ont achetés (variable "geog")
g. le nombre total de livres d'art qu'ils ont achetés (variable "art")
h. le nombre total de livres de cuisine qu'ils ont achetés (variable "cook")
14. Quel type de méthode statistique serait le plus approprié pour répondre à cette question ?
Effectuez l'analyse appropriée, montrez les résultats et expliquez comment chacune des quatre
variables ci-dessus affecte les dépenses totales.
Vous utiliserez une régression linéaire pour déterminer comment les variables
mentionnées affectent les dépenses totales de chaque client. Une augmentation d'une unité du
nombre de mois écoulés depuis le premier achat (premier) augmentera les dépenses globales
de chaque client de 1,23 $. Pour chaque augmentation d'une unité du nombre de livres de
géographie achetés par client, les dépenses globales de chaque client augmenteront de 14,71
dollars. Pour chaque augmentation d'une unité du nombre de livres d'art achetés par client, les
dépenses globales de chaque client augmenteront de 14,19 dollars. Pour chaque augmentation
d'une unité du nombre de livres de cuisine achetés par client, les dépenses globales de chaque
client augmenteront de 15,26 dollars.
#14
linear<-lm(total_~first+geog+art+cook, data bbb) summa ry(li near)

Appeler :
lm(formula = total ~ first + geog + art + cook, data = bbb)

Résidus :
QI minimum Médiane 3Q Max
-218.005 -75.068 -0.188 75.676 251.108
Coefficients
Estimation Std. Erreur t valeur Pr(>I 11)
(Intercept) 148.88678 0.68719 216.66 <2e-16 ***
premier 1.23163 0.03134 39.30 <2e-16 ***
géog 14.70989 0.54360 27.06 <2e-16 ***
l'art 14.18890 0.64856 21.88 <2e-16 ***
cuisiner 15.26323 0.41741 36.57 <2e-16 ***
Codes significatifs : 0 "***" 0,001 "**" 0,01 0.05 0.1 ‘ ‛ 1
Erreur standard résiduelle : 89,4 sur 49995 degrés de liberté
R-carré multiple : 0,222, R-carré ajusté : 0.2219
Statistique F : 3567 sur 4 et 49995 DF, valeur p : < 2 .2e-16

Vous aimerez peut-être aussi