Académique Documents
Professionnel Documents
Culture Documents
Coefficients :
Estimation Std. Erreur Valeur z Pr(>l zl)
(Intercept) -1.6001096 0.0520980 -30.713 < 2e-16 ***
dernier -0.0947124 0.0027924 -33.918 < 2e-16 ***
total_ 0.0011160 0.0001982 5.6301.80e-08 ***
femelle -0.7607204 0.0357608 -21.272 < 2e-16 ***
enfant -0.1862162 0.0172824 -10.775 < 2e-16 ***
la jeunesse -0.1129745 0.0261087 -4.3271.51e-05 ***
cuisiner -0.2703210 0.0171283 -15.782 < 2e-16 ***
le faire -0.5391648 0.0269657 -19.994 < 2e-16 ***
référence 0.2346876 0.0265583 8.837 < 2e-16 ***
l'art 1.1555840 0.0221439 52.185 < 2e-16 ***
géog 0.5742763 0.0186311 30.824 < 2e-16 ***
2. Créez et interprétez les rapports de cotes pour chacun des prédicteurs. Résumer et
interpréter les résultats (pour qu'un responsable marketing puisse les comprendre).
Quelles sont les variables significatives ? Lesquels semblent "importants" ?
#2
exp(bbblogit$coef)
> exp(bbblogit$coef)
(Intercept) dernier total_ femme enfant jeune cook do_it refernce l'art géog
0.2018744 0.9096345 1.0011167 0.4673296 0.8300941 0.8931734 0.7631345 0.5832352 1.2645136 3.1758776 1.7758448
Pour chaque mois supplémentaire écoulé depuis le dernier achat, les chances d'effectuer un
achat diminuent de 9,04 %. Pour chaque augmentation du montant total dépensé, les chances
d'effectuer un achat augmentent de 0,11 %. Pour les femmes, il diminue les chances d'achat de
52,33 %. Pour chaque augmentation du nombre total de livres pour enfants achetés, les
chances d'achat diminuent de 17 %. Pour chaque augmentation du nombre total de livres pour
la jeunesse achetés, les chances d'achat diminuent de 10,7 %. Pour chaque augmentation du
nombre total de livres de cuisine achetés, la probabilité d'achat diminue de 23,7 %. Pour chaque
augmentation du nombre total de livres de bricolage achetés, les chances d'achat diminuent de
41,7 %. Pour chaque augmentation du nombre total d'ouvrages de référence achetés, les
chances d'achat augmentent de 26,5 %. Pour chaque augmentation du nombre total de livres
d'art achetés, les chances d'achat augmentent de 217,6 %. Pour chaque augmentation du
nombre total de livres de géographie achetés, les chances d'achat augmentent de 77,5 %.
Après avoir réalisé un modèle de régression logistique, toutes les variables sont statistiquement
significatives car les valeurs p sont inférieures à 0,05. Les variables do_it, art et geog semblent
importantes parce que leur augmentation ou leur diminution des chances d'achat est supérieure
à 25 % et qu'elles ont un effet plus important que les autres variables sur l'achat. Le total_, ou le
total des dollars dépensés, peut également être important même si le pourcentage est faible car,
logiquement, une augmentation d'une unité en dollars est une très petite unité à mesurer. Par
conséquent, une augmentation plus importante du nombre de dollars dépensés augmentera les
chances d'achat.
4. Créez un diagramme à barres représentant le taux de réponse par décile (tel que défini ci-
dessus).
Indice : le "taux de réponse" n'est pas le même que celui qui a acheté "L'histoire de l'art de
Florence".
#4
ggplot(bbb)+geom_bar(aes(x-predict, y=buyer),stat "summary", fun.y "mean")
bbb.child <- glm(buyer child, family-binomial(link-'logit'), data = bbb) bbbSpurch_prob. child <- predict. glm(bbb. child, bbb, type = "response")
I (Intercept) enfant
0.09306608 1.07686752
L'odds ratio est significativement différent de la partie 1 car il ne prend pas en compte les effets
résiduels des autres variables de prédiction. Il s'agit plutôt d'isoler la variable "enfant" et de
générer une régression logistique par rapport à la probabilité d'acheter l'"Histoire de l'art de
Florence". Cela montre essentiellement que si l'on tient compte uniquement de l'effet de l'achat
d'un livre pour enfants sur l'achat de l'"Histoire de l'art de Florence", les chances d'achat
augmentent, alors que si l'on tient compte d'autres variables, comme indiqué ci-dessus, les
chances d'achat diminuent. En ne prédisant la réponse qu'à l'aide d'une seule variable, on la
pondère incorrectement sans tenir compte des autres variables.
7. Utilisez les informations du rapport de la question 5 ci-dessus pour créer un tableau montrant
l'effet de levier et l'effet de levier cumulé pour chaque décile. Vous pouvez utiliser Excel pour
effectuer ces calculs.
Nombre Nombre Taux de
Décile de Nombre de Cum. % de Cum. num. Taux de Cum.
cumulé de d'acheteu Ascense réponse
récence clients clients acheteurs réponse ur lift
clients rs cumulé
8. Créez un graphique montrant l'augmentation cumulative par décile, ainsi qu'une ligne de
référence correspondant à la ligne de base "sans modèle".
9. Utilisez les informations du rapport de la question 5 ci-dessus pour créer un tableau montrant
les gains et les gains cumulés pour chaque décile. Vous pouvez utiliser Excel pour effectuer ces
calculs.
Nombre Nombre
Décile de Nombre de Cum. % de Cum. num. Cum.
cumulé de d'acheteu Gains
récence clients clients acheteurs Gains
clients rs
0 0 0 0 0 0 0 0
1 5000 5000 10% 1935 1935 42.8% 42.8%
2 5000 10000 20% 836 2771 18.5% 61.3%
3 5000 15000 30% 511 3282 11.3% 72.6%
4 5000 20000 40% 368 3650 8.1% 80.7%
5 5000 25000 50% 284 3934 6.3% 87.0%
6 5000 30000 60% 196 4130 4.3% 91.3%
7 5000 35000 70% 139 4269 3.1% 94.4%
8 5000 40000 80% 121 4390 2.7% 97.1%
9 5000 45000 90% 90 4480 2.0% 99.1%
10 5000 50000 100% 42 4522 0.9% 100.0%
Total 50000 4522
10. Créez un graphique montrant les gains cumulés par décile ainsi qu'une ligne de référence
correspondant à "aucun modèle".
Partie IV
Utilisez les informations suivantes sur les coûts pour évaluer la rentabilité de l'utilisation de la
régression logistique afin de déterminer lesquels des 500 000 clients restants devraient recevoir
une offre spécifique :
12. Pour les clients de l'ensemble de données, créez une nouvelle variable (appelée "cible")
avec une valeur de 1 si la probabilité prédite du client est supérieure au taux de réponse du seuil
de rentabilité et de 0 dans le cas contraire.
#12
bbb$target<-ifelse(bbb$purch_prob>breakeven >1,0)
13. Supposons que BookBinders envoie l'offre d'achat de "L'histoire de l'art de Florence"
uniquement à ses clients cibles (c'est-à-dire ceux dont la probabilité prédite d'achat est
supérieure ou égale au seuil de rentabilité).
a. Quel est le nombre d'acheteurs attendu de ce mailing ?
3323
mailingcustomers<-sum(bbb$target)
mailingbuyingprob<- mean(subset(bbb, target ==1)$buyer) mai li ngbuyi ng prob*mailcustomers
b. Quel est le taux de réponse attendu pour ce mailing ?
0.2133072
#13b
mean(subset(bbb, target - 1 )$purch_prob)
Appeler :
lm(formula = total ~ first + geog + art + cook, data = bbb)
Résidus :
QI minimum Médiane 3Q Max
-218.005 -75.068 -0.188 75.676 251.108
Coefficients
Estimation Std. Erreur t valeur Pr(>I 11)
(Intercept) 148.88678 0.68719 216.66 <2e-16 ***
premier 1.23163 0.03134 39.30 <2e-16 ***
géog 14.70989 0.54360 27.06 <2e-16 ***
l'art 14.18890 0.64856 21.88 <2e-16 ***
cuisiner 15.26323 0.41741 36.57 <2e-16 ***
Codes significatifs : 0 "***" 0,001 "**" 0,01 0.05 0.1 ‘ ‛ 1
Erreur standard résiduelle : 89,4 sur 49995 degrés de liberté
R-carré multiple : 0,222, R-carré ajusté : 0.2219
Statistique F : 3567 sur 4 et 49995 DF, valeur p : < 2 .2e-16