Académique Documents
Professionnel Documents
Culture Documents
2
• Etude de la variable Income. Partie B - Arbre de décision
1. On obtient :
• Division 1.
XX
XX Income 1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de
XXX 20-30 30-40 40-60 Total
Insur. XXX ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions
Yes 2 3 3 8 admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
No 2 2 3 7 admissibles distinctes.
Total 4 5 6 15 2. On obtient :
2. On obtient : Insur. Racine
π(Income = 20 − 30) = 50% Yes 8
No 7
et donc
π(Income = 20 − 30) Gini 0,498
Odds(Income = 20 − 30) = =1
1 − π(Income = 20 − 30) 3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La
3. On obtient : valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence
π(Income = 30 − 40) = 60% d’une distribution uniforme des deux modalités.
4. On obtient
et donc
π(Income = 30 − 40)
Odds(Income = 30 − 40) = = 1, 5 XX XX
1 − π(Income = 30 − 40) XX Credit
XXXSex
XX
XXX Yes No M F
Insur. XX Insur. XX
On obtient :
Yes 5 3 Yes 3 5
π(Income = 40 − 60) = 50%
No 1 6 No 5 2
et donc Gini 0,278 0,444 Gini 0,469 0,408
π(Income = 40 − 60) Gini Tot. 0.378 Gini Tot. 0,441
Odds(Income = 40 − 60) = =1
1 − π(Income = 40 − 60)
Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1.
XX
4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne XX Income
XXX 20-30 30-60 20-40 40-60 20-50 50-60
présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la Insur. XX
valeur référente 1. Yes 2 6 5 3 6 2
No 2 5 4 3 7 0
• Etude de la variable Age.
Gini 0,500 0,496 0,494 0,500 0,497 0
1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il Gini Tot. 0,497 0,496 0,431
faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable XXX
Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont X Age 23 28 32 36.5 38.5 39.5
Insur. XXX
souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit Modalités
X
< ≥ < ≥ < ≥ < ≥ < ≥ < ≥
d’assurance. Yes 1 7 1 7 2 6 3 5 4 4 5 3
• Bilan. No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
1. Via l’analyse précédente, on obtient :
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXX
Variable Statut X Age 40.5 41.5 42.5 44 50
Insur. XXX
Credit pertinente X
< ≥ < ≥ < ≥ < ≥ < ≥
Sex pertinente Yes 5 3 6 2 6 2 8 0 8 0
Income non pertinente No 2 5 2 5 3 4 4 3 5 2
Age pertinente Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients
de sexe féminin, et les clients d’âge médian (30-40).
5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des
tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans.
3 4
6. On obtient le graphique suivant : 2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est également obtenue avec la variable Sex ainsi que la variable Age.
3. On obtient le graphique suivant :
Α ≥
Α ≥
4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires.
• Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre 2. On obtient :
d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le
second segment est clairement pur, il sera donc déclaré comme terminal. XX
XXXSex
XX XX
• Division 2. M F XX Income
Insur. XXX 20-30 30-50 20-40 40-50
XX Insur. XX
1. On obtient : Yes 3 2 Yes 2 3 4 1
No 0 1 No 0 1 1 0
XX
XX Credit
XX Gini 0 0,444
XX Sex Gini 0 0,375 0,32 0
XX
XX Yes No M F Gini Tot. 0,222
Insur. XXX Insur. XXX Gini Tot. 0,25 0,267
Yes 5 3 Yes 3 5
No 1 3 No 3 1
XX
Gini 0,278 0,5 Gini 0,5 0,278 XX Age 24 32 37.5 41.5
Insur. XXX
Gini Tot. 0,389 Gini Tot. 0,389 X
Modalités < ≥ < ≥ < ≥ < ≥
XXX Yes 1 4 2 3 3 2 3 2
XXIncome 20-30 30-60 20-40 40-60 20-50 50-60 No 0 1 0 1 0 1 1 0
Insur. XX Gini 0 0,32 0 0,375 0 0,444 0,375 0
XX
Yes 2 6 5 3 6 2 Gini Tot. 0,267 0,25 0,222 0,25
No 1 3 3 1 4 0
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette
Gini 0,444 0,444 0,469 0,375 0,48 0
division est seulement de 0,222.
Gini Tot. 0,444 0,438 0,400
4. On obtient
XXX
Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49
Gini Tot. 0,424 0,433 0,444 0,438 0,419
XX
XX Age 39.5 40.5 41.5 42.5
Insur. XXX X
< ≥ < ≥ < ≥ < ≥
Yes 5 3 5 3 6 2 6 2
No 1 3 2 2 2 2 3 1
Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444
5 6
5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal
car le nombre d’unités est inférieur à 5.
• Division 4.
1. On obtient :
XX
XX Sex
XX
M F
Insur. XXX
Yes 0 3
No 3 0
Gini 0 0
Gini Tot. 0
2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs,
et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est
nécessairement cette division qui sera choisie sous les contraintes spécifiées.
3. On obtient le graphique suivant :
Α ≥
4. Les deux segments obtenus étant pur, ils sont déclarés terminaux.
• Prévisions.
1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs
allouées suivantes :
– Segment 2 = No
– Segment 5 = Yes
– Segment 6 = Yes
– Segment 7 = No
– Segment 8 = Yes
2. On obtient finalement :
ID Credit Sex Income Age Insurance
1 Yes Male 50-60 46 No
2 No Female 20-30 18 Yes
3 No Male 40-50 42 No
4 Yes Male 50-60 51 No
5 No Female 50-60 43 Yes