Vous êtes sur la page 1sur 4

I.U.

T de Caen STID 2ème année Problème


Département STID Année Universitaire 2007-2008
Partie A - Profiling
Responsable de cours : Alain LUCAS
• Etude de la variable Credit.
1. On obtient :
XX
Correction Examen Data Mining XXX Credit
XXX Yes No Total
Insur. XX
Yes 5 3 8
No 1 6 7
Questions de cours Total 6 9 15
2. On obtient :
1. Le terme « data mining » est traduit par « fouille de données » en France. π(Credit = Y es) = 83, 33%
2. Le « data mining » consiste en l’exploration de vastes bases de données dans le but d’en extraire une information et donc
pertinente, inconnue jusqu’à présent, et à forte valeur ajoutée. π(Credit = Y es)
Odds(Credit = Y es) = =5
1 − π(Credit = Y es)
3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining.
4. Un système opérationnel est basé sur une architecture relationnelle dont l’objectif consiste à stocker efficacement 3. On obtient :
des données, et à permettre un accès optimisé pour des requêtes prédéfinies. A contrario, un système décisionnel π(Credit = N o) = 33, 33%
est généralement basé sur une architecture en étoile dont l’objectif consiste à permettre une exploration efficace et donc
au sein d’un grand volume de données. π(Credit = N o)
Odds(Credit = N o) = = 0, 5
5. Les trois approches que l’on peut rencontrer sont : 1 − π(Credit = N o)
– le reporting Finalement, on trouve OR(Y es|N o) = 10.
– l’analyse multidimensionnelle
– le data mining 4. Il ressort de l’OR que les clients possédant un crédit en cours ont 10 fois plus de chance d’avoir souscrit le produit
d’assurance que ceux n’ayant pas de crédit en cours. Clairement, cette variable présente un impact significatif
6. Les phases du processus CRISP-DM sont : sur la variable cible puisque l’OR est nettement différent de 1.
– « Business Understanding » qui consiste à cerner précisément la problématique, et à la transformer en projet
« Data Mining » ; • Etude de la variable Sex.
– « Data Understanding » qui consiste à prendre connaissance des données, et à en faire un premier bilan ; 1. On obtient :
– « Data Preparation » qui consiste à préparer les données en vue de l’étape de modélisation ; PP
PP Sex Male Female Total
– « Modeling » qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ; Insur. PPP
– « Evaluation » qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le P
Yes 3 5 8
meilleur ;
No 5 2 7
– « Deployment » qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges.
Total 8 7 15
7. Les trois sous-échantillons sont :
– le « training data set » dont l’objectif est de permettre l’apprentissage de l’algorithme 2. On obtient :
– le « test data set » dont l’objectif consiste à éviter le sur ou le sous apprentissage π(Sex = F emale) = 71, 43%
– le « validation data set » dont l’objectif consiste à comparer les performances de plusieurs modèles
et donc
8. L’expression « underfitting » correspond à la notion de sous-apprentissage laquelle traduit le fait que le modèle π(Sex = F emale)
Odds(Sex = F emale) = = 2, 5
est trop simple dans le sens qu’il ne capture pas toute la structure interne des données. A contrario, l’expression 1 − π(Sex = F emale)
« overfitting » correspond à la notion de sur-apprentissage laquelle traduit le fait que le modèle est trop complexe
dans le sens qu’il capture non seulement la structure interne des données, mais aussi le bruit. 3. On obtient :
π(Sex = M ale) = 37, 5%
9. L’intérêt d’élaguer un arbre est d’éviter le phénomène de sur-apprentissage.
et donc
10. La sensibilité représente la proportion de positifs bien classés parmi les positifs disponibles. La spécificité π(Sex = M ale)
représente la proportion de négatifs bien classés parmi les négatifs disponibles. Odds(Sex = M ale) = = 0, 6
1 − π(Sex = M ale)
Finalement, on trouve OR(F |M ) = 4, 17.
4. Il ressort de l’OR que les clients de sexe féminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance
que ceux de sexe masculin. Clairement, cette variable présente un impact significatif sur la variable cible puisque
l’OR est nettement différent de 1.

2
• Etude de la variable Income. Partie B - Arbre de décision
1. On obtient :
• Division 1.
XX
XX Income 1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de
XXX 20-30 30-40 40-60 Total
Insur. XXX ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions
Yes 2 3 3 8 admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
No 2 2 3 7 admissibles distinctes.
Total 4 5 6 15 2. On obtient :
2. On obtient : Insur. Racine
π(Income = 20 − 30) = 50% Yes 8
No 7
et donc
π(Income = 20 − 30) Gini 0,498
Odds(Income = 20 − 30) = =1
1 − π(Income = 20 − 30) 3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La
3. On obtient : valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence
π(Income = 30 − 40) = 60% d’une distribution uniforme des deux modalités.
4. On obtient
et donc
π(Income = 30 − 40)
Odds(Income = 30 − 40) = = 1, 5 XX XX
1 − π(Income = 30 − 40) XX Credit
XXXSex
XX
XXX Yes No M F
Insur. XX Insur. XX
On obtient :
Yes 5 3 Yes 3 5
π(Income = 40 − 60) = 50%
No 1 6 No 5 2
et donc Gini 0,278 0,444 Gini 0,469 0,408
π(Income = 40 − 60) Gini Tot. 0.378 Gini Tot. 0,441
Odds(Income = 40 − 60) = =1
1 − π(Income = 40 − 60)
Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1.
XX
4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne XX Income
XXX 20-30 30-60 20-40 40-60 20-50 50-60
présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la Insur. XX
valeur référente 1. Yes 2 6 5 3 6 2
No 2 5 4 3 7 0
• Etude de la variable Age.
Gini 0,500 0,496 0,494 0,500 0,497 0
1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il Gini Tot. 0,497 0,496 0,431
faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable XXX
Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont X Age 23 28 32 36.5 38.5 39.5
Insur. XXX
souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit Modalités
X
< ≥ < ≥ < ≥ < ≥ < ≥ < ≥
d’assurance. Yes 1 7 1 7 2 6 3 5 4 4 5 3
• Bilan. No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
1. Via l’analyse précédente, on obtient :
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXX
Variable Statut X Age 40.5 41.5 42.5 44 50
Insur. XXX
Credit pertinente X
< ≥ < ≥ < ≥ < ≥ < ≥
Sex pertinente Yes 5 3 6 2 6 2 8 0 8 0
Income non pertinente No 2 5 2 5 3 4 4 3 5 2
Age pertinente Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients
de sexe féminin, et les clients d’âge médian (30-40).
5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des
tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans.

3 4
6. On obtient le graphique suivant : 2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est également obtenue avec la variable Sex ainsi que la variable Age.
3. On obtient le graphique suivant :



  


  Α ≥



  

 
 

 

   
 

  Α ≥
 
 

 
  

 

  
  
  
 

 

  

  4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires.
• Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre 2. On obtient :
d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le
second segment est clairement pur, il sera donc déclaré comme terminal. XX
XXXSex
XX XX
• Division 2. M F XX Income
Insur. XXX 20-30 30-50 20-40 40-50
XX Insur. XX
1. On obtient : Yes 3 2 Yes 2 3 4 1
No 0 1 No 0 1 1 0
XX
XX Credit
XX Gini 0 0,444
XX Sex Gini 0 0,375 0,32 0
XX
XX Yes No M F Gini Tot. 0,222
Insur. XXX Insur. XXX Gini Tot. 0,25 0,267
Yes 5 3 Yes 3 5
No 1 3 No 3 1
XX
Gini 0,278 0,5 Gini 0,5 0,278 XX Age 24 32 37.5 41.5
Insur. XXX
Gini Tot. 0,389 Gini Tot. 0,389 X
Modalités < ≥ < ≥ < ≥ < ≥
XXX Yes 1 4 2 3 3 2 3 2
XXIncome 20-30 30-60 20-40 40-60 20-50 50-60 No 0 1 0 1 0 1 1 0
Insur. XX Gini 0 0,32 0 0,375 0 0,444 0,375 0
XX
Yes 2 6 5 3 6 2 Gini Tot. 0,267 0,25 0,222 0,25
No 1 3 3 1 4 0
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette
Gini 0,444 0,444 0,469 0,375 0,48 0
division est seulement de 0,222.
Gini Tot. 0,444 0,438 0,400
4. On obtient


XXX 
  

X Age 23 28 32 36.5 38.5


Insur. XXXX   Α ≥
Modalités < ≥ < ≥ < ≥ < ≥ < ≥
Yes 1 7 1 7 2 6 3 5 4 4  
 

 
No 0 4 1 3 1 3 1 3 1 3 
   
 

Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49
 
 
Gini Tot. 0,424 0,433 0,444 0,438 0,419
XX
XX Age 39.5 40.5 41.5 42.5
Insur. XXX X
 


 



  
 
< ≥ < ≥ < ≥ < ≥
   
Yes 5 3 5 3 6 2 6 2
No 1 3 2 2 2 2 3 1  
  

Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444 

 


 

Gini Tot. 0,389 0,438 0,417 0,444

5 6
5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal
car le nombre d’unités est inférieur à 5.
• Division 4.
1. On obtient :
XX
XX Sex
XX
M F
Insur. XXX
Yes 0 3
No 3 0
Gini 0 0
Gini Tot. 0

2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs,
et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est
nécessairement cette division qui sera choisie sous les contraintes spécifiées.
3. On obtient le graphique suivant :




  

  Α ≥

 
 

 

   
 

 
 

 
  

 

  
 

       

 
  
  
  

   

  
  
  
 

4. Les deux segments obtenus étant pur, ils sont déclarés terminaux.
• Prévisions.
1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs
allouées suivantes :
– Segment 2 = No
– Segment 5 = Yes
– Segment 6 = Yes
– Segment 7 = No
– Segment 8 = Yes
2. On obtient finalement :
ID Credit Sex Income Age Insurance
1 Yes Male 50-60 46 No
2 No Female 20-30 18 Yes
3 No Male 40-50 42 No
4 Yes Male 50-60 51 No
5 No Female 50-60 43 Yes

Vous aimerez peut-être aussi