2. Calculer les performances sur l'ensemble test T ci-dessous en construisant la matrice de confusion
associée à cet énoncé. N° Age Sexe Specialité Sportive
14 24 F IT Oui
15 29 M Sociologie Non
16 45 F Engineering Non
17 35 M IT Non
Ensemble Test T : 18 21 M Médecine Non
19 26 M Sociologie Non
20 46 F IT Oui
21 40 M IT Oui
Exercice 03 (04 Pts) : Une société de production artistique désire faire une enquête de satisfaction sur
l’ensemble des spectacles de théâtre qu’elle a produit cette année pour prévoir le programme de travail
de la prochaine année. La base de données intègre des données sur les spectacles (artistes, lieu de
représentation, période, durée, sujet,…etc) et sur les spectateurs (sexe, niveau,…etc). Bien sûr,
l’appréciation donnée par les spectateurs représente la variable classe qu’on veut prédire. Le modèle de
classification est construit avec 32000 enregistrements. L’évaluation a permet de donner les résultats
suivants :
• Le nombre de personnes qui ont répondus négativement (non satisfait) alors que l’évaluation
leur a donné une réponse positif (satisfait) est de 2400.
• Précision = 0,60
• Taux d’erreur = 20 %
Construisez la matrice de confusion associée à cet exercice sachant le modèle est construit avec les
2/3 de l’ensemble des données historisées.
Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).
Spécialité
IT
Médecine Engineering Sociologie
0,5 Pt Sexe
M F ??? Non ???
Age Oui
<30 ≥30
Sous arbre Médecine :
Non Oui
a) Age :
GINI(Age) = 2/4*(1-(0/2)2-(2/2)2) <30 ≥30
Oui 0 1
+ 2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 Non 2 1
0,5 Pt
b) Sexe :
GINI(Sexe) = 2/4*(1-(0/2)2-(2/2)2) + M F
Oui 1 0 Spécialité
2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 IT
Non 1 2 Médecine Sociologie
Les deux attributs ont la même valeur du GINI, Sexe Engineering
Age ???
M F
Donc on choisit l’un d’eux et l’arbre sera : <30 ≥30 Non
Age 0,5 Pt
Oui Sexe
Non
<30 ≥30
M F
Non Oui Non Oui
Enseignant : Mr K. Boudjebbour Page 2 / 4
Sous arbre Sociologie :
a) Age :
GINI(Age) = 2/2 (1-(1/2)2-(1/2)2)=2/2*0,5=0,5 <30 ≥30
b) Sexe : Oui 1 0
Non 1 0
GINI(Sexe) = 0 M F 0,5 Pt
Donc on choisit l’attribut « Sexe» avec l’indice Oui 0 1
Non 1 0
GINI le plus bas , Donc l’arbre final sera :
Spécialité
IT
Médecine Sociologie
Sexe Engineering
0,5 Pt Age Sexe
M F
<30 ≥30 Non M F
Age Oui Non Sexe Non Oui
<30 ≥30
M F
Non Oui Non Oui
2) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :