Académique Documents
Professionnel Documents
Culture Documents
Modèle de Classification
9 No Married 75 Cr No
10 No Single 90 Cr Yes Ensemble
10
de Test
Ensemble
d’apprentissage Classifieur Modèle
Algorithmes de
Classification
Données
d’apprentissage
Classifieur
NAME RANK YEARS TENURED (Modèle)
M ike A ssistan t P ro f 3 no
M ary A ssistan t P ro f 7 yes
B ill P ro fesso r 2 yes
Jim A sso ciate P ro f 7 yes SI rank = ‘professor’
D ave A ssistan t P ro f 6 no OU years > 6
Anne A sso ciate P ro f 3 no ALORSN tenured = ‘yes’
Introduction to Data Mining 10
Etape (2): Utilisation du modèle
Classifieur
Données
Données non classées
de Test
(Jeff, Professor, 4)
NAME RANK YEARS TENURED
T om A ssistant P rof 2 no Tenured?
M erlisa A ssociate P rof 7 no
G eorge P rofessor 5 yes
Joseph A ssistant P rof 7 yes
age?
• Chaque nœud
<=30 overcast
31..40 >40 interne teste un
attribut
• Construction de l’arbre
• Arbre peut atteindre une taille élevée
• Elaguer l’arbre (Pruning)
• Identifier et supprimer les branches qui
représentent du “bruit”
• Améliorer le taux d’erreur
Questions critiques :
• Formulation des tests de branchement
• Mesure de sélection des attributs
Algorithme de base
• Construction récursive d’un arbre de manière “diviser-pour-régner” descendante
• Attributs considérés énumératifs
• G-statistic
j 1 | D |
• L’attribut qui donne le plus petit index de Ginin, ginisplit(D) (ou la plus
grande réduction d’impurité) est choisi comme un noeud de séparation
(Il faut énumérer tout les points de séparation possibles pour chaque
attribut)