Vous êtes sur la page 1sur 56

Apprentissage automatique

Classification Supervisé « Arbres de décision »

Faiz Maazouzi
Classification— Processus à deux étapes

• Construction du modèle:
• Chaque tuple (exemple) est supposé appartenir à une classe
comme spécifié par le label de l’attribut “Classe”
• Les données sont partagées en 2 sous ensembles
• Le modèle (construit sur le 1er sous ensemble) est
représenté par des règles de classification, arbres de
décisions …
• Utilisation du modèle:
• Estimer la pertinence sur le 2ème sous ensemble
• Comparer les labels de classe de l’ensemble avec ce que prévoit le modèle
• Le pourcentage de tuples qui sont correctement classifiés par le modèle donne une mesure
de la précision

2
Processus de Classification (1): Construction du modèle

Algorithmes de
Classification
Training
Data

Nom Grade Années Titulaire Modèle


David Assistant 3 non
Marie Assistant 7 oui
Jean Professeur 2 oui
Jim Prof. Associé 7 oui
SI Grade = ‘professeur’
Pierre Assistant 6 non OU Années > 6
Anne Prof associé 3 non ALORS Titulaire = ‘oui’
3
Processus de Classification (2): Prédiction

SI Grade = ‘professeur’
OU Années > 6
ALORS Titulaire
Modèle= ‘oui’

Données
Pour test Nouvelles données

(Jeff, Professeur, 4)

Tom Assistant 2 non


Elise Assistant 7 non Titulaire?
George Professeur 5 oui
Josephe Assistant 7 oui OUI
4
Classification avec arbres de décision

• Arbre de Décision
• Les nœuds internes correspondent à des tests
• Un arc correspond au résultat d’un test
• Les nœuds feuilles représentent des classes
• La génération se fait en 2 phases
• Construction de l’arbre
• Au début tous les tuples se trouvent sur la racine
• Partitionner les tuples récursivement en se basant à chaque fois sur un attribut sélectionné
• Simplification de l’arbre
• Identifier et supprimer les branches qui correspondent à des exceptions

• Utilisation:
• Tester les attributs du tuple par rapport à l’arbre pour trouver
la branche et qu’il satisfait donc sa classe

5
Génération de l'arbre

• Objectif:
A1 = ?
• obtenir des classes
v1 v3
homogènes
• couvrir au mieux les v2
données A2 = ? ... A2 = ?
• Comment choisir les v'1 v'3
v'1 v'3
attributs (Ai) ? v'2
v'2
• Comment isoler les
valeurs discriminantes C2 C3 C7 C8 C9
C1
(vj) ?
Intérêts des arbres de décision

Expressivité
approximation de fonctions à valeurs discrètes
capable d’apprendre des expressions
disjonctives
Lisibilité
peut être traduit sous la forme de règles
Beaucoup d’applications
Plan

Représentation
ID3
Espace des hypothèses et biais inductif
Extensions

3
Exemple d’arbre de décision
Ciel Attribut

Soleil Couvert Pluie Valeur

Humidité Oui Vent

Elevée Normale Fort Faible

Non Oui Non Oui Classe


Classification d’une instance
<Ciel = Soleil, Température = Chaud, Humidité = Elevée, Vent = Fort>
Ciel

Soleil Couvert Pluie

Humidité Oui Vent

Elevée Normale Fort Faible

Non
No Oui Non Oui
n
Exemple d’arbre de décision
Ciel

Soleil Couvert Pluie

Humidité Oui Vent

Elevée Normale Fort Faible

Non Oui Non Oui


Expression sous forme logique

(Ciel = Soleil et Humidité = Normale)


ou (Ciel = Couvert)
ou (Ciel = Pluie et Vent = Faible)
Domaines d’application

Instances représentées par des couples


attribut-valeur
Fonction cible à valeurs discrètes
Expression disjonctive vraisemblable
Erreurs possibles dans les exemples
Valeurs manquantes
Médical, financier,...
Algorithme de base

A= MeilleurAttribut(Exemples)
Affecter A à la racine
Pour chaque valeur de A, créer un nouveau
nœud fils de la racine
Classer les exemples dans les nœuds fils
Si tous les exemples d’un nœud fils sont
homogènes, affecter leur classe au nœud,
sinon recommencer à partir de ce nœud
Choix de l’attribut

A1 A2
[9+,5-] [9+,5-]
V F V F

[3+,4-] [6+,1-] [6+,2-] [3+,3-]


Entropie
Entropie
Interprétation de l’entropie
Nombre minimum de bits nécessaires pour
coder la classe d’un élément quelconque de S
Théorie de l’information : un code de
longueur optimale utilise -log2p bits à un
message de probabilité p.
Gain d’information
Ensemble d’apprentissage
Jour Ciel Température Humidité Vent Jouer
J1 Soleil Chaud Elevée Faible Non
J2 Soleil Chaud Elevée Fort Non
J3 Couvert Chaud Elevée Faible Oui
J4 Pluie Doux Elevée Faible Oui
J5 Pluie Froid Normale Faible Oui
J6 Pluie Froid Normale Fort Non
J7 Couvert Froid Normale Fort Oui
J8 Soleil Doux Elevée Faible Non
J9 Soleil Froid Normale Faible Oui
J10 Pluie Doux Normale Faible Oui
J11 Soleil Doux Normale Fort Oui
J12 Couvert Doux Elevée Fort Oui
J13 Couvert Chaud Normale Faible Oui
J14 Pluie Doux Elevée Fort Non
Choix de l’attribut
[9+,5-]
E=0,940

Humidité
Gain(S, Humidité)
Elevée Normale = 0,940-(7/14)0,985-(7/14)0,592
= 0,151

[3+,4-] [6+,1-]
E=0,985 E=0,592
Choix de l’attribut
[9+,5-]
E=0,940
Gain(S, Vent)
= 0,940 - (8/14)0,811 - (6/14) 1 Vent
= 0,048
Faible Fort

[6+,2-] [3+,3-]
E=0,811 E=1
Choix de l’attribut
[9+,5-]
E=0,940

Ciel
Gain(S, Ciel)
Soleil Pluie = 0,940-(5/14)0,971-(5/14)0,971-0
Couvert
= 0,246

[2+,3-] [4+,0-] [3+,2-]


E=0,971 E=0 E=0,971
Choix de l’attribut
[9+,5-]
E=0,940
Gain(S, Température)
= 0,940-(4/14)1-(6/14)0,918- (4/14)0,811 Température
= 0,029
Chaud Doux Froid

[2+,2-] [4+,2-] [3+,1-]


E=1 E=0,918 E=0,811
Choix de l’attribut

Humidité Vent

Elevée Normale Faible Fort

Gain(S, Humidité) = 0,151 Gain(S, Vent) = 0,048

N. Lachiche, 2008
Choix de l’attribut

Ciel Température

Soleil Pluie Chaud Doux Froid


Couvert

Gain(S, Ciel) = 0,246 Gain(S, Température) = 0,029


Choix du prochain attribut
Ciel {J1, J2, …, J14}
[9+,5-]

Soleil Couvert Pluie

? Oui ?
{J1, J2, J8, J9, J11} {J3, J7, J12, J13} {J4, J5, J6, J10, J14}
[2+,3-] [4+,0-] [3+,2-]
Gain(SSoleil,Humidité) = 0,970 - (3/5) 0 - (2/5) 0 = 0,970
Gain(SSoleil,Température) = 0,970 - (2/5) 0 - (2/5) 1 - (1/5) 0 = 0,570
Gain(SSoleil,Vent) = 0,970 - (2/5) 1 -(3/5) 0,918 = 0,019
Exemple d’arbre de décision
Ciel

Soleil Couvert Pluie

Humidité Oui ?
{J4, J5, J6, J10, J14}
[3+,2-]
Elevée Normale

Non Oui
{J1, J2, J8} {J9, J11}
[0+,3-] [2+,0-]
Choix du prochain attribut
Ciel {J1, J2, …, J14}
[9+,5-]

Soleil Couvert Pluie

Humidité Oui ?
{J4, J5, J6, J10, J14}
[3+,2-]
Gain(SPluie,Humidité) = 0,970 - (2/5) 1 - (3/5) 0,918 = 0,019
Gain(SPluie,Température) = 0,970 - (0/5) - (3/5) 0,918 - (2/5) 1 = 0,019
Gain(SPluie,Vent) = 0,970 - (2/5) 0 -(3/5) 0= 0,970
Exemple d’arbre de décision
Ciel

Soleil Couvert Pluie

Humidité Oui Vent

Elevée Normale Fort Faible

Non Oui Non Oui


{J1, J2, J8} {J9, J11} {J6, J14} {J4, J5, J10}
[0+,3-] [2+,0-] [0+,2-] [3+,0-]
Exercice
age salaire etudiant crédit achète_ordinateur
<=30 élévé non correct non
<=30 élévé non excellent non
30…40 élévé non correct oui
>40 moyen non correct oui
>40 faible oui correct oui
>40 faible oui excellent non
31…40 faible oui excellent oui
<=30 moyen non correct non
<=30 faible oui correct oui
>40 moyen oui correct oui
<=30 moyen oui excellent oui
31…40 moyen non excellent oui
31…40 élévé oui correct oui
>40 moyen non excellent non
Solution: Un arbre de décision pour “achète_ordinateur”

age?

<=30 overcast
30..40 >40

étudiant? oui Crédit ?

non oui excellent correct

non oui non oui

32
Pourquoi les réseaux de neurones?

• Caractéristiques de l’architecture du cerveau humain:


• une architecture massivement parallèle
• un mode de calcul et une mémoire distribués
• une capacité d'apprentissage
• une capacité de généralisation
• une capacité d'adaptation
• une résistance aux pannes
• une faible consommation énergétique

33
• Utilisation des réseaux de neurones:
• Classification
• Catégorisation
• Approximation de fonctions
• Prédiction - prévision
• Optimisation
• Mémoire adressable par le contenu

34
Historique
• 1943 :
• Modèle de McCulloch et Pitts

• 1960 :
• Rosenblatt : perceptron et théorème de convergence
• Minsky et Papert : limites du perceptron mono-couche

• 1980 :
• Modèle de Hopefield
• Werbos : rétropropagation dans le cadre des perceptrons multi-couches
(popularisé en 1986 par Rumelhart)

35
Le neurone biologique

36
Le neurone biologique

• Dendrites : Signaux d’entrée


• Axone : Signal de sortie

37
Neurone Formel
Exemple d’apprentissage

Vous aimerez peut-être aussi