Académique Documents
Professionnel Documents
Culture Documents
Introduction
k-NN
Arbres de décision
Réseaux baysiens
Réseaux de neurones
Conclusion
1. Apprentissage supervisé
Marketing
comprendre les critères prépondérants dans l ’achat d ’un
produit
segmentation automatique des clients pour le marketing direct
Maintenance
aide et guidage d ’un client suite à défauts constatés
Assurance
analyse de risques
Isolation de populations à risques
médecine
2. k plus proches voisins
(k-NN)
Basé sur l'apprentissage par analogie
Collection de tuples d'apprentissage
Xi=(x1i,x2i,…xni) (xji numérique) de classe connue
Représente un point dans l'espace à n dimensions
Classes prédéfinies
C={C1,C2, …Cm}
Distance et Similarité
Distance Euclidienne, Cosinus, etc.
Similarité = Max - Distance
Classement
Class (X) {
// Training collection T = {X1, X2, … Xn}
// Predefined classes C ={C1,C2, …Cm}
// Compute similarities
For i=1..N similar[i] = Max - distance(X,Xi);
SortDescending(similar[]);
kNN=Select k nearest neighbors with highest similarity;
// Calculer les scores des classes
score[Cj] = f(Cj, kNN) ;
Class(X) = Class Cj with highest score;
}
Forces et faiblesses
Définition
Arbre permettant de classer des enregistrements
par division hiérarchiques en sous-classes
un nœud représente une classe de plus en plus fine
depuis la racine
un arc représente un prédicat de partitionnement de la
classe source
Un attribut sert d'étiquette de classe, les autres
permettant de partitionner
Génération de l'arbre
Objectif:
A1 = ?
obtenir des classes
v1 v3
homogènes
couvrir au mieux les v2
données A2 = ? ... A2 = ?
(A1=v1)&(A2=v'1) C1 A1?
(A1=v1)&(A2=v'2) C2 v1 v3
(A1=v1)&(A2=v'3) C3 v2
Attributs ou variables
Joueur?
Joueur Note Résultat
Barthés Bon Gagné
Henri Barthès Zidane
Barthés Moyen Nul
Note? Note? Note?
Henri Bon Gagné
Henri Bon Gagné Bon Bon Moyen Mauvais
Classes cibles
Autre Exemple
Autre Exemple
oui non
<20% >=20%
PasContrôle Contrôle
Contrôle PasContrôle
Procédure de construction (1)
Processus récursif
L'arbre commence à un nœud représentant toutes les
données
Class Si les objets sont de la même classe, alors le nœud
devient une feuille étiqueté par le nom de la classe.
Atr=? Sinon, sélectionner les attributs qui séparent le mieux les
objets en classes homogènes => Fonction de qualité
La récursion s'arrête quand:
Les objets sont assignés à une classe homogène
Il n'y a plus d'attributs pour diviser,
Il n'y a pas d'objet avec la valeur d'attribut
Choix de l'attribut de division
Indice de GINI
Si un ensemble de données T contient des éléments de N classes
gini(T) = 1- i pi2 ou pi est la fréquence relative de la classe i dans T
Indice de Twoing
G ( tg,td) = [(( ng/n)(nd/n))/4][i=1m | ( nig / ng ) - ( nid / ng ) |]2
t : Sommet gauche issu de t.
g
t : Sommet droit issu de t
d
n ( resp (n ) ) = card {t } ( resp card {t }).
d g d g
N : La taille de l ’échantillon d ’apprentissage.
M : Le nombre de classe.
A2=1 A2=3
A2=2
Proportion C1 C2 C3 Sigma
Vert 0,75 0,00 0,00 Vert Rouge
Bleu 0,25 0,67 0,00
Rouge 0,00 0,33 1,00
Entropie 0,81 0,39 0,00 0,49
N2 log2(N2)
N3 log2(N3)
-0,31
-0,50
0,00
-0,39
0,00
0,00
Bleu
N4 log2(N4) 0,00 0,00 0,00
Impureté 0,375 0,44444444 0 0,31
Exemple: Partitions de boules
(3)
Partition selon A3
Poids
A3 < 1 A3>=1
Proportion C1 C2 Sigma
Vert 0,60 0,00
Rouge
Bleu
Rouge
0,40
0,00
0,25
0,75
Vert
Entropie 0,97 0,50 0,76
N2 log2(N2) -0,44 0,00
N3 log2(N3) -0,53 -0,50
N4 log2(N4) 0,00 0,00
Impureté 0,48 0,375 0,43
Exemple: Partitions de table (1)
Atr=?
Outlook Temperature Humidity Windy Class
sunny hot high false N
sunny hot high true N
overcast hot high false P
rain mild high false P
rain cool normal false P
rain cool normal true N
Gain(Outlook) = 0.246 overcast cool
sunny mild
normal true
high false
P
N
Gain(Temperature) = 0.029 sunny cool normal false P
rain mild normal false P
Gain(Humidity) = 0.151 sunny mild normal true P
Gain(Windy) = 0.048 overcast mild high true P
overcast hot normal false P
rain mild high true N
Exemple: Partitions de table (2)
outlook
Outlook Temperature Humidity Windy Class
sunny overcast rain sunny hot
sunny hot
high
high
false
true
N
N
overcast hot high false P
Atr=? rain mild high false P
rain cool normal false P
rain cool normal true N
overcast cool normal true P
sunny mild high false N
sunny cool normal false P
rain mild normal false P
sunny mild normal true P
overcast mild high true P
overcast hot normal false P
rain mild high true N
Exemple: Partitions de table (3)
outlook
Binaire ou n-aire
plus ou moins large et profond
Variable nominale
un prédicat par valeur ou par liste de valeurs ?
Choix par niveau ou par classe
mêmes tests pour chaque nœud interne d'un niveau
arbres balancés ou non
Élimination de classes
vides ou presque, peu représentatives
Problème des attributs continus
Exemple :
arbres vus comme encodage de tuples
partition utile si gain supérieur à un seuil
coût d'un partitionnement
CP bits pour coder les prédicats de patition
Entropie_Après bits pour coder chaque tuple
partitionnement à supprimer si :
Gain = n * Entropie_Après + CP - n * Entropie_Avant < seuil
Ce test peut être appliquer lors de la création
Types d'arbres
ID3
Le pouvoir discriminatoire (ou gain informationnel) d ’une
variable <= une variation d ’« entropie de Shannon » lors
de la partition de S
C4.5 (ID3++)
Support des variables continues
Introduit un facteur «Gain ratio » visant à pénaliser la
prolifération des nœuds
Critères d'arrêt :
Seuils de gain informationnel, d'effectif dans un nœud
Test statistique d'indépendance des variables (Ki2 )
Méthode CART
Principes
si problème à 2 classes, cherche la bi-partition
minimisant l’indice d’impureté de Gini
si problème à N classes, cherche celle maximisant le gain
d’information donné par l’indice de Towing
Critères d ’arrêt :
Seuil de gain informationnel
Seuil d ’effectif dans un nœud
Procédure d'élagage
Méthodes passant à l'échelle
Classificateurs statistiques
Basés sur les probabilités conditionnelles
Prévision du futur à partir du passé
Suppose l'indépendance des attributs
50
Fondements
35 2 oui ???
Les classes nominales
impôts<20% impôts>=20%
1
4
Non
Etudiant Etudiant 3
2
Positif Négatif
2 3
Calcul de Probabilités
impôts<20% impôts>=20%
1
4
Non
Etudiant Etudiant
2 3
Positif Négatif
2 3
Structure de connaissance
Non
Etudiant Etudiant
2 3
Positif Négatif
2 3
Autre exemple
0.32 0.68
Rouge
Voyant Rouge
0.44 0.09
Vert
0.44 0.09 0.82
0.12
Panne UC MC PE
0.30 0.40 0.60 0.50
0.50
0.70
Apprentissage
si structure connue = calculs de proba.
si inconnue = difficile à inférer
Baysien naïf
suppose l'indépendance des variables
Réseaux baysiens
permettent certaines dépendances
nécessitent des tables d'apprentissage réduites
5. Réseaux de neurones
Induit un ensemble de
valeurs en sortie à partir
d'un ensemble de valeurs Entrée En
en entrée wn
De nombreuses techniques
dérivées de l'IA et des
statistiques
Autres techniques
règles associatives,
raisonnement par cas,
ensembles flous, …
Problème de passage à
l’échelle
arbre de décisions, réseaux
Tester plusieurs techniques Y-a-t-il une technique
pour résoudre un problème dominante ?