Académique Documents
Professionnel Documents
Culture Documents
Supervisé
Quelques éléments
Frank Meyer
France Telecom R&D /TECH/SUSI/TSI
The present document contains information that remains the property of France Telecom. The recipient’s
acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
any of its contents whatsoever without France Telecom’s prior written agreement.
1. Classification semi-supervisée
1.1 Problématique
1.2 Panorama général des méthodes
2. Clustering semi-supervisé
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 1/4
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 2/4
o Apprentissage supervisé (en anglais, Y
classification) :
o On a des points de n classes différentes
(par exemple n=2), l'ensemble
d'apprentissage
o On voudra par la suite classer des
nouveaux points : C'est l'ensemble des
points pour lesquels on voudra appliquer
un modèle
Espace descriptif (ici à 2 dimensions)
*
X Y Classe
2 5 vert
Ensemble X
d'apprentissage 7 4 rouge
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 3/4
o Classification, suite : Y
o On cherche donc un modèle qui va
définir des frontières dans l'espace de
description (c'est l'apprentissage)
o On en déduit, pour de nouveaux points
pas encore classés, leur classe
d'appartenance
*
X Y Classe
2 5 vert
Ensemble X
d'apprentissage 7 4 rouge
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 4/4
o Apprentissage non supervisé ("clustering")
X
o On a des points sans information de
classe
o On cherche des groupes dans les
données
o On en déduit, pour de nouveaux points
pas encore classés, leur groupe (cluster)
d'appartenance *
Espace descriptif (ici à 2 dimensions)
X Y X
2 5
Ensemble
d'apprentissage 7 4
(...) (...)
Nouvel
élément :
10 2 *
Y
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Chapitre 1 – Classification semi-
supervisée
➨ Principe :
En classification supervisée traditionnelle, on apprend à partir d'un
ensemble d'apprentissage composé de données labellisées
Problème : il est souvent coûteux d'obtenir les labels, alors qu'en général
il est peu coûteux d'obtenir les données sans label
Exemples :
– appétence (oui / non) pour une offre commerciale en fonction
du profil client => nécessite une campagne sur des centaines ou
milliers de clients
– réaction à un nouveau médicament ( OK /pas OK) en fonction
de paramètres du diagnostic => nécessite des dizaines de tests
sur des volontaires
Par contre : il est souvent peu coûteux d'obtenir les données descriptives
(sans le "résultat", le label)
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
1. 1 Problématique Résultat d'une hypothèse de
densité : bon.
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 1/5
➨ Méthodes de mélange
Hypothèse : les différentes classes sont générées par exemple par des
gaussiennes
Principe : on utilise un algorithme type Expectation Maximization. On
s'assure que le modèle s'adapte bien à la distribution des points labellisés
mais aussi des points non labellisés
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 2/5
➨ Self-Training
Principe :
On utilise un algorithme de classification traditionnel qu'on entraîne
avec les données d'apprentissage labellisées
On classifie les données d'apprentissage mais non labellisées avec
l'algorithme
On sélectionne les exemples prédits avec la meilleure confiance et
on les considère maintenant comme données d'apprentissage
labellisées
... le processus peut être répété plusieurs fois.
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 3/5
➨ Co-Training
Principe :
On suppose que les variables peuvent être séparées en 2 sous-
ensembles A et B et que chaque sous-ensemble est suffisant pour
apprendre un bon classifieur.
On entraîne 2 classifieurs respectivement sur l'ensemble A et
l'ensemble B, avec les points labellisés uniquement.
Puis chaque classifieur
– labellise (classe) les points non labellisés
– donne les points avec les labels prédits pour lesquels il a le plus
confiance à l'autre classifieur qui va les utiliser comme nouveaux
points labellisés
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 4/5
➨ Eviter les coupures dans les régions denses
Principe :
On suppose que dans les régions denses on a plutôt une classe
bien représentée
On utilise un classifieur traditionnel mais on va ajouter à
l'algorithme un dispositif de pénalisation des frontières denses
Frontière naturelle, mais à éviter (région dense)
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 5/5
➨ Méthodes basées sur des graphes
Principe :
On doit représenter les données sous forme de graphe. Par
exemple, on construit un graphe des 2 plus proches voisins.
On applique ensuite un algorithme qui va "diffuser" les labels sur les
noeuds labellisés
Problème : algorithmes souvent en complexité O(n3) ou plus
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Chapitre 2 : Clustering semi-supervisé
➨ C'est du clustering, mais en fait :
on dispose d'un "superviseur" qui va nous apporter
quelques exemples labellisés
ou quelques informations sous la forme de contraintes : tel exemple
ne doit pas ressembler à tel autre, tel exemple doit être dans le même
cluster que tel autre...
on évaluera les résultats selon un mode supervisé (pureté des clusters
selon les classes cibles en général)
➨ Avantages
Clustering plus "significatif"
Peut être vu comme une méthode supervisée simple et souvent
performante même avec peu d'information supervisée
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé -
Principes
Semi-supervision par contraintes : l'utilisateur ajoute des contraintes, par
exemple des liens "cannot link" et "must link" entre quelques instances
must link
cannot
link
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé, principes
Semi-supervision par labellisation : l'utilisateur ajoute des labels sur
certaines instances (sur l'exemple, des labels "rouges" et "verts")
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 1
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 2
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
3. Apprentissage de métrique
➨ Constat : beaucoup d'algorithmes d'apprentissage s'appuient sur une
fonction de distance
Méthodes de clustering : K-Means, Classification Hiérarchique Ascendante,
cartes de Kohonen...
Méthodes supervisées : Fonction radiales de bases (RBFN), LVQ,
Algorithme à K plus proche voisins
... ET Les Méthodes semi-supervisées
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Usages de l'apprentissage de
métrique
➨ Principales utilisations actuelles dans la littérature
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Distances : Rappels et exemples
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Représentation d'une distance
paramétrable
1. Pondération des attributs n
Par exemple, distance euclidienne pondérée
par des poids wi,...,wn
d ( x, y ) = ∑
i= 1
wi2 ( xi − yi ) 2
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Algorithmes d'apprentissage de
métrique
➨ Idée sous-jacente
Obtenir une distance faible pour les objets similaires
Obtenir une distance nulle ou très faible pour des objets identiques
("identique" peut être relatif à une classe)
Obtenir une distance importante pour des objets différents ("différent"
peut être relatif à une classe).
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Discriminer selon la distance...
n
Distance non paramétrée non utilisable : la
d ( x, y ) = ∑i= 1
( xi − yi ) 2 distance sera corrompue par la contribution de
nombreux attributs non significatifs
A1 A2 A3 A4 A5 Classe
(informatif (informatif) (Bruit) (Bruit) (Bruit) cible
)
1 1 3 5 4 Oui
5 4 2 1 2 Non
1 2 4 1 4 Oui
Distance paramétrée
intégrant un poids sur chaque
attribut :
n
d ( x, y ) = ∑
i= 1
wi2 ( xi − yi ) 2 renforcer le poids des
attributs significatifs
diminuer voire supprimer le poids des
attributs bruités ou non informatifs.
Des poids nuls pour des attributs non significatifs, même s'ils ne définissent plus exactement une
métrique, peuvent être très intéressants tant d'un point de vue explicatif que d'un point de vue des
performances.
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Principe de l'apprentissage de métrique
➨ Evaluer la métrique
Utilise un ensemble de test, et de nouveau une information indiquant des
exemples d'objets similaires ou différents
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
RELIEF 1/3
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
RELIEF 2/3
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
RELIEF 3/3
➨ Relief F
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
ANNEXES
The present document contains information that remains the property of France Telecom. The recipient’s
acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
any of its contents whatsoever without France Telecom’s prior written agreement.
➨ Principe
Limitation à 100 instances par data set
excepté pour Iris, ensemble d'apprentissage relativement petit
Utilisation d'un système d'apprentissage de métrique + modèle à 1 plus
proche voisin sur l'ensemble d'apprentissage
Quelques fichiers de données de l'UCI + 2 datasets artificiels
20 cross-validations, et uniquement 100 "cycles d'apprentissage"
Résultats calculés sur l'ensemble de test restant, calcul du taux d'erreur
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs
Centroids
DataSet FCPG RELIEFF VNS STOCHAS LAZY Classe
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs
70
60
50 FCPG
RELIEFF
40
VNS
30 STOCHAS
LAZY
20 CentroidsClasse
10
0 t
t
xt
xt
t
t
t
t
t
tx
.tx
.tx
t
.tx
.tx
.tx
.tx
.tx
r.t
t.t
e.
ss
ar
is
im
re
40
ric
en
tte
icl
\ir
on
la
he
D
m
et
m
\le
eh
ta
20
\s
sp
or
M
eg
a\
da
ta
\v
ta
In
ng
ef
t
Rappel : 100
no
da
ta
\s
da
da
or
av
ta
ni
da
\io
\x
ar
\w
da
instances en
ta
ta
Le
ta
da
da
da
aT
apprentissage.
at
\D
ta
da
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Points de repères
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Références
➨ Relief
Marko Robnik-Sikonja, Igor Kononenko: Theoretical and Empirical
Analysis of ReliefF and RReliefF. Machine Learning 53 (1-2): 23-69 (2003)
➨ Clustering semi-supervisé
E.P. Xing, A.Y Ng, M.I. Jordan, S. Russel: Distance metric learning, wiht
application to clustering with side-information, advances in NIPS 2003.
M. Bilenko, S. Basu, R.J. Mooney : Integrating constraints and metric
learning in semi supervised cluserting, ICML 2004.
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006