Vous êtes sur la page 1sur 34

L'Apprentissage Semi-

Supervisé
Quelques éléments
Frank Meyer
France Telecom R&D /TECH/SUSI/TSI

The present document contains information that remains the property of France Telecom. The recipient’s
acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
any of its contents whatsoever without France Telecom’s prior written agreement.

(Nom du fichier) - D1 - 06-07-2006


Sommaire

0. Quelques rappels & terminologie usuelle

1. Classification semi-supervisée
1.1 Problématique
1.2 Panorama général des méthodes

2. Clustering semi-supervisé

3. Le cas de l'apprentissage de métrique

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 1/4

➨ Terminologie traditionnelle en data mining / apprentissage automatique


Exemples = instances = points = records = objets = lignes des données

Variables = attributs = coordonnées = features = propriétés = colonnes de


données

Classe = label = variable cible = variable à prédire (domaine supervisé)

Classification = classification supervisée = apprentissage supervisé


Exemples de méthodes : arbre de décision C5 ou CART, réseaux
de neurones type perceptron, régression linéaire, régression logistique,
K-plus-proches-voisins, Support Vector Machine...

Clustering = classification non supervisée (= malheureusement parfois


classification en français)
 exemples de méthodes : K-Means, Classification Hiérarchique
Ascendante, carte de Kohonen

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 2/4
o Apprentissage supervisé (en anglais, Y
classification) :
o On a des points de n classes différentes
(par exemple n=2), l'ensemble
d'apprentissage
o On voudra par la suite classer des
nouveaux points : C'est l'ensemble des
points pour lesquels on voudra appliquer
un modèle
Espace descriptif (ici à 2 dimensions)

*
X Y Classe

2 5 vert
Ensemble X
d'apprentissage 7 4 rouge

(...) (...) (...)


Nouvel 8 3 ?
élément :

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 3/4
o Classification, suite : Y
o On cherche donc un modèle qui va
définir des frontières dans l'espace de
description (c'est l'apprentissage)
o On en déduit, pour de nouveaux points
pas encore classés, leur classe
d'appartenance

Espace descriptif (ici à 2 dimensions)

*
X Y Classe

2 5 vert
Ensemble X
d'apprentissage 7 4 rouge

(...) (...) (...)


Nouvel 8 3 Prédit : rouge
élément :

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 4/4
o Apprentissage non supervisé ("clustering")
X
o On a des points sans information de
classe
o On cherche des groupes dans les
données
o On en déduit, pour de nouveaux points
pas encore classés, leur groupe (cluster)
d'appartenance *
Espace descriptif (ici à 2 dimensions)

X Y X

2 5
Ensemble
d'apprentissage 7 4

(...) (...)
Nouvel
élément :
10 2 *
Y

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Chapitre 1 – Classification semi-
supervisée
➨ Principe :
En classification supervisée traditionnelle, on apprend à partir d'un
ensemble d'apprentissage composé de données labellisées

Problème : il est souvent coûteux d'obtenir les labels, alors qu'en général
il est peu coûteux d'obtenir les données sans label
 Exemples :
– appétence (oui / non) pour une offre commerciale en fonction
du profil client => nécessite une campagne sur des centaines ou
milliers de clients
– réaction à un nouveau médicament ( OK /pas OK) en fonction
de paramètres du diagnostic => nécessite des dizaines de tests
sur des volontaires
Par contre : il est souvent peu coûteux d'obtenir les données descriptives
(sans le "résultat", le label)

Apprentissage semi-supervisé : on va apprendre avec un peu de


données labellisées et beaucoup de données non labellisées

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
1. 1 Problématique Résultat d'une hypothèse de
densité : bon.

➨ Comment apprendre aussi à partir de


données non labellisées ?
On utilise des hypothèses
complémentaires, par exemple de densités,
de modèles sous-jacents...

➨ A-t-on des garanties que cela fonctionne


dans le cas général ?
Aucune. On doit poser des hypothèses et
tester (plusieurs essais en général
nécessaires)

➨ 2 dilemmes encore non résolus :


Est-il plus coûteux d'acquérir les labels ou
de tester plusieurs hypothèses ?
Vaut il mieux utiliser une méthode de
classification non supervisée ou méthode
supervisée traditionnelle puissante ?

Résultat d'une hypothèse de


densité : mauvais !

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 1/5

➨ Méthodes de mélange
Hypothèse : les différentes classes sont générées par exemple par des
gaussiennes
Principe : on utilise un algorithme type Expectation Maximization. On
s'assure que le modèle s'adapte bien à la distribution des points labellisés
mais aussi des points non labellisés

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 2/5

➨ Self-Training
Principe :
On utilise un algorithme de classification traditionnel qu'on entraîne
avec les données d'apprentissage labellisées
 On classifie les données d'apprentissage mais non labellisées avec
l'algorithme
 On sélectionne les exemples prédits avec la meilleure confiance et
on les considère maintenant comme données d'apprentissage
labellisées
 ... le processus peut être répété plusieurs fois.

 Le classifieur utilise donc ses propres prédictions pour apprendre


lui-même.

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 3/5

➨ Co-Training
Principe :
 On suppose que les variables peuvent être séparées en 2 sous-
ensembles A et B et que chaque sous-ensemble est suffisant pour
apprendre un bon classifieur.
 On entraîne 2 classifieurs respectivement sur l'ensemble A et
l'ensemble B, avec les points labellisés uniquement.
 Puis chaque classifieur
– labellise (classe) les points non labellisés
– donne les points avec les labels prédits pour lesquels il a le plus
confiance à l'autre classifieur qui va les utiliser comme nouveaux
points labellisés

 Peut être vu comme un self-training croisé à 2 classifieurs

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 4/5
➨ Eviter les coupures dans les régions denses
Principe :
 On suppose que dans les régions denses on a plutôt une classe
bien représentée
 On utilise un classifieur traditionnel mais on va ajouter à
l'algorithme un dispositif de pénalisation des frontières denses
Frontière naturelle, mais à éviter (région dense)

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 5/5
➨ Méthodes basées sur des graphes
Principe :
On doit représenter les données sous forme de graphe. Par
exemple, on construit un graphe des 2 plus proches voisins.
On applique ensuite un algorithme qui va "diffuser" les labels sur les
noeuds labellisés
 Problème : algorithmes souvent en complexité O(n3) ou plus

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Chapitre 2 : Clustering semi-supervisé
➨ C'est du clustering, mais en fait :
on dispose d'un "superviseur" qui va nous apporter
quelques exemples labellisés
ou quelques informations sous la forme de contraintes : tel exemple
ne doit pas ressembler à tel autre, tel exemple doit être dans le même
cluster que tel autre...
on évaluera les résultats selon un mode supervisé (pureté des clusters
selon les classes cibles en général)

➨ Avantages
Clustering plus "significatif"
Peut être vu comme une méthode supervisée simple et souvent
performante même avec peu d'information supervisée

➨ 2 grandes façons de procéder


1. Apprendre une métrique puis utiliser un algorithme de clustering
standard,
2. ou bien utiliser un algorithme qui travaille directement sur les contraintes.

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé -
Principes
Semi-supervision par contraintes : l'utilisateur ajoute des contraintes, par
exemple des liens "cannot link" et "must link" entre quelques instances

must link

cannot
link

En résultat on obtient des groupes (sans


label). On est vraiment dans le domaine
non supervisé.

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé, principes
Semi-supervision par labellisation : l'utilisateur ajoute des labels sur
certaines instances (sur l'exemple, des labels "rouges" et "verts")

En résultat on obtient des groupes qu'on


peut labelliser par les instances qu'ils
contiennent. En fait on est plutôt dans un
domaine supervisé.

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 1

➨ XING 2003 : clustering par apprentissage de métrique


Utilisation de contraintes de type Must Link
 avec signification particulière : "doit être proche"
Information supervisée : un ensemble de couples Must Link (xi,yi)
Utilisation d'une fonction de coût
 idée de base : somme des distances des couples => coût
 avec une contrainte complémentaire : la métrique ne doit pas être
nulle, la somme des poids des attributs est constante
Deux algorithmes pour trouver une métrique diagonale (poids des
attributs) ou matrice pleine (poids attributs + coefficients de covariance)
 utilise une technique d'optimisation de la fonction de coût en faisant
varier les paramètres recherchés.
– Type "descente de gradient" (algo de Newton)

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 2

➨ Bilenko 2004 : clustering par apprentissage de métrique


Utilisation de contraintes de type Must Link et Cannot Link
 avec signification "standard"
– a Must Link b => a et b doivent être dans le même cluster
– a Cannot Link b => a et b doivent être dans des clusters différents
Information supervisée : un ensemble de couples Must Link (xi,yi) et un ensemble
de couples Cannot Link (xi,yi)
Utilisation d'une fonction de coût
Coût de chaque contrainte non respectée :
– a ML b non respectée => coût proportionnel à la distance qui les sépare
– a CL b non respectée => coût symétrique au coût ML
+ Coût du clustering :
– somme distances aux barycentres des instances à leur cluster
– avec une métrique sous-jacente "matrice pleine" (permet de clusters de
formes variables, non limités à la forme "sphérique")
Optimisations (complexes) effectuées à l'intérieur de l'algorithme K-Means

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
3. Apprentissage de métrique
➨ Constat : beaucoup d'algorithmes d'apprentissage s'appuient sur une
fonction de distance
Méthodes de clustering : K-Means, Classification Hiérarchique Ascendante,
cartes de Kohonen...
Méthodes supervisées : Fonction radiales de bases (RBFN), LVQ,
Algorithme à K plus proche voisins
... ET Les Méthodes semi-supervisées

➨ Performances de ces algorithmes : dépendent directement de la qualité


de la métrique utilisée.
Généralement, métrique choisie "manuellement" ou "intuitivement" : souvent
il s'agit d'une distance euclidienne sur les attributs explicatifs normalisés dans
une intervalle [0;1] (suppression de l'influence de l'échelle de chaque attribut)
L'apprentissage de métrique : apprendre une fonction de distance
(paramétrée) automatiquement... pour qu'elle soit bien adaptée au problème
qu'on traite.

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Usages de l'apprentissage de
métrique
➨ Principales utilisations actuelles dans la littérature

Les méthodes de clustering dites semi-supervisées


Permet d'adapter les clusters formés en utilisant quelques informations
supervisées (labels ou contraintes)
Correspond à un domaine du clustering semi-supervisé
Etudié depuis peu

Classifieurs supervisé dits Lazy Learners ou K-Nearest Neighbors Classifiers


ou méthodes à plus K plus proches voisins
 Permet de résoudre le principal problème des classifieurs à plus
proches voisins : l'inadaptation de la fonction de distance si elle prend en
compte de nombreux attributs non significatifs
 Etudié depuis longtemps (sous la terminologie "Feature weighting
methods", ou "pondération de variables")

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Distances : Rappels et exemples

➨ Définition d'une métrique


Une métrique ou distance sur un ensemble X est
une application d : X.X => [0;+∞[ vérifiant les n

propriétés suivantes : d ( x, y ) = ∑i= 1


( xi − yi ) 2
1. d(x,y) = d(y,x) symétrie
2. d(x,y) = 0 x=y identité (*) 1
 n
P
P
3. d(x,y) + d(y,z) ≥ d(x,z) inégalité triangulaire d P ( x, y ) =  ∑ xi − yi 
On dit alors que (X,d) est un espace métrique  i= 1 

➨ Exemples de métriques. d ∞ ( x, y ) = max i xi − yi


Soit x=(x1,...,xn) et y (y1,...,yn) deux points d'un
espace à n dimensions n
 Distance euclidienne "classique" : d Manhantan ( x, y ) = ∑
i= 1
xi − yi
 Norme P
 Norme infinie
 distance de Manhattan d Triviale ( x, y ) = 1 si x ≠ y et 0 si x = y
 distance triviale
(*) si (2) n'est pas respecté on devrait parler en fait de pseudo-métrique.

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Représentation d'une distance
paramétrable
1. Pondération des attributs n
Par exemple, distance euclidienne pondérée
par des poids wi,...,wn
d ( x, y ) = ∑
i= 1
wi2 ( xi − yi ) 2

3. Représentation par une matrice M positive


Permet de prendre en compte des éléments
de covariances entre les attributs
d ( x, y ) = ( x − y)T M ( x − y)

➨ Avantage d'une métrique de type matrice


diagonale : revient à une pondération des
attributs
résultats plus lisibles (notion d'importance
de l'attribut)
paramètres augmentant seulement de
manière linéaire avec la dimension
(quadratique dans le cas d'une matrice non
diagonale)

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Algorithmes d'apprentissage de
métrique

➨ Idée sous-jacente
Obtenir une distance faible pour les objets similaires
Obtenir une distance nulle ou très faible pour des objets identiques
("identique" peut être relatif à une classe)
Obtenir une distance importante pour des objets différents ("différent"
peut être relatif à une classe).

➨ Notion d'objets similaires ou dissimilaires ?


Implique une idée de supervision : on aura besoin d'une information
indiquant des exemples d'objets similaires et d'objets différents

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Discriminer selon la distance...
n
Distance non paramétrée non utilisable : la
d ( x, y ) = ∑i= 1
( xi − yi ) 2 distance sera corrompue par la contribution de
nombreux attributs non significatifs

A1 A2 A3 A4 A5 Classe
(informatif (informatif) (Bruit) (Bruit) (Bruit) cible
)
1 1 3 5 4 Oui

5 4 2 1 2 Non

1 2 4 1 4 Oui
Distance paramétrée
intégrant un poids sur chaque
attribut :
n
d ( x, y ) = ∑
i= 1
wi2 ( xi − yi ) 2 renforcer le poids des
attributs significatifs
diminuer voire supprimer le poids des
attributs bruités ou non informatifs.

Des poids nuls pour des attributs non significatifs, même s'ils ne définissent plus exactement une
métrique, peuvent être très intéressants tant d'un point de vue explicatif que d'un point de vue des
performances.

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Principe de l'apprentissage de métrique

➨ Utiliser une information indiquant des exemples d'objets similaires et


différents
Utiliser des contraintes sur des paires d'objets : les objets x et y doivent
être similaires ou les objets x et y doivent être dissimilaires
Ou bien : Utiliser une information de classe dans un contexte
d'apprentissage supervisé classique.

➨ Calculer les paramètres de la métrique


Utiliser une fonction de coût + un algorithme d'optimisation
ou utiliser un algorithme spécifique

➨ Evaluer la métrique
Utilise un ensemble de test, et de nouveau une information indiquant des
exemples d'objets similaires ou différents

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
RELIEF 1/3

➨ Relief est une famille d'algorithmes d'apprentissage de métrique pour


de l'apprentissage supervisé

➨ La famille Relief est connue pour ses bonnes performances dans


l'estimation du poids des attributs

➨ Ces algorithmes approximent le poids de chaque attribut A en utilisant


en modèle sous-jacent un modèle à plus proche voisin.

➨ Pour chaque attribut A et pour toute instance x de l'ensemble


d'apprentissage :
W[A]= P(valeur différente de A / le plus proche voisin de x est de même classe) -
P(valeur différente de A / le plus proche voisin de x est de classe différente)

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
RELIEF 2/3

➨ Principe général de l'algorithme. Soit m le nombre d'exemples en apprentissage


et n le nombre d'attribut. RELIEF (pour 2 classes) :

Mettre tous les poids W[J] à 0


Pour i=1 jusqu'à m faire
 choisir au hasard une instance Ri
 trouver instance la plus proche de Ri de même classe, notée H (Hit)
 trouver l'instance la plus proche de Ri de classe différente, notée M (Miss)
 pour J=1 jusqu'à n faire
W[J] = W[J] - diff(J,Ri,H) / m + diff(J,Ri,M) / m
Fin
Fin

➨ Remarque : la métrique en cours d'estimation n'est pas utilisée pour la


recherche des plus proches voisins : on utilise en général une distance
classique, non pondérée

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
RELIEF 3/3

➨ Relief F

Généralisation de Relief pour du multi-classe (un peu plus complexe).

 Utilise des K plus proches voisins


 Peut gérer des données incomplètes ou bruitées

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
ANNEXES

The present document contains information that remains the property of France Telecom. The recipient’s
acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
any of its contents whatsoever without France Telecom’s prior written agreement.

(Nom du fichier) - D29 - 06-07-2006


Exemple de bench effectué

➨ Test de la vitesse de convergence d'un algorithme d'apprentissage de


métrique dans le cas où on ne dispose que de très peu de données
application visée : clustering semi-supervisé interactif
suppose qu'on ne peut pas avoir des centaines ou des milliers
d'exemples "gratuitement"

➨ Principe
Limitation à 100 instances par data set
 excepté pour Iris, ensemble d'apprentissage relativement petit
Utilisation d'un système d'apprentissage de métrique + modèle à 1 plus
proche voisin sur l'ensemble d'apprentissage
Quelques fichiers de données de l'UCI + 2 datasets artificiels
20 cross-validations, et uniquement 100 "cycles d'apprentissage"
Résultats calculés sur l'ensemble de test restant, calcul du taux d'erreur

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs
Centroids
DataSet FCPG RELIEFF VNS STOCHAS LAZY Classe

data\ionosphere.txt 15.65737 15.89641 13.98406 14.58167 15.87649 12.66932

data\iris.txt 4.4 4.2 3.9 4.8 4.5 3.6

data\sonar.txt 17.40741 19.12037 17.91667 17.91667 17.36111 17.26852

data\segment.txt 13.83937 11.31222 11.67195 12.01357 13.88688 11.67873

data\letter.txt 61.05729 50.85402 54.01608 55.01256 61.05729 60.60176

data\vehicle.txt 39.89946 39.23592 40.19437 39.36327 39.84584 40.37534

data\glass.txt 34.69298 34.21053 30.57018 29.7807 34.73684 37.85088

data\waveform40.txt 32.01429 25.72143 32.30204 32.77857 32.49388 24.72653

data\DataTLearningMetric.txt 10.05 2.7 6.5 6.1 10.15 2.9

data\xorIn20Dim.txt 26.77778 0 3.677778 0.866667 37.04444 44.07778

100 instances en apprentissage.

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs
70

60

50 FCPG
RELIEFF
40
VNS
30 STOCHAS
LAZY
20 CentroidsClasse

10

0 t

t
xt
xt
t
t

t
t

t
tx

.tx
.tx

t
.tx

.tx
.tx

.tx

.tx
r.t
t.t

e.

ss
ar
is

im
re

40

ric
en

tte

icl
\ir

on

la
he

D
m

et
m

\le

eh
ta

20
\s
sp

or

M
eg

a\
da

ta

\v
ta

In
ng
ef
t

Rappel : 100
no

da

ta
\s

da
da

or
av
ta

ni
da
\io

\x
ar
\w
da

instances en
ta

ta
Le
ta
da

da
da

aT

apprentissage.
at
\D
ta
da

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Points de repères

dataset Train size performances/techniques


Ionosphere 200 instances moins de 10% d'erreur, moins de 6% avec C4.5
de l'ordre de 15% d'erreur sur un MLP à plusieurs couches cachées,
sonar 100 instances 25% pour C4.5
de l'ordre de 12 à 13 % pour du CART ou du Neural Network, 18%
segment 210 reporté sur du Kppv
de l'ordre de 56% d'erreur pour un système à base de fenêtres de
letter 1% soit 200 instances Parzen

16000 instances 2% d'erreur avec technique type SVM

90% 35% avec du naïve Bayes, 12% avec CART

vehicle pas d'information


waveform 90% entre 25% et 20% d'erreur respectivement pour naïve bayes et C4.5

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Références

➨ Méthodes à K-plus proches voisins ou "Lazy learners"


D. Wettschereck, D.W. Aha, and T. Mohri, `A review and empirical
comparison of feature weighting methods for a class of lazy learning
algorithms', AI Review, 11, 273--314, (1997).

➨ Relief
Marko Robnik-Sikonja, Igor Kononenko: Theoretical and Empirical
Analysis of ReliefF and RReliefF. Machine Learning 53 (1-2): 23-69 (2003)

➨ Clustering semi-supervisé
E.P. Xing, A.Y Ng, M.I. Jordan, S. Russel: Distance metric learning, wiht
application to clustering with side-information, advances in NIPS 2003.
M. Bilenko, S. Basu, R.J. Mooney : Integrating constraints and metric
learning in semi supervised cluserting, ICML 2004.

France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006

Vous aimerez peut-être aussi