Apprentissage Semi-Supervise

L'Apprentissage Semi-
Supervisé
Quelques éléments
Frank Meyer
France Telecom R&D /TECH/SUSI/TSI
The present document contains information that remains the property of France Telecom. The recipient’s
acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
any of its contents whatsoever without France Telecom’s prior written agreement.
(Nom du fichier) - D1 - 06-07-2006

Sommaire
0. Quelques rappels & terminologie usuelle
1. Classification semi-supervisée
1.1 Problématique
1.2 Panorama général des méthodes
2. Clustering semi-supervisé
3. Le cas de l'apprentissage de métrique
France Télécom R&D Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 1/4
➨ Terminologie traditionnelle en data mining / apprentissage automatique

Exemples = instances = points = records = objets = lignes des données
Variables = attributs = coordonnées = features = propriétés = colonnes de

données
Classe = label = variable cible = variable à prédire (domaine supervisé)
Classification = classification supervisée = apprentissage supervisé

Exemples de méthodes : arbre de décision C5 ou CART, réseaux
de neurones type perceptron, régression linéaire, régression logistique,
K-plus-proches-voisins, Support Vector Machine...
Clustering = classification non supervisée (= malheureusement parfois

classification en français)
 exemples de méthodes : K-Means, Classification Hiérarchique
Ascendante, carte de Kohonen
o Apprentissage supervisé (en anglais, Y
classification) :
o On a des points de n classes différentes
(par exemple n=2), l'ensemble
d'apprentissage
o On voudra par la suite classer des
nouveaux points : C'est l'ensemble des
points pour lesquels on voudra appliquer
un modèle
Espace descriptif (ici à 2 dimensions)
*
X Y Classe
2 5 vert
Ensemble X
d'apprentissage 7 4 rouge
(...) (...) (...)

Nouvel 8 3 ?
élément :
o Classification, suite : Y
o On cherche donc un modèle qui va
définir des frontières dans l'espace de
description (c'est l'apprentissage)
o On en déduit, pour de nouveaux points
pas encore classés, leur classe
d'appartenance
*
X Y Classe
2 5 vert
Ensemble X
d'apprentissage 7 4 rouge
(...) (...) (...)

Nouvel 8 3 Prédit : rouge
élément :
o Apprentissage non supervisé ("clustering")
X
o On a des points sans information de
classe
o On cherche des groupes dans les
données
o On en déduit, pour de nouveaux points
pas encore classés, leur groupe (cluster)
d'appartenance *
X Y X
2 5
Ensemble
d'apprentissage 7 4
(...) (...)
Nouvel
élément :
10 2 *
Y
Chapitre 1 – Classification semi-
supervisée
➨ Principe :
En classification supervisée traditionnelle, on apprend à partir d'un
ensemble d'apprentissage composé de données labellisées
Problème : il est souvent coûteux d'obtenir les labels, alors qu'en général
il est peu coûteux d'obtenir les données sans label
 Exemples :
– appétence (oui / non) pour une offre commerciale en fonction
du profil client => nécessite une campagne sur des centaines ou
milliers de clients
– réaction à un nouveau médicament ( OK /pas OK) en fonction
de paramètres du diagnostic => nécessite des dizaines de tests
sur des volontaires
Par contre : il est souvent peu coûteux d'obtenir les données descriptives
(sans le "résultat", le label)
Apprentissage semi-supervisé : on va apprendre avec un peu de

données labellisées et beaucoup de données non labellisées
1. 1 Problématique Résultat d'une hypothèse de
densité : bon.
➨ Comment apprendre aussi à partir de

données non labellisées ?
On utilise des hypothèses
complémentaires, par exemple de densités,
de modèles sous-jacents...
➨ A-t-on des garanties que cela fonctionne

dans le cas général ?
Aucune. On doit poser des hypothèses et
tester (plusieurs essais en général
nécessaires)
➨ 2 dilemmes encore non résolus :

Est-il plus coûteux d'acquérir les labels ou
de tester plusieurs hypothèses ?
Vaut il mieux utiliser une méthode de
classification non supervisée ou méthode
supervisée traditionnelle puissante ?
Résultat d'une hypothèse de

densité : mauvais !
Méthodes de classification semi-
supervisées 1/5
➨ Méthodes de mélange
Hypothèse : les différentes classes sont générées par exemple par des
gaussiennes
Principe : on utilise un algorithme type Expectation Maximization. On
s'assure que le modèle s'adapte bien à la distribution des points labellisés
mais aussi des points non labellisés
supervisées 2/5
➨ Self-Training
Principe :
On utilise un algorithme de classification traditionnel qu'on entraîne
avec les données d'apprentissage labellisées
 On classifie les données d'apprentissage mais non labellisées avec
l'algorithme
 On sélectionne les exemples prédits avec la meilleure confiance et
on les considère maintenant comme données d'apprentissage
labellisées
 ... le processus peut être répété plusieurs fois.
 Le classifieur utilise donc ses propres prédictions pour apprendre

lui-même.
supervisées 3/5
➨ Co-Training
Principe :
 On suppose que les variables peuvent être séparées en 2 sous-
ensembles A et B et que chaque sous-ensemble est suffisant pour
apprendre un bon classifieur.
 On entraîne 2 classifieurs respectivement sur l'ensemble A et
l'ensemble B, avec les points labellisés uniquement.
 Puis chaque classifieur
– labellise (classe) les points non labellisés
– donne les points avec les labels prédits pour lesquels il a le plus
confiance à l'autre classifieur qui va les utiliser comme nouveaux
points labellisés
 Peut être vu comme un self-training croisé à 2 classifieurs
supervisées 4/5
➨ Eviter les coupures dans les régions denses
Principe :
 On suppose que dans les régions denses on a plutôt une classe
bien représentée
 On utilise un classifieur traditionnel mais on va ajouter à
l'algorithme un dispositif de pénalisation des frontières denses
Frontière naturelle, mais à éviter (région dense)
supervisées 5/5
➨ Méthodes basées sur des graphes
Principe :
On doit représenter les données sous forme de graphe. Par
exemple, on construit un graphe des 2 plus proches voisins.
On applique ensuite un algorithme qui va "diffuser" les labels sur les
noeuds labellisés
 Problème : algorithmes souvent en complexité O(n3) ou plus
Chapitre 2 : Clustering semi-supervisé
➨ C'est du clustering, mais en fait :
on dispose d'un "superviseur" qui va nous apporter
quelques exemples labellisés
ou quelques informations sous la forme de contraintes : tel exemple
ne doit pas ressembler à tel autre, tel exemple doit être dans le même
cluster que tel autre...
on évaluera les résultats selon un mode supervisé (pureté des clusters
selon les classes cibles en général)
➨ Avantages
Clustering plus "significatif"
Peut être vu comme une méthode supervisée simple et souvent
performante même avec peu d'information supervisée
➨ 2 grandes façons de procéder

1. Apprendre une métrique puis utiliser un algorithme de clustering
standard,
2. ou bien utiliser un algorithme qui travaille directement sur les contraintes.
2.1 Clustering semi-supervisé -
Principes
Semi-supervision par contraintes : l'utilisateur ajoute des contraintes, par
exemple des liens "cannot link" et "must link" entre quelques instances
must link
cannot
link
En résultat on obtient des groupes (sans

label). On est vraiment dans le domaine
non supervisé.
2.1 Clustering semi-supervisé, principes
Semi-supervision par labellisation : l'utilisateur ajoute des labels sur
certaines instances (sur l'exemple, des labels "rouges" et "verts")
En résultat on obtient des groupes qu'on

peut labelliser par les instances qu'ils
contiennent. En fait on est plutôt dans un
domaine supervisé.
Clustering semi-supervisé - exemple 1
➨ XING 2003 : clustering par apprentissage de métrique

Utilisation de contraintes de type Must Link
 avec signification particulière : "doit être proche"
Information supervisée : un ensemble de couples Must Link (xi,yi)
Utilisation d'une fonction de coût
 idée de base : somme des distances des couples => coût
 avec une contrainte complémentaire : la métrique ne doit pas être
nulle, la somme des poids des attributs est constante
Deux algorithmes pour trouver une métrique diagonale (poids des
attributs) ou matrice pleine (poids attributs + coefficients de covariance)
 utilise une technique d'optimisation de la fonction de coût en faisant
varier les paramètres recherchés.
– Type "descente de gradient" (algo de Newton)
Clustering semi-supervisé - exemple 2
➨ Bilenko 2004 : clustering par apprentissage de métrique

Utilisation de contraintes de type Must Link et Cannot Link
 avec signification "standard"
– a Must Link b => a et b doivent être dans le même cluster
– a Cannot Link b => a et b doivent être dans des clusters différents
Information supervisée : un ensemble de couples Must Link (xi,yi) et un ensemble
de couples Cannot Link (xi,yi)
Utilisation d'une fonction de coût
Coût de chaque contrainte non respectée :
– a ML b non respectée => coût proportionnel à la distance qui les sépare
– a CL b non respectée => coût symétrique au coût ML
+ Coût du clustering :
– somme distances aux barycentres des instances à leur cluster
– avec une métrique sous-jacente "matrice pleine" (permet de clusters de
formes variables, non limités à la forme "sphérique")
Optimisations (complexes) effectuées à l'intérieur de l'algorithme K-Means
3. Apprentissage de métrique
➨ Constat : beaucoup d'algorithmes d'apprentissage s'appuient sur une
fonction de distance
Méthodes de clustering : K-Means, Classification Hiérarchique Ascendante,
cartes de Kohonen...
Méthodes supervisées : Fonction radiales de bases (RBFN), LVQ,
Algorithme à K plus proche voisins
... ET Les Méthodes semi-supervisées
➨ Performances de ces algorithmes : dépendent directement de la qualité

de la métrique utilisée.
Généralement, métrique choisie "manuellement" ou "intuitivement" : souvent
il s'agit d'une distance euclidienne sur les attributs explicatifs normalisés dans
une intervalle [0;1] (suppression de l'influence de l'échelle de chaque attribut)
L'apprentissage de métrique : apprendre une fonction de distance
(paramétrée) automatiquement... pour qu'elle soit bien adaptée au problème
qu'on traite.
Usages de l'apprentissage de
métrique
➨ Principales utilisations actuelles dans la littérature
Les méthodes de clustering dites semi-supervisées

Permet d'adapter les clusters formés en utilisant quelques informations
supervisées (labels ou contraintes)
Correspond à un domaine du clustering semi-supervisé
Etudié depuis peu
Classifieurs supervisé dits Lazy Learners ou K-Nearest Neighbors Classifiers

ou méthodes à plus K plus proches voisins
 Permet de résoudre le principal problème des classifieurs à plus
proches voisins : l'inadaptation de la fonction de distance si elle prend en
compte de nombreux attributs non significatifs
 Etudié depuis longtemps (sous la terminologie "Feature weighting
methods", ou "pondération de variables")
Distances : Rappels et exemples
➨ Définition d'une métrique

Une métrique ou distance sur un ensemble X est
une application d : X.X => [0;+∞[ vérifiant les n
propriétés suivantes : d ( x, y ) = ∑i= 1

( xi − yi ) 2
1. d(x,y) = d(y,x) symétrie
2. d(x,y) = 0 x=y identité (*) 1
 n
P
P
3. d(x,y) + d(y,z) ≥ d(x,z) inégalité triangulaire d P ( x, y ) =  ∑ xi − yi 
On dit alors que (X,d) est un espace métrique  i= 1 
➨ Exemples de métriques. d ∞ ( x, y ) = max i xi − yi

Soit x=(x1,...,xn) et y (y1,...,yn) deux points d'un
espace à n dimensions n
 Distance euclidienne "classique" : d Manhantan ( x, y ) = ∑
i= 1
xi − yi
 Norme P
 Norme infinie
 distance de Manhattan d Triviale ( x, y ) = 1 si x ≠ y et 0 si x = y
 distance triviale
(*) si (2) n'est pas respecté on devrait parler en fait de pseudo-métrique.
Représentation d'une distance
paramétrable
1. Pondération des attributs n
Par exemple, distance euclidienne pondérée
par des poids wi,...,wn
d ( x, y ) = ∑
i= 1
wi2 ( xi − yi ) 2
3. Représentation par une matrice M positive

Permet de prendre en compte des éléments
de covariances entre les attributs
d ( x, y ) = ( x − y)T M ( x − y)
➨ Avantage d'une métrique de type matrice

diagonale : revient à une pondération des
attributs
résultats plus lisibles (notion d'importance
de l'attribut)
paramètres augmentant seulement de
manière linéaire avec la dimension
(quadratique dans le cas d'une matrice non
diagonale)
Algorithmes d'apprentissage de
métrique
➨ Idée sous-jacente
Obtenir une distance faible pour les objets similaires
Obtenir une distance nulle ou très faible pour des objets identiques
("identique" peut être relatif à une classe)
Obtenir une distance importante pour des objets différents ("différent"
peut être relatif à une classe).
➨ Notion d'objets similaires ou dissimilaires ?

Implique une idée de supervision : on aura besoin d'une information
indiquant des exemples d'objets similaires et d'objets différents
Discriminer selon la distance...
n
Distance non paramétrée non utilisable : la
d ( x, y ) = ∑i= 1
( xi − yi ) 2 distance sera corrompue par la contribution de
nombreux attributs non significatifs
A1 A2 A3 A4 A5 Classe
(informatif (informatif) (Bruit) (Bruit) (Bruit) cible
)
1 1 3 5 4 Oui
5 4 2 1 2 Non
1 2 4 1 4 Oui
Distance paramétrée
intégrant un poids sur chaque
attribut :
n
d ( x, y ) = ∑
i= 1
wi2 ( xi − yi ) 2 renforcer le poids des
attributs significatifs
diminuer voire supprimer le poids des
attributs bruités ou non informatifs.
Des poids nuls pour des attributs non significatifs, même s'ils ne définissent plus exactement une
métrique, peuvent être très intéressants tant d'un point de vue explicatif que d'un point de vue des
performances.
Principe de l'apprentissage de métrique
➨ Utiliser une information indiquant des exemples d'objets similaires et

différents
Utiliser des contraintes sur des paires d'objets : les objets x et y doivent
être similaires ou les objets x et y doivent être dissimilaires
Ou bien : Utiliser une information de classe dans un contexte
d'apprentissage supervisé classique.
➨ Calculer les paramètres de la métrique

Utiliser une fonction de coût + un algorithme d'optimisation
ou utiliser un algorithme spécifique
➨ Evaluer la métrique
Utilise un ensemble de test, et de nouveau une information indiquant des
exemples d'objets similaires ou différents
RELIEF 1/3
➨ Relief est une famille d'algorithmes d'apprentissage de métrique pour

de l'apprentissage supervisé
➨ La famille Relief est connue pour ses bonnes performances dans

l'estimation du poids des attributs
➨ Ces algorithmes approximent le poids de chaque attribut A en utilisant

en modèle sous-jacent un modèle à plus proche voisin.
➨ Pour chaque attribut A et pour toute instance x de l'ensemble

d'apprentissage :
W[A]= P(valeur différente de A / le plus proche voisin de x est de même classe) -
P(valeur différente de A / le plus proche voisin de x est de classe différente)
RELIEF 2/3
➨ Principe général de l'algorithme. Soit m le nombre d'exemples en apprentissage

et n le nombre d'attribut. RELIEF (pour 2 classes) :
Mettre tous les poids W[J] à 0

Pour i=1 jusqu'à m faire
 choisir au hasard une instance Ri
 trouver instance la plus proche de Ri de même classe, notée H (Hit)
 trouver l'instance la plus proche de Ri de classe différente, notée M (Miss)
 pour J=1 jusqu'à n faire
W[J] = W[J] - diff(J,Ri,H) / m + diff(J,Ri,M) / m
Fin
Fin
➨ Remarque : la métrique en cours d'estimation n'est pas utilisée pour la

recherche des plus proches voisins : on utilise en général une distance
classique, non pondérée
RELIEF 3/3
➨ Relief F
Généralisation de Relief pour du multi-classe (un peu plus complexe).
 Utilise des K plus proches voisins

 Peut gérer des données incomplètes ou bruitées
ANNEXES
The present document contains information that remains the property of France Telecom. The recipient’s
acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
any of its contents whatsoever without France Telecom’s prior written agreement.
(Nom du fichier) - D29 - 06-07-2006

Exemple de bench effectué
➨ Test de la vitesse de convergence d'un algorithme d'apprentissage de

métrique dans le cas où on ne dispose que de très peu de données
application visée : clustering semi-supervisé interactif
suppose qu'on ne peut pas avoir des centaines ou des milliers
d'exemples "gratuitement"
➨ Principe
Limitation à 100 instances par data set
 excepté pour Iris, ensemble d'apprentissage relativement petit
Utilisation d'un système d'apprentissage de métrique + modèle à 1 plus
proche voisin sur l'ensemble d'apprentissage
Quelques fichiers de données de l'UCI + 2 datasets artificiels
20 cross-validations, et uniquement 100 "cycles d'apprentissage"
Résultats calculés sur l'ensemble de test restant, calcul du taux d'erreur
Bench, résultats en % Erreurs
Centroids
DataSet FCPG RELIEFF VNS STOCHAS LAZY Classe
data\ionosphere.txt 15.65737 15.89641 13.98406 14.58167 15.87649 12.66932
data\iris.txt 4.4 4.2 3.9 4.8 4.5 3.6
data\sonar.txt 17.40741 19.12037 17.91667 17.91667 17.36111 17.26852
data\segment.txt 13.83937 11.31222 11.67195 12.01357 13.88688 11.67873
data\letter.txt 61.05729 50.85402 54.01608 55.01256 61.05729 60.60176
data\vehicle.txt 39.89946 39.23592 40.19437 39.36327 39.84584 40.37534
data\glass.txt 34.69298 34.21053 30.57018 29.7807 34.73684 37.85088
data\waveform40.txt 32.01429 25.72143 32.30204 32.77857 32.49388 24.72653
data\DataTLearningMetric.txt 10.05 2.7 6.5 6.1 10.15 2.9
data\xorIn20Dim.txt 26.77778 0 3.677778 0.866667 37.04444 44.07778
100 instances en apprentissage.
Bench, résultats en % Erreurs
70
60
50 FCPG
RELIEFF
40
VNS
30 STOCHAS
LAZY
20 CentroidsClasse
10
0 t
t
xt
xt
t
t
t
t
t
tx
.tx
.tx
t
.tx
.tx
.tx
.tx
.tx
r.t
t.t
e.
ss
ar
is
im
re
40
ric
en
tte
icl
\ir
on
la
he
D
m
et
m
\le
eh
ta
20
\s
sp
or
M
eg
a\
da
ta
\v
ta
In
ng
ef
t
Rappel : 100
no
da
ta
\s
da
da
or
av
ta
ni
da
\io
\x
ar
\w
da
instances en
ta
ta
Le
ta
da
da
da
aT
apprentissage.
at
\D
ta
da
Points de repères
dataset Train size performances/techniques

Ionosphere 200 instances moins de 10% d'erreur, moins de 6% avec C4.5
de l'ordre de 15% d'erreur sur un MLP à plusieurs couches cachées,
sonar 100 instances 25% pour C4.5
de l'ordre de 12 à 13 % pour du CART ou du Neural Network, 18%
segment 210 reporté sur du Kppv
de l'ordre de 56% d'erreur pour un système à base de fenêtres de
letter 1% soit 200 instances Parzen
16000 instances 2% d'erreur avec technique type SVM
90% 35% avec du naïve Bayes, 12% avec CART
vehicle pas d'information

waveform 90% entre 25% et 20% d'erreur respectivement pour naïve bayes et C4.5
Références
➨ Méthodes à K-plus proches voisins ou "Lazy learners"

D. Wettschereck, D.W. Aha, and T. Mohri, `A review and empirical
comparison of feature weighting methods for a class of lazy learning
algorithms', AI Review, 11, 273--314, (1997).
➨ Relief
Marko Robnik-Sikonja, Igor Kononenko: Theoretical and Empirical
Analysis of ReliefF and RReliefF. Machine Learning 53 (1-2): 23-69 (2003)
➨ Clustering semi-supervisé
E.P. Xing, A.Y Ng, M.I. Jordan, S. Russel: Distance metric learning, wiht
application to clustering with side-information, advances in NIPS 2003.
M. Bilenko, S. Basu, R.J. Mooney : Integrating constraints and metric
learning in semi supervised cluserting, ICML 2004.

Apprentissage Semi-Supervise

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apprentissage Semi-Supervise

Transféré par

Droits d'auteur :

Formats disponibles

L'Apprentissage Semi-

(Nom du fichier) - D1 - 06-07-2006

0. Quelques rappels & terminologie usuelle

3. Le cas de l'apprentissage de métrique

➨ Terminologie traditionnelle en data mining / apprentissage automatique

Variables = attributs = coordonnées = features = propriétés = colonnes de

Classe = label = variable cible = variable à prédire (domaine supervisé)

Classification = classification supervisée = apprentissage supervisé

Clustering = classification non supervisée (= malheureusement parfois

(...) (...) (...)

Espace descriptif (ici à 2 dimensions)

(...) (...) (...)

Apprentissage semi-supervisé : on va apprendre avec un peu de

➨ Comment apprendre aussi à partir de

➨ A-t-on des garanties que cela fonctionne

➨ 2 dilemmes encore non résolus :

Résultat d'une hypothèse de

 Le classifieur utilise donc ses propres prédictions pour apprendre

 Peut être vu comme un self-training croisé à 2 classifieurs

➨ 2 grandes façons de procéder

En résultat on obtient des groupes (sans

En résultat on obtient des groupes qu'on

➨ XING 2003 : clustering par apprentissage de métrique

➨ Bilenko 2004 : clustering par apprentissage de métrique

➨ Performances de ces algorithmes : dépendent directement de la qualité

Les méthodes de clustering dites semi-supervisées

Classifieurs supervisé dits Lazy Learners ou K-Nearest Neighbors Classifiers

➨ Définition d'une métrique

propriétés suivantes : d ( x, y ) = ∑i= 1

➨ Exemples de métriques. d ∞ ( x, y ) = max i xi − yi

3. Représentation par une matrice M positive

➨ Avantage d'une métrique de type matrice

➨ Notion d'objets similaires ou dissimilaires ?

➨ Utiliser une information indiquant des exemples d'objets similaires et

➨ Calculer les paramètres de la métrique

➨ Relief est une famille d'algorithmes d'apprentissage de métrique pour

➨ La famille Relief est connue pour ses bonnes performances dans

➨ Ces algorithmes approximent le poids de chaque attribut A en utilisant

➨ Pour chaque attribut A et pour toute instance x de l'ensemble

➨ Principe général de l'algorithme. Soit m le nombre d'exemples en apprentissage

Mettre tous les poids W[J] à 0

➨ Remarque : la métrique en cours d'estimation n'est pas utilisée pour la

Généralisation de Relief pour du multi-classe (un peu plus complexe).

 Utilise des K plus proches voisins

(Nom du fichier) - D29 - 06-07-2006

➨ Test de la vitesse de convergence d'un algorithme d'apprentissage de

data\ionosphere.txt 15.65737 15.89641 13.98406 14.58167 15.87649 12.66932

data\iris.txt 4.4 4.2 3.9 4.8 4.5 3.6

data\sonar.txt 17.40741 19.12037 17.91667 17.91667 17.36111 17.26852

data\segment.txt 13.83937 11.31222 11.67195 12.01357 13.88688 11.67873

data\letter.txt 61.05729 50.85402 54.01608 55.01256 61.05729 60.60176

data\vehicle.txt 39.89946 39.23592 40.19437 39.36327 39.84584 40.37534

data\glass.txt 34.69298 34.21053 30.57018 29.7807 34.73684 37.85088

data\waveform40.txt 32.01429 25.72143 32.30204 32.77857 32.49388 24.72653

data\DataTLearningMetric.txt 10.05 2.7 6.5 6.1 10.15 2.9

data\xorIn20Dim.txt 26.77778 0 3.677778 0.866667 37.04444 44.07778

100 instances en apprentissage.

dataset Train size performances/techniques

16000 instances 2% d'erreur avec technique type SVM

90% 35% avec du naïve Bayes, 12% avec CART

vehicle pas d'information

➨ Méthodes à K-plus proches voisins ou "Lazy learners"

Vous aimerez peut-être aussi