Vous êtes sur la page 1sur 11

Abonnez-vous à DeepL Pro pour éditer ce doc

Visitez www.DeepL.com/pro pour en savoir plus.

Apprentissage incrémental de forêts de MNC pour la classification d'images à


grande échelle

Marko Ristin1 Matthieu Guillaumin 1 Juergen Gall 2 Luc Van Gool 1,3
123

ETH ZurichUniversité de BonnKU Leuven


Résumé devient fastidieux et ils sont surpassés par les
approches de type "plus proche voisin" ou "multi-
Ces dernières années, de grands ensembles de classes" [1, 6, 14, 26].
données d'images tels que "ImageNet", "TinyImages" Une hypothèse commune pour l'apprentissage
ou des réseaux sociaux en constante expansion multi-classes est que le nombre de classes est
comme "Flickr" sont apparus, posant de nouveaux connu lorsque la phase d'apprentissage
défis à la classification d'images qui n'étaient pas commence. Cela implique que les grands
apparents dans des ensembles d'images plus petits. ensembles de données mentionnés ci-dessus sont
En particulier, la gestion efficace d'ensembles de typiquement conçus comme statiques : le choix
données à croissance dynamique, où non seulement des classes est fixe, les classifieurs sont entraînés
la quantité d'images d'entraînement, mais aussi le pour celles-ci, et toute modification de la liste des
nombre de classes, augmentent avec le temps, est un classes (par exemple, l'ajout d'une nouvelle classe)
problème relativement inexploré. Pour y remédier,
implique de réentraîner tous les modèles à partir
nous introduisons les Nearest Class Mean Forests
de zéro. Compte tenu de l'explosion continue des
(NCMF), une variante des Random Forests où les
données visuelles dans notre vie quotidienne et de
nœuds de décision sont basés sur la classification par
la dynamique des réseaux sociaux, il est peu
la moyenne de la classe la plus proche (NCM). Non
seulement les NCMF sont plus performantes que les probable que ce scénario soit réaliste : de
forêts aléatoires classiques, mais elles sont nouvelles classes visuelles ne manqueront pas
également bien adaptées à l'intégration de nouvelles d'émerger et finiront par justifier leur
classes. À cette fin, nous proposons et comparons reconnaissance par les algorithmes de vision.
plusieurs approches pour incorporer les données de
nouvelles classes, de manière à étendre de façon 1
transparente la forêt précédemment formée au lieu
de la former à nouveau à partir de zéro. Dans nos a) b) x

expériences, nous montrons que les NCMF formés sur


de petits ensembles de données avec 10 classes x
peuvent être étendus à de grands ensembles de
données avec 1000 classes sans perte significative de
.. .. .. c) ..
précision par rapport à la formation à partir de zéro . . . .

sur les données complètes.


Figure 1 : Classification d'une image (illustrée par la
croix rouge) par un arbre unique. (a) Le vecteur de
1. Introduction caractéristiques est extrait, (b) l'image est assignée au
L'arrivée de grands ensembles de données tels que centroïde le plus proche (les couleurs indiquent une
"ImageNet" [7] ou "80 Million Tiny Images" [23] a direction supplémentaire), (c) l'image est assignée à la
introduit de nouveaux défis par rapport aux probabilité de classe trouvée à la feuille.
ensembles de données antérieurs avec beaucoup
moins de classes [10]. Au fur et à mesure que le
nombre de classes augmente et que leurs distances Dans cette optique, le schéma d'apprentissage
sémantiques et visuelles diminuent, l'entraînement statique qui prévaut aujourd'hui semble
des classificateurs classiques de type "un contre tous" particulièrement inadapté. En effet, non seulement
on voudrait éviter de ré-entraîner l'ensemble du fraction du coût de calcul. La deuxième contribution
système, mais apprendre à reconnaître une seule de ce travail est l'introduction d'approches efficaces
nouvelle classe devrait être beaucoup plus rapide pour la mise à jour de la structure de la forêt afin
lorsque de nombreuses classes sont déjà connues. On d'intégrer de nouvelles classes de manière à
observe donc, dans le contexte de la classification à maintenir une haute précision au coût le plus bas
grande échelle, un intérêt naissant pour les scénarios possible. Nous présentons une comparaison
d'apprentissage dynamique [14]. expérimentale approfondie de ces approches, en
Dans cet article, nous considérons le scénario étudiant l'influence de tous les paramètres (y compris
d'apprentissage multi-classes à grande échelle où de le nombre de classes initiales) sur la précision de la
nouvelles classes deviennent progressivement classification et sur le coût de calcul de
disponibles. Plutôt que d'avoir à réentraîner notre l'apprentissage et du test de la NCMF.
classifieur à partir de zéro à chaque étape (comme cela
serait nécessaire pour, par exemple, les SVM multiclasses 2. Travail connexe
[1]), nous visons un système qui peut intégrer La classification d'images sur de grands ensembles
gracieusement de nouvelles classes tout en limitant la de données a été largement étudiée [6, 13, 20], en
perte de précision par rapport au même système exploitant également les forêts aléatoires [5, 28].
entraîné à partir de toutes les classes conjointement. Dans [28], les auteurs utilisent une classification SVM
Nous appelons ce problème l'apprentissage incrémental. forte pour les nœuds de séparation, ce qui conduit à
Comme base de référence pour l'apprentissage une méthode très puissante capable d'aborder la
incrémental, on pourrait par exemple envisager de classification à grain fin.
former un nouveau classificateur " one-vs-all " pour Pour résoudre le problème des données
chaque classe supplémentaire. Non seulement cela volumineuses, les méthodes d'apprentissage en ligne,
entraîne une charge de calcul importante pour chaque telles que la descente de gradient stochastique [13,
nouvelle classe [6], mais, en fin de compte, les 20], ont été largement utilisées. Ces méthodes
classificateurs précédemment formés devront également peuvent apprendre à partir d'une seule instance de
être mis à jour pour améliorer leurs performances. données à la fois, et restent donc économes en
Pour relever ces défis, la première contribution de cet termes de mémoire. L'hypothèse de l'apprentissage
article est un nouveau type de forêts aléatoires [5]. en ligne est que les échantillons sont fournis dans une
Inspiré par les classificateurs NCM (Nearest Class Mean) séquence uniformément aléatoire, mais que le
[14], les décisions à chaque nœud sont basées sur les nombre de classes et les étiquettes de classe sont
cellules de Voronoï formées par un petit sous-ensemble connus à l'avance.
aléatoire des moyennes de classe observées à ce nœud, L'apprentissage en ligne a également été exploré
les centroïdes. Nous illustrons ce concept à la figure 1 et dans le contexte des forêts aléatoires. Cela se fait
l'expliquons plus en détail à la section 3.3. Les centroïdes généralement en étendant les arbres à mesure que de
partitionnent l'espace des caractéristiques et assignent nouveaux échantillons sont disponibles. L'approche
un échantillon soit au sous-arbre de gauche, soit à celui de [11] entraîne d'abord les arbres de manière
de droite. Nous appelons ces forêts les Nearest Class extrêmement aléatoire et les mises à jour ultérieures
Mean Forests (NCMF). Nos expériences montrent que sont effectuées uniquement au niveau des feuilles.
ces forêts sont plus performantes que les forêts L'approche de [9, 18, 25] divise paresseusement les
aléatoires classiques et qu'elles correspondent à l'état de nœuds ou détruit le (sous-)arbre après qu'un nombre
l'art sur le jeu de données à grande échelle ImageNet [3]. suffisant d'échantillons a été observé ou qu'un certain
En fait, les forêts aléatoires sont de très bons seuil de gain d'information a été dépassé. Dans [27],
candidats pour l'apprentissage incrémental. une forêt de Hough est entraînée de manière
Premièrement, elles sont naturellement multi-classes et incrémentielle avec les commentaires de l'utilisateur,
la simple mise à jour des statistiques de classe des dans un scénario d'apprentissage actif. Les feuilles
feuilles est déjà un moyen raisonnable d'ajouter de sont affinées à chaque étape. Comme la plupart des
nouvelles classes. Deuxièmement, grâce à leur structure classificateurs existants (par exemple, SVM ou [28])
hiérarchique, des modifications plus profondes de la ou d'autres méthodes d'apprentissage actif ou en
forêt peuvent être effectuées localement, et donc n'avoir ligne, ces travaux ne prennent pas en compte
un impact que sur une fraction des données à une l'observation de nouvelles classes dans le flux de
données, et ne sont généralement pas simples à adapter 3. Forêts NCM
à ce scénario.
L'apprentissage incrémental, tel que nous le Avant de présenter le concept des forêts
définissons dans cet article, s'intéresse précisément aux moyennes de classe la plus proche (NCMF), nous
flux de données où les classes sont fournies en séquence. décrivons brièvement la classification d'images basée
Typiquement, quelques classes sont disponibles au sur les NCM, qui a été utilisée pour la classification
départ, et de nouvelles classes sont ajoutées par la suite. d'images à grande échelle dans [14], et les forêts
Dans cette veine, l'approche de [14] consiste à apprendre aléatoires (RF), qui sont couramment utilisées pour la
une métrique discriminante sur l'ensemble initial de classification d'images, par exemple dans [4].
classes, et à classer les échantillons en se basant
3.1. Classe la plus proche Classificateur moyen
simplement sur la moyenne de la classe la plus proche.
L'ajout d'une nouvelle classe consiste à insérer sa Avec une image I étant représentée par un vecteur
moyenne dans l'ensemble des classes, ce qui conduit à de caractéristiques d-dimensionnel ~x ∈ Rd , nous
un coût proche de zéro. Cependant, la métrique elle-
calculons d'abord le centroïde de classe c κ pour
même n'est pas mise à jour au fur et à mesure que de
nouvelles classes apparaissent, ce qui conduit finalement chaque classe κ ∈ K :
à des performances sous-optimales. Au lieu de cela, nous
proposons de mettre à jour la structure de nos forêts
pour intégrer les nouvelles classes. ,
L'apprentissage incrémental est également lié à
où Iκ est l'ensemble des images étiquetées avec la
l'apprentissage par transfert, où l'objectif est de réduire
classe κ. Comme il existe un centroïde pour chaque
la quantité de données étiquetées nécessaires pour
classe, l'ensemble des centroïdes C = {c κ} a une
apprendre une nouvelle classe. Il peut être mis en œuvre
cardinalité |C| = |K|.
via des contraintes SVM supplémentaires [22], des
régularisateurs [2], des caractéristiques transférées [21], La classification de la classe moyenne la plus
des parties déformables partagées [16] ou la localisation proche (NCM) d'une image I est alors formulée
d'objets apprise de manière itérative sur la base comme la recherche du centroïde le plus proche dans
d'annotations globales [12]. Il est également possible l'espace des caractéristiques :
d'exploiter des hiérarchies de classes données ou
calculées [8, 17, 19]. Ceci est pertinent ici étant donné la κ∗ (I) = argmink~x - c κk, (2) κ∈K
hiérarchie de classe implicite que les arbres aléatoires
où ~x est le vecteur caractéristique de I. Sans
fournissent. Nous différons de ces approches en ce que
raffinements supplémentaires, la classification d'une
nous voulons ajouter une nouvelle classe de manière
image implique |K| comparaisons dans Rd . Pour
efficace plutôt que d'essayer d'exploiter la connaissance
améliorer la précision et la rapidité de la classification,
des classes précédentes pour réduire la quantité
[14] remplace la distance euclidienne dans l'équation
d'annotation nécessaire à une bonne performance. De
(2) par une distance de Mahalanobis à faible rang
plus, l'apprentissage par transfert est généralement
optimisée sur les données d'entraînement.
limité à la classification une contre toutes.
La structure de nos forêts aléatoires est similaire à 3.2. Forêts aléatoires
celle des arbres de vocabulaire [15] et de leur équivalent
Les forêts aléatoires [5] sont constituées de T
en ligne [29], qui sont des forêts de regroupement non
arbres de décision formés indépendamment. À
supervisées. Cependant, alors que les arbres de
chaque nœud n de chaque arbre, les données
vocabulaire utilisent l'algorithme k-means pour
d'apprentissage Sn arrivant à ce nœud sont divisées
apprendre les nœuds de séparation, nous exploitons les
par une fonction de fractionnement fn : ~x 7→ {0,1}
informations de classe. À la suite de [14], l'utilisation
en deux sous-ensembles S fnn=0 et Sfnn=1 . Les fonctions
simple des moyennes de classe comme centroïdes rend
de fractionnement couramment utilisées sont les
l'entraînement de nos forêts extrêmement efficace et
fonctions de fractionnement alignées sur l'axe [5] ou
permet d'obtenir des feuilles discriminantes et des
linéaires [4]. Pour l'entraînement, un ensemble
performances de pointe.
aléatoire de fonctions de fractionnement F n est
généré et la meilleure, f n, est sélectionnée en fonction apprentissage métrique coûteux. Par rapport aux
du gain d'information U : variantes les plus courantes des forêts aléatoires, les
forêts NCM offrent également une classification non
linéaire au niveau des nœuds.
Plus précisément, nous effectuons la procédure
suivante pour entraîner un nœud n avec les données
n
(3) S arrivant à ce nœud. D'abord, nous désignons par K
n
un sous-ensemble aléatoire des classes observées
fn = argmaxU(f) f∈F n
dans S n, et par le sous-ensemble de S n de classe κ
∈ K n. Ensuite, pour chaque κ ∈ K n, nous calculons les
où H désigne l'entropie de classe et P(κ|Sn ) la fraction
centroïdes correspondants comme dans la Sec. 3.1 :
de Sn appartenant à la classe κ. Les nœuds enfants de
gauche et de droite sont ensuite formés sur et
, respectivement, et la formation continue de .
manière récursive. Ensuite, chaque centroïde est affecté
Étant donné une constante µ prédéfinie, le aléatoirement à un nœud enfant gauche ou droit
fractionnement s'arrête lorsqu'aucune f ∈ F ne n satisfait symbolisé par une valeur binaire eκ ∈ {0,1}. La

et . A chaque nœud feuille l fonction de fractionnement f correspondante est alors


d'un arbre t, nous stockons la distribution sur les classes définie par : f(~x) = eκ ∗ (~x) où κ ∗(~x) = argmin.
observées pendant l'apprentissage, c'est-à-dire P lt(κ).
Pour la classification, le vecteur caractéristique de κ ∈K n
l'image est extrait et passe par chaque arbre jusqu'à
arriver à la feuille l(~x). Les probabilités de classe de tous Nous utilisons Eq. (3) pour sélectionner la fn optimale
les arbres sont moyennées et la classification est définie à partir de l'ensemble des fonctions de
par : fractionnement correspondant à des affectations
aléatoires de centroïdes {eκ }. Nous n'optimisons pas
les choix aléatoires de Kn pour deux raisons.
. (4) Premièrement, cela nous obligerait à stocker toutes
t
les moyennes de classe à tous les nœuds.
3.3. Combinaison de NCM et de Random Forests Deuxièmement, nous pouvons exploiter
l'échantillonnage par réservoir pour ajouter de
Les forêts aléatoires sont efficaces pour
nouvelles classes à K n de manière raisonnée. Avec
l'apprentissage puisque chaque arbre et chaque nœud à
, les forêts effectuent un faible nombre de
la même profondeur peuvent être entraînés
comparaisons et s'adaptent gracieusement, comme le
indépendamment. Leurs performances dépendent
montrent les expériences de la section 5.
fortement des fonctions de séparation choisies. Dans
Les expériences montrent en outre que les
cette section, nous proposons d'utiliser une variation des
fonctions de division NCM proposées sont plus
classificateurs NCM comme fonctions de division, et nous
performantes que les fonctions standard pour la
nommons les forêts résultantes NCM Forests. Les
tâche de classification d'images à grande échelle.
classificateurs NCM sont modifiés sur deux points.
Nous montrons également que la précision de
Premièrement, à tout nœud particulier, seule une
classification des forêts aléatoires sans apprentissage
fraction des classes sera utilisée, ce qui accélère
métrique est comparable aux performances des
l'équation (2). Deuxièmement, la sortie multi-classes de
forêts aléatoires avec apprentissage métrique, mais
NCM est traduite en une sortie binaire (enfant de gauche
que l'apprentissage de la forêt aléatoire est
ou de droite) en assignant les classes de chaque côté.
intrinsèquement parallélisable et donc plus rapide
L'avantage d'une telle forêt NCM par rapport à la
que l'apprentissage métrique. De plus, le principal
classification NCM est que seules quelques comparaisons
avantage de cette approche est la facilité d'ajouter de
sont nécessaires à chaque nœud, codant implicitement
façon incrémentale de nouvelles classes à un
une structure hiérarchique de classes. Cela permet
classificateur multiclasse déjà entraîné, comme nous
d'obtenir une précision de pointe sans recourir à un
le discutons dans la section suivante. La classification échantillons d'entraînement dans les feuilles, il est
avec un arbre d'une forêt NCM est illustrée dans la Fig. 1. efficace de les récupérer pour le nœud feuille
nouvellement créé et de mettre à jour les statistiques.
4. Apprentissage progressif Comme pour IGT, les arbres coupés sont ensuite
repoussés, ce qui, en substance, correspond à ré-
Comme nous l'avons vu à la Sec. 2, l'apprentissage en
entraîner les sous-arbres avec des échantillons de
ligne des forêts aléatoires a été étudié pour des
toutes les classes. Le coût de calcul du ré-
applications de vision telles que le suivi, la détection
entraînement dépend de la taille des sous-arbres,
d'objets ou la segmentation [11, 18, 25, 27]. Cependant,
nous fixons donc la probabilité qu'un nœud n soit
ces travaux se concentrent sur des problèmes où le
marqué comme inversement proportionnelle à la
nombre de classes est connu a-priori. Dans ce travail,
cardinalité du sous-arbre T n avec n comme racine :
nous nous concentrons sur l'ajout incrémental de
nouvelles classes à la forêt dans le contexte de la p(n) ∝ (|Tn| + 1) −1.
classification d'images à grande échelle. Sans mécanisme
d'apprentissage incrémental approprié, un classificateur Pour contrôler la quantité de réentraînement,
multi-classes devrait être ré-entraîné à partir de zéro seule une fraction π ∈[0,1] des sous-arbres est
chaque fois qu'une nouvelle classe est ajoutée. Cela rend sélectionnée par échantillonnage aléatoire sans
potentiellement très coûteux l'ajout de nouvelles classes, remplacement. Si π =1, les arbres sont complètement
en particulier lorsque l'ensemble de données s'accroît. ré-entraînés et l'entraînement n'est plus incrémental.
Nous présentons ci-dessous quatre approches pour Pour π=0, RTST est identique à IGT.
l'apprentissage incrémental d'une forêt NCM. d) Réutilisation de sous-arbres (RUST). Alors
que RTST ré-entraîne entièrement les sous-arbres,
a) Mise à jour des statistiques des feuilles (ULS). En
supposant qu'une forêt NCM multiclasse a déjà été nous proposons également une quatrième approche
qui réutilise les sous-arbres pour réduire le temps
entraînée pour les classes K, une nouvelle classe κ0 est
ajoutée en faisant passer les images d'entraînement de d'apprentissage. Au lieu de marquer des sous-arbres
complets, RUST met à jour des nœuds de division
la nouvelle classe dans les arbres et en mettant à jour les
probabilités de classe P l(κ) stockées dans les feuilles. uniques. Les nœuds sont sélectionnés pour la mise à
jour comme dans RTST. L'apprentissage incrémental
Cette approche ne met à jour que les feuilles mais ne
modifie pas les fonctions de division ni la taille des est ensuite effectué en largeur d'abord. Chaque nœud
de division n stocke déjà une fonction f où les n
arbres.
centroïdes |K n| ont été échantillonnés à partir de K.
b) Arbre à croissance incrémentale (IGT).
Les fonctions de division pour K ∪ κ 0 classes,
Contrairement à ULS, IGT continue à faire croître les
cependant, auraient été échantillonnées à partir des
arbres si suffisamment d'échantillons de la nouvelle
centroïdes de l'ensemble plus large des classes. Nous
classe arrivent à une feuille. Les fonctions de
utilisons donc l'échantillonnage par réservoir [24]
fractionnement apprises précédemment restent
pour décider si le centroïde est ignoré, ajouté ou
inchangées, mais de nouveaux nœuds de fractionnement
remplace un élément de K pour former K 0n, auquel
n
peuvent être ajoutés. Alors que les fonctions de
cas la fonction de fractionnement est également mise
fractionnement nouvellement ajoutées échantillonnent
0 à jour :
les centroïdes de K ∪ κ , les anciennes fonctions de
fractionnement sont basées sur les centroïdes avec κ∗ (~x) = argmin κ∈K0n
échantillonnés de K.
c) Ré-entraînement du sous-arbre (RTST).
où est choisi en fonction de l'équation (3). Étant
Contrairement à ULS et IGT, qui ne convergent pas vers
donné que la mise à jour de la fonction de
une forêt formée sur K ∪ κ 0
classes (puisque
fractionnement peut entraîner une nouvelle
l'arborescence apprise pour K classes n'est pas
répartition des
modifiée), RTST met également à jour les fonctions de
division précédemment apprises. À cette fin, un sous-
ensemble de nœuds dans les arbres formés sur K classes
sont marqués et convertis en feuilles, supprimant de
facto tous leurs enfants. En stockant les références aux
dire la fraction des échantillons de test correctement
classés. Nous avons utilisé des caractéristiques SIFT
densément échantillonnées et regroupées en 1k mots
visuels fournis par [3]. Bien que des caractéristiques
plus avancées [13, 20] améliorent les résultats, la
conception et l'évaluation des ensembles de
caractéristiques dépassent le cadre de ce travail. Pour
évaluer l'apprentissage incrémental, nous avons fixé
un ordre aléatoire de toutes les catégories et l'avons
utilisé dans toutes les expériences. Chaque
caractéristique a été blanchie par sa moyenne et son
écart-type sur le sous-ensemble de formation de
départ. Le temps de test de nos forêts est mesuré
comme le nombre moyen de comparaisons k~x - c κk
2
par arbre.

#comparaison
Figure 2 : Illustration de nos approches incrémentales : a) 0. 4

moyenne
Précision
400
Update leaf statistics (ULS), b) Incrementally grow tree
0. 3 200
(IGT), c) Re-train subtree (RTST), d) Re-use subtree

s
0.2
(RUST). Les couleurs des centroïdes (jaune, cyan)
5010020050 100200
indiquent les directions associées aux cellules de
classes# classes
Voronoï. Les éléments marqués en rouge sont des
modifications de la structure de l'arbre. Dans c), les a) performancesb ) temps d'essai
centroïdes de l'enfant droit de la racine sont recalculés, Figure 3 : Comparaison de a) l'exactitude moyenne de
tandis que dans d), seul un nouveau centroïde est ajouté. la classification et b) le temps de test pour différentes
tailles de K n ⊂ K. Alors que le fait de fixer |Kn |
les échantillons d'apprentissage des classes K dans le linéaire au nombre de classes donne de meilleurs
sous-arbre du nœud, les échantillons avec f0n (~x) 6= fn résultats qu'une racine carrée ou une croissance
(~x) sont retirés des feuilles et repassés dans le sous- logarithmique, cela prend beaucoup plus de temps au
arbre. Comme cela pourrait créer des feuilles sans temps de test.
échantillons, les arbres sont coupés de telle sorte que
chaque feuille contienne un nombre minimum µ
d'échantillons. L'impact de π et µ est évalué dans la 0. 5 0. 5
moyenne

moyenne
Précision

Précision

section 5. 0. 45 0. 45
µ =5 0. 4 0. 4
Alors que ULS, IGT et RTST sont des approches µ =10 0. 35 0. 35
générales qui fonctionnent avec n'importe quel type de µ =20 30 40 50 30 40 50
µ =30 # classes # classes
fonctions de fractionnement, RUST utilise l'avantage de
NCM pour l'apprentissage incrémental. La figure 2
#comparaisons

#comparaisons

illustre les quatre approches d'apprentissage


incrémental. 80 80
60 60

5. Expériences 30 40 50 30 40 50
# classes # classes
Pour l'évaluation, nous utilisons le difficile réseau
ImageNet a) NCM Forestb ) RUST
Le défi de la reconnaissance visuelle à grande échelle Figure 4 : L'influence des µ échantillons minimums à
2010 (ILSVRC10) [3]. Il y a 1k catégories (entre 660 et une feuille pour a) la forêt NCM et b) RUST avec 3
3047 images d'entraînement par classe, 1.2M au total ; classes initiales.
150 images de test par catégorie) organisées dans une
hiérarchie de classe basée sur WordNet. La performance
est mesurée en utilisant la précision moyenne, c'est-à-
5.1. Paramètres de la forêt NCM 5.3. Apprentissage progressif
Pour évaluer les approches d'apprentissage
Nous évaluons d'abord l'impact de certains des
incrémental présentées à la Sec. 4, nous entraînons
paramètres des forêts de MR. Sauf indication contraire,
un NCMF sur un nombre prédéfini k de classes
nous avons utilisé 50 arbres, échantillonné 1024
initiales, puis nous ajoutons les autres classes de
fonctions à chaque nœud sans remplacement (c'est-à-
façon incrémentale, une par une. La performance est
dire |F n| = 1024) et imposé au moins µ=10 échantillons
mesurée lorsque la méthode a appris à reconnaître un
d'entraînement à une feuille. Un paramètre de f n, cf. Eq.
certain nombre de classes. Puisque le but est d'égaler
(6), est la taille des classes échantillonnées K n sur
la performance du NCMF ré-entraîné à chaque
l'ensemble des classes K. Nous
nouvelle classe, nous mesurons la performance par
rapport à cette ligne de base. Le temps
n p o
Nous avons comparé |Kn | ∈ log|K|, |K|,0.2|K| et d'apprentissage est mesuré en secondes de temps de
présentons les résultats sur la figure 3. L'écart-type du mur.
temps de test était < 10% de la moyenne et a été omis Comparaison des stratégies de mise à jour. La
p figure 5 illustre la précision, le temps de test et le
pour plus de clarté. Les résultats montrent que |Kn | = |
temps de formation pour la ligne de base et nos
K| donne un bon compromis entre la précision et le approches "Update leaf statistics" (ULS),
temps de test et est utilisé pour le reste du document. "Incrementally grow tree" (IGT), "Re-train subtree"
Le nombre minimum d'échantillons à une feuille µ (RTST avec π = 0.8) et "Re-use subtree" (RUST avec π
définit le critère d'arrêt de la croissance des arbres. Plus = 0.8) formées à partir de k = 3 classes initiales
le nombre est petit, plus les arbres croissent en jusqu'à 50 classes. Comme ULS ne fait pas croître les
profondeur. La figure 4a) montre qu'un petit nombre arbres, son temps de test est constant et son temps
augmente la précision, mais induit plus de comparaisons d'apprentissage très faible, mais la performance
au moment du test. Pour les expériences suivantes, nous relative finale à 50 classes est faible (26,7 %). IGT
avons contraint les feuilles à contenir au moins 10 étend les arbres, ce qui entraîne des temps de test et
échantillons. de formation plus élevés, mais permet d'obtenir une
performance relative de 80,7 % tout en réduisant le
5.2. Comparaison avec d'autres méthodes temps de formation de la base de référence par un
Nous avons comparé les forêts de NCM avec d'autres facteur de 25 et le temps de test par 3. IGT obtient
classificateurs multi-classes utilisant les mêmes une précision moyenne de 34,9 %, surpassant NCM,
caractéristiques. Pour la comparaison, nous avons utilisé KNN et RF (cf. Fig. 10a). RTST réintroduit les nœuds et
le classificateur moyen de la classe la plus proche (NCM), obtient la meilleure performance relative (91,2%),
le NCM avec apprentissage métrique [14] (MET+NCM), le mais prend plus de temps à former. RUST surpasse
SVM multi-classes à sortie structurée [1] (MC SVM), les k- IGT (88,1% de performance relative), ce qui suggère
voisins les plus proches (KNN), et les forêts aléatoires que la réutilisation des sous-arbres est effectivement
avec fonctions de division alignées sur l'axe [5] (RF), qui bénéfique. Elle accélère également l'apprentissage de
ont donné de meilleurs résultats que les RF avec la ligne de base par un facteur de 5 et est 2 fois plus
fonctions de division linéaires aléatoires dans notre cas. rapide que RTST. L'écart entre les temps
Pour chaque approche, les paramètres ont été optimisés d'apprentissage de RTST et de RUST se creuse avec le
par validation croisée pour les 50 premières classes. Les nombre de classes.
résultats de la figure 10a) montrent que les forêts de
MNC ont des performances comparables à celles des
MNC avec apprentissage métrique [14] et qu'elles
surpassent les autres méthodes. En particulier, la NCMF
surpasse la NCM (Sec. 3.1) et les forêts aléatoires
conventionnelles (Sec. 3.2), avec une marge d'au moins
10 points. La baisse de performance de MC SVM pour
plus de 200 classes est probablement due à la sensibilité
des paramètres optimisés pour 50 classes.
Impact de π. RTST et RUST dépendent du paramètre dans la Sec. 5.1, nous avons évalué l'impact du critère
π, dont l'impact est illustré à la figure 6. Si π = 0, RTST et d'arrêt donné par le nombre minimum d'échantillons
RUST sont les mêmes que IGT. Lorsque π augmente, à une feuille. La figure 4b) montre que l'impact est

a) performance relativeb ) temps de testc) temps de formation


Figure 5 : Mesures pour un nombre variable de classes à partir de 3 classes initiales. La méthode "Update leaf statistics"
(ULS) est plus rapide à former et à tester, mais ses performances sont inférieures. La méthode de croissance incrémentale
de l'arbre (IGT) est plus lente que la méthode ULS, tant au niveau de la formation que du test, mais elle atteint 80,7 % des
performances de la ligne de base à 50 classes. L'algorithme "Re-train subtree" obtient les meilleures performances (91,2
% à 50 classes), mais son apprentissage est plus long. La méthode "Re-use subtree" (RUST) est un bon compromis entre le
temps de formation et les performances relatives (88,1 % à 50 classes). Les différences relatives de temps de formation
augmentent avec le nombre croissant de classes.

a) performance relativeb ) temps de testc) temps de formation


Figure 6 : L'influence de π sur 'Re-train subtree' (RTST) et 'Re-use subtree' (RUST) sur a) la performance, b) le temps de
test et c) le temps de formation. Nous avons commencé avec 3 classes initiales et mesuré à 50 classes. Lorsque π
augmente, la performance tend vers la ligne de base au prix d'un temps de formation plus élevé. π=0 .8 apparaît comme
un bon compromis pour RTST et RUST.
RTST converge vers la ligne de base. Bien que RTST avec également limité pour RUST.
π = 1 soit théoriquement le même que la ligne de base, L'influence du nombre de classes initiales sur RUST
l'échantillonnage du nœud pour le recyclage crée une est illustrée à la figure 7. La méthode est assez peu
surcharge supplémentaire. La performance est sensible au nombre de classes initiales et atteint déjà
également légèrement inférieure à la ligne de base parce de bonnes performances avec seulement quelques-
que les paramètres de blanchiment sont estimés sur unes. En commençant avec 3 et 20 classes initiales,
l'ensemble d'entraînement initial, alors que la ligne de nous obtenons des performances relatives de 88,1%
base calcule la normalisation des caractéristiques sur la et 92,7%, respectivement, soit une différence de
base de toutes les données. seulement 4,5% environ.
L'impact de π sur RUST est similaire à celui de RTST, Jusqu'à présent, nous avons utilisé une seule
mais RUST ne converge pas vers la ligne de base. Ceci est permutation aléatoire des classes pour les
attendu puisque les centroïdes stockés sont réutilisés expériences. Ci-dessous, nous évaluons dix
pour RUST alors qu'ils sont recalculés pour RTST. Il en permutations aléatoires des 50 classes utilisées
résulte une performance relative légèrement inférieure à précédemment, afin de nous assurer que l'ordre
celle de RTST, mais aussi des temps d'apprentissage spécifique que nous avons utilisé ne fausse pas nos
inférieurs. résultats.
Autres paramètres. Nous nous concentrons
maintenant sur RUST et évaluons l'impact de différents
paramètres pour l'apprentissage incrémental. Comme
Alors que nous avons comparé les forêts NCM avec

#comparaison
Ligne de
Performance1 d'autres approches dans la Fig. 10a), nous comparons
k =3 0. 95 80
base maintenant les approches d'apprentissage
relative
k =10 0. 9
k =20 0. 85 60 incrémental sur l'ensemble des 1k classes dans les Fig.

s
0. 8
30 40 50 30 40 50 10b) et c). Puisque IGT surpasse déjà NCM, KNN et RF,
# classes # classes
nous nous concentrons sur NCM avec apprentissage
a) performance relativeb) temps d'essai métrique [14], qui est légèrement plus performant
Figure 7 : Comparaison de a) la performance relative et que NCM Forests, cf. Fig. 10a). Nous commençons
b) le temps de test de RUST avec π = 0.8 en partant de k avec k =10 et k=20 classes initiales. Le paramètre
classes initiales mesurées à 30, 40 et 50 classes. pour les approches basées sur NCM Forests reste le
L'augmentation du nombre de classes initiales est même, c'est-à-dire que le blanchiment est estimé sur
bénéfique, mais a un impact limité. les k classes initiales. Pour MET k+NCM, la métrique
est seulement apprise sur les classes initiales, et le
modèle est mis à jour avec les centroïdes projetés des
évaluation. L'écart-type n'a jamais dépassé 10% des
nouvelles classes. Dans la figure 10, RUST surpasse
valeurs moyennes des mesures (cf. Fig. 8), ce qui indique
IGT, montrant que la mise à jour des arbres est
un faible impact de l'ordre des classes, ce qui est
bénéfique. Bien qu'il ait été démontré dans [14]
souhaitable pour un apprentissage incrémental.
qu'une métrique apprise sur 800 classes est
En pratique, plusieurs classes peuvent apparaître par
applicable aux 200 autres classes, la métrique apprise
lots, le nombre de classes simultanées à ajouter est donc
sur un maximum de 20 classes ne se généralise pas
un paramètre intéressant à étudier. Nous avons initialisé
bien, ce qui rend la méthode inadaptée à un petit
avec 10 classes et expérimenté avec des pas de 1, 5, 10
ensemble d'apprentissage initial. Dans ce cas, les trois
ou toutes les classes (40). Bien que seuls les gros
approches IGT, RUST et RTST sont plus performantes
morceaux augmentent la précision, le temps de
que MET k+NCM. Dans différents scénarios, une
formation est déjà réduit en formant 5 classes à la fois,
comme le montre la figure 9.
1
#comparaisons

formation [s]

20
Performance

0. 95
80
Temps de

0. 9
relative

10
0. 85 60
0. 80
31020310201020304050
classes initiales# classes initiales# classes

a) performance relativeb ) temps de testc) temps de formation


Figure 8 : Comparaison de a) la performance relative et b) le temps de test de RUST avec π = 0.8 en partant de différents
nombres de classes et mesuré à 50 classes et 10 permutations aléatoires des classes. c) Temps de formation pour 3
classes initiales sur 10 permutations aléatoires des classes. Les faibles écarts types indiquent l'impact limité de l'ordre des
classes.

1
#comparaisons

15
formation [s]
Performance

0. 95
80 10
Temps de

0. 9
relative

0. 85 5
60
0. 80
30405030405020304050
classes# classes# classes

a) performance relativeb ) temps de testc) temps de formation


Figure 9 : Comparaison de a) la performance relative, b) le temps de test et c) le temps de formation pour RUST lorsque
plusieurs classes (s est la taille du chunk) sont ajoutées simultanément, en partant de 10 classes initiales.
meilleure précision (RTST) ou une formation plus rapide Remerciements : Cette recherche a été soutenue en
(RUST) peuvent être préférées, cf. Fig. 5. partie par le programme Emmy Noether de la DFG
Enfin, nous rapportons les temps d'entraînement (GA 1927/1-1), la CTI suisse (15769.1) et Toyota.

a) base de référenceb ) k = 10 classes initialesc ) k = 20 classes initiales


Figure 10 : Comparaison des lignes de base et des différentes méthodes d'apprentissage incrémental sur 50, 100, 200,
500 et 1k classes de [3] en commençant par les mêmes classes initiales. Le blanchiment pour nos méthodes ainsi que la
métrique MET k ont été appris sur k classes initiales dans b) & c). Nous avons fixé π = 0.8 pour RUST et RTST. RUST et RTST
sont systématiquement plus performants que les méthodes incrémentales concurrentes.
totaux pour atteindre 1k classes pour un arbre
initialement entraîné sur 20 classes sur une machine Références
monofilière : réentraîner la ligne de base NCMF pour
chaque nouvelle classe prend 4 jours, ULS 30s, IGT [1] Z. Akata, F. Perronnin, Z. Harchaoui, et C.
15min, RUST 77min et RTST 16h, respectivement. Sans Schmid. Les bonnes pratiques de l'apprentissage
extraction de caractéristiques, un arbre traite une image à grande échelle pour la classification d'images.
en : NCMF 0.47ms, ULS 0.04ms, IGT TPAMI, 2013.
0,05ms, RUST 0,24ms et RTST 0,27ms, respectivement. [2] Y. Aytar et A. Zisserman. Tabula rasa : Transfert
de modèle pour la détection de catégories
d'objets. Dans ICCV, 2011.
6. Conclusion
[3] A. Berg, J. Deng, et L. Fei-Fei. Large scale visual
Dans cet article, nous avons introduit les Nearest Class recognition challenge 2010. http://www. image-
Mean Forests (NCMF), et montré qu'elles sont plus net.org/challenges/LSVRC/2010,
performantes que la classification NCM et les RF pour la 2010. [En ligne ; consulté le 1er novembre
classification d'images à grande échelle. 2013].
Bien que l'approche obtienne des résultats compétitifs [4] A. Bosch, A. Zisserman, et X. Munoz. Image clas-
dans un cadre où toutes les classes sont connues a-priori, ˜ sification utilisant des forêts aléatoires et des
des techniques efficaces d'ajout incrémental de fougères. Dans ICCV, 2007.
nouvelles classes au NCMF sont également proposées.
méthodes.
En particulier, la possibilité de réutiliser les sous-arbres
nous permet d'ajouter de nouvelles classes à une
fraction du coût de ré-entraînement d'un NCMF complet, [5] L. Breiman. Random forests. Machine Learning,
tout en préservant la précision globale. Nous avons 45(1):5-32, 2001.
réalisé des expériences approfondies dans le contexte de
la classification lorsque le nombre de classes augmente [6] J. Deng, A. C. Berg, K. Li, et L. Fei-Fei. Que nous
avec le temps. Comme les NCMF sont assez peu sensibles apprend la classification de plus de 10 000
au nombre de classes initiales et à l'ordre dans lequel les catégories d'images ? Dans ECCV, 2010.
classes sont ajoutées, ils sont bien adaptés à [7] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, et L.
l'apprentissage incrémental. Fei-Fei. ImageNet : A Large-Scale Hierarchical
Image Database. Dans CVPR, 2009.
[8] J. Deng, J. Krause, A. Berg, et L. Fei-Fei. Hedging
your bets : Optimisation des compromis entre
précision et spécificité dans la reconnaissance nonparametric object and scene recognition.
visuelle à grande échelle. Dans CVPR, 2012. TPAMI, 30(11):1958- 1970, 2008.
[9] P. Domingos et G. Hulten. Extraction de flux de [24] J. S. Vitter. Random sampling with a reservoir.
données à grande vitesse. Dans SIGKDD, 2000. ACM Trans. Math. Softw. , 1985.
[10] M. Everingham, L. Van Gool, C. K. I. Williams, J. [25] A. Wang, G. Wan, Z. Cheng, et S. Li. An
Winn et A. Zisserman. Le défi des classes d'objets incremental extremely random forest classifier
visuels pascal (voc). IJCV, 2010. for online learning and tracking. Dans ICIP, 2009.
[11] M. Godec, P. Roth, et H. Bischof. Suivi d'objets non [26] J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, et A.
rigides basé sur Hough. Dans ICCV, 2011. Torralba. Base de données Sun : Reconnaissance
[12] M. Guillaumin et V. Ferrari. Transfert de de scènes à grande échelle, de l'abbaye au zoo.
connaissances à grande échelle pour la localisation Dans CVPR, 2010.
d'objets dans imagenet. Dans CVPR, 2012. [27] A. Yao, J. Gall, C. Leistner, et L. Van Gool.
[13] Y. Lin, F. Lv, S. Zhu, M. Yang, T. Cour, K. Yu, L. Cao et Interactive object detection. Dans CVPR, 2012.
T. Huang. Classification d'images à grande échelle : [28] B. Yao, A. Khosla, et L. Fei-fei. Combinaison de la
Fast feature extraction and svm training. Dans randomisation et de la discrimination pour la
CVPR, 2011. catégorisation d'images à grain fin. Dans CVPR,
[14] T. Mensink, J. Verbeek, F. Perronnin, et G. Csurka. 2011.
Classification d'images basée sur la distance : [29] T. Yeh, J. Lee, et T. Darrell. Forêts de vocabulaire
Généralisation à de nouvelles classes à un coût adaptatives pour l'indexation dynamique et
proche de zéro. TPAMI, 2013. l'apprentissage de catégories. Dans ICCV, 2007.
[15] D. Nister et H. Stew' enius. Scalable recognition
with' a vocabulary tree. Dans CVPR, 2006.
[16] P. Ott et M. Everingham. Shared parts for
deformable part-based models. Dans CVPR, 2011.
[17] M. Rohrbach, M. Stark, et B. Schiele. Évaluation du
transfert de connaissances et de l'apprentissage à
zéro dans un cadre à grande échelle. Dans CVPR,
2011.
[18] A. Saffari, C. Leistner, J. Santner, M. Godec, et H.
Bischof. Forêts aléatoires en ligne. Dans OLCV,
2009.
[19] R. Salakhutdinov, A. Torralba, et J. Tenenbaum.
Apprendre à partager l'apparence visuelle pour la
détection d'objets multiclasse. Dans CVPR, 2011.
[20] J. Sanchez et F. Perronnin. Compression de
signatures à haute dimension pour la classification
d'images à grande échelle. Dans CVPR, 2011.
[21] M. Stark, M. Goesele, et B. Schiele. Un modèle de
classe d'objets basé sur la forme pour le transfert
de connaissances. Dans ICCV, 2009.
[22] T. Tommasi, F. Orabona, et B. Caputo. Safety in
numbers : Apprendre des catégories à partir de
quelques exemples avec le transfert de
connaissances multi-modèles. Dans CVPR, 2010.
[23] A. Torralba, R. Fergus, et W. T. Freeman. 80 millions
de petites images : A large data set for

Vous aimerez peut-être aussi