Académique Documents
Professionnel Documents
Culture Documents
Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images 1
Y. RUICHEK
Les CNN de détection d'objets [8, 9, 7, 19] ont rapidement III. MÉTHODOLOGIE
évolué au point que l'utilisation de la recherche exhaustive
A. Caractéristiques basée sur CNN
avec des fenêtres glissantes ou le calcul de propositions
d'objets [26, 2] n'est plus nécessaire. Actuellement, on utilise Notre approche explore la pertinence d'utiliser des
les CNN de détection de pointe [19] formés bout à bout pour caractéristique extraites d’un CNN de détection d'objet pour la
apprendre simultanément les emplacements des objets et leurs tâche de recherche d'instances. Dans cette configuration, les
labels. instances de requête sont définies par une zone de délimitation
au-dessus de l’image requête. Nous choisissons l'architecture
Ce travail explore la pertinence des fonctionnalités standard et les modèles pré-entrénés de Faster R-CNN [19] et nous les
et affinées d'un CNN de détection d'objet pour la tâche de utilisons comme extracteur de caractéristiques à l'échelle
récupération d'instances. globale et locale. Faster R-CNN est composé de deux
branches qui partagent des couches convolutives. La première
II. TRAVAUX CONNEXES branche est un réseau de propositions de régions qui apprend
un ensemble d'emplacements de fenêtres, et le second est un
CNN pour la recherche d'instances. Les caractéristiques classificateur qui apprend à étiqueter chaque fenêtre comme
des CNN de classification d'images pré-entraînés ont été l'une des classes de l'ensemble d'apprentissage[28].
largement utilisées. Les premiers travaux dans ce sens ont Comme pour les autres travaux [3, 25, 11], notre but est
démontré que les caractéristiques des couches entièrement
d'extraire une représentation d'images compactes construites à
connectées pour la récupération d'images étaient plus
partir des activations d'une couche convolutionnelle dans un
appropriées [4]. Razavian et al. [18], ce qui a ultérieurement
CNN. Puisque Faster R-CNN fonctionne plus vite à l'échelle
amélioré les résultats en combinant des couches entièrement
connectées extraites de différents sous-patchs d'images. globale et locale. Nous proposons la stratégie de Mise en
Une deuxième génération de travaux a exploré l'utilisation commun des activations par l'image (IPAImage-wise
d'autres couches dans le CNN pré-entrainé et a constaté que pooling)[28]. Afin de construire un descripteur d'images
les couches convolutionnelles surpassent de manière globales à partir d'activations de couches Faster R-CNN, nous
significative les couches entièrement connectées lors des ignorons toutes les couches du réseau qui fonctionnent avec
tâches de récupération d'image [21]. des propositions d'objets et d'extraire des caractéristiques de la
CNN de détection d'objet. De nombreux travaux dans la dernière couche convolutionnelle. Étant donné les activations
littérature ont proposé des pipelines de détection d'objets basés d'une couche convolutionnelle extraite pour une image, nous
sur CNN. Girshick et al., ont présenté R-CNN [8], une version regroupons les activations de chaque filtre pour construire un
d’AlexNet de Krizhevsky [12], affinée pour Pascal VOC descripteur d'images de la même dimension que le nombre de
Detection [6]. Au lieu d'images complètes, les régions d'un filtres dans la couche convolutionnelle[28].
algorithme de proposition d'objet [26] ont été utilisées comme
entrées dans le réseau. Au moment du test, des couches
entièrement connectées pour toutes les fenêtres ont été B. Affiner Faster R-CNN
extraites et utilisées pour former un régresseur et un La pertinence de cette technique basée sur la méthode
classificateur de boîtes de délimitation. Faster R-CNN nous permet: 1) d’obtenir de meilleures
Depuis lors, de grandes améliorations ont été apportées à R- représentations de caractéristiques pour la récupération
CNN, à la fois en termes de précision et de rapidité. He et al. d'images et 2) d’améliorer les performances de l'analyse
Ont proposé SPP-net [9], utilisant une couche « Spatial spatiale et de la ré-analyse. Pour y parvenir, nous choisissons
Pyramid based pooling » pour améliorer la classification et la d'affiner Faster RNN pour détecter les objets de requête à
performance de détection. Girshick a plus tard publié Fast R- récupérer par notre système. A cette effet, nous modifions
CNN [7], utilisant la même stratégie de vitesse que SPP-net l'architecture de Faster R-CNN pour afficher les coordonnées
mais, plus important encore, remplace la formation post-hoc de la boîte de délimitation et les scores de classes pour
des classificateurs SVM et des régresseurs par une solution qui chacune des instances de requête des instances testées.
permet d’entrainer le réseau de bout en bout. Ren et al. Ont Les réseaux affinés qui en résultent doivent être utilisés
introduit le Faster R-CNN [19], qui supprime la dépendance pour extraire de meilleures représentations d'images et de
de propositions d'objets des anciens systèmes CNN de régions et pour effectuer une redirection spatiale basée sur des
détection d'objets en introduisant un RPN (Region Proposal scores de classes au lieu de similarités d'entités.
Network). Dans Faster R-CNN, le RPN partage des fonctions
C. Récupération d’images
avec le réseau de détection d'objets dans [7] pour apprendre
simultanément les propositions d'objets proéminentes et leurs Les trois étapes du pipeline de récupération d'instances
probabilités de classes associées. proposées sont décrites dans cette section : étape de filtrage,
Dans ce travaille nous utilisons les caractéristiques reclassement spatial et expansion de requête.
convolutif d’un CNN de détection d’objets pré-entrainé, pour Étape de filtrage. La stratégie IPA est utilisée pour créer
extraire les caractéristiques convolutives basées sur l'image et des descripteurs d'images pour les images de requêtes et de la
la région dans une seule passe avant. Ensuite, nous exploitons base de données. Au moment du test, le descripteur de l'image
l'architecture de détection d'objets autonome de bout en bout de la requête est comparé à tous les éléments de la base de
de Faster R-CNN pour extraire à la fois les caractéristiques données, qui sont ensuite classés en fonction de la similarité
d'images et de régions pour la recherche d'instances. du cosinus. A cette étape, l'image entière est considérée
comme requête.
Mediterranean Telecommunications Journal Vol. 8, N° 2, July 2018 ISSN: 2458-6765
I. Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images 3
Reclassement spatial. Après l'étape de filtrage, les N diffèrents datasets (Pascal VOC et COCO [13]), y compris des
éléments supérieurs sont analysés localement et reclassés. expériences d'expansion de requêtes avec M = 5 image
Expansion de la requête (QE). On prend la moyenne des récupérées. Comme prévu, les caractéristiques extraites à
descripteurs d'image des M éléments supérieurs du classement partir du réseau VGG16 sont plus performantes dans la plupart
et le descripteur de la requête pour effectuer une nouvelle des cas, ce qui est cohérent avec les travaux antérieurs de la
recherche. littérature montrant que les fonctionnalités des réseaux plus
profonds atteignent de meilleures performances. L'extension
IV. EXPERIENCES de requêtes appliquées après le reclassement spatial permet
d'obtenir des gains significatifs pour tous les datasets testés.
A. Datasets exploités
TABLE I
Les méthodologies décrites dans la section 3 sont évaluées PRECISIONS DES MODELES DE FASTER R-CNN PRE-ENTRAINES AVEC DES
avec les datasets suivants : ARCHITECTURES ZF ET VGG16. (P) ET (C) INDIQUENT SI LE RESEAU A ETE
Bâtiments d'Oxford [16]. 5 063 images, dont 55 images ENTRAINE AVEC DES IMAGES DE PASCAL VOC OU MICROSOFT COCO,
RESPECTIVEMENT. AVEC UNE COMPARAISON DU SUMPOOLING ET DU
de requêtes de 11 bâtiments différents à Oxford (5 images / MAXPOOLING. LORSQUE CELA EST INDIQUE, QE EST APPLIQUE AVEC M = 5.
instance sont fournies). Une boîte d’encadrement entourant
l'objet cible est fournie pour les images de requête. Net QE Pooling Oxford Paris
Les bâtiments de Paris [17]. 6 412 images fixes de Max 0.5649 0.5612
Non
monuments de Paris, dont 55 images de 11 bâtiments avec Sum 0.5282 0.6153
des annotations pour les boites d’encadrement associées. ZF(P)
Max 0.5446 0.5672
Oui
Sum 0.5684 0.6179
B. Configuration utilisée Max 0.5519 0.5977
Non
Sum 0.5993 0.6658
Nous utilisons à la fois les architecturesVGG16 [22] et ZF VGG16(P)
Max 0.5564 0.6027
[27] de Faster R-CNN pour extraire les caractéristiques Oui
d'images et de régions. Dans les deux cas, nous utilisons la Sum 0.6383 0.6682
dernière couche convolutionnelle (conv5 et conv5_3 pour ZF Non
Max 0.4784 0.4923
et VGG16, respectivement) pour construire les descripteurs VGG16(C)
Sum 0.5020 0.6385
d'images introduits dans la section 3, qui sont respectivement Oui
Max 0.5309 0.6385
de dimension 256 et 512 pour les architectures ZF et VGG16. Max 0.5155 0.6404
Les caractéristiques de région sont regroupées à partir de la
couche de regroupement RoI de Faster R-CNN. Les images D. Réglage de Faster R-CNN
sont redimensionnées de sorte que leur plus petit côté soit de
600 pixels. Toutes les expériences ont été effectuées sur un Dans cette partie, nous évaluons l'impact du réglage d'un
GPU Nvidia GTX. réseau pré-entraîné sur les performances de récupération avec
les objets de requête à extraire. Nous avons choisi d'affiner le
C. Les caractéristiques d’images extraites de Faster R-CNN modèle VGG16 Faster R-CNN, pré-entrainé avec les objets de
Dans cette section, nous évaluons la performance de Pascal VOC.
l'utilisation des caractéristiques extraites depuis Faster R-CNN Pour les datasets Oxford et Paris, nous modifions la couche
pour la récupération d’instances. de sortie dans le réseau pour renvoyer 29 probabilités de
Nous avons effectué une etude comparative nous dees classes (28 classes bâtiments dans l'ensemble de données, plus
stratégies de « sumpooling » et de « maxpooling » des une classe supplémentaire pour le fond) et leurs coordonnées
descripteurs d'images et de régions. Le tableau 1 résume les de boîtes englobantes régressées correspondantes. Nous
résultats. Selon nos expériences réalisées, le sumpooling est utilisons les 5 images fournies pour chacun des bâtiments et
significativement supérieur au maxpooling pour la phase de leurs emplacements de délimitation comme données
filtrage. Un tel comportement est cohérent avec d'autres d'entraînement. De plus, nous augmentons l'ensemble
travaux dans la littérature [3, 11]. d'entraînement par
Le tableau 1 montre aussi les performances de différents un flip horizontal sur les images d'entraînement (22 * 5 * 2 =
Faster R-CNN architectures (ZF et VGG16) entrainés sur deux 220 images d'entraînement au total).