Vous êtes sur la page 1sur 5

I.

Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images 1

Nouvelle approche neuronale Faster R-CNN


pour la recherche d’instances d’images
Imane HACHCHANE Abdelmajid BADRI Aïcha SAHEL

Laboratoire d’Electronique, Energie, Laboratoire d’Electronique, Energie, Laboratoire d’Electronique, Energie,


Automatique & Traitement de Automatique & Traitement de Automatique & Traitement de
l’Information (EEA&TI), Faculté des l’Information (EEA&TI), Faculté des l’Information (EEA&TI), Faculté des
Sciences et Techniques Mohammedia, Sciences et Techniques Mohammedia, Sciences et Techniques Mohammedia,
Université Hassan II Casablanca. Université Hassan II Casablanca. Université Hassan II Casablanca.
Mohammedia, Maroc Mohammedia, Maroc Mohammedia, Maroc
hachchaneimane@gmail.com abdelmajid_badri@yahoo.fr sahel_ai@yahoo.fr

Y. RUICHEK

IRTES-Laboratoire SET, Université de


Technologie de Belfort Montbéliard,
Belfort, France
yassine.ruichek@utbm.fr

 de nombreuses tâches de vision par ordinateur telle que : la


Résumé—Les caractéristiques d'images dérivées des réseaux classification d'images [12, 22], la détection d'objets [19] ou la
neuronaux convolutifs (CNN) pré-entrénés sont devenues la segmentation sémantique [14]. Les CNN entrainés avec de
norme dans les tâches de vision par ordinateur telle que la grandes quantités de données ont appris à apprendre des
récupération d'instances. Ce travail explore la pertinence de la représentations d'entités qui peuvent être suffisamment
récupération de caractéristiques d'images et de régions à partir génériques pour être utilisées même pour résoudre des tâches
d'un CNN de détection d'objets tel que Faster R-CNN. Nous
pour lesquelles ils n'avaient pas été entrainés [18].Pour la
profitons des propositions d'objets appris par un RPN (Region
Proposal Network) et de leurs caractéristiques associées prises recherche d'images en particulier,de nombreux travaux de la
d’un CNN pour construire un pipeline de recherche d'instances littérature [3, 25, 11] ont adopté des solutions basées sur des
composées d’un filtrage puis d’un reclassement. Plus encore, fonctionnalités standard extraites d'un CNN préétabli pour la
nous étudions la pertinence des caractéristiques de Faster R-CNN classification d'images [12, 22, 24], atteignent des
lorsque le réseau est affiné pour les mêmes objets que ceux qu’on performances encourageantes.
veut récupérer. Nous évaluons la performance du système avec
les deux datasets:Oxford Buildings 5k et Paris Buildings 6k. Les Les systèmes de recherche d'instances combinent souvent
résultats obtenus par notre algorithme comparé avec d’autres des étapes de filtrage rapides, dans lesquelles toutes les images
techniques sont encourageants.
d'une base de données sont classées selon leur similarité à la
requête, avec des mécanismes plus coûteux en calcul qui ne
Mot clés—Traitement d’images, classification, reconnaissance
d’objets, CNN, Faster R-CNN, recherche d’instances d’images. sont appliqués qu'aux éléments les plus recherchés. La
vérification géométrique et l'analyse spatiale [10, 23, 15, 20]
I. INTRODUCTION sont des stratégies de redistribution courantes, qui sont
souvent suivies d'une expansion de la requête (rétroaction de
La prolifération des caméras a mené une explosion de pseudo-pertinence) [1,5].
contenus visuels en ligne ce qui a motivé les chercheurs à
proposer des systèmes de récupération d'images efficaces La recomposition spatiale implique généralement
basés sur le contenu. Ce travail traite le problème de recherche l'utilisation de fenêtres coulissantes à différentes échelles et
d'instances, comprise comme la récupération des images à rapports d'aspect sur une image. Chaque fenêtre est ensuite
partir d'une base de données contenant une ou plusieurs comparée à l'instance de requête afin de trouver l'emplacement
instances d'une requête. optimal qui contient la requête nécessitant le calcul d'un
descripteur visuel sur chacune des fenêtres considérées. Une
Récemment, il a été prouvé que les réseaux neuronaux telle stratégie ressemble à celle d'un algorithme de détection
convolutifs (CNN) atteignent des performances de pointe dans d'objets, qui évalue généralement de nombreux emplacements
d'images et détermine la présence ou non d'objet.

Mediterranean Telecommunications Journal Vol. 8, N° 2, July 2018 ISSN: 2458-6765


I. Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images 2

Les CNN de détection d'objets [8, 9, 7, 19] ont rapidement III. MÉTHODOLOGIE
évolué au point que l'utilisation de la recherche exhaustive
A. Caractéristiques basée sur CNN
avec des fenêtres glissantes ou le calcul de propositions
d'objets [26, 2] n'est plus nécessaire. Actuellement, on utilise Notre approche explore la pertinence d'utiliser des
les CNN de détection de pointe [19] formés bout à bout pour caractéristique extraites d’un CNN de détection d'objet pour la
apprendre simultanément les emplacements des objets et leurs tâche de recherche d'instances. Dans cette configuration, les
labels. instances de requête sont définies par une zone de délimitation
au-dessus de l’image requête. Nous choisissons l'architecture
Ce travail explore la pertinence des fonctionnalités standard et les modèles pré-entrénés de Faster R-CNN [19] et nous les
et affinées d'un CNN de détection d'objet pour la tâche de utilisons comme extracteur de caractéristiques à l'échelle
récupération d'instances. globale et locale. Faster R-CNN est composé de deux
branches qui partagent des couches convolutives. La première
II. TRAVAUX CONNEXES branche est un réseau de propositions de régions qui apprend
un ensemble d'emplacements de fenêtres, et le second est un
CNN pour la recherche d'instances. Les caractéristiques classificateur qui apprend à étiqueter chaque fenêtre comme
des CNN de classification d'images pré-entraînés ont été l'une des classes de l'ensemble d'apprentissage[28].
largement utilisées. Les premiers travaux dans ce sens ont Comme pour les autres travaux [3, 25, 11], notre but est
démontré que les caractéristiques des couches entièrement
d'extraire une représentation d'images compactes construites à
connectées pour la récupération d'images étaient plus
partir des activations d'une couche convolutionnelle dans un
appropriées [4]. Razavian et al. [18], ce qui a ultérieurement
CNN. Puisque Faster R-CNN fonctionne plus vite à l'échelle
amélioré les résultats en combinant des couches entièrement
connectées extraites de différents sous-patchs d'images. globale et locale. Nous proposons la stratégie de Mise en
Une deuxième génération de travaux a exploré l'utilisation commun des activations par l'image (IPAImage-wise
d'autres couches dans le CNN pré-entrainé et a constaté que pooling)[28]. Afin de construire un descripteur d'images
les couches convolutionnelles surpassent de manière globales à partir d'activations de couches Faster R-CNN, nous
significative les couches entièrement connectées lors des ignorons toutes les couches du réseau qui fonctionnent avec
tâches de récupération d'image [21]. des propositions d'objets et d'extraire des caractéristiques de la
CNN de détection d'objet. De nombreux travaux dans la dernière couche convolutionnelle. Étant donné les activations
littérature ont proposé des pipelines de détection d'objets basés d'une couche convolutionnelle extraite pour une image, nous
sur CNN. Girshick et al., ont présenté R-CNN [8], une version regroupons les activations de chaque filtre pour construire un
d’AlexNet de Krizhevsky [12], affinée pour Pascal VOC descripteur d'images de la même dimension que le nombre de
Detection [6]. Au lieu d'images complètes, les régions d'un filtres dans la couche convolutionnelle[28].
algorithme de proposition d'objet [26] ont été utilisées comme
entrées dans le réseau. Au moment du test, des couches
entièrement connectées pour toutes les fenêtres ont été B. Affiner Faster R-CNN
extraites et utilisées pour former un régresseur et un La pertinence de cette technique basée sur la méthode
classificateur de boîtes de délimitation. Faster R-CNN nous permet: 1) d’obtenir de meilleures
Depuis lors, de grandes améliorations ont été apportées à R- représentations de caractéristiques pour la récupération
CNN, à la fois en termes de précision et de rapidité. He et al. d'images et 2) d’améliorer les performances de l'analyse
Ont proposé SPP-net [9], utilisant une couche « Spatial spatiale et de la ré-analyse. Pour y parvenir, nous choisissons
Pyramid based pooling » pour améliorer la classification et la d'affiner Faster RNN pour détecter les objets de requête à
performance de détection. Girshick a plus tard publié Fast R- récupérer par notre système. A cette effet, nous modifions
CNN [7], utilisant la même stratégie de vitesse que SPP-net l'architecture de Faster R-CNN pour afficher les coordonnées
mais, plus important encore, remplace la formation post-hoc de la boîte de délimitation et les scores de classes pour
des classificateurs SVM et des régresseurs par une solution qui chacune des instances de requête des instances testées.
permet d’entrainer le réseau de bout en bout. Ren et al. Ont Les réseaux affinés qui en résultent doivent être utilisés
introduit le Faster R-CNN [19], qui supprime la dépendance pour extraire de meilleures représentations d'images et de
de propositions d'objets des anciens systèmes CNN de régions et pour effectuer une redirection spatiale basée sur des
détection d'objets en introduisant un RPN (Region Proposal scores de classes au lieu de similarités d'entités.
Network). Dans Faster R-CNN, le RPN partage des fonctions
C. Récupération d’images
avec le réseau de détection d'objets dans [7] pour apprendre
simultanément les propositions d'objets proéminentes et leurs Les trois étapes du pipeline de récupération d'instances
probabilités de classes associées. proposées sont décrites dans cette section : étape de filtrage,
Dans ce travaille nous utilisons les caractéristiques reclassement spatial et expansion de requête.
convolutif d’un CNN de détection d’objets pré-entrainé, pour Étape de filtrage. La stratégie IPA est utilisée pour créer
extraire les caractéristiques convolutives basées sur l'image et des descripteurs d'images pour les images de requêtes et de la
la région dans une seule passe avant. Ensuite, nous exploitons base de données. Au moment du test, le descripteur de l'image
l'architecture de détection d'objets autonome de bout en bout de la requête est comparé à tous les éléments de la base de
de Faster R-CNN pour extraire à la fois les caractéristiques données, qui sont ensuite classés en fonction de la similarité
d'images et de régions pour la recherche d'instances. du cosinus. A cette étape, l'image entière est considérée
comme requête.
Mediterranean Telecommunications Journal Vol. 8, N° 2, July 2018 ISSN: 2458-6765
I. Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images 3

Figure 1 Exemple de résultats obtenues avec le réseau affiné.

Reclassement spatial. Après l'étape de filtrage, les N diffèrents datasets (Pascal VOC et COCO [13]), y compris des
éléments supérieurs sont analysés localement et reclassés. expériences d'expansion de requêtes avec M = 5 image
Expansion de la requête (QE). On prend la moyenne des récupérées. Comme prévu, les caractéristiques extraites à
descripteurs d'image des M éléments supérieurs du classement partir du réseau VGG16 sont plus performantes dans la plupart
et le descripteur de la requête pour effectuer une nouvelle des cas, ce qui est cohérent avec les travaux antérieurs de la
recherche. littérature montrant que les fonctionnalités des réseaux plus
profonds atteignent de meilleures performances. L'extension
IV. EXPERIENCES de requêtes appliquées après le reclassement spatial permet
d'obtenir des gains significatifs pour tous les datasets testés.
A. Datasets exploités
TABLE I
Les méthodologies décrites dans la section 3 sont évaluées PRECISIONS DES MODELES DE FASTER R-CNN PRE-ENTRAINES AVEC DES
avec les datasets suivants : ARCHITECTURES ZF ET VGG16. (P) ET (C) INDIQUENT SI LE RESEAU A ETE

 Bâtiments d'Oxford [16]. 5 063 images, dont 55 images ENTRAINE AVEC DES IMAGES DE PASCAL VOC OU MICROSOFT COCO,
RESPECTIVEMENT. AVEC UNE COMPARAISON DU SUMPOOLING ET DU
de requêtes de 11 bâtiments différents à Oxford (5 images / MAXPOOLING. LORSQUE CELA EST INDIQUE, QE EST APPLIQUE AVEC M = 5.
instance sont fournies). Une boîte d’encadrement entourant
l'objet cible est fournie pour les images de requête. Net QE Pooling Oxford Paris
 Les bâtiments de Paris [17]. 6 412 images fixes de Max 0.5649 0.5612
Non
monuments de Paris, dont 55 images de 11 bâtiments avec Sum 0.5282 0.6153
des annotations pour les boites d’encadrement associées. ZF(P)
Max 0.5446 0.5672
Oui
Sum 0.5684 0.6179
B. Configuration utilisée Max 0.5519 0.5977
Non
Sum 0.5993 0.6658
Nous utilisons à la fois les architecturesVGG16 [22] et ZF VGG16(P)
Max 0.5564 0.6027
[27] de Faster R-CNN pour extraire les caractéristiques Oui
d'images et de régions. Dans les deux cas, nous utilisons la Sum 0.6383 0.6682
dernière couche convolutionnelle (conv5 et conv5_3 pour ZF Non
Max 0.4784 0.4923
et VGG16, respectivement) pour construire les descripteurs VGG16(C)
Sum 0.5020 0.6385
d'images introduits dans la section 3, qui sont respectivement Oui
Max 0.5309 0.6385
de dimension 256 et 512 pour les architectures ZF et VGG16. Max 0.5155 0.6404
Les caractéristiques de région sont regroupées à partir de la
couche de regroupement RoI de Faster R-CNN. Les images D. Réglage de Faster R-CNN
sont redimensionnées de sorte que leur plus petit côté soit de
600 pixels. Toutes les expériences ont été effectuées sur un Dans cette partie, nous évaluons l'impact du réglage d'un
GPU Nvidia GTX. réseau pré-entraîné sur les performances de récupération avec
les objets de requête à extraire. Nous avons choisi d'affiner le
C. Les caractéristiques d’images extraites de Faster R-CNN modèle VGG16 Faster R-CNN, pré-entrainé avec les objets de
Dans cette section, nous évaluons la performance de Pascal VOC.
l'utilisation des caractéristiques extraites depuis Faster R-CNN Pour les datasets Oxford et Paris, nous modifions la couche
pour la récupération d’instances. de sortie dans le réseau pour renvoyer 29 probabilités de
Nous avons effectué une etude comparative nous dees classes (28 classes bâtiments dans l'ensemble de données, plus
stratégies de « sumpooling » et de « maxpooling » des une classe supplémentaire pour le fond) et leurs coordonnées
descripteurs d'images et de régions. Le tableau 1 résume les de boîtes englobantes régressées correspondantes. Nous
résultats. Selon nos expériences réalisées, le sumpooling est utilisons les 5 images fournies pour chacun des bâtiments et
significativement supérieur au maxpooling pour la phase de leurs emplacements de délimitation comme données
filtrage. Un tel comportement est cohérent avec d'autres d'entraînement. De plus, nous augmentons l'ensemble
travaux dans la littérature [3, 11]. d'entraînement par
Le tableau 1 montre aussi les performances de différents un flip horizontal sur les images d'entraînement (22 * 5 * 2 =
Faster R-CNN architectures (ZF et VGG16) entrainés sur deux 220 images d'entraînement au total).

Mediterranean Telecommunications Journal Vol. 8, N° 2, July 2018 ISSN: 2458-6765


I. Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images 4

Les paramètres d'entraînement de Faster R-CNN d'origines REFERENCES


décrites dans [19] sont conservés pour le réglage, à l'exception [1] R. Arandjelovic and A. Zisserman. Three things everyone
du nombre d'itérations, que nous avons diminué à 5.000 au should know to improve object retrieval. In Computer Vision and Pattern
lieu de 80.000 compte tenu de notre petit nombre Recognition (CVPR), pages 2911–2918, 2012
d'échantillons d'entraînement. [2] P. Arbel´ aez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik.
Multiscale combinatorial grouping. In Proceedings of the IEEE Conference on
Nous utilisons ensuite le réseau affiné de la stratégie de Computer Vision and Pattern Recognition, pages 328–335, 2014.
réglage pour chacun des datasets afin d'extraire des [3] A. Babenko and V. Lempitsky. Aggregating local deep fea- tures for
descripteurs image et région pour effectuer une recherche image retrieval. In International Conference on Computer Vision (ICCV),
d'instance. Le tableau 2 présente les résultats obtenus. Comme December 2015.
[4] A. Babenko, A. Slesarev, A. Chigorin, and V. Lempitsky. Neural codes for
prévu, les caractéristiques affinées dépassent de manière image retrieval. In Computer Vision–ECCV 2014, pages 584–599. 2014.
significative les caractéristiques de Faster R-CNN brutes pour [5] O. Chum, J. Philbin, J. Sivic, M. Isard, and A. Zisserman. Total recall:
tous les ensembles de données (MAP est environ 20% plus Automatic query expansion with a generative feature model for object
élevé pour Oxford et Paris). retrieval. In International Confer- ence on Computer Vision (ICCV), pages 1–
8, 2007.
TABLE II [6] M. Everingham, L.Van Gool, C. K. I.Williams, J.Winn, and A. Zisserman.
RESULTATS OBTENU LORSQU’ON UTILISE LE MODELE ENTRAINER SUR LES The pascal visual object classes (voc) chal- lenge. International Journal of
DATASETS D’OXFORD ET DE PARIS. LORSQUE CELA EST INDIQUE, QE EST Computer Vision, 88(2):303– 338, June 2010.
APPLIQUEE AVEC M = 5. [7] R. Girshick. Fast r-cnn. In Proceedings of the IEEE Inter- national
QE Oxford Paris Conference on Computer Vision, pages 1440–1448, 2015.
Non 0.7761 0.8033 [8] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich fea- ture
hierarchies for accurate object detection and semantic segmentation. In
Oui 0.7827 0.8043 Proceedings of the IEEE conference on computer vision and pattern
recognition, pages 580–587, 2014.
[9] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep
V. ETUDE COMPARATIVE convolutional networks for visual recognition. Pat- tern Analysis and Machine
Dans cette section, nous comparons nos résultats avec Intelligence, IEEE Transactions on, 37(9):1904–1916, 2015.
[10] H. J´ egou, M. Douze, and C. Schmid. Improving bag-of-
plusieurs travaux de recherche d'instance dans la littérature. Le features for large scale image search. International Journal of Computer
tableau 3 montre les résultats de cette comparaison. Vision, 87(3):316–336, 2010.
Notre pipeline présente des résultats compétitifs par rapport [11] Y. Kalantidis, C. Mellina, and S. Osindero. Cross- dimensional weighting
à l'état de l'art.Comme attendu, les résultats obtenus avec les for aggregated deep convolutional features. arXiv:1512.04065, 2015.
[12] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification
caractéristiques affinées aboutissent à des résultats très with deep convolutional neural networks. In Advances in neural information
compétitifs. processing systems, pages 1097–1105, 2012.
[13] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ra- manan, P.
Doll´ar, and C. L. Zitnick. Microsoft coco: Common objects in context. In
TABLE III Computer Vision–ECCV 2014, pages 740–755. Springer, 2014.
COMPARAISON AVEC DES TRAVAUX BASES SUR CNN POUR LA [14] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for
RECUPERATION D 'INSTANCES. semantic segmentation. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recogni- tion, pages 3431–3440, 2015.
Oxford Paris [15] T. Mei, Y. Rui, S. Li, and Q. Tian. Multimedia search rerank- ing: A
literature survey. ACM Computing Surveys (CSUR), 46(3):38, 2014.
Tolias et al. (+ QE)[25] 0.770 0.877 [16] J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisser- man. Object
Kalantidis et al. (+ QE) [11] 0.722 0.855 retrieval with large vocabularies and fast spa- tial matching. In Computer
Vision and Pattern Recognition (CVPR), pages 1–8, 2007.
Notre algorithme 0.782 0.804
[17] J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman. Lost in
quantization: Improving particular object retrieval in large scale image
databases. In Computer Vision and Pattern Recognition (CVPR), 2008.
VI. CONCLUSION [18] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carls- son. CNN features
off-the-shelf: an astounding baseline for recognition. In Computer Vision and
Cet article présente une stratégie pour utiliser les Pattern Recognition Workshops (CVPRW), 2014.
caractéristiques CNN d'un CNN de détection d'objet. Il fournit [19] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: To- wards real-
une ligne de base simple qui utilise les caractéristiques Faster time object detection with region proposal net- works. In Advances in Neural
Information Processing Sys- tems, pages 91–99, 2015.
R-CNN pour décrire les images et leurs sous-parties. Nous [20] W. Zhang and C.-W. Ngo. Topological spatial verifica- tion for instance
avons montré qu'il est possible d'améliorer considérablement search. IEEE Transactions on Multimedia, 17(8):1236–1247, 2015. 1
les performances d'un systèmeen utilisant les caractéristiques [21] A. Sharif Razavian, J. Sullivan, A. Maki, and S. Carlsson. A baseline for
d'images et de régions à partir du CNN de détection d'objets visual instance retrieval with deep convolutional networks. In International
Conference on Learning Repre- sentations. ICLR, 2015.
Faster R-CNN. Nous profitons des propositions d'objets appris [22] K. Simonyan and A. Zisserman. Very deep convolu- tional networks for
par un RPN (Region Proposal Network) et de leurs large-scale image recognition. CoRR, abs/1409.1556, 2014.
caractéristiques associées prises d’un CNN pour construire un [23] Y. Zhang, Z. Jia, and T. Chen. Image retrieval with geometry- preserving
pipeline de recherche d'instances composées d’un filtrage puis visual phrases. In Computer Vision and Pattern Recognition (CVPR), pages
809–816, 2011
d’un reclassement. Plus encore, nous avons montré [24] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D.
l’importance des caractéristiques de Faster R-CNN lorsque le Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In
réseau est affiné pour les mêmes objets que ceux qu’on veut Proceedings of the IEEE Conference on Computer Vision and Pattern
récupérer. Les résultats ainsi obtenus, comparés avec d’autres Recognition, pages 1–9, 2015.
[25] G. Tolias, R. Sicre, and H. J´ egou. Particular object retrieval
techniques sonttrès encourageants. with integral max-pooling of CNN activations. ICLR, 2016.

Mediterranean Telecommunications Journal Vol. 8, N° 2, July 2018 ISSN: 2458-6765


I. Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images 5

[26] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders.


Selective search for object recognition. International journal of computer
vision, 104(2):154–171, 2013.
[27] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional
networks. In Computer vision–ECCV 2014, pages 818–833. Springer, 2014.
[28] Salvador, Amaia Giro-I-Nieto, Xavier Marques, Ferran Satoh and
Shin'Ichi. Faster R-CNN Features for Instance Search. In Proceedings of The
IEEE Conference on Computer Vision and Pattern Recognition Workshops.
2016.

Mediterranean Telecommunications Journal Vol. 8, N° 2, July 2018 ISSN: 2458-6765

Vous aimerez peut-être aussi