Vous êtes sur la page 1sur 4

RAPPORT DE PROJET

Sujet : <DETECTION D’OBJETS UTILISANT


YOLOV3>

Projet effectué par :


Zanga Bolozogola
Aminata Kampanougou Ouattara

Année universitaire : 2021-2022

UNIVERSITE INTERNATIONALE D’EXCELLENCE (UIE)

Sommaire
1. INTRODUCTION_________________________________________
2. PRESENTATION DE YOLOV3 _______________________________

3. FONCTIONNEMENT DE YOLOV3_____________________________

4. EXPLICATION DU CODE____________________________________

5. CONCLUSION____________________________________________

1. INTRODUCTION
Les modèles de détection d'objets sont utilisés dans les programmes d'intelligence
artificielle pour percevoir des objets spécifiques dans une classe comme sujets
d'intérêt. Les programmes classent les images en groupes et placent des images
similaires dans un groupe. Cette branche de l’intelligence artificielle est appelée la
vision par ordinateur (Computer Vision).
Dans le domaine de la vision par ordinateur, la détection d'objets est considérée
comme le défi le plus redoutable. Il existe plusieurs algorithmes de détection d'objets,
mais aucun d'entre eux n'a attiré l’attention que YOLOv3. YOLO (qui est l’acronyme
de ‘You Only Look Once’) est considéré comme l'algorithme de détection d'objet le
plus populaire. Les versions 1 à 3 de YOLO ont été créées par Joseph Redmon et Ali
Farhadi.

En 2016, la première version de YOLO a été créée et deux ans plus tard, le populaire
YOLOv3 a été implémenté en tant que version améliorée de YOLO et
YOLOv2. YOLO peut être implémenté à l'aide des bibliothèques d'apprentissage en
profondeur Keras ou Open CV.

2. PRESENTATION DE YOLOV3 

YOLO est un réseau neuronal convolutif (CNN) utilisé pour la détection d'objets en
temps réel. Les CNN sont des cadres basés sur des classificateurs qui interagissent
avec les images d'entrée sous forme de tableaux structurés de données et visent à
reconnaître des modèles entre eux (voir l'image ci-dessous). YOLO a l'avantage d'être
beaucoup plus rapide que les autres modèles de détection d'objets tout en maintenant
la précision.

Il permet au modèle de visualiser l'image entière au moment du test, de sorte que ses
prédictions sont informées par le contexte global de l'image. YOLO, ainsi que d'autres
algorithmes CNN notent les régions en fonction des similitudes présentes dans les
images avec les classes prédéfinies.

Les régions à score élevé sont notées comme des détections positives de la classe à
laquelle elles s'identifient le plus étroitement. Par exemple, tout en travaillant sur un
flux en direct du trafic, YOLO peut détecter les différents types de véhicules en
recherchant dans les régions où le score est élevé par rapport à des classes de véhicules
prédéfinies.

3. FONCTIONNEMENT DE YOLOV3
YOLOv3 est un réseau de neurones dit totalement convolutionnel, et il produit ce qu'on
appelle des cartes de fonctionnalités en sortie. Ce qu'il faut retenir pour YOLO, c'est que
comme il n'y a aucune contrainte sur la taille des features map, nous pouvons lui donner des
images de tailles différentes.
YOLOv3 réduit la taille des images d'un facteur 32, appelée la foulée du réseau. La première
version de YOLO a pris des images de taille 448×448, ainsi la feature map de sortie était de
dimension 14×14. Il est courant que les objets que l'on veuille détecter soient au centre de
l'image. Or, une grille de taille 14×14 n'est pas de centre unique. En pratique, il est donc
préférable que la sortie ait une taille impaire. Pour lever cette ambiguïté, la taille des images
sera 416×416, pour fournir une feature map de taille 13×13 avec un centre unique.
YOLOv3 dispose de trois couches finales, la première a une dimension divisée par 31 par
rapport à l'image initiale, la deuxième par 16 et la troisième par 8. Ainsi en partant d'une
image de taille 416×416 pixels, les trois caractéristiques les cartes en sortie du réseau auront
des tailles respectives de 13×13, 26×26 et 52×52 pixels. C'est en ce sens que YOLOv3 prédit
trois niveaux de détails, pour détecter respectivement les gros, moyens et petits objets. Partant
d'une image de taille 416×416 pixels, un même pixel est « suivi » à travers le réseau et
conduit à trois cellules. Pour chaque cellule trois cases englobantes sont prédites, cela en fait
un total de 9 qui sont issues des 9 ancres. Pour chaque boîte englobante, un score d'objectivité
et des scores d'appartenance aux classes sont prédits. Au total, le réseau propose 52×52×3 +
26×26×3 + 13×13×3 = 10647 boîtes englobantes.

Vous aimerez peut-être aussi