Vous êtes sur la page 1sur 24

introduction

Dans le monde insécurisé d’aujourd’hui, la vidéo surveillance joue un


rôle important pour la sécurité des lieux intérieurs et extérieurs. La vidéo
surveillance est utilisée depuis longtemps pour assurer la sécurité
dans de nombreux endroits sensibles. Avec les progrès réalisés dans divers
aspects de la vie, les opérations de surveillance traditionnelles sont
confrontées à de nombreux problèmes en raison des grandes quantités
d’informations qui doivent être traitées manuellement en un temps limité
et de la possibilité de perte d’informations qui peuvent contenir
des éléments importants tels que des comportements suspects.
Champs d’application de la vidéo surveillance

• Sécurité publique et commerciale:


• Surveillance des banques, des grands magasins, des aéroports, des musées, des gares, des propriétés privées et des parkings pour la
prévention et la détection des crimes.
• Application de la loi:
• Mesure de la vitesse des véhicules
• Détection des franchissements de feux rouges et des occupations
• inutiles de voies de circulation.

• La sécurité militaire:
• Surveiller les frontières du pays.
• Mesure de flux des réfugiés.
• Assurer la sécurité des régions autour des bases.
• Aide au commandement et au contrôle du champ de bataille.
Video Management System

Video Management System un système de gestion vidéo, également appelé logiciel de gestion vidéo ou un
serveur de gestion vidéo, est un composant d’un système de caméras de sécurité qui est capable de diffuser
des vidéos (en direct ou préexistantes) à partir de caméras ou d’autres sources, de les stocker et de fournir une
interface pour interagir avec elles, comme l’affichage du flux en direct ou de la vidéo enregistrée, entre autres
d’autres fonctions facultatives. Un système de gestion vidéo efficace est, essentiellement, la combinaison
efficace d’un logiciel vidéo et de matériel serveur,
Fonctionnement d’un VMS
Un VMS fonctionne en collectant des vidéos, en direct et enregistrées, à partir de caméras de surveillance du
réseau. Il stocke ensuite cette vidéo sur des supports de stockage de données dédiés (sur site, sur des supports de
stockage de données dédiés ou dans le cloud), sur la base de politiques automatisées, prédéterminées par
l’entreprise.
Lorsqu’un employé a besoin d’accéder à la vidéo de surveillance, le VMS fournit une interface permettant de
récupérer et de visualiser les séquences de surveillance enregistrées et en direct.
Vidéo Streaming:
Le streaming vidéo est la fonctionnalité de base de tout système de gestion vidéo. C’est une transmission
continue de fichiers vidéo d’un serveur à un client. Il permet aux utilisateurs de visionner des vidéos en ligne
sans avoir à les télécharger.
Les techniques de compression/décompression vidéo:
M-JPEG
H.263
MPEG
H264 (AVC)
H.265 (HEVC)
Les Protocoles du Streaming Vidéo:
HTTP Live Streaming (HLS)
Real-Time Messaging Protocol (RTMP)
Real-Time Streaming Protocol (RTSP)
WebRTC
Dynamic Adaptive Streaming over HTTP (MPEG-DASH)
Secure Reliable Transport (SRT)
Computer Vision and Deep Learning Techniques:
Computer Vision:
La vision par ordinateur est un domaine scientifique interdisciplinaire implique l’utilisation d’ordinateurs pour
obtenir une compréhension détaillée des données visuelles, d’images ou de vidéos, ce qui constitue une
approche similaire à celle des systèmes visuels humains.
La vision par ordinateur utilise généralement deux technologies différentes :
L’apprentissage profond
L’apprentissage profond
Machine Learning :
L’apprentissage est un sous-domaine de l’intelligence artificielle (IA) qui permet aux machines de reconnaître
des objets en fonction de leur expérience de détection précédente. En général, l’objectif de l’apprentissage
est de comprendre la structure des données et de les intégrer dans des modèles qui peuvent être compris et
utilisés par les tout le monde.
Types d’apprentissage:
L’apprentissage supervisé
L’apprentissage non supervisé
Deep Learning:
Le Deep Learning (L’apprentissage en profondeur) est un type de l’apprentissage
automatique, en utilisant les réseaux de neurones pour saisir
modèles complexes. Ce type de technologie permet aux systèmes
d’intelligence Artificielle d’exécuter des tâches humaines, « telles que
la reconnaissance visuelle d’objet de la vie réelle ou comprendre la
parole. » Alors que le fonctionnement de ces réseaux inspirés du cerveau
reste impénétrable, leurs algorithmes de couches inter-connectées
donnent aux machines la possibilité d’être entraînées et d’effectuer
des tâches spécifiques.
Les avantages du Deep Learning:
L’apprentissage profond a plusieurs avantages parmi eux est l’analyse
et l’apprentissage des quantités massives de données, Ce qui lui
a permis de pouvoir dans tous les domaines, il a transformé des applications
qui nécessitaient auparavant une expertise en vision en des
défis d’ingénierie pouvant être résolus par des non experts en vision.
L’apprentissage profond transfère la charge logique d’un développeur
d’applications, qui met au point et écrit un algorithme basé sur des
règles, à un ingénieur qui forme le système. Il ouvre également un nouvel
éventail de possibilités pour résoudre des applications qui n’ont
jamais été tentées sans un observateur humain. Ainsi, l’apprentissage
profond facilite l’utilisation de la vision industrielle, tout en repoussant
les limites de ce qu’un ordinateur et une caméra peuvent inspecter
avec précision.
Les différentes Architectures du Deep Learning:
Fig.3.4: Modèles des réseaux neuronaux de Deep Learning [Tch17]
Méthodes du Deep Learning:
The learning rate decay’ méthode
Transfer Learning
Training from scratch
Dropout
L’apprentissage Profond et La vision par Ordinateur:
L’apprentissage profond joue un rôle majeur dans le domaine de la vision par ordinateur. La capacité
d’interpréter photos et vidéos brutes a été appliquée à des problèmes dans le domaine de la vente au détail,
de l’imagerie médicale et de la robotique. Les CNN sont utilisés dans des applications telles que la
reconnaissance faciale, les systèmes de réponse aux questions sur les images, l’étiquetage de scènes et
certaines tâches de segmentation d’images.
les CNN atteignent une meilleure précision sur des de données à grande échelle en raison de leurs
capacités d’apprentissage de caractéristiques et de classificateurs.
Architectures d’apprentissage profond pour la vision par ordinateur:
Les performances et l’efficacité d’un CNN sont déterminées par son architecture. Celle-ci comprend la structure
des couches, la façon dont les éléments sont conçus et les éléments présents dans chaque couche.
De nombreux CNN ont été créés, mais les modèles suivants sont parmi les plus efficaces.
AlexNet:
AlexNet est une architecture basée sur l’ancienne architecture LeNet. Il comprend cinq couches
convolutionnelles et trois couches entièrement connectées. AlexNet utilise une structure à double pipeline pour
permettre l’utilisation de deux GPU pendant la formation.
GoogleNet (2014)
GoogleNet, également connu sous le nom d’Inception V1, est basé sur l’architecture LeNet. Il est composé de
22 couches constituées de petits groupes de convolutions, appelés ”modules d’inception”. Ces modules
d’inception utilisent la normalisation par lots et RMSprop qui est un algorithme qui utilise des méthodes de taux
d’apprentissage adaptatif. pour réduire le nombre de paramètres que GoogleNet doit traiter.
adaptatif.
ResNet (2015)
ResNet, abréviation de Réseau Neuronal Résiduel, est une architecture
conçue pour comporter un grand nombre de couches - les architectures
généralement utilisées vont de ResNet-18 (18 couches) à ResNet-1202
(1202 couches). Ces couches sont configurées avec des unités à porte
ou des ”connexions de saut” qui leur permettent de transmettre des
informations aux couches convolutionnelles ultérieures.
Techniques et méthodes d’apprentissage profond:
La Détection d’objets:
Récemment, des algorithmes ont émergé et ont montré des performances remarquables dans le domaine de la détection
d’objets en temps réel.
Parmi eux, il y a : R-CNN , SPP-net , Fast R-CNN , OverFeat , Faster R-CNN, SSD300 , SSD512 , SubCNN , YOLOv3
, YOLOv5 , RFCN , Mask R-CNN.
Certaines méthodes sont plus fiables et robustes que d’autres. Dans cette section, nous discuterons les méthodes de
détection les plus courantes, Faster R-CNN, YOLO (You Only Look Once) et SSD (Single Shot MultiBox Detector).
Faster R-CNN:
Faster R-CNN est un modèle de détection d’objets qui améliore le Fast R-CNN en utilisant un réseau de proposition de
région (RPN) avec le modèle CNN. Dans son ensemble, Faster R-CNN se compose de deux modules.
Le premier module est un réseau convolutif profond qui propose des régions,
et le second module est le détecteur R-CNNrapide qui utilise les régions proposées.
YOLO (You Only Look Once):
YOLO a été publié en 2015 par Joseph Redmon. La 2eme version de
YOLO, appelée YOLO9000, également connue sous le nom de YOLOv2
et la troisième version de YOLO, appelée YOLOv3, sortie en mai 2018. L’algorithme YOLO utilise des réseaux
neuronaux convolutionnels
(CNN) pour détecter des objets en temps réel. L’algorithme
ne nécessite qu’une seule propagation vers l’avant à travers un réseau
neuronal pour détecter les objets.
Fonctionnement de YOLO.
SSD (Single Shot MultiBox Detector):
Single Shot MultiBox Detector (SSD) a été publié en 2015 par Liu
et al. Single shot indique que l’algorithme SSD appartient à la méthode
en une étape. MultiBox indique que le SSD est une prédiction
multi-images. SSD exécute un CNN sur l’image d’entrée une seule fois
et génère une carte des caractéristiques. Ensuite, il exécute un petit
noyau convolutif de taille 3 × 3 sur la carte des caractéristiques
pour prédire les boîtes englobantes et la probabilité de classification.
La Reconnaissance de l’activité Humaine
Human Action Recognition ou la reconnaissance de l’activité humaine,
ou HAR en abrégé, est un vaste domaine d’étude qui vise à identifier
le mouvement ou l’action spécifique d’une personne à partir de données
de capteurs. Les mouvements sont souvent des activités typiques
effectuées à l’intérieur, comme marcher, se tenir debout et s’asseoir. Il
peut également s’agir d’activités plus ciblées, comme celles effectuées
dans une cuisine ou dans une usine. Les données du capteur peuvent
être enregistrées à distance, par vidéo, radar ou autres méthodes sans
fil.
Voici un exemple de modèle CNN + LSTM pour la reconnaissance des
Dans le CNN, une vidéo est décomposée en images individuelles afin de former un grand ensemble de données
d’images. Cet ensemble est importé comme entrée de CNN+LSTM à canal unique pour le pré entraînement. Les
résultats de l’entraînement sont stockés et la séquence de caractéristiques est générée. L’ensemble de données
est ensuite importé dans le réseau LSTM comme données d’entrée. La séquence d’images vidéo est utilisée pour
former le réseau LSTM. Après l’entraînement, les paramètres du CNN sont exportés en tant que
caractéristiques spatiales pour la reconnaissance d’actions humaines.
État de l’art
Efficient Anomaly Detection In Surveillance Videos Based On Multi Layer Perceptron
Reccurent Neural Network:
Cette recherche [MT20] a été faite par Mr. M. Murugesan et Dr. S.
Thilagamani du Département d’informatique et d’ingénierie, Collège
d’ingénierie M. Kumarasamy, Karur, Tamilnadu, India. Ils ont proposé
une approche de déduction du fond dépendante de la technique
d’extraction de la région extrême maximalement stable (MSER) avec
la structure d’apprentissage profond en cours du réseau neuronal récurrent
de perception multicouche (MLP-RNN), qui permet de distinguer
de multiples objets de tailles diverses dans un cadre de recherche
d’avant-plan par pixel.
Résultats et Discussion:
Le système proposé par les chercheurs, basé sur un réseau neuronal
récurrent de perception multicouche (MLP-RNN), donne les meilleurs
résultats de reconnaissance d’anomalies pour toutes les séquences vidéo.

Cette stratégie permet d’améliorer les résultats de la classification des images, d’améliorer la
précision et de réduire le taux d’erreurs de calcul. La précision de classification des résultats de
leurs travail est de 98,56%, la spécificité est de 96,05% et la sensibilité est de 98,21%, ce qui est
plus sensible que les pré-effets sur le terrain immergés dans ces études.
Deep Learning Approach for Suspicious Activity Detection from Surveillance Video
Cette recherche a été faite par Amrutha C.V, C. Jyotsna, Amudha J. du Département d’informatique et d’ingénierie,
École d’ingénierie d’Amrita, Bengaluru, Amrita Vishwa Vidyapeetham, India, qui ont proposé un système qui utilisera
les images obtenues à partir de caméra CCTV pour surveiller le comportement humain basé sur l’approche
d’apprentissage profond dans un campus et un SMS (Short Message Service) d’alerte à l’autorité correspondante en
cas de prédiction d’une activité suspecte. Le système se compose de deux réseaux neuronaux: le réseau CNN et un
autre LSTM qui est un réseau neuronal récurrent (RNN). Le CNN est utilisé pour extraire des images des
caractéristiques de haut niveau, de sorte que la complexité de l’entrée soit réduite. RNN est utilisé pour la
classification, ce qui est bien adapté au traitement du flux vidéo. Le système proposé utilise un modèle pré entraîné
appelé VGG-16 (Visual Geometry Group), qui est formé sur l’ensemble de données ImageNet.

La précision de la phase d’apprentissage est de 76% pour les 10 premières époques. La précision
du modèle peut être améliorée en augmentant le nombre d’itérations. La précision obtenue est de
87,15%.
L’analyse du Résultat

• La précision de la phase d’apprentissage est de 76% pour les 10 premières époques. La précision du modèle
peut être améliorée en augmentant le nombre d’itérations. La précision obtenue est de 87,15%.
• Le travail effectué par ces chercheurs montre la puissance de l’utilisation des techniques d’apprentissage
profond, en particulier les LSTM et les CNNs dans la détection et la classification d’événements anormaux
dans la vidéo-surveillance, même si le système proposé est limité au domaine académique universitaire, il
peut également être utilisé pour prédire les comportements suspects dans des lieux publics ou privés. Le
modèle peut être utilisé dans n’importe quel scénario où la formation doit être donnée avec les activité
suspecte correspondant à ce scénario. Le modèle peut être amélioré en identifiant l’individu suspect à partir
de l’activité suspecte
An Efficient Anomaly Recognition Framework Using an Attention Residual LSTM in Surveillance
Videos

• Cette étude a été menée par Waseem Ullah, Amin Ullah, Tanveer Hussain, Zulfiqar Ahmad Khan et Sung Wook Baik du
Département des contenus numériques de l’université de Sejong, Séoul 143-747, Corée du Sud. Ils ont proposé dans ce
travail un système de reconnaissance des anomalies basé sur un réseau de neurones convolutifs (CNN) léger et efficace, qui
est fonctionnel dans un environnement de surveillance avec une complexité temporelle réduite. Dans lequel ils ont adopté
un modèle pré-entraîné et extrait des caractéristiques spatiales CNN d’une série de trames vidéo en les introduissant dans le
réseau LSTM (Long Short Memory) proposé, basé sur l’attention résiduelle, qui peut reconnaître précisément les activités
anormales dans les vidéos de surveillance.
• Datasets:
• Le jeu de données UCF-Crime : est un jeu de données à grande échelle comprenant 128 heures de vidéos. Il se compose
de 1900 vidéos de surveillance du monde réel, longues et non tronquées, avec 13 anomalies réalistes, dont les suivantes:
abus, arrestation, incendie criminel, agression, accident de la route, cambriolage, explosion, bagarre, vol, fusillade, vol à
l’étalage et vandalisme. Ces anomalies ont été sélectionnées parce qu’elles ont un impact significatif sur la sécurité publique
• Le jeu de données UMN : est composé de 11 séquences vidéo de diverses scènes d’activités anormales et est un jeu de
données largement utilisé, ce jeu de données comporte au total 4144, 2144 et 1453 images de trois scènes, respectivement.
• Le jeu de données Avenue : se compose de 16 vidéos d’entraînement et de 21 vidéos de test. et contient au total 30 652
images. Cet ensemble de données comporte 47 événements anormaux, et la résolution de chaque image est de 360x640
pixels.
Résultats:
Le modèle proposé s’est avéré avoir une plus grande précision que les méthodes existantes et a surpassé les
techniques existantes en augmentant la précision de 1,77%, 0,76% et 8,62% pour les jeux de données UCF-
Crime, UMN et Avenue, respectivement.
Étude Comparative des Revues:

Vous aimerez peut-être aussi