Vous êtes sur la page 1sur 8

Intrts et limites de la vido-surveillance intelligente pour la Scurit Globale

Pierre BERNAS1
1

EVITECH +33.820.2008.39 pbernas at evitech dot com

1. Introduction
Depuis la fin des annes 90, la numrisation des contenus et la progression de puissance des ordinateurs ont rendu possible le traitement en temps rel des images de la vido pour en extraire des interprtations (que voit-on limage, que se passe-t-il, qui va o, etc). Dabord effectus en noir et blanc, puis en couleur, ces traitements ont commenc sortir des laboratoires de recherche dans cette priode, et constituer des solutions exploitables, dabord pour la surveillance routire, puis pour la surveillance de personnes et dobjets, et plus rcemment pour la biomtrie faciale. Le domaine progresse dsormais dans de multiples applications pour la Scurit Globale dont nous allons essayer de tracer les perspectives ici. Lenjeu en est essentiel : cest linterprtation automatique de linformation vido qui permet lexploitation des camras de vidosurveillance une grande chelle : elle rend possible le dploiement utile de multiples camras de surveillance dont les logiciels intelligents garantissent que seule une information labore et filtre parviendra, en temps rel, aux responsables de la scurit intresss. Les murs dcrans des annes 80 sont aujourdhui dmonts. Les thmes de la numrisation et de la compression dimages, ceux du traitement dimages fixes (empreintes digitales, photos satellite), et les applications militaires embarques de dtection de missiles ou dapproches ariennes (radar) ne sont pas abords ici.

2. Traitements dimages vido


2.1. Quest ce quune squence vido ? Une squence vido numrique peut tre lue et manipule par un programme sur un ordinateur en tant que flot dimages annotes (date, numro dimage, ). Chaque image de ce flot est constitue de pixels (terme issu de la contraction des mots anglais picture elements ) qui constituent autant de points caractrisant la taille/rsolution de limage. Les capteurs dimages lorigine de la vido caractrisent le nombre de pixels de large et de haut des images quils engendrent ; ce sont des paramtres importants lors du choix dun capteur puisquils vont conditionner la rsolution laquelle on voit les dtails de limage, une fois numrise. On trouve sur le march des capteurs produisant des images vido de tailles trs varies entre la centaine et un peu plus du millier de pixels de ct. Plus il y a de pixels, plus riche est linformation produite. Chaque pixel est en gnral reprsent par une ou quelques valeurs entires qui codent son intensit (en noir et blanc et en camra thermique/infrarouge) et, dans le cas de la couleur, sa chromaticit et sa saturation.

300x400 pixels

100x133 pixels

33x44 pixels

Figure 1 : rsolution et capacit de reconnaissance

2.2.

Comment comparer deux images dune vido ?

Pour comparer deux images dune vido, on sappuie simplement sur le fait que les images successives dune vido sont la plupart du temps toutes de la mme taille, et donc on compare un un les pixels dans lordre ligne x colonne . Tous les pixels comportant une valeur diffrente dune image lautre appartiennent la diffrence entre les deux images. Comme les capteurs sont des quipements physiques imparfaits, les images successives dun mme plan vido (mme clairage, camra immobile, ) prsentent en gnral de lune lautre de trs petites diffrences dues des incertitudes ou des erreurs de mesure effectues par le capteur : on regroupe tous ces alas, quelle que soit leur cause, dans un terme quon appelle le bruit . Le bruit dun capteur dpend de ce capteur mais aussi de loptique, des composants lectroniques de la camra, de la chane de numrisation utilise, jusqu disposer de limage numrique, qui une fois labore est transporte avec des protocoles assurant son intgrit par des mcanismes de vrification (checksum), et de rptition en cas derreur la transmission. Pour en revenir la diffrence entre deux images, on seuille en gnral les carts constats par une constante place trs au dessus de la valeur moyenne du bruit, ce qui permet de comparer des diffrences plus certaines entre les deux images, c'est-dire des diffrences qui sont valides dans le monde rel, audel du bruit du capteur.

Figure 2 : gauche, 2 images successives du balayage dune faade, droite leur diffrence, rapporte une image moyenne grise afin de rendre visible les assombrissements et les claircissements.

En pratique ce seuillage tablit une limite la capacit de dtection du systme qui nest pas pnalisante lorsquon recherche de gros objets bien visibles, mais qui peut savrer trs pnalisante lorsquon recherche un petit objet peu diffrent de son environnement. Lorsquon connat leffet recherch (par exemple lclairement furtif dun point brillant affectant successivement deux ou trois pixels), on parvient toutefois contourner cette difficult pour dtecter correctement (dans ce cas) un dpart de missile. 2.3. Comment dtecter un mouvement ?

Pour dtecter un mouvement dans une squence vido, on utilise en gnral des techniques issues de la recherche dans les disciplines du traitement dimages, du traitement du signal, et de lintelligence artificielle. La technique du flot optique permet la mise en uvre dune analyse globale du mouvement laide dune quation [3] reliant la variation dintensit lumineuse en un point avec la vitesse de dplacement de ce point. Cette technique permet danalyser des scnes dont la totalit de limage est en mouvement, et dy distinguer des objets en mouvement relatif les uns par rapport aux autres. Cette technique est utilise en mto (analyse et mesure des mouvements des nuages, des cyclones), et en aide la conduite de vhicules (dtection et analyse des objets mobiles devant le vhicule : autres voitures, pitons). La technique de limage de fond [8], de son ct, se limite aux camras en position fixe et permet, grce la mise en place et la mise jour permanente dune image du fond vide, de distinguer des objets mobiles par diffrence ce fond. Figure 3 : le mouvement des pixels La technique des points caractristiques [6], se concentre enfin sur la recherche de points caractristiques dans limage (cf. [2] : points de limage aux caractristiques fortement marques : coins, bords, puis par extension centres de rgions) et recherche leur correspondants dune image lautre pour en dduire un mouvement, et pour regrouper ensemble les points proches ayant un mouvement cohrent.

Toutes ces techniques sont sensibles au bruit du capteur et aux mouvements de la scne (ex : vent sur la vgtation, nuages au ciel, eau, ) et ncessitent des traitements complmentaires, comme par exemple le filtrage, pour fonctionner de faon satisfaisante. Rciproquement, le filtrage est une limite la capacit de dtection dun systme, puisquon va filtrer aussi les petits objets, les mouvements trs lents, 2.4. Comment dtecter les visages ?

Une des applications rcentes les plus fascinantes du domaine du traitement dimages concerne la dtection et le suivi de visages partir dune vido. Pour raliser une telle application, on labore des masques caractristiques de visages, en travaillant partir dune base aussi importante que possible de visages, de faon disposer dune reprsentativit des chantillons. On programme alors une recherche rapide de zones de limage dont les contrastes correspondent ces masques. Une fois mis au point, le logiciel de traitement dimages balaie lensemble de limage avec ces masques, et lve une dtection de visage (carr rouge) lorsque la comparaison savre conforme sur la zone, aprs vrification de tous les masques appris [7]. Les visages ainsi dcouverts peuvent alors faire lobjet dun suivi dune image lautre, suivi permettant de les retrouver plus rapidement et de prenniser leurs caractristiques laide dune moyenne calcule sur les observations effectues de ce visage. La rsolution du visage ainsi dcouvert et suivi peut aussi tre amliore par un traitement dimages, en exploitant et Figure 3 : dtection de visages la vole : les visages inversant plusieurs images successives peu partiellement occults (le haut du visage au centre) et ceux qui sont trop petits (en haut de limage) ou de profil ( gauche) ne nettes pour en extraire une plus nette sont pas encore dtects par ces algorithmes. (surrsolution). En pratique, les capacits de dtection de ces algorithmes sont trs limites par la rsolution de limage : tant que les visages reprsentent plus de 10 voire 20 pixels de large, il est possible de les dtecter, en de cela devient trs difficile. La surrsolution mentionne ici nest possible que dans le cas dobjets quasi immobiles ou dobjets dont les contours sont trs nettement estims, elle ne peut donc tre employe ici quaprs dtection. 2.5. Comment reconnatre des objets ? La reconnaissance dobjets est une application dans laquelle, avec un modle, dont on dispose de une ou plusieurs prises de vues, et des donnes de recherche (des images dune vido), on vise automatiser la reconnaissance de lobjet par lordinateur lorsquil y est prsent. Lobjet peut y tre vu une distance diffrente, dans un autre contexte, un autre clairement, tourn, ou renvers. Pour reconnatre un objet assez plat (btiment) vu de trs loin (satellite) ou un objet plat, on a utilis une proprit gomtrique des objets plats qui tablit que dans une translationhomothcie-rotation (cest la modlisation mathmatique des transformations que peut subir un objet plat entre deux observations), les rapports des distances entre points caractristiques (coins) dun objet observ ne sont pas modifis. Cette proprit est utilise pour la reconnaissance dobjets par satellite depuis les dbuts du traitement dimages, en vision industrielle pour faire reconnatre des pices plates ou face plate un robot, ou plus simplement en reconnaissance de plaques dimmatriculation pour ensuite y appliquer un traitement de reconnaissance de caractres (OCR). L encore, lcart de rsolution entre les vues du modle et les donnes de recherche ne doit pas tre trop important : il doit permettre de retrouver des points qui peuvent tre mis en correspondance : [5] dmontre que la comparaison ne peut tre effectue qu lchelle la moins rsolue, comme pour lil humain : cf. les 3 photos de rsolutions diffrentes en premire page. Dautres techniques ont vu le jour par la suite pour associer aux objets observs des proprits dun espace gomtrique propre (eigenspace, eigenvectors, eigenfaces) telles que deux objets proches de cet espace caractrisent deux objets semblables du point de vue de la reconnaissance [4].

Ces dernires techniques sont utilises dans la biomtrie faciale pour reconnatre les individus dont les visages apparaissent nus et de face dans la vido. Comme en pratique les visages ne sont pas parfaitement plats, pas nus (moustache, lunettes, charpe, casquette, ) et jamais parfaitement de face, des algorithmes suppltifs sont mis au point pour parvenir de faon performante des rsultats satisfaisants malgr ces difficults. Pour reconnatre de vrais objets non plats (3D), il faut manipuler des concepts en 3 dimensions, et les observer sur leurs diffrents cts, sous diffrents angles de vue, et utiliser pour chacune toutes les caractristiques de lobjet (couleurs, taches, points saillants) et leurs relations spatiales (proximit, distances, ) de faon reconstruire un modle permettant de reconnatre effectivement lobjet sous un angle de vue et un grossissement quelconque [5]. Le traitement des modles 3D est beaucoup plus complexe et coteux en temps de calcul, si bien que pour le moment les applications disponibles sont trs lentes, et souvent limites des classes dobjets homognes (ex : les visages). Nous en sommes aux premiers rsultats de la recherche dans le domaine, et le dveloppement des applications industrielles est frein par la puissance de calcul ncessaire de telles oprations, notamment sur les objets complexes (tout objet du monde rel vu de prs devient vite complexe !). 2.6. Un il, deux yeux, ou plus ? Lusage de 2 ou plusieurs camras observant la mme scne a galement fait lobjet dtudes et de dveloppement de produits, car il permet soit de voir les objets sous plusieurs faces (camras disposes autour dun lieu), soit de voir les objets sous la mme orientation, mais avec un certain dcalage, dautant plus important que lobjet est proche (effet stroscopique). En dmultipliant les techniques danalyse vues prcdemment sur les diffrentes camras disponibles, quelques lments danalyse spatiale 3D sont en gnral possibles, mais ils sont nanmoins limits lobservation de sujets isols, et ne donnent pas dapplications particulirement plus performantes, sauf sur le point de lestimation de distance dobjets par la stroscopie, qui trouve des usages en conduite de vhicules (dtection dobstacles), ou pour des systmes ayant besoin de connatre prcisment la distance dune cible (tir balistique). 2.7. Quest-ce quun ordinateur du commerce peut traiter ? En une seconde de temps, un PC rcent du commerce (Pentium Core 2 Duo X6800 prs de 3 GHz) sait traiter, pour un programme donn, 34 x 109 instructions entires, ou 13 x 109 instructions en rels (flottants). Ces mesures sont issues du test de performances dit de Dhrystone, et ne constituent quune des rfrences utilises parmi dautres pour la mesure de performances, que nous choisissons ici pour illustrer notre propos. Un flux dimages de 1000x1000 pixels en couleur 25 images par seconde correspond 75x106 dentiers reus par seconde. En rapprochant les deux chiffres, on constate que lon dispose dun temps de calcul maximal moyen de 200 500 oprations lmentaires par pixel si lon veut pouvoir analyser tous ces pixels (tous les pixels de

Figure 4 : le matriel reste la contrainte capitale pour lanalyse en temps rel

toutes les images de la vido). Cette limite est en fait trs restrictive, et en pratique les algorithmes que nous avons cits ne peuvent tre implments en si peu doprations (il en faut plutt de lordre de 10.000, si on prend en compte tous les traitements quon applique lanalyse dune vido : dcompression, filtrages, seuillages, diffrences, calculs de moyennes, variances). Il convient donc, si on veut utiliser ce type de matriels, de procder des amnagements et de fortes optimisations pour pouvoir analyser la vido au mieux des possibilits de la machine. En pratique on utilise des matriels de ce type, ou mme 10 100 fois moins performants, avec des algorithmes trs simplifis, dans le cas o on souhaite traiter simultanment plusieurs voies vido,

ou intgrer le traitement dans un processeur dans la camra. On se limite alors ne traiter quune partie de limage, et sauter des images de la squence, de faon pouvoir donner une interprtation en temps rel.

3. Intgration dans des applications de scurit et de dfense


Pour intgrer ces technologies dans les applications de scurit dfense, on se fixe en gnral comme objectif et comme limite de pouvoir obtenir du traitement une interprtation aussi bonne que celle que produirait une personne trs attentive observant la vido, cest dire la dtection de 100% des vnements recherchs, et labsence totale de fausses dtections. Cet objectif implique deux limites : Les limites de la rsolution de limage et de la capacit de discernement de lil, Les informations non disponibles la vido (objets cachs) ne sont pas visibles. 3.1. Intrusions, comportements La dtection de mouvements recouvre avec une mme technologie un ensemble dapplications assez vaste : Dtection dintrusions (prsence dun mouvement dans une zone rpute vide ou interdite), Analyse de position et de dplacement limage (un objet entre, sort, possde une taille, une forme, une vitesse, ), Dtection dobjet immobile.

Figure 5 : gauche, un suspect traverse une frontire en profitant du brouillard. A droite et en bas, le logiciel EAGLE (Evitech) signale lincident.

Les applications les plus simples se cantonnent signaler un rectangle entourant une silhouette dans des conditions de bonne visibilit et sous des changements de luminosit minimes, mais des algorithmes avancs sont aujourdhui disponibles pour des applications au potentiel et la fiabilit plus larges : nuit, brouillard, passages de nuages, neige, ... Avec de tels outils, il est aujourdhui possible de raliser des applications de surveillance intelligente capables dindiquer avec une prcision du pixel la nature du mouvement observ, et ce mme dans des conditions trs difficiles. Lanalyse de forme permet la plupart du temps, sur une silhouette isole, de la classifier automatiquement par sa forme (personne, vhicule, ). Les applications vises en scurit globale sont la protection de frontires et de ctes, la protection de sites sensibles (usines, centrales, mines, centres de recherche, ), la protection de vhicules (notamment militaires), de bateaux (anticollision, anti-piraterie), et daronefs, la surveillance de stocks dposs en

Figure 6 : dtection de bateaux et analyse de vitesses (vecteur rouge). Image CEDIP. Le petit bateau numrot I-3 a une vitesse leve et se rapproche rapidement (trop ?) de nous.

extrieur, la dtection dobjets dposs (objets mobiles devenus immobiles.), la surveillance de lieux isols pouvant servir de cadre des actions illicites, la surveillance des abords de prisons, lannotation et le marquage de faits sur des squences vidos, pour laide au dpouillement On insistera en particulier sur la protection contre les attentats perptrs laide dengins rapides (vhicules, petits bateaux rapides, ) que ces applications peuvent assurer en dtectant la vitesse dapproche, et en commandant automatiquement des mcanismes dfensifs (herses, filets) ou offensifs (tir de projectiles). Dautres asservissements sont possibles, comme le prfigure le fusil automatique Samsung SGRA1 qui devrait protger automatiquement la frontire nord de la Core du Sud contre des incursions pied ou de vhicules isols, dans lanne qui vient. Cette arme sapparente une mine, et mme une mine antipersonnel, dans la mesure o lon confie une action de tir (12 mm) sur une cible personne ou vhicule un engin, non contrl par un homme (ce dernier tant seul capable de rendre compte de ses dcisions). Elle est donc interdite dusage en zones civiles par les pays signataires des traits relatifs aux mines anti-personnels. Ce systme prsente toutefois lavantage dtre activable et dsactivable selon les crises : elle peut donc ntre dploye quen zone militaire scurise, ou en bande frontire, et en priodes de crise.

Figure 7 : le SGR-A1 de Samsung

Les menaces auxquelles rpondent ces outils sont le terrorisme (et notamment le reprage des lieux, qui devient dtectable sil semble anormal), le vol (matriels, proprit intellectuelle), les trafics, limmigration clandestine, La limite ces applications concerne lanalyse des groupes (hommes, voitures, ), sur lesquels la segmentation en individus est un problme complexe, et la dtection et lanalyse des objets ports (sacoche, fusil, revolver, ) pour lesquels il est trs difficile de discerner un objet port de son porteur, mme si quelques travaux ont dj t abords dans ce sens. Une fois linterprtation tablie, on utilise alors un simple systme de gestion de rgles (actions permises et/ou actions interdites) pour dcider dmettre linformation par rseau informatique, par contacteur sec, ou par rseau hertzien (y compris GSM : ainsi, la valise de dtection Jaguar dEvitech transmet des alarmes par mail, SMS, et MMS). 3.2. Surveillance publique, enqutes La reconnaissance des individus (biomtrie faciale) et des vhicules (plaques minralogiques) est un point central des enqutes et de la surveillance publique (contrle daccs, contrles volants dans les transports) et trouve des outils de traitement et danalyse dimages qui sont aujourdhui effectus la vole et de faon non cooprative par les logiciels intgrant les techniques voques plus haut. Ces outils permettent de dtecter une personne ou un vhicule recherch, et de disposer dinformations relatives un auteur de faits (circulation, acte malveillant, ). Les menaces auxquelles rpondent ces outils sont le terrorisme, la poursuite dactivits dindividus recherchs, la capacit de retrouver les auteurs de faits suspects ou dlictueux. Ces applications sont fortement rglementes et limites par le droit, notamment en France (CNIL), et empitent videmment sur les liberts publiques. On peut tenter darguer de lavantage quil y a ne garder et ne faire sortir de lanalyse que les informations (images, interprtations) relatives laction ou la personne incrimine, mais lerreur et labus sont toujours possibles. Elles peuvent galement tre utilises sur des bandes vido saisies et conserves aprs un attentat, pour lesquelles la loi prvoit un dlai de conservation plus long et permet une analyse plus fouille que pour les bandes enregistres sans fait marquant.

3.3.

Amliorations de limage

Les services de scurit oprationnels sont demandeurs de technologies capables damliorer les images, pour que les fonctions danalyse aient de meilleurs rsultats, comme par exemple ici :

Figure 8 : de gauche droite : limage brute, limage rendue plus lisible, et enfin avec lamlioration de nettet du fond (source : Eagle V2.1)
3.4. Capacits et limites des systmes de vido-surveillance intelligente

Comme on la vu au fil du texte, trois limites essentielles sopposent aux capacits de dtection et lefficacit de ces systmes : la rsolution de limage de rfrence ou de limage comparer, la puissance de calcul du calculateur support, et la performance de lalgorithme (orientation dtecter tel ou tel phnomne, ). Les capacits de ces logiciels en termes de taux de bonnes dtections et de fausses dtection doivent tre tablies et connues de leurs utilisateurs. Des outils ergonomiques dlaboration de diagnostic circonstancis doivent y tre intgrs (annonce de la qualit de la mesure sur laquelle un diagnostic a t tabli, explication du raisonnement tenu par le systme, ). Les systmes de vido-surveillance intelligents sont encore jeunes, et la forte attractivit quils exercent sur les utilisateurs conduisent parfois leurs auteurs (et leurs utilisateurs) ngliger lintgration en leur sein de contrle du domaine de validit des faits interprts. Ainsi en Juillet 2005, peu aprs les attentats du mtro de Londres, un tel logiciel, directement transplant de lUniversit dans le mtro, avait interprt comme suspect un brsilien voyageant avec un manteau de fourrure, ce qui a plac les services de police dans un tat de stress tel que le voyageur, nayant pas compris les sommations, a t malencontreusement abattu. Un autre de ces logiciels, charg dempcher la densit des plerins de dpasser une limite critique dans un lieu de culte, na pu empcher quelques 300 morts en 2006. Plus trivialement, on voit les oprateurs des centres de surveillance dconnecter les systmes qui sonnent trop souvent et les perturbent mauvais escient. En tant quacteurs de cette discipline, nous travaillons avec acharnement faire voluer la maturit de nos systmes et celles de leurs utilisateurs. Nous avons pu ainsi rduire un taux de une fausse alarme par jour et par camra ; en moyenne (0.5 en ville et 1.5 en campagne), les fausses dtections dintrusions sur des sites protgs par vido-surveillance intelligente. Les cas rsiduels sont si divers (regroupements doiseaux, reflets de gros animaux dans des flaques deau, charpes de brume, rouleau de plastique ou buisson arrach transport par le vent,) quil savre impossible de descendre de faon significative sous ces niveaux, sauf combiner diffrentes voies de dtection ensemble (ce qui est possible aujourdhui dans le domaine de lintrusion, mais pas dans celui de la lecture de plaques distance, ni dans celui de la biomtrie non cooprative).

4. Perspectives
Quels seront demain les volutions des systmes de traitement dimages qui pourront bnficier aux applications de scurit ? Il est difficile de rpondre cette question, mme si on peut identifier quelques exemples daxes de recherche et les demandes de ce march : Lanalyse dobjets ports et des gestes : quelques travaux de recherche ont dj abord ces thmes [1] qui intressent beaucoup la surveillance publique pour y dtecter des armes.

Lanalyse de groupes dindividus et de foules : quelques applications danalyse statistique du comportement global de la foule vue comme un fluide ont t dj ralises et commercialises. Elles dtectent larrive dun train (mouvements aux portes), les ractions de fuite (trou dans la foule), mais souffrent toutefois de ne pas traquer individuellement les individus dont on ne peut connatre le comportement individuel. La dtection de bagarres, et dobjets ports dans la foule sont notamment des thmes intressant les forces de lordre. Lanalyse et la reconnaissance dobjets 3D, par exemple pour classifier de faon plus fiable les vhicules.

5. A Propos de
Au sein du ple SYSTEM@TIC Paris Rgion, Evitech (www.evitech.com) tudie et dveloppe des systmes de traitement dimages innovants pour la scurit dfense. Ses travaux de recherche et dveloppement, mens en coopration avec lIEF, lENS Ulm, lINRIA, le GET ont t et sont financs notamment par la DGA, le CG92, lANR. P. Bernas est Ingnieur Civil des Mines et Docteur en Informatique. Aprs un dbut de carrire au sein des groupes aronautiques franais (Thals avionics), et de socits spcialises en logiciels complexes, il est depuis 2005 fondateur et dirigeant dEvitech.

6. Bibliographie
[1] Haritaoglu, Harwood, Davis : W4, a real time system for detecting and tracking people, 3th conf. on face and gesture recognition, 1998. [2] C. Harris, M. Stephens : A combined edge and corner detector, 4th alvey conference, Manchester, 1998, pp. 189-192. [3] Horn, Schunck : Determining optical flow , Artificial Intelligence 17, 1981, 185-203. [4] Pentland, Moghaddam, Starner, View based and modular eigen spaces for face recognition , Conf. CVPR, 1994, Seattle. [5] Rothganger, Lazebnik, Ponce, Schmid : 3D Object modeling and recognition using local affine-invariant image descriptors and multi-view spatial constraints , Conf. CVPR 2003. [6] Schmid, Mohr : Local greyvalue invariants for image retrieval , conf. IEEE TPAMI 19, 1997. [7] Viola Jones : Rapid object detection using a boosted cascade of simple features, Conf. CVPR 2001. [8] Wren, Azarbayejani, Darell, Pentland : Pfinder : real-time tracking of the human body , Conf. IEEE TPAMI, 19, 1996.