Vous êtes sur la page 1sur 146

Laboratoire d'InfoRmaique

en Image et Systmes d'information


UMR 5205 CNRS/
INSA de Lyon/Universit Claude Bernard Lyon 1/
universit Lumire Lyon 2/Ecole Centrale de Lyon
Christine LEIGNEL 20-01-2008
Jean-Michel JOLION
Projet ANR CAnADA
Comportements Anormaux Analyse Dtection Alerte
tude bibliographique suivi de personnes et trajectoire
dans un rseau de camras
1 sur 146
Les machines un jour pourront rsoudre tous les problmes, mais jamais
aucune d'entre elles ne pourra en poser un.
Albert Einstein
2 sur 146
Table des matires
Introduction...............................................................................................................................................7

Chapitre 1 Estimation de mouvement.....................................................................................11
1Mouvement rel, mouvement apparent, mouvement estim...........................................................................12
1.1L'occultation.........................................................................................................................................12
1.2Le problme de l'ouverture....................................................................................................................13
2Modles paramtriques pour l'estimation de mouvement...............................................................................14
3Modles non paramtriques pour l'estimation de mouvement.........................................................................16
3.1Algorithmes de mise en correspondance de blocs..................................................................................16
3.1.1Critres de comparaison entre deux blocs......................................................................................16
3.1.1.1La somme des diffrences au carr SSD...............................................................................17
3.1.1.2La valeur absolue AV............................................................................................................17
3.1.2Prdictions avant-forward et arrire-backward..............................................................................17
3.1.3Algorithme de recherche Full Search .......................................................................................18
3.1.4Algorithme de recherche Three Step Search Algorithm ............................................................18
3.1.5Algorithme de recherche Diamond Search Algorithm ..............................................................19
3.1.6Algorithme de recherche Hexagon-Based Search Algorithm ....................................................21
3.2L'estimation de mouvement par une approche Markovienne..................................................................23
3.2.1Estimation stochastique du mouvement avec le MAP....................................................................24
3.2.2Algorithmes de minimisation du critre du MAP...........................................................................25
3.2.2.1Approche multi rsolution.....................................................................................................26
3.2.2.2Approche base du mouvement des contours.......................................................................26
4Suivi de trajectoires.......................................................................................................................................27
4.1Les techniques de suivi..........................................................................................................................27
4.1.1Le MHT Multiple Hypothesis Tracking ..................................................................................28
4.1.2Le PMHT Probabilistic Multiple Hypothesis Tracking ...........................................................29
4.1.3Le JPDAF Joint Probabilistic Data Association Filter .............................................................29
4.1.4Le JPDAF Joint Probabilistic Data Association Filter .............................................................29
4.1.5L'approche par optimisation combinatoire ....................................................................................30
4.1.6L'appariement temporel.................................................................................................................30
4.1.6.1La mise en correspondance...................................................................................................30
4.1.6.2Le filtre de Kalman............................................................................................................30
4.2Les techniques de suivi de trajectoires...................................................................................................31
4.2.1Approches dterministes................................................................................................................31
4.2.2Approches probabilistes non baysiennes bases sur des fonctions de vraisemblance....................31
4.2.3Approches probabilistes................................................................................................................31
4.2.3.1Les travaux sur la segmentation par le mouvement...............................................................32
4.2.3.2Mthode propose par [M. Gelgon].......................................................................................33
4.3Exemple de deux applications probabilistes base de graphe...............................................................35
4.3.1Travaux de [Rota N.]....................................................................................................................35
4.3.2Travaux de [Han M., Xu W., Gong Y.].........................................................................................36

Chapitre 2 Suivi.................................................................................................................................40
1Analyse du mouvement.................................................................................................................................41
1.1Analyse du mouvement dans la squence..............................................................................................41
1.1.1Espace spatio-temporel.................................................................................................................41
1.1.2Espace des phases.........................................................................................................................41
3 sur 146
1.1.3Espace des chelles.......................................................................................................................41
1.1.4Intgration temporelle...................................................................................................................41
1.2Analyse du mouvement image par image...............................................................................................42
1.3Les mthodes de suivi image par image.................................................................................................42
1.3.1Les mthodes bases primitives.....................................................................................................43
1.3.2Les approches bases modle du corps en 2D ou 3D.....................................................................46
1.3.2.1Mthodes de mise en correspondance image/modle..............................................................46
1.3.2.2Les mthodes avec modle d'apparence en 2D.......................................................................48
1.3.2.3Approche en 2D avec modle explicite de la forme...............................................................49
1.3.2.4Approche en 2D sans modle explicite de la forme................................................................50
1.3.2.5Les mthodes avec modle articul en 3D.............................................................................51
1.4Les approches pour affiner le modle....................................................................................................52
1.4.1Les approches dterministes..........................................................................................................52
1.4.2Les approches stochastiques..........................................................................................................52
1.4.3Approches base de rgles ..........................................................................................................54
1.5Suivi lors des occultations.....................................................................................................................54
1.6La reconnaissance.................................................................................................................................56
1.6.1Les modles d'apparence d'objets..................................................................................................56
1.6.2Les modles d'objets rels.............................................................................................................56
1.7L'interprtation smantique de la scne.................................................................................................57
2Les diffrentes approches d'extraction des caractristiques............................................................................57
2.1Extraction de la caractristique couleur.................................................................................................57
2.2Extraction de la caractristique contour................................................................................................57
2.3Extraction de la caractristique mouvement..........................................................................................58
2.4Extraction de la caractristique profondeur...........................................................................................58
3Quelques exemples........................................................................................................................................58
3.1Prsentation des travaux de [Thome N.]................................................................................................58
3.1.1Modle d'apparence articul..........................................................................................................59
3.1.2Mise en correspondance de blobs..................................................................................................59
3.1.3tiquetage des membres................................................................................................................60
3.2Approche avec une camra champ large.............................................................................................60
3.3Approche avec suivi de visage...............................................................................................................61
3.4Approche par modle de Markov cach pour la dtection des vnements rares...................................61
3.4.1Dfinition du modle de Markov Cach........................................................................................61
3.4.2Dfinition du rseau baysien........................................................................................................62
3.4.3Cas des comportements inhabituels/anormaux..............................................................................63
3.4.4Cas de la dtection de chute..........................................................................................................64
3.5Reprsentation symbolique....................................................................................................................65

Chapitre 3 Systmes de vido surveillance ..........................................................................66
1Les diffrents systmes de vido surveillance existants .................................................................................67
1.1Le projet VSAM...................................................................................................................................67
1.2Le projet ADVISOR-INRIA.................................................................................................................68
1.3Le projet BEHAVE...............................................................................................................................69
1.4Le projet AVITRACK ..........................................................................................................................69
1.5Le projet CASSIOPEE-INRIA.............................................................................................................69
1.6Le projet VIGITEC...............................................................................................................................70
1.7Le projet CAVIARE-INRIA..................................................................................................................70
1.8Le projet PASSWORDS.......................................................................................................................70
1.9Les projets dans l'industrie....................................................................................................................70
2Prsentation dtaille de quelques systmes de vido surveillance................................................................71
4 sur 146
2.1AVITRACK..........................................................................................................................................71
2.1.1La dtection de mouvement...........................................................................................................71
2.1.2Suivi d'objet..................................................................................................................................72
2.1.3Reconnaissance d'objets................................................................................................................72
2.1.4Fusion de donnes ........................................................................................................................72
2.1.5Maintenance de la cohrence dans des scnes 3D dynamiques......................................................72
2.1.6Comprhension de la scne ...........................................................................................................73
2.1.7La reconnaissance d'vnements vido..........................................................................................74
2.1.8Comprhension vido pour le monitoring des activits aroportuaires...........................................74
2.2ADVISOR............................................................................................................................................74
2.3La vido surveillance avec une architecture base de connaissances...................................................76
2.3.1Suivi image par image...................................................................................................................77
2.3.2Fusion des suivis...........................................................................................................................77
2.3.3Suivi long terme............................................................................................................................78
2.3.4Reconnaissance d'vnements........................................................................................................78
2.4Un rseau synergtique deux niveaux pour les interactions multi personnes.......................................78
2.4.1Le niveau suivi ........................................................................................................................79
2.4.2Le niveau analyse du corps .....................................................................................................79
2.4.3L'analyse des activits humaines en deux tapes............................................................................80
2.4.4Reprsentation multi niveau des mouvements du corps humain.....................................................80
2.4.5La modlisation des activits au niveau des activits du corps humain..........................................80
2.4.6La modlisation des interactions....................................................................................................80
2.5Suivi de trajectoires l'aide d'un SVM..................................................................................................81
2.5.1Moyenne rsolution.......................................................................................................................81
2.5.2Basse rsolution............................................................................................................................82
2.5.3Analyse des trajectoires de vhicules.............................................................................................82
2.5.4Analyse des trajectoires de personnes............................................................................................83
2.6Suivi de trajectoires l'aide d'une gestion haut niveau...........................................................................83
2.6.1Applications..................................................................................................................................83
2.6.2Dtection de mouvement avec une image de rfrence...................................................................84
2.6.3Phase de mise en correspondance et gestion d'un systme distribu de suivi..................................84
2.7Suivi de pitons dans un rseau routier.................................................................................................86
2.7.1Comportements multi agents.........................................................................................................87
2.7.2Description du scnario ................................................................................................................87
2.7.3Model-Based Tracking in Image Sequences Motris.......................................................................89
2.7.4Suivi des voitures et des pitons....................................................................................................89
2.7.5Lien entre la localisation et les actions des pitons........................................................................89
2.7.6Modlisation des intractions entre les agents...............................................................................89
2.7.7Modle propos.............................................................................................................................90
2.8Le suivi des trajectoires des tches de couleur.......................................................................................91
2.8.1Segmentation du bloc spatio-temporel...........................................................................................93
2.8.2Cohrence temporelle....................................................................................................................93
2.8.3Mise en correspondance................................................................................................................93
2.8.4Hirarchies de segmentation..........................................................................................................93
2.8.5Extension de l'horizon temporel.....................................................................................................93
2.8.6Segmentation dans le domaine joint spatio-temporel......................................................................93
2.8.7Segmentation de graphes...............................................................................................................93
2.8.8Modlisation paramtrique du bloc vido......................................................................................94
2.8.9Classification................................................................................................................................94
2.8.10Comparaison avec les autres mthodes........................................................................................94
2.8.10.1Segmentation de graphes.....................................................................................................94
2.8.10.2Mlange de gaussiennes......................................................................................................94
2.8.10.3Rseau spatio-temporel de primitives..................................................................................95
5 sur 146
2.8.10.4Structures spatio-temporelles par regroupement..................................................................95
2.9Suivi bas sur l'apparence avec un rseau de camras disjointes...........................................................95
2.10Panoramic Appearance Maps..............................................................................................................97

Chapitre 4 Suivi dans un rseau de camras.......................................................................98
1Introduction sur le suivi dans un rseau de camras......................................................................................99
2Suivi du haut du corps avec des filtres particules travers un rseau baysien..........................................99
2.1Les modles de graphes.......................................................................................................................100
2.2Avec un modle de membres lches ...............................................................................................103
2.3Avec une seule camra........................................................................................................................106
Le suivi baysien rcursif....................................................................................................................108
2.4Avec des camras stro......................................................................................................................109
3Fusion d'informations pour l'estimation de la structure d'un objet et la dtection de son mouvement............111
3.1Fusion multicapteurs pour l'estimation de la structure et du mouvement 3D d'objets : une approche
primitive...................................................................................................................................................111
3.1.1Fonction de redistribution............................................................................................................114
3.1.2Estimation multi capteurs de la structure et du mouvement 3D...................................................114
3.2Fusion multi capteurs pour l'estimation des positions et mouvement 3D et suivi 3D : une approche dense
.................................................................................................................................................................116
3.2.1Suivi d'objets et estimation des paramtres de position et de mouvement 2D partir d'une squence
d'images monoculaire..........................................................................................................................116
3.2.2Estimation des positions et mouvement 2D par filtrage particulaire .......................................117
3.2.3Extension au problme de dtection.............................................................................................117
3.2.3.1Modlisation........................................................................................................................117
3.2.3.2Solution particulaire du problme d'estimation-dtection et suivi 2D.............................117
3.2.3.3Suivi d'objets et estimation des positions et mouvement 3D par une approche monoculaire.118
3.2.3.4Reconstruction 3D et estimation du mouvement 3D par filtrage particulaire .................118
3.2.3.5Extension au cas de la dtection d'objets 3D........................................................................118
3.2.3.6Estimation des positions et mouvement 3D dans un contexte multi capteurs.......................119
3.3Fusion multi capteurs par filtrage particulaire pour la reconstruction 3D, l'estimation du mouvement
3D et le suivi d'objets 3D.........................................................................................................................119
Conclusion..............................................................................................................................................120
Annexe 1 Minimisation du critre du MAP.......................................................................121
Algorithmes de minimisation du critre du MAP...........................................................................................122
1Algorithme du recuit simul...................................................................................................................122
2Cas d'une image.....................................................................................................................................122
3Algorithmes de Gibbs et Metropolis.......................................................................................................123
4Fonctionnement de l'algorithme du recuit simul....................................................................................124
5Algorithme ICM Iterated Conditional Mode..........................................................................................124
6Cas de la segmentation...........................................................................................................................125
Annexe 2 Filtrage particulaire..................................................................................................127
1Le filtre particulaire....................................................................................................................................128
2L'algorithme de CONDENSATION............................................................................................................132
3Prsentation des travaux de [Perez P., Hue C., Vermaak J., Gangnet M.]....................................................133
4Prsentation des travaux de [Brthes L., Dans P., Lerasle F.]....................................................................134
Rfrences..............................................................................................................................................135
6 sur 146
Introduction
Dans le cadre d'une absence d'offre technologique en matire de dtection en temps rel partir de la vido des
comportements anormaux de personnes dans un lieu public, tel un lieu de vente, des industriels comme
YOUG'S et Thales expriment ce besoin.
Le but du projet CAnADA Comportements Anormaux : Analyse, Dtection, Alerte est de proposer une
approche pour la dtection en temps rel de comportements inhabituels pouvant mettre en pril la scurit des
personnes et des biens dans des lieux publics, comme les centres commerciaux, les magasins, les mtros. Les
informations dtectes seront transmises une application capable de rendre en temps rel une alarme et de
ramener la situation un niveau normal via un affichage par exemple. Dans ce cadre, un rseau de camras est
mis en place, comportant certains endroits de la scne des zones aveugles dont il faudra tenir compte (un
individu peut se cacher dans une telle zone afin de dfinir une stratgie de vol, hors des camras). Les
traitements mis en place consistent extraire les trajectoires des personnes, ainsi que leurs activits, en tenant
compte du contexte de la scne (disposition des camras et des objets de la scne), et en traitant les cas
d'occultations (une personne cachant une autre personne tout ou partie, ou bien un objet cachant un membre
d'une personne). Les zones du visage des personnes suivies doivent tre masques, car il ne faut pas avoir
accs l'identit des personnes, le partenariat CNIL nous guidant dans cet aspect.
Plusieurs partenaires scientifiques, juridiques et industriels sont regroups dans ce consortium, couvrant ainsi
des comptences complmentaires :
-Le LIRIS (Laboratoire d'InfoRmatique en Images et Systmes d'information), INSA de Lyon, et la socit
FOXTREAM, tous deux spcialiste dans l'analyse des objets en mouvement, la gestion des occultations, la
reconnaissance de visages, et l'indexation des donnes vido;
-Le LIFL (Laboratoire dInformatique Fondamentale de Lille) - TLCOM LILLE 1, pour la fouille de
donnes, et lanalyse des situations un niveau smantique;
-ARMINES-EMD ( Centre Commun Ecole des Mines de Douai) pour le suivi de trajectoires multiples en
temps-rel, et analyse bas-niveau des squences de mouvements;
-URECA (UFR de Psychologie, Universit de Lille 3) pour linterprtation des comportements individuels et
collectifs;
-IREENAT (Institut de Recherches sur l'Evolution de l'Environnement Normatif des Activits Transnationales
Universit de Lille 2) pour lanalyse des problmes juridiques;
-Les partenaires industriels, YOUGS et Thales sont une interface avec les industriels potentiellement
intresss par le projet.
Depuis quelques annes, la vision par ordinateur tmoigne d'un intrt croissant, d'une part du fait des
technologies meilleur march et de plus en plus comptentes, et d'autre part des besoins en scurit et
tlsurveillance qui ont vu le jour depuis les vnements du 11 septembre 2001.
Traditionnellement, le flux vido tait trait par un oprateur humain, remplac progressivement par un
traitement automatique sur les donnes enregistres contenant des vnements anormaux. Actuellement,
l'objectif est de dtecter ces vnements en temps rel et de faon automatique.
L'analyse de la vido de faon automatique est centre sur la dtection des situations anormales dans diverses
activits, en surveillance du trafic routier, pour la dtection de congestion, la dtection d'accidents, et dans la
scurit des personnes comme la dlinquance, la dtection des colis suspects. Pour la dtection de colis
dangereux, seule une dtection de mouvement est ncessaire. En revanche, s'il s'agit de reconnatre des
comportements tels qu'une agression, il faudra une interprtation haut niveau de la scne. Les systmes de
vido surveillance peuvent tre totalement automatiss et servir au dclenchement d'actions externes selon les
observations, comme la rgulation du trafic routier, ou le dclenchement d'alarmes. Les systmes bas niveau de
dtection sont de moins en moins usits au profit de systmes de reconnaissance de situations anormales ou
7 sur 146
dangereuses, en analysant les comportements de la foule ou entre des personnes, et faisant appel la
coopration de divers modules bas niveau.
A titre d'exemple, en surveillance d'activit humaine, [Chleq N., Thonnat M.] ont ralis un systme d'aide la
dcision d'oprateur de vido surveillance, dclenchant une alarme dans une situation risque. [Nagel H.-H] a
ralis le mme genre de systme mais en surveillance routire. [Choi S., Seo Y., Kim H., Hong K.] analysent
les scnes sportives d'une quipe de football. [Pentland A.] ralise un systme de comprhension du langage
des sourds et muets grce l'analyse de gestes. Les applications sont diverses et la demande est de plus en plus
fournie.
Pour la dtection de comportements dangereux dans les mtros, [Cupillard F., Avanzi A., Bremond F.,
Thonnat M.] propose une approche avec plusieurs camras pour reconnatre des personnes isoles, des
groupes de personnes ou la foule (cf. figure 1). Cet exemple peut tre utilis comme introduction aux tapes
clefs de l'analyse de squences en vue de dtection de comportements. Trois composantes dfinissent ce
systme :
1. dtection de mouvement et suivi image par image;
2. combinaison de plusieurs camras;
3. suivi long terme de une ou plusieurs personnes.
Pour chacun des acteurs suiveur, le module de reconnaissance possde trois niveaux de reconnaissance: tats,
vnements et scnarios.
(a) Personne couche au
sol
(b) Variation dans la
largeur du groupe
(c) Sparation de
personnes dans un groupe
(d) Variation dans la
trajectoire du groupe
Figure 1. Chaque image reprsente une configuration de bagarre, ncessitant une reconnaissance par le
systme automatique [Cupillard F., Avanzi A., Bremond F., Thonnat M.].
La plupart des applications ncessitent une focalisation sur le mouvement de la personne humaine. [Johansson
G.] a dmontr dans les annes 1970 qu'on peut reconnatre des personnes familires par leur dmarche grce
aux lumires fixes sur leurs articulations mais cela n'est pas possible dans un systme non contraint et de plus
ce systme ne tient pas compte de l'apparence de la personne. Au vu du changement d'apparence, il faudrait de
multiples reprsentations de la personne. La reconnaissance de visages changeant moins que la reconnaissance
d'apparence, elle pourrait tre combine avec la reconnaissance de la marche pour identifier une personne.
Contrairement l'approche des MLD ( Moving Light Display ) mettant en vidence les articulations,
l'approche choisie par [Lee L., Grimson W.E.L.] est celle de l'apparence de la marche pour la reconnaissance
de personnes par leur dmarche. La marche humaine est une primitive d'identification de personne dterminant
son poids, la longueur de ses membres, et sa posture habituelle : elle peut tre utilise comme une mesure
biomtrique pour reconnatre des personnes connues et classer des sujets inconnus. Dans des situations pour
lesquelles l'information de visage ou de regard n'est pas valable, la marche est une information disponible
basse rsolution.
D'autres applications comme la tlconfrence, l'indexation vido, la ralit virtuelle ncessitent un suivi
robuste dans un environnement rel en temps rel. Tous ces domaines requirent l'identification des parties du
corps humain et l'estimation de la pose et des paramtres de mouvement. L'estimation de la pose d'une
8 sur 146
personne dans une image fixe ou son suivi dans une squence vido consiste dterminer les coordonnes,
dans le plan 2D ou dans l'espace 3D, des membres du corps dans chacune des images. Les mthodes utilises
pour l'estimation de la pose ou pour le suivi se classent en fonction du nombre de camras (mono/stro), du
modle du corps, du nombre de personnes, de la nature stochastique ou dterministe des mthodes
d'estimation. Les principales difficults dans l'analyse du mouvement du corps humain proviennent de la
nature 3D non rigide du mouvement, des changements de luminosit, des occultations entre membres du corps
ou avec un objet de la scne, des changements de fond et de la nature parfois ample des vtements. La plupart
des approches existantes introduisent des simplifications soit par une approche base modle soit par des
hypothses sur les divers types de mouvements. Bon nombre de travaux sont bass sur des modles non
dformables pouvant approcher le corps humain , comme les cylindres gnraliss, mais ils ne peuvent
s'adapter aux diffrentes tailles du corps humain. Une alternative cette limitation serait de segmenter l'image
et de mettre en correspondance un modle dformable avec les membres du corps humain issus de la
segmentation a priori et dfinissant diffrentes dimensions anthropomtriques. En deux dimensions, aucune
technique n'existe pour acqurir de faon automatique un modle 2D du corps humain. L'estimation de la pose
et du mouvement en 3D n'est pas rsolue cause de la difficult dans l'intgration de multiples points de vue et
du traitement des occultations entre les diffrentes membres du corps.
Les techniques utilises pour l'identification de personnes et la reconnaissance des activits sont classes en
diffrentes catgories en fonction de la prcision de l'analyse et de la rsolution vido requise. D'un ct, les
techniques caractrises par une grande rsolution vido et une faible quantit de texture dans la scne ont
pour objectif de reconnatre une personne grce une grande base de donnes, sur la dmarche par exemple.
L'autre extrme est caractrise par une basse rsolution vido et des scnes trs bruites, desquelles il est
alors souvent impossible d'obtenir des objets discriminants. Dans ce cas, les personnes sont dtectes par leur
prsence, dtermine par le mouvement. Entre les deux extrmes prcdentes base de template ou base
de blob , la reprsentation par blob peut tre raffine l'aide de modles articuls hirarchiques ([Niu
W., Jiao L., Han D., Wang Y.-F.], [Black M.J., Jepson A.D.], [Collins R., et al.a], [Haritaoglu I., Harwood D.,
Davis L.S. 00]), permettant aux divers membres (tte, mains, bras, buste, torse) une identification individuelle
spcifiant les activits de faon plus prcise.
Le traitement de squence d'images pour le suivi de personnes se divise en trois niveaux hirarchiss (cf. figure
2), qui se distinguent soit par une approche ascendante soit par une approche descendante. Au bas niveau la
dtection, au niveau intermdiaire le suivi (appariement temporel) et au haut niveau la reconnaissance des
actions ou des personnes. Le suivi est une tape intermdiaire entre la dtection et la reconnaissance en vue de
la description smantique de la scne.
Figure 2 : Les trois niveaux hirarchiss du
traitement d'une squence d'images
9 sur 146
Reconnaissance
Suivi
Dtection
Le chapitre 1 est consacr l'estimation du mouvment et au suivi de trajctoires. Aprs la dfinition du
mouvement rel, apparent et estim dans la section 1, deux sections sont ddies l'estimation de mouvment,
soit par des modles paramtriques (section 2), soit par des modles non paramtriques (section 3) avec une
approche de mise en correspondance ou Markovienne. La section 4 reprend les diffrentes mthodes de suivi
de trajectoires, de faon dterministe ou bien probabiliste. Nous concluons ce chapitre par deux exemples
d'applications probabilistes base de graphe.
Le chapitre 2 expose les diffrentes mthodes de suivi, soit dans la squence entire, soit image par image
avec les approches bases modle du corps en 2D ou en 3D (section 1). Dans la section 2, les approches
d'extraction de caractristiques sont passes en revue. La section 3 prsente quelques travaux dont ceux de
Nicolas Thome qui a effectu sa thse (2003-2007) dans la socit FOXTREAM Lyon.
Le chapitre 3 met en exergue les diffrents systmes de vido surveillance l'heure actuelle, tant chez les
acadmiques que chez les industriels (sections 1 6, 9 et 10). Dans la section 7, les travaux effectus par Ionel
Pop chez Nagel dans le cadre du suivi de pitons dans un rseau routier sont dvelopps. Le suivi des
trajectoirs des tches de couleur est explicit la section 8. Ces travaux ont t raliss par Rmi Megret au
cours de sa thse (2000-2003) au sein de notre laboratoire LIRIS INSA de Lyon.
Nous terminons par le chapitre 4, plus adapt notre problmatique de suivi multi camras. Une premire
section effectue une introduction sur le suivi dans un rseau de camras. La section 2 propose de suivre, dans
un cadre mono camra ou stro, le haut du corps d'une personne l'aide de filtres particules travers un
rseau baysien. Chaque noeud du rseau est alors attach un membre du corps humain. De faon analogue,
un rseau baysien peut tre modlis pour suivre une personne entire dans un rseau de camras, chaque
noeud du rseau tant li une camra (et non plus un membre du corps). La section 3 regroupe les travaux
de recherche de Jean-Charles Noyer en vue de l'obtention de la H.D.R l'Universit du Littoral Cte d'Opale,
Laboratoire d'Analyse des Systmes du Littoral. Il s'agit de fusionner des informations issues de plusieurs
capteurs pour l'estimation de la structure d'un objet et la dtection de son mouvement. Une partie de ce travail
de recherche, prsente dans la dernire sous-sectione est consacre la fusion multi capteurs par filtrage
particulaire pour la reconstruction 3D, l'estimation du mouvement 3D et le suivi d'objets 3D.
Enfin, la conclusion propose une approche multi camras, dans un rseau baysien, chaque camra
reprsente par un noeud du rseau. Les messages sont envoys d'une camra l'autre par propogation de
croyance, symbolisant la croyance qu'une personne vue dans une camra puisse se trouver un instant plus tard
dans le champ de l'autre camra, en fonction de la configuration des camras, et de l'analyse de la scne.
10 sur 146
Chapitre 1 Estimation de mouvement
11 sur 146
1 Mouvement rel, mouvement apparent, mouvement estim
Le mouvement dans une squence d'images en 2D est perceptible grce aux variations des intensits
lumineuses.
Le mouvement rel et le mouvement observ sont souvent diffrents dans une image. Les images reprsentent
la projection du monde rel 3D. Le mouvement observ partir des changements de la distribution spatiale
d'intensit lumineuse entre plusieurs images de la squence, dit mouvement apparent, est la projection du
mouvement rel 3D dans le plan de l'image 2D. On parle aussi de flot optique [Horn B.K.P, Schunk B.G.]
ou de champ de vitesses pour dsigner le champ des vitesses apparentes. Le champ de mouvement
apparent s'appelle aussi mouvement projet [Aggarwall J.K., Nandhakumar N.] du fait qu'il reprsente
la projection du mouvement 3D dans le plan image. L'objectif de l'estimation de mouvement est d'estimer le
champ de mouvement 2D ou 3D partir d'une squence d'images 2D ou 3D voluant au cours du temps. Il y a
donc un mouvement rel, un mouvement observ dit apparent et un mouvement estim.
Le mouvement apparent ne correspond pas toujours au mouvement rel projet dans le plan de l'image. En
effet, les vitesses apparentes des points situs sur une sphre uniforme en rotation sont nulles, ce qui n'est pas
le cas des projections des vraies vitesses de ces points. La prsence de variations lumineuses (ombres, flash,
etc.) non dues au mouvement entrane un mouvement apparent diffrent du mouvement rel. Le mouvement
apparent est donc une combinaison de deux sources de mouvement : Le mouvement propre des objets en 3D
dans la scne, et le mouvement de la camra.
Le vecteur dplacement estim correspondant au dplacement d'un point dans le plan image, est dfini par le
champ de mouvement apparent, c'est--dire par les variations locales d'intensit lumineuse. Le vecteur vitesse
estim correspond la variation temporelle du dplacement par unit de temps. Dans une squence d'images, il
n'est possible que d'estimer le champ de mouvement (dplacement ou vitesse) apparent et non le champ de
vitesse rel. Le champ de dplacement est le champ de vecteurs dplacement estim, il en va de mme pour le
champ de vitesse et le champ de vecteurs vitesse estim.
Pour estimer le mouvement partir du champ de mouvement apparent, il faut faire l'hypothse que l'intensit
lumineuse reste constante au cours du mouvement [Horn B.K.P, Schunk B.G.]. Cette hypothse de
conservation de l'intensit lumineuse en chaque point de la trajectoire du mouvement s'exprime par l'quation
des diffrences entre les images dplaces ( DFD Displaced Frame Difference) entre deux instants
successifs : DFD=I(x+d
x
, y+d
y
, t+t)-I(x, y, t)=0, avec I(x, y, t) l'intensit au point (x, y) l'instant t.
En estimation de mouvement, on utilise l'estimation arrire ou inverse. L'estimation avec compensation avant
ou directe du mouvement est utilise dans la compression prdictive des squences d'images.
Un champ de mouvement estim (le flot optique ) est caractris soit par le champ des vecteurs vitesse soit
par le champ des vecteurs dplacement ou de correspondance, ce sont deux approches similaires si l'intervalle
de temps entre deux images est court et constant. C'est pourquoi on s'intresse l'estimation du champ de
vecteurs dplacement. L'estimation de mouvement est un problme mal-pos car il n'a pas toujours de
solution dans le cas d'une occultation, et s'il en a une, elle n'est pas toujours unique cause du problme
d'ouverture.
1.1 L'occultation
L'occultation est le recouvrement ou le non-recouvrement d'une surface, cause de la translation ou rotation
d'un objet dans le champ. Une surface recouverte, en gnral le fond d'une image, correspond une zone
recouverte par un objet un instant donn, donc les pixels d'une rgion qui sera recouverte l'image suivante
n'auront pas de correspondant dans l'image suivante (cf. figure 3). A l'inverse, la rgion du fond dcouverte par
l'objet en mouvement aura ses pixels qui n'auront pas de correspondant dans l'image prcdente (cf. figure 3).
12 sur 146
Figure 3 : Champ de vecteurs obtenu par mise en correspondance avec recherche en
avant . Aucun vecteur ne pointe vers la zone dcouverte (A) et aucun vecteur ne
sort de la zone recouverte (B) [Orkisz M., Clarysse P.].
1.2 Le problme de l'ouverture
Le problme de l'ouverture indique que seule la composante normale au dplacement est mesurable, c'est--
dire seule celle orthogonale au contour local de l'image, oriente dans la direction du gradient spatial de
l'intensit, au point considr. Supposons un objet dont l'un des coins est en mouvement dans la direction
verticale haut. Il n'est possible de dterminer si l'objet est en mouvement dans la direction verticale suprieure
ou dans la direction normale au bord de l'objet (cf. figure 4).
Figure 4 : Le problme de l'ouverture : seule la composante du mouvement parallle au
gradient d'intensit, orthogonale au contour est dtermine [Ricquebourg Y. 97].
Ce problme est d l'hypothse de conservation de l'intensit lumineuse ou de la luminance [Horn B.K.P,
Schunk B.G.] I ( x+d
x
, y+d
y
, t+At )=I ( x , y , t ) . Le dveloppement en srie de Taylor conduit
l'quation :
( I )
( x)
( x , y , t )u( x , y , t )+
(I )
( y)
( x , y , t )v( x , y , t )+
( I )
( t )
( x , y ,t )=0 soit l'quation de contrainte
du mouvement apparent ECMA, appele aussi quation du flux optique (EFO) I
t
. w+
( I )
(t )
=0 avec
I le gradient spatial et w=(u , v) , u=
d
x
d
t
, v=
d
y
d
t
. Donc l'quation ECMA peut s'crire
13 sur 146
( I )
( x)
u+
(I )
( y)
v+
( I )
(t )
=0 . Elle relie les gradients spatio-temporels au vecteur vitesse apparente.
Nous avons 2 inconnues u et v pour une seule quation, donc un problme mal pos.
Seule la projection du vecteur vitesse dans la direction du gradient spatial de l'intensit est dtermine. Cette
projection est localement perpendiculaire aux frontires photomtriques, c'est la composante normale du
vecteur vitesse. Pour la composante tangentielle , il faut rgulariser l'estimation, c'est--dire introduire une
contrainte supplmentaire afin de rduire l'espace des solutions. Il s'agit de la contrainte de continuit dite
de lissage du champ de vitesses, exprimant que les points voisins sont anims de mouvements trs
semblables . La rgularisation conduit alors la minimisation d'une fonctionnelle comportant un terme
d'attache aux donnes et un terme de lissage , pondrs par un coefficient de rgularisation o>0 .
Pour rsoudre ce problme d'indtermination, [Horn B.K.P, Schunk B.G.] ont propos une mthode consistant
minimiser une nergie de la forme [Jehan-Besson S.] :
E( w) est le terme d'attache aux donnes, traduisant la premire hypothse de conservation de l'intensit.
Il s'agit donc de minimiser une fonctionnelle par rapport aux vecteurs mouvements
min
w
E (w)
, et seule la
composante normale peut tre extraite ici.
La seconde nergie minimiser correspond un terme de lissage, une contrainte supplmentaire de lissage
qui suppose que tous les points voisins ont un mouvement semblable [Jehan-Besson S.] :
La contrainte de rgularit du flot optique reprsente les gradients horizontaux et verticaux de la vitesse
apparente.
C'est une nergie de connaissance a priori sur le champ de dplacement, ou terme de rgularisation, qui
contraint le problme pour le rendre bien-pos. Il s'agit de la seconde hypothse : la cohrence spatiale des
vecteurs mouvement.
A cause de la sous-dtermination du problme de l'estimation de mouvement (problme de l'ouverture), nous
avons vu qu'il faut introduire des contraintes supplmentaires sur le champ de mouvement [Stiller C., Konrad
J.] mais des modles paramtriques ou non paramtriques de ce champ peuvent aussi lever l'indtermination.
2 Modles paramtriques pour l'estimation de mouvement
L'approche avec la contrainte de lissage fait l'hypothse que les points lissant le champ appartiennent un
mme objet. Ceci n'est pas le cas en prsence de discontinuit du mouvement, c'est--dire dans le cas d'objets
14 sur 146
diffrents ayant des mouvements indpendants, ou dans le cas d'un mme objet articul prsentant des parties
avec des mouvements diffrents (un humain par exemple).
On fait l'hypothse que les objets en mouvement correspondent des rgions homognes du point de vue
photomtrique, donc que des discontinuits de mouvement correspondent avec des frontires photomtriques.
L'estimation du mouvement de tous les contours, donc aussi des discontinuits de mouvement est dcrite dans
([Bouthemy P. 87], [Bouthemy P. 88], [Bouthemy P. 89]) qui exploite la dimension temporelle d'une squence
d'images, en modlisant un contour en mouvement par une portion de surface dans l'espace-temps. La
dtection des contours et l'estimation de leurs mouvements se font simultanment, par un test du rapport de
vraisemblance de ces deux hypothses.
La segmentation au sens du mouvement en rgions homognes recherche des zones de continuits ou
discontinuits comme contours des rgions dlimites. La vitesse apparente tant une variable non observable
(cache), la segmentation du champ estim s'appuie sur l'information de composante normale du vecteur
vitesse, ainsi que sur un modle paramtrique du mouvement. Le modle paramtrique le plus souvent utilis
est le modle linaire 2D affine [Bouthemy P. 87] :
v=
|
u
v

=
|
p
q

+
|
a b
c d

|
xx
0
yy
0

=T +M( xx
0
)
,
avec
x
0
le point de rfrence du mouvement, par exemple le centre de gravit de la rgion considre, le
vecteur T la translation parallle au plan de l'image, la matrice M une combinaison de rotation,
homothtie et dformation. Le plus simple des modles est un modle constant : tous les points d'une rgion
effectuent un mme mouvement de translation, dcrit par le vecteur T , la matrice M tant alors nulle
[Bouthemy P. 87].
Le modle de mouvement le plus simple est le mouvement constant ou modle de translation, tous les pixels du
bloc effectuant le mme dplacement d . Un bloc
B
r
de pixels de l'image de rfrence, de dimensions
B
x
B
y
, centr sur le pixel (r) de coordonnes ( x , y) dans l'image de rfrence l'instant t , est
mis en correspondance avec le bloc
B
c
centr en pixel c , dans l'image cible l'instant t +1 , soit
B
r
( x , y ,t )=B
c
( x+d
x
, y+d
y
,t +1)
, avec
d =( d
x
, d
y
)
le vecteur dplacement.
Les mthodes paramtriques pour estimer le mouvement, tel que le modle de translation du mouvement, sont
simples, mais seulement applicable pour les mouvements rigides. Elles sont inappropries aux mouvements
complexes.
15 sur 146
3 Modles non paramtriques pour l'estimation de
mouvement
Les mthodes non paramtriques peuvent tre utilises pour rgulariser les mouvements complexes (rgler le
problme de l'ouverture). Parmi celles-ci, nous pouvons distinguer :
1. Les mthodes de mise en correspondance : On suppose l'image divise en rgions, chacune
correspondant un mouvement particulier et donc un objet. Les mises en correspondance sont soit
dans le plan image, soit dans le plan transform (la plus connue est la corrlation de phase);
2. Les mthodes statistiques, parmi lesquelles les mthodes Baysiennes ou Markoviennes. Pour estimer
le champ de dplacement, ces mthodes utilisent des contraintes probabilistes de lissage sous la forme
d'un champ alatoire, ventuellement de Gibbs, mais elles ncessitent beaucoup de calculs;
3. Les mthodes diffrentielles : Elles sont bases sur les gradients spatiaux et temporaux d'intensit
lumineuse;
4. Les mthodes rcursives : Elles sont bases sur la correction d'une prdiction ou d'une estime du
vecteur dplacement.
3.1 Algorithmes de mise en correspondance de blocs
L'estimation de mouvement dans une squence d'images a pour rle d'associer chacun des pixels dans une
image l'instant t les pixels correspondants au mme objet dans l'image suivante l'instant t+1. Les vecteurs
d'estimation de mouvement sont calculs entre l'image l'instant t et les images prcdentes t-1.
La mise en correspondance de bloc appele block matching exploite les redondances temporelles entre les
images conscutives. Supposons que nous voulons estimer le mouvement de divers objets contenus dans une
squence d'images. Pour simplifier, on considre le mouvement entre deux images successives, l'image
courante et l'image prcdente appele image de rfrence . L'image courante est divise en blocs de taille
gale 8x8 ou 16x16 pixels (cf. figure 5).
Figure 5 : Illustration d'un bloc de taille 8x8 pixels [Garcia V.].
On suppose le mouvement uniforme dans chacun des blocs et pour chaque bloc d'une zone dtermine appele
fentre de recherche dans l'image prcdente, on calcule un critre de comparaison entre les deux blocs.
3.1.1 Critres de comparaison entre deux blocs
Ce critre de comparaison est une mesure de la ressemblance entre les valeurs des pixels contenus dans chaque
bloc. La plupart des articles traitant de l'estimation de mouvement considrent seulement la luminance du bloc
du fait que l'oeil humain est plus sensible l'intensit lumineuse qu' la chrominance.
On considre des blocs carrs de mme dimension, et soit le bloc de rfrence
B
r
et le bloc courant
B
c
.
Les blocs sont cods en YUV (luminance Y, chrominance U, chrominance V). La luminance du pixel (i , j )
du bloc de rfrence est donne par
B
r
(i , j ,1)
et les chrominances par
B
r
(i , j , 2)
et
B
r
(i , j ,3)
16 sur 146
avec i , j | 1, m . En considrant le bloc centr en ( x , y) et l'image de rfrence note
I
r
au format
YUV, nous avons
B
r
(i , j ,1)=I
r
( x+i , y+ j , 1)
.
La moyenne du bloc de rfrence en ne considrant que la luminance est :
B
r
(1)=
(

i=1
w

j=1
w
B
r
(i , j , 1))
w
2
,soit en allgeant les notations

B
r
(1)=
(

j
B
r
(i , j , 1))
w
2
.
3.1.1.1 La somme des diffrences au carr SSD
C'est la somme des diffrences au carr Square Sum Difference entre les pixels correspondants des deux
blocs
SSD( B
c
, B
r
)=

j
| B
c
(i , j ,1)B
r
(i , j , 1)
2
, i et j parcourent les lignes et les colonnes des blocs.
Ce critre trs simple ne prend pas en compte la couleur, ce qui n'est pas le cas de cet autre critre adapt la
couleur : SSDColor ( B
c
, B
r
)=

c=1
3
| B
c
(i , j , c)B
r
(i , j , c)
2
.
3.1.1.2 La valeur absolue AV
Ce critre Absolute Value trs similaire au prcdent SSD, ne considre pas le carr de la diffrence mais
la valeur absolue de la diffrence et a pour particularit de considrer toutes les diffrences de la mme faon,
tandis que dans le SSD, les grandes erreurs sont plus pnalises.
Av ( B
c
, B
r
)=

j
B
c
(i , j , 1)B
r
(i , j , 1)
,
et en simplifiant : AvColor ( B
c
, B
r
)=

c=1
3
B
c
(i , j , c)B
r
(i , j , c) .
3.1.2 Prdictions avant-forward et arrire-backward
L'algorithme du block matching estime le mouvement des blocs entre deux images aux instants t et t-1. Le
mouvement calcul va permettre de prdire les blocs de l'image l'instant t+1 grce aux blocs de l'image
l'instant t et aux vecteurs de mouvements. Deux types de prdictions sont possibles : la prdiction avant
dite forward (cf. figure 6) et la prdiction arrire dite backward (cf. figure 7).
Figure 6 : block matching avec prdiction avant [Garcia V.].
La prdiction avant divise l'image t en blocs et cherche la position de chacun des blocs dans l'image
suivante t+1. La prdiction arrire divise l'image t+1 en blocs et cherche leur position dans l'image t.
L'image prdite par prdiction avant prsente des trous , du fait que tous les blocs n'ayant pas le mme
mouvement, certains se recouvrent, et donc certains blocs dans l'image t+1 ne sont pas prdits. Ce problme
n'existe pas dans la prdiction arrire .
17 sur 146
Figure 7 : block matching avec prdiction arrire [Garcia V.].
Le bloc pour lequel le critre de comparaison est le plus petit, c'est--dire le bloc le plus semblable, est
dtermin pour chaque bloc de l'image de rfrence. Un vecteur de dplacement est ainsi associ chaque
bloc. Diffrents algorithmes de mise en correspondance de blocs sont prsents dans la suite.
3.1.3 Algorithme de recherche Full Search
L'algorithme de recherche exhaustive Full Search (cf. figure 8) parcourt de manire exhaustive l'ensemble
des pixels de la fentre de recherche, et le bloc retourn est celui qui minimise le critre de comparaison.
L'algorithme de recherche exhaustive tant trop lourd en calculs, divers algorithmes de recherche rapides avec
une stratgie de recherche ont t dvelopps.
L'ide principale des algorithmes de recherche stratgique est que le critre de comparaison de blocs diminue
de faon monotone vers le minimum global de la fentre , donc il n'est plus ncessaire de parcourir tout le
bloc. Il suffit de parcourir la fentre en se rapprochant pas pas vers le minimum global.
Figure 8 : Algorithme Full Search [Garcia V.].
3.1.4 Algorithme de recherche Three Step Search Algorithm
Nous prsentons l'algorithme de recherche multi rsolution trois tapes Three Step Search
Algorithm [Koga T., Linuma K., Hirano A., Lijima Y., Ishiguro T.], dit recherche en n-pas ou
recherche en log-n , le premier de cette catgorie d'algorithmes. Le pixel not 0 reprsente le pixel
courant. A la premire itration, les 9 pixels comprenant le pixel 0 et les pixels nots 1 sont soumis
un critre de ressemblance. Si le critre optimal correspond au pixel 0 , il n'y pas de dplacement estim.
Sinon, l'itration suivante, le pas est gal la moiti du dplacement maximal admis d
max
(7 pixels dans la
figure 9 ci-dessous, fentre de recherche de [-7, 7]x[-7, 7]) arrondi l'entier suprieur [d
max
/2], soit 4 pixels
la premire itration et 2 pixels la seconde itration pour une fentre [-7, 7]x[-7, 7]. Dans la figure 9, le pixel
not 1 en haut droite (entour) est le premier qui minimise le critre de distance. La flche indique la
18 sur 146
direction et le sens de la recherche pour le pas suivant. Une fentre de recherche autour de lui, avec un pas de
2 pixels (pixels nots 2 ) est construite pour tester de nouveau les 8 pixels nots 2 avec le nouveau pixel
central not 1 . C'est le pixel de la ligne du haut au centre (entour) qui l'emporte et devient le nouveau
pixel central. L'amplitude du pas, chaque itration, dcrot selon une loi logarithmique, c'est--dire un pas de
1 pour la troisime itration, et les pixels nots 3 sont compars avec le pixel central not 2 . C'est le
pixel en haut droite not 3 (entour) qui est celui qui minimise le critre. Le nombre total de points de
comparaison est (9+8+8)=25, et en gnral pour des fentres de recherche plus large, avec la mme stratgie,
le nombre n de points de comparaison ncessaire est n=1+8.[ln(d
max
+1)].
Figure 9 : Le principe de recherche en trois points [Grava C.].

3.1.5 Algorithme de recherche Diamond Search Algorithm
L'algorithme de recherche sur un grille en diamant Diamond Search Algorithm (DS) [Zhu S., Ma K.] a
deux mthodes de recherche, prsentes sur les figures 10 et 11, drives du modle du diamant.
Le modle Large Diamond Search Pattern (LDSP) est compos de neufs points, dont huit situs sur le bord
du diamant une distance de deux pixels, et le neuvime au centre, formant ainsi un diamant. Le modle
Small Diamond Search Pattern (SDSP) a cinq points dont quatre sur le bord situs une distance de un, et
le cinquime au centre du diamant.

Figure 10 : Modle de recherche : Disque de rayon deux pixels [Garcia V.].
19 sur 146
(a) Large diamond search pattern (b) Small diamond search pattern
Figure 11 : Modles de recherche drivs de la figure 9 et utiliss dans
l'algorithme Diamond Search [Garcia V.].
La figure 12 montre les tapes de l'algorithme de block-matching par Diamond Search .
Figure 12 : Algorithme Diamond Search [Garcia V.].
Le diamant large est centr l'origine du bloc courant et les neuf blocs sont tests selon le critre qui recherche
le minimum local. Si le bloc qui minimise ce critre est le bloc central, on passe directement la dernire tape
sinon on continue la seconde tape. Celle-ci consiste se repositionner sur le bloc prcdent correspondant
au minimum local. Ce bloc devient le centre d'un nouveau LDSP et les neuf blocs du modle diamant sont
valus. Si le nouveau bloc correspondant au minimum local est le bloc central, on continue avec la troisime
tape, sinon on ritre la seconde tape. A la troisime tape, le modle est le plus petit SDSP et de nouveau les
blocs alentours sont tests. La solution finale correspond au bloc minimisant l'erreur.
Cet algorithme de Diamond Search permet d'optimiser la recherche par rapport au Three Step Search
car la recherche est plus rapide (moins de pixels visits). D'autre part, les rsultats sont meilleurs en qualit
d'estimation qu'avec les algorithmes utilisant des modles carrs car les points sont une distance de 2 pour la
norme L
1
alors qu'ils sont une distance de 4 dans la premire tape des modles carrs pour la norme L

.
Avec la norme L
2
, les points du modle Diamond Search sont une distance de 2 ou de
.21.4142
dans les directions diagonales (cf. figure 13). Certaines directions sont donc privilgies et le voisinage n'est
donc pas homogne. L'algorithme Heaxgon-Based Pattern (HEXBS) [Zhu X.L.S., Chau L.] propose une
solution homogne quant au voisinage.
20 sur 146
Figure 13 : Non homognit du voisinage dans le Diamond Search [Garcia V.].
3.1.6 Algorithme de recherche Hexagon-Based Search Algorithm
L'algorithme de recherche sur une grille hexagonale Hexagon-Based Search Algorithm et prsent la
figure 14.
Figure 14 : Algorithme Hexagon Based Search [Garcia V.].
Il utilise comme le Diamond Search deux modles de recherche (cf. figure 15), un modle large ( Large
Hexagonal Search Pattern LHSP) et un modle plus petit ( Small Hexagonal Search Pattern SHSP).
(a) Large hexagonal search pattern (b) Small hexagonal search pattern
Figure 15 : Modles de recherche pour l'algoritme Hexagon-Based Search [Garcia V.].
Cependant, le SHSP est identique au SDSP, et le LHSP contient sept points alors que le LDSP en contient
21 sur 146
neuf. Il y a donc moins de points tests dans l'algorithme hexagonal, un avantage supplmentaire par rapport
l'algorithme diamant.
L'hexagone est une meilleure approximation du cercle que le carr pour la norme L
2
, les pixels tant situs sur
le LHSP une distance de 2 ou de
.52.2361 . L'algorithme HEXBS est le mme que celui du DS,
hormis l'utilisation des modles de recherche LHSP et SHSP.
L'algorithme de recherche 2D-logarithme [Jain R.] effectue une recherche en croix chaque itration. Le pas
initial est de [d
max
/4]. Il est divis par deux si le pixel optimal se trouve au centre ou bien au bord de la fentre
de recherche, sinon il ne change pas. Lorsque le pas vaut 1, les 8 points voisins du pixel central est tests. Sur
la figure 16, nous avons deux cas : en haut il faut n=5+3+3+8=19 points de calcul, en bas et droite il faut
n=5+3+2+3+2+8=23 points de calcul.
Figure 16 : Le principe de recherche 2D-logarithmique [Grava C.].
L'algorithme de recherche orthogonale (cf. figure 17) [Puri A., Hang H.M., Schilling D.L.] compare des paires
de pixels horizontaux et verticaux avec une dcroissance logarithmique du pas. La dimension initiale du pas
est [d
max
/2].
Figure 17 : Principe de recherche orthogonale [Grava C.].
22 sur 146
Une itration correspond deux tapes. La premire tape calcule le critre de ressemblance en trois pixels
horizontaux 0 et 1 . Le pixel minimisant le critre devient alors le centre de la deuxime tape dans la
direction verticale, avec le mme pas que dans la direction horizontale. A l'itration suivante, on renouvelle la
mme stratgie dans les directions horizontales et verticales mais avec le pas rduit de moiti. L'algorithme
s'arrte quand le pas est gal un. Dans l'exemple prsent la figure 17, en haut droite, la recherche
orthogonale a besoin de n=3+2+2+2+2+2=13 pixels de calcul pour estimer le critre, et dans le cas gnral, il
faut n=1+4.[log
2
(d
max
+1)] points de calcul.
3.2 L'estimation de mouvement par une approche Markovienne
Nous proposons d'tudier les mthodes markoviennes pour l'estimation de mouvement. Un champ alatoire de
Markov est not MRF pour Markov Random Field .
L'estimation de mouvement est, comme nous venons de le voir, un problme mal pos, moins d'y introduire
des contraintes, ce qui existe dj dans la thorie des champs de Markov, comme la continuit du
mouvement l'intrieur des objets ou des discontinuits du mouvement aux frontires de ces objets.
On appelle site
s
i
chaque pixel d'une image et l'image est compose d'un ensemble de sites
S=

s
1
, s
2
, ... , s
LL
. A chaque site est associ un descripteur qui peut tre son niveau de gris, une
tiquette, etc. Les interactions locales entre les sites ncessitent l'introduction des relations spatiales entre les
divers sites. S est donc muni d'un systme de voisinage tel que : +
s
=t tels que s+
s
ou bien
t +
s
-s+
t
. A partir d'un systme de voisinage, un systme de cliques est dfini. Une clique est soit un
singleton de S , soit un ensemble de sites tous voisins les uns des autres. Selon le voisinage choisi, le
systme de cliques sera diffrent, comme illustr sur la figure 18 ci-dessous.
Figure 18 : Les cliques associes deux systmes de voisinage en dimension 2 [Tupin F., Sigelle M].
Les interactions locales entre descripteurs de sites voisins peuvent s'exprimer par un potentiel de clique. On
associe une clique c le potentiel
U
c
dont la valeur dpend des descripteurs des pixels de la clique.
L'nergie globale de l'image est alors la somme pondre de toutes les cliques :
U=

cC
U
c
, et l'nergie
locale en un site est la sommes des potentiels de toutes les cliques auxquelles le site appartient :
U
s
=

cC/i
scU
c
.
L'image doit alors tre modlise de faon probabiliste, comme une ralisation d'un champ alatoire. Pour tout
site s de l'image, on peut lui associer une variable alatoire
X
s
valeurs dans E l'ensemble des
descripteurs de l'image. Le niveau de gris
x
s
en s n'est qu'une ralisation de la variable alatoire X
s
.
On dfinit le champ alatoire
X =( X
s
, X
t
,...)
prenant ses valeurs dans
D=E
S
. L'image est dans ce
cas une ralisation x du champ. La probabilit globale de x , P( X =x) donne la vraisemblance de
23 sur 146
l'image, et les probabilits conditionnelles locales d'une valeur en un site donnent le lien statistique entre un
niveau de gris (par exemple comme descripteur) et le reste de l'image. L'hypothse markovienne permet
d'valuer ces quantits, puisque dans cette hypothse, X est un champ de Markov si et seulement si la
probabilit conditionnelle locale en un site n'est fonction que de la configuration du voisinage du site
considr . Donc pour tout
x
s
la valeur d'un descripteur prise au site s et x
s
=( x
t
)
t s
la
configuration de l'image sauf au site s : P( X
s
=x
s
/ x
s
)=P( X
s
=x
s
/ x
t
,t +
s
) . Le niveau de gris en un
site ne dpend donc que des niveaux de gris des pixels voisins de ce site, ce qui est le cas de la plupart des
images naturelles constitues de zones homognes ou textures.
En pratique, il est difficile de dterminer les probabilits conditionnelles P( X
s
=x
s
/ x
t
,t +
s
) dtermines
par les caractristiques locales d'un champ de Markov, et donnant la probabilit de ralisation d'une
distribution P( X
s
=x
s
/ x
s
) . Mais le thorme de Hammersley-Clifford [Geman S., Geman D.] va
permettre l'accs aux probabilits conditionnelles locales P( X
s
=x
s
/ x
s
)=P( X
s
=x
s
/ x
t
,t +
s
) , grce
l'quivalence entre champs de Markov et champs de Gibbs.
Une mesure de Gibbs de fonction d'nergie U : D- est la probabilit dfinie sur D par
P( X =x)=
1
Z
exp(U( x)) avec
U( x)=

cC
U
c
( x)
, C le systme de cliques associ au systme
de voisinage U ,
Z=

x D
exp(U ( x))
est une constante de normalisation appele fonction de partition
de Gibbs, et
U
c
( x)=U
c
( x
t
, t c)
.
Un champ alatoire X est un champ de Gibbs de potentiel associ au systme de voisinage de + si la
probabilit P( X =x) est une mesure de Gibbs associe au systme de voisinage + , et donc nous avons :
P( X =x)=
1
Z
exp(U( x))=
1
Z
exp(

cC
U
c
( x))
, les
U
c
( x)
sont les nergies locales qui sont
relier aux probabilits conditionnelles locales. Plus une configuration d'un champ de Gibbs a une nergie
faible, plus elle est probable. Le thorme de Hammersley-Clifford indique que : X est un champ de
Markov relativement + et P( X =x)>0
xD si et seulement si X est un champ de Gibbs
de potentiel associ + . On tablit ainsi l'quivalence entre champ de Markov caractris par ses
proprits locales P( X
s
=x
s
/ x
s
)=P( X
s
=x
s
/ x
t
,t +
s
) et champ de Gibbs caractris par sa
proprit globale P( X =x)=
1
Z
exp(U ( x)) , la distribution de Gibbs.
3.2.1 Estimation stochastique du mouvement avec le MAP
Dans l'estimation stochastique du mouvement, les images et les champs de dplacement sont modliss par des
champs alatoires de Markov (MRF). L'estimation du MAP du mouvement entre les images
I
t1
et
I
t
entre les instants t-1 et t consiste trouver la meilleure estimation du vecteur dplacement

d
qui maximise la
probabilit
P(d / I
t
, I
t 1
)
.
La formule de Bayes nous donne P(d / I
t
, I
t 1
) =
Bayes
( p( I
t
/ d , I
t1
)p(d / I
t1
))
( p( I
t
/ I
t1
))
,
donc

d =
MAP
argmax
d
p( d / I
t
, I
t 1
) =
Bayes
argmax
d
p( I
t
/ d , I
t1
)p(d / I
t 1
)
1
Z
argmax
d
exp(| U ( I
t
/ d , I
t 1
)+U(d / I
t1
))
argmin
d
| U( I
t
/ d , I
t 1
)+U (d / I
t 1
)
Il s'agit donc de maximiser la probabilit posteriori, ce qui revient minimiser l'nergie posteriori (appele
aussi critre du MAP ).
U( I
t
/ d , I
t 1
)
est l'nergie d'attache aux donnes,
U(d / I
t1
)
est l'nergie a
priori ou terme de rgularisation.
24 sur 146
3.2.2 Algorithmes de minimisation du critre du MAP
Pour minimiser le critre du MAP, il existe divers algorithmes de minimisation (cf. Annexe 1) :
-Les algorithmes stochastiques, de type recuit simul (recuit avec dynamique de Metropolis ,
chantillonneur de Gibbs avec recuit ), les algorithmes gntiques, les algorithmes dterministes (les modes
conditionnels itrs ICM Iterated Conditional Modes , la non-convexit graduelle GNC Graduated
Non-Convexity , le recuit en champ moyen MFA Mean Field Annealing ).
-Les algorithmes dterministes sont plus rapides que ceux stochastiques mais peuvent tre pigs dans un
minimum local de l'nergie du critre du MAP au lieu d'un minimum global assur pour l'algorithme
stochastique.
Les algorithmes effectuant simultanment l'estimation de mouvement et la segmentation de l'image
fonctionnent avec une approche baysienne. Une mthode base sur le test de vraisemblance [Bouthmy'87]
est fonde sur le schma division/fusion. L'image est dcoupe en blocs carrs de taille 16x16 pixels. Pour
chaque bloc, on calcule le rapport de vraisemblance de deux hypothses :
-H
0
le bloc est homogne au sens du mouvement avec un modle de mouvement dfini par une translation;
-H
1
le bloc est compos de deux parties animes chacune d'un mouvement de translation diffrent.
A chaque hypothse est associe une fonction de vraisemblance. On recherche ensuite quelle est l'hypothse qui
minimise le rapport logarithmique des fonctions de vraisemblance. Si c'est H
1
, le bloc est divis et la mme
procdure est applique chacune des ses parties. Si c'est H
0
, les sous parties sont fusionnes.
Dans un cadre baysien, des distributions de probabilit semblables aux fonctions de vraisemblance sont
utilises. Soit un ensemble ou champ O de variables alatoires appeles les observations. On cherche
estimer un ensemble de variables alatoires que sont les tiquettes ou primitives E (numro de rgions,
vecteurs de paramtres, vecteurs vitesse, etc). Les observations sont les drives spatio-temporelles de la
fonction intensit lumineuse. En supposant que e et o sont des ralisations particulires des variables
alatoires E et O , on cherche les primitives maximisant la probabilit globale posteriori
p( E=e/ O=o) . Il s'agit d'un estimateur au sens du maximum posteriori (MAP) et d'aprs le
thorme de Bayes :
p( E=e/ O=o)=
( p(O=o/ E=e)p( E=e))
( p(O=o))
.
Le dnominateur tant une constante, maximiser p( E=e/ O=o) revient maximiser
p(O=o/ E=e)p( E=e)=p(O=o, E=e) .
Le premier terme p(O=o/ E=e) , la probabilit posteriori des observations, relie les primitives aux
observations, et prend une forme gaussienne. C'est un terme d'attache aux donnes.
Le second terme p( E=e) est une probabilit a priori qui a un rle rgularisant et peut tre dcrite par le
formalisme Markovien. L'image en deux dimensions est compose de pixels, les sites s . sS , S est le
support du champ estimer, sur lequel on dfinit un voisinage B . Le champ E est de Markov pour le
voisinage B si toutes les ralisations ont une probabilit de se raliser non nulle, et pour chaque site la loi
de probabilit de son tiquette sachant les tiquettes de tous les autres sites est la mme que la loi de
probabilit de son tiquette sachant les tiquettes uniquement des sites voisins. D'aprs le thorme de
Hammersley-Clifford, les probabilits associes un champ de Markov suivent la distribution de Gibbs :
p( E=e)=
(exp(U (e)))
Z
, Z est la fonction de partition,
U (e)=

cC
V
c
(e)
,
V
c
(e)
sont les
fonctions potentiels locales. Chaque potentiel est associ une clique cC , une clique est un sous-
ensemble de S compos d'un seul site ou de sites tous mutuellement voisins. Maximiser la probabilit
p( E=e) revient minimiser l'nergie U(e) . Il faut donc des potentiels bas aux configurations que l'on
veut privilgier, et des potentiels hauts aux configurations que l'on veut dcourager. En ce qui concerne la
segmentation en rgions homognes, on privilgie les cliques composes de sites avec des tiquettes identiques.
Le problme d'estimation baysienne au sens du MAP est dfini en termes de minimisation d'une nergie
de Gibbs avec un terme d'attache aux donnes et un terme rgularisant [Odobez J.M., Bouthemy P. 94].
L'nergie globale est minimise grce un algorithme dterministe de type ICM [Odobez J.M., Bouthemy P.
25 sur 146
94], qui vite la lenteur de convergence des algorithmes stochastiques tel que le recuit simul mais conduisent
parfois un minimum local. Une approche multi-rsolution propose par [Odobez J.M., Bouthemy P. 94]
permet d'viter ce pige.
3.2.2.1 Approche multi rsolution
Quand les dplacements sont trop importants, les mthodes de l'ECMA sont inadaptes et les procds de
relaxation itratifs trop lents. Une approche multi rsolution permet de palier ces problmes. [Meyer F.,
Bouthemy P. 94] proposent une approche multi rsolution : des pyramides d'images d'une mme scne sont
construites des rsolutions successives (cf. figure 19). Les mouvements les plus importants sont estims aux
rsolutions les plus basses. Au fur et mesure qu'on monte dans les rsolutions, le mouvement est de plus en
plus fin et la solution est prcise par une reformulation de l'ECMA.
Figure 19 : Principe de rsolution multi grille du problme de minimisation. La configuration
optimale se trouve dans une de ces images embotes, o la contrainte d'homognit par bloc
des tiquettes est progressivement leve. La rsolution est effectue au niveau le plus haut de la
pyramide (espace de recherche trs restreint) et progressivement raffine [Gelgon M.].
Les approches multi rsolution proposent des solutions meilleures en un temps de convergence plus court, et
en tenant compte des dplacements importants. Toutefois les recouvrements entre les projections successives
des objets mobiles doivent tre importants. Dans les autres cas, des alternatives l'estimation instantane du
vecteur vitesse apparente ont t proposes comme les mthodes de block matching , mise en
correspondance de blocs.
Dans le contexte de la vido surveillance, les techniques diffrentielles ECMA sont inadaptes car elles
ncessitent de faibles amplitudes de mouvement, y compris en multi rsolution o les grandes amplitudes sont
envisages mais les recouvrements doivent tre importants en deux instants successifs. Les techniques de
block matching sont, elles, coteuses en temps de calcul et comportent bon nombre d'ambiguts
d'appariement.
3.2.2.2 Approche base du mouvement des contours
Une approche base de calcul du mouvement 2D des contours a ainsi vu le jour pour pallier aux
inconvnients prcdents [Ricquebourg Y. 97], adapte aux structures articules que sont les personnes.
Dans l'espace (x, y, t), un contour gnre au cours de son dplacement, une surface spatio-temporelle donnant
26 sur 146
la composante du vecteur vitesse apparente normale au contour [Bouthemy P. 89]. La mesure de dplacement
des contours a t place dans un cadre statistique markovien [Ricquebourg Y., Bouthemy P.].
Pour estimer le dplacement normal des contours de faon robuste, des informations contextuelles locales
doivent tre prises en compte. Ainsi un modle markovien d'interaction locale sur une carte des contours est
dfini. Les points de contours sont pralablement extraits via un dtecteur spatial classique ([Deriche R.],
[Shen J., Castan S.]). Une tape de polygonalisation transforme les structures en segments. Ils sont chans,
formant les chanes des contours qui constituent les primitives de base de l'algorithme, le support
topologique , comportant des sites, un voisinage et des cliques. Les cliques sont les composantes des vitesses
orthogonales aux contours, ce sont les points appartenant aux chanes de contours dtects. Le voisinage est
dfini d'ordre 1, il est constitu du prdcesseur et du successeur d'un site le long de la chane de contour, et
l'ensemble des cliques associes au systme de voisinage. On note E le champ des tiquettes estimer, les
vitesses orthogonales au contour en chaque site dfini, ainsi que le champ O des observations, les intensits
lumineuses. Pour estimer le champ E des tiquettes par des champs de Markov, une approche baysienne
fonde sur le critre du MAP, maximum posteriori, maximise la probabilit jointe p( E=e ,O=o) .
L'quivalence entre champs de Markov et distribution de Gibbs, explique dans le thorme de Hammersley
et Clifford [Geman S., Geman D.] indique que la densit de probabilit :
p( E=e ,O=o)=
(exp(U (e , o)))
Z
avec
Z=

eD
exp(U(e , o))
, et D est l'ensemble des
ralisations possibles du champ des tiquettes.
U(e , o) est une fonctionnelle appele fonction d'nergie . C'est la somme pondre de deux termes :
U(e , o)=U
1
(e)+U
2
(e , o)
, avec
U
1
(e)
un terme de rgularisation du champ E
correspondant un a priori sur les proprits de la rpartition des tiquettes de la solution recherche, et
U
2
(e, o) un terme d'adquation tiquettes-observations dit d'attache aux donnes , correspondant
la vraisemblance de la solution par rapport aux observations.
U
1
(e)
et U
2
(e, o) sont des termes d'nergie qui peuvent s'exprimer sous la forme d'une somme de
potentiels locaux sur les cliques du voisinage, grce la modlisation markovienne des champs E et O .
Afin de dfinir la vraisemblance U
2
(e, o) reliant observations et tiquettes (les dplacements normaux en
chaque site) et avec la modlisation choisie d'un lment de contour en mouvement par une portion de surface
spatio-temporelle, [Bouthemy P. 89] propose de considrer la squence d'images traiter comme un volume
3D de l'espace (x, y, t) compos de deux dimensions spatiales (x, y) correspondant chaque plan image et
d'une dimension temporelle t. Dans un espace, un lment de contour en 2D gnre une portion de surface (2D
+t) lmentaire, caractrise par un vecteur de paramtres. L'estimation du mouvement des contours revient
alors dterminer ces portions de surfaces.
Une fois la structuration des primitives en niveaux sites, segments, chanes de contours effectue, un
algorithme de relaxation dterministe minimise la fonction globale d'nergie, donnant ainsi une solution
l'estimation du champ E des dplacements normaux aux contours.
4 Suivi de trajectoires
4.1 Les techniques de suivi
Les techniques de suivi sont issues des radaristes pour le suivi de cibles, base de thorie de l'estimation.
L'objectif est de combiner les informations issues de divers capteurs et d'obtenir un tat estim le plus proche
possible de l'tat observ. Le filtre de Kalman estime l'tat d'un systme dynamique linaire l'aide d'un
modle d'observation probabiliste [Kalman R.E.], mais il se limite au modle de bruit gaussien. Le Filtrage
Particulaire ou algorithme de Condensation , plus connu en vision par ordinateur, estime les tats dans les
cas non linaires ou non gaussiens. Son principe est de calculer des lois de probabilit des tats par une somme
finie pondre des lois de Dirac avec des poids voluant en fonction des observations.
Le suivi de personnes est fondamental dans les systmes de vido surveillance puisqu'il est la base de l'analyse
de comportements, la reconnaissance des activits et la dtection des vnements d'intrts. Toutefois, le suivi
27 sur 146
est conditionn par la qualit de la reconnaissance. Le fondement des problmes de suivi consiste suivre et
associer correctement les individus. C'est un problme d'association de donnes ( Probabilistic Data
Association , PDA ) qui a t identifi dans la littrature radar et sonar [Fortmann T.E., Bar-Shalom Y.,
Scheffe M.], avant que le suivi vido ne soit d'actualit.
Dans le domaine du suivi vido, le problme d'association de donnes a t rsolu par des primitives telles que
le mouvement, l'apparence et la forme qui doivent avoir des modles cohrents au cours du temps ([Wren
C.R., et al.], [Haritaoglu I., Harwood D., Davis L.S. 00], [Lipton A.J., Fujiyoshi H., Patil R.S.], [Zhao T.,
Nevatia R.], [McKenna S., Raja Y., Gong S.], [Fuentes L.M., Velastin S.A.]).
Dans les problmes d'association de donnes, les algorithmes de suivi de points sont constitus des mthodes
directes fondes sur la prdiction de mouvement, et des mthodes multi-hypothses.
-Dans les mthodes directes, on choisit le point le plus similaire dans la zone de recherche localement,
chaque instant, sans prendre en compte une certaine dure. La mise en correspondance directe [Meyer F.,
Bouthemy P. 92] cherche trouver les correspondants dans l'image suivante partir de l'image actuelle,
tout en minimisant l'erreur d'appariement;
-Le suivi multi hypothses, contrairement aux mthodes directes, est centr sur le problme d'association
de donnes points/trajectoires. Le filtre MHT (Multi-Hypothesis Filter ou Multi-Hypothesis Tracking)
existe en suivi de cibles ([D.B. Reid.], [Cox I.J.]). Ce filtre modlise l'initialisation, le maintien et la
terminaison de pistes. Il gnre des arbres d'hypothses dont les branches forment des associations candidates.
La dimension temporelle est prise en compte, en plus de l'association des trajectoires avec les primitives
points. Les trajectoires et les hypothses sont slectionnes sur la dure, permettant ainsi de lever les
ambiguts dues aux occultations, de traiter la concurrence entre les associations, et de rgler l'initialisation
des trajectoires grce plusieurs hypothses possibles. Un certain nombre d'hypothses d'association sont
envisages, chacune assortie d'une probabilit, et la meilleure est slectionne. L'arbre des hypothses crot de
faon exponentielle, et des stratgies d'lagage permettent de ne conserver que les combinaisons d'associations
les plus probables, par exemple avec l'algorithme des k-meilleures hypothses de [Cox I.J, Hingorani S.L.]. Il
arrive cependant que des solutions sont supprimes trop tt, avant qu'elles n'aient eu le temps de montrer leur
efficacit. [Cox I.J, Hingorani S.L.] a utilis le MHT pour le suivi de coins.
D'autres mthodes statistiques de suivi temporel multi pistes de plusieurs primitives simultanment existent :
-L'algorithme des plus proches voisins NN (Nearest Neighbors) met en correspondance les observations en
fonction d'une distance;
-Le filtre Probabilistic Data Association Filter (PDAF) estime le maintien de pistes [Bar-Shalom Y., Li X.];
-Le filtre Joint Probabilistic Data Association Filter (JPDAF) est une amlioration du prcdent. Le JPDAF
traite les associations image par image, et non sur la dure, comme le font les mthodes MHT et PMHT
que nous dtaillons plus loin;
-Le filtre de Kalman Distribu DKF [Rao B.S.Y., Durrant-Whyte H.F., Sheen J.A.] combine divers filtres de
Kalman en parallle pour augmenter la robustesse;
-Un filtre hybride, mlange de MHT et JPDAF utilise le MHT pour l'initialisation et la terminaison de
pistes, et le JPDAF pour le maintien des pistes;
-L'approche par optimisation combinatoire.
Nous prsentons quelques unes de ces approches les plus usites, le MHT, le PMHT, le JPDAF, et l'approche
combinatoire.
4.1.1 Le MHT Multiple Hypothesis Tracking
Le MHT Multiple Hypothesis Tracking est la mthode la plus utilise parmi celles de suivi multi
hypothses. Les donnes sont associes de faon probabiliste, et le MHT gnre des hypothses explicitement.
La premire fois que l'approche des hypothses multiples a t utilise fut par [Housewright R.B., Singer
R.A., Sea R.G.] , mais elle ne tenait compte que d'une unique cible et ne se souciait gure de l'initialisation de
piste. [D.B. Reid.] a remdi ces deux problmes, plusieurs pistes sont initialises et suivies dans un
environnement encombr. Une arborescence d'hypothses est mise en place, avec des probabilits calcules
28 sur 146
pour chaque hypothse, que celle-ci provienne d'une cible dj connue, d'une nouvelle cible ou qu'elle soit une
fausse alarme. Les tats des pistes sont estims pour chaque hypothse en utilisant un filtre de Kalman. Les
probabilits des hypothses sont calcules rcursivement au fur et mesure que de nouvelles mesures arrivent.
Les hypothses peu vraisemblables sont limines afin de ne conserver qu'un petit nombre d'hypothses et les
hypothses correspondant une mme cible sont combines.
[Cox I.J, Hingorani S.L.] applique cet algorithme des points d'intrts issus d'une squence vido. Il prdit la
position des points par filtrage de Kalman. Les points candidats les plus similaires sont tris selon un critre de
corrlation sur la luminance du voisinage des points. Plusieurs candidats sont gnrs pour une trajectoire, il
s'agit soit d'une association avec chacun des points candidats, soit de la disparition d'un point, soit d'une fausse
alarme. Des hypothses globales sont gnres, avec l'ensemble des associations entre les trajectoires et les
points. La procdure rpte sur plusieurs images forme un arbre d'hypothses. La dcision concernant les
candidats est diffre jusqu' la confirmation d'une hypothse au cours du temps, donn par le calcul d'une
probabilit lie l'ensemble des trajectoires correspondant une hypothse globale. La croissance de l'arbre
des hypothses tant exponentielle, il faut l'laguer.
4.1.2 Le PMHT Probabilistic Multiple Hypothesis Tracking
Le PMHT, Probabilistic Multiple Hypothesis Tracking est une approche probabiliste, dans laquelle
l'affectation trajectoires/mesures est dfinie par des variables alatoires, et les hypothses dans leur ensemble
au cours du temps [Gauvrit H., Le Cadre J.P.] et non individuellement, instant aprs instant, vitant
l'numration explicite des hypothses. L'initialisation des vecteurs d'tat de position et de vitesse doit tre
correcte, sinon les rsultats manquent de robustesse, notamment pour les trajectoires au niveau d'un
croisement. [Gauvrit H., Le Cadre J.P.] utilise cet algorithme pour les donnes sonar unidimensionnelles. La
mthode a t applique aux squences vido par [Gelgon M.] avec une segmentation en rgions homognes
par le mouvement. Le suivi est assur par mise en correspondance de rgions entre images successives, et
l'algorithme multi hypothses permet alors de relier les bouts de trajectoires obtenues de chaque ct des zones
d'occultations.
4.1.3 Le JPDAF Joint Probabilistic Data Association Filter
Le PDAF est une extension du filtre de Kalman pour le suivi dans le contexte de mesures multiples. Dans le
filtre de Kalman, l'innovation est construite partir d'une combinaison de mesures, pondres par la confiance
qu'on leur accorde. Plusieurs PDAF utiliss simultanment pour le suivi multi pistes posent le problme des
filtres qui suivent la mme piste. Le JPDAF ajoute un principe d'exclusion aux associations du PDAF et
remdie ce problme.
4.1.4 Le JPDAF Joint Probabilistic Data Association Filter
Cet algorithme ([Blackman S.S.], [Bar-Shalom Y., Fortmann T.E.]) prend en compte toutes les observations
dans le voisinage de la position de la cible prdite pour mettre jour l'estime de la position en utilisant une
probabilit posteriori. Plusieurs hypothses concurrentes sur l'origine des donnes sont formes, mais les
dcisions finales sont prises squentiellement. Les hypothses sont combines. Le JPDAF prend en compte les
incertitudes lies aux mesures peu fiables, en particulier en cas d'occultations partielles, le suivi agissant sur
les parties non occultes. L'incertitude sur les pistes est modlise par les matrices de covariance associes aux
trajectoires. L'avantage de cette mthode est sa rcursivit, qui n'a pas besoin de stocker les observations
passes ni les multiples hypothses candidates. En revanche, il n'y a pas de mcanisme d'initialisation de piste.
La mthode Joint Probabilistic Data Association Filter est une mthode d'entretien de trajectoires dj
initialises et ne permet pas de dtecter l'apparition de nouveaux points. La solution serait alors d'utiliser
l'algorithme MHT pour l'initialisation des trajectoires et l'algorithme JPDAF pour la maintenance de
celles-ci. Le choix du MHT ou du JPDA est fonction de la densit de fausses alarmes. Pour un grand nombre
de fausses alarmes, le MHT n'est pas envisageable. Pour un petit nombre, le MHT est plus pertinent.
Les algorithmes MHT et JPDA numrent de faon exhaustive les hypothses d'association entre les mesures
et les pistes. Leur nombre croissant exponentiellement avec le nombre de cibles, des techniques ont t
29 sur 146
labores afin de se limiter aux hypothses les plus vraisemblables. [Streit R.L., Luginbuhl T.E. 94] ont
propos une nouvelle approche modlisant les associations des mesures aux pistes comme des variables
alatoires estimer. Aucune numration n'est ncessaire mais le vecteur d'association est considr comme
une donne du problme qu'il s'agit d'estimer.
4.1.5 L'approche par optimisation combinatoire
Comme dans l'approche probabiliste du PMHT, dans l'approche par optimisation combinatoire, il s'agit
d'viter l'numration explicite des hypothses. [Gauvrit H., Le Cadre J.P.] considre la squence dans son
ensemble, et par une mthode d'optimisation, minimise un cot dfini partir des probabilits des trajectoires,
sous contrainte d'unicit des correspondances. Cette mthode a le dfaut de l'explosion combinatoire que
[Gauvrit H., Le Cadre J.P.] rsout en combinant l'algorithme combinatoire qui permet d'obtenir une solution
approche, et qui sert d'initialisation l'algorithme probabiliste.
4.1.6 L'appariement temporel
4.1.6.1 La mise en correspondance
La premire famille est la mise en correspondance directe. Il faut dtecter les rgions correspondants aux
objets en mouvement dans la scne, soit par une soustraction du fond [Stauffer C., Grimson W.E.L.b], soit par
une diffrence d'images soit par une combinaison des deux [Collins R., et al.b]. Il s'agit d'apparier les
dtections obtenues dans les images prcdentes avec celles des images courantes, en minimisant l'erreur
commise par cet appariement.
4.1.6.2 Le filtre de Kalman
La seconde famille associe les rgions dtectes dans des images conscutives et calcule de faon rcursive
la trajectoire des objets suivre. Des mthodes ont t dveloppes pour rsoudre ce problme, de l'estimation
par filtre de Kalman aux arbres multi hypothses, des mthodes d'infrence avec degrs de confiance (JPDAF
[Bar-Shalom Y., Fortmann T.E.]) et filtres particules [Isard M., Blake A., 98]. Les mthodes bas niveau ne
rsolvent pas les problmes d'occultation et les trajectoires estimes sont perdues dans ce cas. Un rseau
baysien est alors utilis pour relier diffrentes trajectoires appartenant au mme objet en leur assignant un
label commun. Le suivi de l'objet s'effectue de deux faons. Les oprations bas niveau permettent de dtecter
les rgions en mouvement et d'associer des rgions par paires dans les images conscutives. Les oprations bas
niveau produisent un ensemble de trajectoires, chacune dcrivant l'volution d'un objet ou d'un groupe d'objets
dans le flux vido. Pour extraire la trajectoire complte de chacun des objets, il est ncessaire de relier
plusieurs segments de la trajectoire. Il faut alors attribuer un label en assignant un label probabiliste chaque
fois. Les interactions entre les diffrents labels peuvent tre modliss par un rseau baysien. Les noeuds du
rseau baysien sont les labels et les liens reprsentent les dpendances causales modlises par les tables de
probabilits conditionnelles. La meilleure configuration d'tiquetage peut tre obtenue par infrence
probabiliste grce un arbre de jonction [Jensen F.b].
Cette famille s'oppose la prcdente dans l'utilisation des mesures courantes. Le traitement a lieu en deux
tapes : l'image prcdente sert prdire l'image courante puis la prdiction est compare avec les mesures
rellement obtenues. Le filtre de Kalman tel que utilis par ([Baumberg A., Hogg D.], [Choi S., Seo Y., Kim
H., Hong K.] [Ricquebourg Y. 97]) est un filtre rcursif prdisant l'tat courant du systme partir des
mesures prcdentes si l'volution dynamique du systme est considr comme linaire. Le vecteur d'tat X(t)
est dfini en fonction de X(t-1) et un terme correspondant l'volution dynamique du systme. Ce filtre a deux
intrts : obtenir une prdiction de l'tat courant indpendamment des mesures obtenues et connatre la fiabilit
du modle de mouvement grce ces mesures. Les deux inconvnients sont la ncessit de la modlisation de
l'volution dynamique des objets de la scne, et sa sensibilit aux valeurs initiales cause de son caractre
itratif.
30 sur 146
4.2 Les techniques de suivi de trajectoires
Les techniques de suivi de trajectoires sont aussi issues du domaine radar. En radar, il s'agit d'tablir des pistes
partir des mesures obtenues en les associant aux mesures prcdentes afin de mettre jour les pistes, en
terminer certaines qui seraient sorties de la zone de surveillance, en initialiser d'autres, etc. C'est un problme
identique l'tablissement des trajectoires long terme. Selon la faon d'associer les observations aux pistes,
nous distinguons trois familles :
-les approches dterministes;
-les approches probabilistes non baysiennes;
-les approches baysiennes.
Le suivi long terme aborde le problme de disparition, rapparition et occultation des objets suivis, lev
par la prdiction dterminant l'volution des traces des objets.
4.2.1 Approches dterministes
Pour rsoudre l'association modles/observations, la mthode de base est le filtre du plus proche voisin
qui utilise l'observation la plus proche de l'observation prdite. Les rsultats obtenus sont pauvres dans le cas
d'environnement bruit. En effet, ils ne tiennent pas compte du fait que la mesure utilise dans le filtre peut
provenir d'une autre source que la cible d'intrt. De plus, il n'y a pas de modle d'volution dynamique du
systme pour parer cela. Les associations ne sont jamais remises en cause ni affectes d'une incertitude. Ce
n'est pas le cas des approches probabilistes contenant un modle d'volution dynamique et des tests
d'hypothses ainsi que le filtrage linaire optimal des trajectoires ([Blackman S.S.], [Bar-Shalom Y., Fortmann
T.E.]).
4.2.2 Approches probabilistes non baysiennes bases sur des
fonctions de vraisemblance
Une mthode d'estimation au sens du maximum de vraisemblance o la vraisemblance dpend de l'erreur
rsiduelle entre les prdictions et les mesures, permet de dcider la construction d'une trajectoire. L'algorithme
le plus connu de cette famille est celui du track split [Buechler G., Smith P.] qui spare la piste tant que
plus d'une dtection est observe dans le voisinage de la mesure prdite. Une fonction de vraisemblance est
calcule sur chaque trajectoire et les trajectoires dont la vraisemblance est en dessous d'un seuil sont limines.
Les rsultats sont convenables pour l'initialisation des pistes et leur mise jour, mais les temps de calcul
peuvent devenir prohibitif dans des environnements complexes.
Le dfaut majeur de ces algorithmes est que les dcisions sont binaires, les trajectoires sont acceptes ou
rejetes. L'estimation de l'tat rsultant et les covariances ne prennent pas en compte l'incertitude des dcisions,
caractristique des approches non baysiennes.
4.2.3 Approches probabilistes
Les associations observations/trajectoires sont modlises comme un vnement alatoire auquel est associ
une probabilit. Ces techniques estiment les probabilits a posteriori selon la rgle de Bayes :

p( H
t
D)=
( p( DH
t
)p( H
t
))
( p( D))
-
H
t
est l'hypothse de la source l'origine des donnes;
- D est l'ensemble des donnes reues le plus rcemment;
-
p( H
t
)
est la probabilit a priori que l'hypothse
H
t
soit correcte;
-
p( H
t
D)
est la probabilit posteriori de
H
t
;
- p( D) est la probabilit de recevoir l'ensemble des donnes D ;
-
p( DH
t
)
est la probabilit conditionnelle de recevoir D tant donn
H
t
.
31 sur 146
4.2.3.1 Les travaux sur la segmentation par le mouvement
[Gelgon M.] a tendu la segmentation par carte d'tiquettes au suivi de deux partitions spatiale et
mouvement au cours d'une squence d'images. Les deux segmentations spatiale et mouvement sont dfinies
comme des tiquetages statistiques permettant d'exploiter la cohrence temporelle des cartes de
segmentation.
L'analyse du mouvement dans les images est une tche difficile du fait que le mouvement apparent dans
l'image est une variable cache, dont les discontinuits spatiales sont a priori inconnues. Le champ de
mouvement 2D est la projection du mouvement 3D dans l'image et il ne peut tre mesur que dans les zones de
l'image o il provoque des variations spatio-temporelles de l'intensit. L'quation de contrainte du mouvement
apparent, liant le vecteur vitesse aux mesures de gradients spatio-temporels de l'intensit, est la base des
techniques d'estimation de mouvement. Elle ne dtermine cependant que la composante normale du vecteur de
vitesse, c'est le classique problme de l'ouverture [Mitiche A., Bouthemy P.]. Une contrainte supplmentaire est
alors introduite, favorisant la similarit des vecteurs de mouvement de pixels voisins [Horn B.K.P, Schunk
B.G.] ou se basant sur des modles de mouvement paramtriques. Cette contrainte additionnelle suppose la
continuit spatiale du champ de vitesse apparent, mais le problme se pose aux discontinuits du mouvement
apparent. Ces discontinuits sont localises aux contours des projections des lments en mouvement. Ainsi,
pour bien estimer le mouvement, il faut connatre les rgions homognes en mouvement. A l'inverse, segmenter
les rgions au sens du mouvement ncessite la connaissance des mouvement, donc l'estimation du mouvement
et la segmentation des rgions en mouvement sont troitement lies. Il faut donc dterminer un partitionnement
en rgions de l'image dont le mouvement est homogne, et le mouvement de ces rgions est estim sous forme
dense (champ de vitesse 2D) ou sous forme d'un modle paramtrique.
Deux types de mthodes de segmentation par le mouvement existent :
-les mthodes dites indirectes qui segmentent un champ de mouvement pralablement estim;
-les mthodes dites directes qui segmentent directement partir de l'image.
Certaines mthodes, dites squentielles, extraient les divers rgions en mouvement de l'image, de faon
successive, en partant de l'image considre dans sa globalit. Le modle de mouvement du fond de la scne est
estim et les rgions ne suivant pas ce modle sont repres. Dans ces rgions, un autre modle de mouvement
est estim, et de nouveau les rgions ayant un autre mouvement sont dtectes et ainsi de suite, jusqu' un
critre d'arrt. [Bouthemy P., Franois E.] alterne les phases d'estimation et de segmentation dans un cadre
d'tiquetage statistique markovien o l'affectation d'un pixel peut changer au cours de la phase de
segmentation.
On peut aussi traiter de faon conjointe l'estimation et la segmentation du mouvement avec une approche
markovienne de la carte de segmentation, visant introduire une information contextuelle. En effet, le cadre
statistique markovien permet de modliser le problme de segmentation par une fonction d'nergie comportant
un terme d'attache aux donnes (les gradients spatio-temporels de l'intensit) et une contrainte contextuelle
([Bouthemy P., Franois E.], [Odobez J.M., Bouthemy P. 98]). La minimisation de cette fonction d'nergie
correspond la carte de segmentation la plus probable au sens du maximum posteriori (MAP). La
modlisation de la fonction d'nergie s'effectue par une mthode d'optimisation de cette fonction, qui est non
convexe. Les mthodes stochastiques assurent la convergence vers un minimum global bien que lentement,
tandis que les mthodes dterministes convergent vers un minimum local plus rapidement. Des stratgies
multi-chelles leur sont souvent associes [Odobez J.M., Bouthemy P. 98], afin d'atteindre un minimum plus
vite et meilleur qu'avec une seule chelle, car l'espace de recherche tant plus restreint, la fonction d'nergie est
plus convexe. La segmentation par le mouvement apparent peut tre galement modlis par une mthode
base de mlange de lois. On considre le mouvement apparent dans l'image comme un mlange de diffrents
modles et il s'agit d'estimer les paramtres de ces lois (estimation des modles de mouvement) et les
affectations des donnes aux diffrentes lois (phase de segmentation). L'algorithme EM est couramment utilis
pour l'estimation et la segmentation conjointement, estimant alternativement les modles, connaissant les
affectations des pixels aux modles, puis mettant jour ces affectations d'aprs les nouveaux modles.
32 sur 146
Enfin une troisime classe de mthodes de segmentation par le mouvement est le regroupement de primitives
lmentaires. Ces mthodes ont pour but de former des ensembles homognes au sens du mouvement en
regroupant des primitives tells que des contour ou des rgions. Le regroupement en rgions homognes
lmentaires conduit une partition de l'image au sens du mouvement. Pour cela il faut un critre
d'homognit des rgions lmentaires [Bouthemy P., Santillana Rivero J.].
Les problmes d'estimation et de segmentation partir de plusieurs images sont plus faciles rsoudre qu'avec
seulement deux images, car l'information augmente avec le temps, tandis que le bruit se moyenne, et enfin les
ambiguts sur l'explication des gradients spatio-temporels de l'intensit par le champ de mouvement 2D sont
leves. Des contraintes de lien temporel entre les cartes de segmentation peuvent tre ajoutes, soit en
initialisant la segmentation par une prdiction issue d'une ou plusieurs segmentations des instants passs
([Bouthemy P., Franois E.], [Odobez J.M., Bouthemy P. 98]) ou bien en incluant une contrainte dans la
segmentation, favorisant la stabilit temporelle [Odobez J.M., Bouthemy P. 98].
4.2.3.2 Mthode propose par [M. Gelgon]
La mthode propose par [Gelgon M.] formule la recherche de rgions homognes en deux tapes :
segmentation au sens d'un critre statistique et formation de groupes de rgions lmentaires
cohrents au sens du mouvement. A ces fins, les champs markoviens sont utiliss pour l'tape de
segmentation. On suppose qu'il existe une distribution de probabilit de cette segmentation, qu'il faut
maximiser, et la segmentation est considre comme un problme d'tiquetage statistique contextuel. Chaque
pixel de l'image se voit affect d'une tiquette indiquant la rgion laquelle il appartient. Soit une grille de sites
S correspondant la grille des pixels, E la champ alatoire des tiquettes, O le champ des
observations sur la grille des sites.
La segmentation recherche le champ des tiquettes e le plus probable par le critre du Maximum
Posteriori e =
MAP
argmax
eD
p( E=e/ O=o) =
MAP
argmax
eD
p(O=o/ E=e). p( E=e) d'aprs la rgle
de Bayes, D est l'ensemble des configurations d'tiquettes possibles.
p(O=o/ E=e) est la vraisemblance conditionnelle exprimant le lien entre les tiquettes, p( E=e) est
la probabilit a priori du champ des tiquettes. On suppose que E le champ alatoire des tiquettes est
markovien. D'aprs le thorme de Hammersley-Clifford [Geman S., Geman D.], nous avons vu
prcdemment ( 3.2) que la distribution de probabilit jointe associe un champ de Markov est donne par
une distribution de Gibbs : p( E=e)=
(exp(U
2
( e)))
Z
.
Donc
e =
MAP
argmax
eD
p(O=o/ E=e). p(E=e) est quivalent e=argmin
eD
U
1
(e , o)+U
2
(e)
avec
U
1
(e , o)=ln( p(o/ e))
. La recherche de la carte d'tiquettes optimales est quivalent minimiser
une fonctionnelle d'nergie
U(e , o)=U
1
(e , o)+U
2
( e)
.
Des champs markoviens peuvent tre dfinis non sur une grille de pixels mais sur un graphe de
primitives pralablement extraites de l'images ; ils modlisent les interactions entre ces primitives. Deux
champs markoviens sont utiliss chez [Gelgon M.], un au niveau des pixels et un au niveau rgions, chaque
niveau avec sa phase d'tiquetage.
Une technique de segmentation non supervise est propose [Gelgon M.], on ne connat ni les caractristiques
des rgions recherches, ni le nombre de rgions. Pour la premire tape de segmentation au niveau des pixels
nomm par [Gelgon M.] segmentation spatiale , les principes dcrits par [Bouthemy P., Franois E.] sont
repris et regroupent les critres d'intensit, de couleur ou de texture.
L'nergie est minimise en parcourant les sites de S selon l'algorithme ICM ( Iterated Conditional
Modes ). De faon itrative, l'tiquette permettant la plus grande baisse d'nergie localement
(conditionnellement aux autres tiquettes) est recherche. Pour chaque site visit, soit un ensemble d'tiquettes
candidates comprenant l'tiquette courante et les tiquettes des sites voisins. L'tiquette pour laquelle la
variation d'nergie locale, par l'affectation de chacune de ces tiquettes, est la plus forte, est affecte au site
visit. Chaque fois qu'une tiquette est modifie, les statistiques des rgions concernes sont mises jour.
Chaque site se voit attribu une tiquette de stabilit [Bouthemy P., Lalande]. Tout site visit et tiquet
33 sur 146
devient stable, si son tiquette a chang, ses voisins deviennent instables. Les statistiques des rgions sont
remises jour aprs chaque changement d'tiquette. Dans [Bouthemy P., Franois E.], la partition initiale
choisie est toute l'image. La premire minimisation est une dtection de zones non conformes la
caractristique dominante dans l'image, le mouvement dominant pour [Bouthemy P., Franois E.].
Le suivi d'une primitive un instant donn t vers un instant t+1 est ralis grce la prdiction de la position
de cette primitive t+1, l'aide de sa position t et d'un modle dynamique de mouvement. Les primitives
sont extraites t+1, parfois avec l'aide de la prdiction, ou bien la prdiction intervient seulement dans le choix
d'association entre mesures et trajectoires en construction. Dans ce dernier cas, des ambiguts peuvent
apparatre. Des modles de suivi existent ainsi que des techniques d'association temporelle de mesures aux
trajectoires prsentes au 4.1.1 et 4.1.3.
Parmi les techniques bases sur les contours pour le suivi de primitives, citons le suivi par contour actif
[Blake A., Isard M. 98], le contour correspondant en effet un contraste d'intensit. Le problme des
techniques par contour actif est son initialisation qui doit tre proche du vrai contour. [Blake A., Isard M. 98]
ont ralis des travaux sur le suivi de contours dans des conditions difficiles (fond textur) par des techniques
de Condensation [Isard M., Blake A., 98].
Dans les mthodes de suivi d'une partition reprsente par une carte d'tiquettes sur les pixels, les mthodes
markoviennes d'tiquetage statistique peuvent mettre jour de faon incrmentale les rgions et les suivre
([Bouthemy P., Franois E.], [Odobez J.M., Bouthemy P. 98]). La correspondance temporelle rgion par
rgion est assure par l'tiquetage.
Le suivi par partitions par propagation d'tiquettes a lieu par une partition spatiale de la premire image et
propagation de celle-ci. Cette partition correspond des groupes de rgions dont le mouvement 2D est
cohrent. La connaissance des groupes de rgions rend le suivi de la partition plus efficace que le suivi des
pixels seuls. Dans une application de surveillance, il est utile de disposer des cartes de segmentation
spatiale de la squence. Si les rgions spatiales suivies correspondent une segmentation de l'image en objets
identifis, la connaissance des proprits de la rgion spatiale dans laquelle les objets doivent se trouver peut
aider les localiser. Le suivi peut tre ralis par la prdiction et la mise jour des configurations d'tiquettes
dfinissant les partitions. Les rgions sont initialement regroupes au sens du mouvement, c'est la
segmentation spatiale au sens du mouvement, on suppose que des pixels proches spatialement ont le mme
mouvement. Sur chacune des rgions, un modle de mouvement est estim entre les instants t et t+1 . A partir
de la carte des tiquettes e(t ) (segmentation spatiale) estime l'instant t, et des modles de mouvement
estims sur les rgions au sens du mouvement, on construit une carte d'tiquettes e(t +1) qui est une
prdiction de la carte de segmentation spatiale l'instant t+1. L'tiquette spatiale de chacun des sites pixels est
projete au sens du mouvement estim en ce site, avec un modle affine de mouvement ([Bouthemy P.,
Franois E.], [Odobez J.M., Bouthemy P. 98]) vers un site dans l'image t+1. La prdiction ainsi tablie est la
base de la configuration initiale d'tiquettes pour la minimisation de l'nergie U(e(t +1) , o(t +1)) relative
la segmentation spatiale l'instant t+1 . La partition spatiale est mise jour t+1 par la minimisation de
cette nergie.
Cette technique de segmentation spatio-temporelle associe une phase de suivi court-terme fournit des
tiquettes aux rgions extraites. L'alternance prdiction et mise jour tablit un lien temporel entre les
rgions se correspondant dans des images successives. Cependant, cette mthode est mmoire courte .
Dans un cas d'occultation, ou si l'lment suivi est immobile pendant un temps court, le lien temporel peut ne
plus exister, ce qui a pour consquence un changement d'tiquette dans la squence de cartes de segmentation.
Une piste partielle est un ensemble de rgions extraites lies dans le temps par l'identit de leur tiquette de
mouvement. Il s'agit alors maintenant d'identifier des associations entre pistes partielles, formant une piste
unique cohrente. Il faut galement estimer les trajectoires des objets en mouvement dans la scne, en tenant
compte des associations entre les pistes partielles. La trajectoire de la rgion comprend la silhouette de celle-ci
ainsi que le modle d'volution temporelle, silhouette et rgion doivent tre estims.
La mthode propose fonctionne en batch , elle s'applique une fois l'ensemble des cartes de segmentation
obtenues et non au fur et mesure de l'extraction des mesures. Le traitement immdiat des cartes de
segmentation est ncessaire quand il s'agit d'extraire les pistes pour une action immdiate concernant les cibles
suivies, ce que permet le MHT ou le JPDAF. L'analyse diffre est intressante s'il n'y a pas d'action
34 sur 146
immdiate, et cela permet de tenir compte de toutes les mesures disponibles.
Le domaine de l'extraction multi-pistes concerne le domaine de surveillance radar et sonar. [Cox I.J, Hingorani
S.L.] a appliqu ces techniques au suivi dans des squences vido. Le PMHT (probabilistic Multi-Hypothesis
Tracking) a t propos par [Streit R.L., Luginbuhl T.E. 93]. [Gelgon M.] propose d'adapter le PMHT au
problme d'estimation et d'association de trajectoires dans un contexte de vision par ordinateur, en reprenant
les travaux de [Gauvrit H., Le Cadre J.P.]. [Gelgon M.] propose une phase d'initialisation des pistes,
l'introduction d'un modle gomtrique et l'identification du nombre de pistes.
On dsigne par mesure une rgion extraite un instant donn, avec ses informations. Les trajectoires doivent
tre estimes partir d'associations entre mesures et modles, ces associations sont soit binaires comme le
MHT, soit probabiliste comme le JPDAF. Le MHT rpond ce problme en numrant les associations
possibles, en valuant la pertinence des trajectoires construites pour chacune des hypothses d'association, et
en retenant la piste la plus vraisemblable. La mthode propose par [Gelgon M.] propose une alternative
vitant cette numration des hypothses et sa combinatoire.
L'ide du PMHT est d'affecter toutes les mesures toutes les pistes avec une certaine probabilit, plutt que
d'affecter de manire unique les mesures aux pistes. On suppose que la source peut tre l'origine de plusieurs
mesures, ce qui signifie que les variables d'affectation sont indpendantes. Cette hypothse du PMHT rend
possible la dcomposition de la probabilit jointe sur l'ensemble des mesures d'une image, permettant d'viter
l'numration des hypothses d'association. [Gelgon M.] prend en compte les liens temporels court terme dans
l'estimation des trajectoires par la technique du PMHT.
4.3 Exemple de deux applications probabilistes base de graphe
4.3.1 Travaux de [Rota N.]
L'interprtation de squences d'images a suscit de nombreux travaux dj vus ([Chleq N., Thonnat M.],
[Nagel H.-H], [Choi S., Seo Y., Kim H., Hong K.], [Pentland A.]). L'objectif de [Rota N.] est de dtecter,
reconnatre et suivre plusieurs personnes dans une station de mtro avec une seule camra. Chaque
individu parcourt la scne au cours du temps, et le systme de suivi doit suivre sa piste. Une piste est un
ensemble de points correspondant aux positions des objets au cours du temps. Les problmes dlicats
concernant les pistes sont l'initialisation, la terminaison, le mlange de pistes et l'clatement des pistes (cf.
figure 20).
Figure 20 : initialisation, la terminaison, le mlange de pistes et
l'clatement des pistes [Rota N.].
L'initialisation d'une piste correspond au premier lment caractristique d'un objet entrant dans la scne. La
terminaison d'une piste est le dernier lment de la suite des positions de la trajectoire de l'objet, correspondant
35 sur 146
la disparition de l'objet de la scne. Mais dans le cas d'une occultation, la disparition de l'objet ne correspond
pas une disparition relle. La fusion de pistes correspond par exemple au cas d'un groupe de personnes qui
se rejoignent, les pistes dfinies par leurs trajectoires se fusionnent. A l'inverse, l'clatement des pistes
correspond au cas d'un groupe de personnes qui se sparent.
La premire tape de tout systme de traitement pour le suivi de personnes est de dtecter le mouvement des
rgions mobiles dans l'image. La reconnaissance correspond la classification des objets en voiture,
personnes, etc.
Le projet ESPRIT PASSWORDS est le point de dpart de ce travail ralis en 1996, dont la contribution
principale est l'apport d'information externe concernant les humains et l'apport de connaissances
externes sur la scne 3D. Une fois l'extraction des rgions en mouvement par combinaison d'images avec une
image de rfrence, et la reconnaissance de personnes via un modle de personnes trois paramtres (vitesse,
hauteur, largeur), l'appariement temporel s'effectue via un graphe temporel comprenant les objets de la scne
et les filiations entre les dtections au cours du temps. Un critre de recouvrement spatial entre deux rgions de
deux images successives permet de dfinir si les deux rgions appartiennent au mme objet suivi. La filiation
entre les dtections successives met en vidence la correspondance d'un objet d'une image la suivante.
L'appariement par graphe temporel est toutefois compromis dans des scnes trs peuples, mettant en
vidence les problmes de mlange et d'clatement de piste.
Pour rendre le systme robuste (cf. figure 21), de l'information contextuelle a t introduite, via un modle
d'humain 3D, et le contexte statique , le dcor de la scne, que ce soit les objets de dcor statique ou sur
les personnes suivre.
Figure 21 : rsultat du suivi avec et sans contexte [Rota N.].
En effet, sans information contextuelle, les occultations ne sont pas gres et le graphe temporel est
inexploitable, alors qu'avec l'information de contexte, le graphe temporel rsout les problmes d'occultations.
Le graphe temporel pourrait tre rendu plus robuste grce au contrle du nombre de personnes dans la scne
sur une chelle de temps approprie par exemple.
4.3.2 Travaux de [Han M., Xu W., Gong Y.]
Pour suivi une personne, [Han M., Xu W., Gong Y.] proposent un suivi multi hypothses qui intgre le
processus de dtection dans le processus de suivi, et la trajectoire globale est recherche dans les multiples
hypothses. Des hypothses sont dtectes et gnres. Un modle d'observation autorise le suivi de multiples
trajectoires. Le suivi de trajectoires multi hypothses utilise un HMM qui maximise la probabilit jointe
entre la squence des tats et la squence d'observations. Chaque objet suivi est reprsent par son index et son
tat l'instant t par un vecteur comprenant sa localisation, sa vitesse, son apparence et son chelle. La
probabilit jointe d'une squence d'tats donn X et d'une squence d'observation Z est suppose sous
36 sur 146
l'hypothse markovienne. L'espace des trajectoires possibles est trs grand et le problme est rsolu dans les
algorithmes de suivi multi-hypothses (MHT) pour de petites cibles ([Cox I.J, Hingorani S.L.], [D.B. Reid.]),
en trouvant toutes les combinaisons possibles des observations courantes et des trajectoires existantes
l'intrieur de groupes de points.
Le suivi de trajectoire peut traiter les difficults temporelles causes par des fonds texturs, des interactions
multi-objets et des occultations.
L'image sert au calcul de la vraisemblance et donne une mesure de comment une configuration, incluant le
nombre d'objets et leurs tats, explique les pixels d'avant-plan. L'image permet de restreindre la dtection des
objets la recherche uniquement dans les zones de l'avant-plan afin de rduire les calculs. Elle fournit
l'information d'apparence des objets qui va aider au suivi. Le dtecteur renvoie une bote englobante dont la
taille correspond l'chelle donne par le meilleur score de dtection chaque localisation. L'apparence de
l'objet cette localisation est reprsente par l'histogramme color calcul dans la bote englobante. Divers
systmes de dtection et suivi de multiples personnes sont bass sur la silhouette [Haritaoglu I., Harwood D.,
Davis L.S. 99], les modles de forme [Zhao T., Nevatia R., Lv F.].
Un modle d'observation est compos de l'image originale, d'un masque de non fond et d'une carte du score
de la dtection d'objets gnr par un dtecteur d'objets. L'image fournit l'apparence des objets pour les relier
au cours du temps. Le modle du fond et le dtecteur d'objet sont utiliss pour rendre une dcision base sur
l'image tandis que le suivi de trajectoire rend une dcision globale sur le nombre et la configuration des objets.
Le masque d'avant-plan, gnr par un modle du fond de mlange de gaussiennes [Stauffer C., Grimson
W.E.L.b], permet la vraisemblance de considrer la prsence de divers objets. La carte de dtection,
consistant en un score de dtection des objets bass pixel, fournit des indices pour localiser les objets. Une
mthode de dtection des objets permet de gnrer la carte de dtection : un rseau de neurones pour la
dtection des pitons [Le Cun Y., Bottou L., Bengio Y., Haffner P.] recherche chaque pixel diffrentes
chelles un score de dtection. Le score de dtection correspond au meilleur score parmi toutes les chelles. Un
algorithme d'infrence conduit par la dtection est propos. Il utilise un module de dtection pour gnrer des
hypothses d'objets et exploiter les informations image afin de suivre les identits des objets et rsoudre les
interactions multi-objets.
Le module de suivi accumule les rsultats de la dtection dans une structure de graphe et maintient de
multiples hypothses des trajectoires des objets. Le module de suivi comporte trois tapes :
-la gnration d'hypothses;
-le calcul de la vraisemblance;
-le management d'hypothses.
Les noeuds du graphe reprsentent les rsultats de la dtection des objets. Les liens du graphe sont
tablis en fonction de la similarit entre deux noeuds correspondants deux objets identiques dtects.
Le suivi de plusieurs objets rend une dcision globale sur les trajectoires des objets en slectionnant
l'hypothse qui s'est accumule au cours du temps la plus probable.
Les comportements anormaux pour la vido surveillance sont ainsi dtects.
Plus prcisment, les divers modules se dcomposent comme suit.
-Dans le module de gnration d'hypothses, une structure par graphe est maintenue dans l'algorithme de
suivi d'objets multiples pour chacune des trajectoires. Les noeuds du graphe reprsentent les dtections.
Chaque noeud est compos de la probabilit de dtection des objets, sa taille et son chelle, sa localisation et
son apparence. Un histogramme par bote englobante reprsente l'apparence de l'objet. La force de chaque lien
du graphe est calcule en fonction de la proximit, similarit en taille et en apparence entre deux noeuds
(objets dtects). Le graphe est continment tendu travers le temps pendant le suivi. A chaque image, les
rsultats de la dtection d'objets tant donn, la gnration d'hypothses calcule les connections entre les
noeuds du graphe maintenu et les noeuds dans l'image courante. La gnration d'hypothses vite les
occultations par sparation et regroupement de noeuds, car si un objet rapparat aprs une occultation, le
noeud prcdent se spare en deux traces d'objets. Dans l'autre sens, si un objet est en occultation, le noeud
correspondant est regroup avec le noeud occult (cf. figure 22). Ce module traite galement les donnes
manquantes, et les fausses dtections.
37 sur 146
Figure 22 : structure de graphe d'une trajectoire multi objet [Han M., Xu W., Gong Y.].
-La vraisemblance ou probabilit de chacune des hypothses gnres l'tape de gnration d'hypothses est
calcule selon la probabilit de dtection, et l'analyse de la trajectoire. Le graphe de structure permet d'inclure
les objets dtects les plus rcents et de gnrer de multiples hypothses sur les trajectoires. Une image de
vraisemblance est calcule afin de fournir une probabilit chacune des hypothses. Les probabilits calcules
sur toute la squence d'images correspondent la vraisemblance des hypothses. La vraisemblance des
hypothses est calcule chaque instant, elle fournit une description globale des rsultats de la dtection. Les
hypothses avec les vraisemblances les plus fortes sont composes des meilleures dtections d'objet. Les
vraisemblances des hypothses sont accumules travers la squence d'images.
La probabilit des observations sachant un tat cach, dcrit comment un tat (cach) du systme ressemble
aux observations. Une fonction de vraisemblance base objet est calcule comme le score de mise en
correspondance entre la reprsentation de l'objet avec l'image au lieu o se trouve l'objet. Une telle fonction de
vraisemblance n'explique pas elle seule toute l'image. Mais d'un autre ct, une fonction de vraisemblance
base image explique chaque pixel dans l'image grce aux tats objets. L'avantage d'une vraisemblance base
image est que si le suiveur est dans une mauvaise localisation, comme un fond textur, la vraisemblance est
faible car la vraie cible ne peut pas tre explique avec les autres objets. Une fonction de vraisemblance
compose d'un terme de vraisemblance bas objet pour l'image originale, et d'un terme de vraisemblance bas
image pour le masque d'avant plan et la carte de dtection, est propose. En combinant les trois termes de
vraisemblance, celle de l'image sachant la squence d'tats, celle de la carte de dtection et celle du masque
d'avant-plan, l'algorithme de suivi d'objets multi trajectoire (plusieurs objets) prfre les pistes qui sont des
connections d'objets dtects avec de grands scores de dtection, des apparences similaires au cours du temps,
et explique bien les rgions d'avant-plan. Les indices visuels forts rendent la configuration de la squence,
ayant la meilleure probabilit des tats observs joints, survivante des dtections manquantes ou fausses
grce la vue globale de la squence d'images, des occultations et des fonds texturs (cf. figure 23).
-Le module de management des hypothses range les hypothses en fonction de leur vraisemblance. Afin
d'viter une explosion combinatoire du nombre d'hypothses, la structure de graphes manage de multiples
hypothses et effectue un lagage pour avoir des performances raisonnables. Les dtections successives sont
vrifies, par des prdictions de la localisation des objets dans les images successives. Cette vrification donne
un meilleur score de probabilit aux objets dtects qui ont vrifi la prdiction. Un nombre limit
d'hypothses est ainsi maintenu dans la structure de graphe.
Le module de suivi fournit une prdiction au module de dtection d'objets pour amliorer les performances de
dtection locale.
38 sur 146
(a) Image originale. (b) rsultats de suivi
avec la meilleure
probabilit jointe tat-
observation (trois traces
incluses).
(c) rsultats de suivi
avec la moins bonne
probabilit jointe tat-
observation (seulement
deux traces incluses).
Figure 23 : rsultats de suivi de trajectoire de personnes avec des dtections
manquantes et des fausses dtections [Han M., Xu W., Gong Y.].
39 sur 146
Chapitre 2 Suivi
40 sur 146
1 Analyse du mouvement
Les approches pour l'analyse du mouvement ([Abrantes A., Marques J., Lemos J.], [Bar-Shalom Y., Fortmann
T.E.], [Cohen I., Medioni G.], [Collins R., et al.b], [Cox I.J, Hingorani S.L.], [Isard M., Blake A., 98], [Isard
M., Mac Cormick J.P.], [Jensen F.b], [Stauffer C., Grimson W.E.L.b], [Haritaoglu I., Harwood D., Davis L.S.
00]) sur de longues squences peuvent se diviser en deux catgories, soit la squence entire est utilise et
ensuite le mouvement dans cet espace (espace spatio-temporel, espace des phases, etc...) est analys, soit le
suivi a lieu image aprs image et le rsultat obtenu l'image prcdente est inclus dans l'analyse du
mouvement courant. Ce chapitre se focalise principalement sur l'analyse du mouvement humain mme si la
plupart des techniques sont utilisables dans d'autres contextes.
1.1 Analyse du mouvement dans la squence
1.1.1 Espace spatio-temporel
Dans l'espace spatio-temporel XT, [Adelson E. H., Noyogi S. A.] effectuent la reconnaissance d'un piton
dans un volume XYT. Comme il est difficile de segmenter la silhouette d'une personne dans une seule image,
les informations de niveau de gris pouvant tre peu caractristiques, l'information temporelle gnre une bande
incline du corps en mouvement segment par les contours actifs. La tte d'une personne marchant
paralllement la camra et en translation gnre dans le plan spatio-temporel une bande incline. Une fois le
contour de la personne extrait, une technique simple de reconnaissance est base sur la distance euclidienne
entre le contour extrait et la trace caractristique dans le plan XT d'un piton.
1.1.2 Espace des phases
Dans l'espace des phases, [Aaron Bobick, Lee Campbell] reconnaissent le mouvement humain dans des
domaines sportifs o des catgories de mouvement sont bien dfinies (athltisme, danse, etc). Cet espace est le
produit de l'espace ordinaire (x, y, z) par l'espace des vitesses. Un point matriel est repr dans cet espace par
les coordonnes (x, y, z) de son vecteur position r ainsi que par celles de son vecteur vitesse v, notes (v
x
, v
y
,
v
z
). L'ide fondamentale est qu'il est possible de reconnatre un mouvement simplement l'aide des contraintes
du mouvement (par exemple les bras sont attachs aux paules). En cherchant les contraintes produites par un
mouvement et qui ne sont valables que pour ce mouvement, il est envisageable de trouver un modle
caractristique pour chaque mouvement. Cet espace a l'avantage d'tre invariant par rapport aux changements
de vitesse. Le modle de mouvement est appris pour reconnatre les neuf mouvements fondamentaux du ballet
classique.
1.1.3 Espace des chelles
Dans l'espace des chelles, [Rangarajan K., Allen W., Shah M.] reconnaissent la diffrence entre deux objets
de mme forme mais de mouvement diffrent, ou entre deux objets de mme mouvement mais de forme
diffrente. L'ide de base est de considrer que si un objet a un mouvement prdfini, les trajectoires de
plusieurs points sur un objet peuvent servir pour identifier de faon unique l'objet. L'entre est un ensemble de
trajectoires 2D provenant d'un objet suivi travers une squence d'images. La structure et les trajectoires 3D
de chaque objet sont stockes dans le modle. Une mise en correspondance est effectue entre les projections
2D des trajectoires 3D du modle et les trajectoires 2D afin de dterminer s'ils reprsentent le mme objet. Les
trajectoires 2D sont converties en 2 signaux 1D bass sur la vitesse et la direction. Les signaux sont ensuite
reprsents par des images chelle-espace pour simplifier la mise en correspondance et parce que cette
reprsentation est invariante par rotation et par translation.
1.1.4 Intgration temporelle
Par intgration temporelle, [Polona R., Nelson R. 94b] proposent une technique non-paramtrique de
dtection de priodicit afin de distinguer la marche, la course, le saut pied joint, la balanoire, etc. Une
analyse frquentielle de l'intensit lumineuse le long des trajectoires associes au mouvement d'ensemble est
41 sur 146
effectue. La frquence fondamentale donne la priode du mouvement relatif. Le volume XYT est partitionn
en cellules rgulires, dans chacune d'elles un vecteur d'attributs est calcul, et compar aux attributs des
mouvements modles, afin d'en tablir une mesure de similarit indiquant le plus proche.
1.2 Analyse du mouvement image par image
Le suivi peut s'effectuer sur une ou plusieurs personnes [Zhao H.-X., Huang Y.-S.], avec une ou plusieurs
camras [Khan S., Shah M.], pour la dtection et l'analyse des mouvements de la foule [Beymer D.], dans le
cas de situations temps rel et de traitement simultan de divers flux vidos [Ruiz-del-Solar J., Shats A.,
Verschae R.], avec des occultations entre objets ou la rencontre entre plusieurs personnes, et aussi avec des
camras mobiles non calibres.
Les pionniers dans le domaine du suivi de personnes [Siebel N.T.] sont [ORourke J., Badler N.] et [Hogg D.].
Les rgions issues du suivi sont classes en individus, groupes de personnes et d'autres classes d'objets. La
sortie du suivi sert construire un graphe de suivi facilitant le suivi d'individus sur une longue priode mme
s'ils rejoignent ou bien quittent des groupes. Dans le domaine de la surveillance, il existe bon nombre
d'algorithmes de suivi ([Baumberg A.M.], [Bremond], [Cai, Q., Mitiche, A., Aggarwal, J.K], [Gavrila D.M.,
Davis L.S.], [Haritaoglu I., Harwood D., Davis L.S. 00], [Johnson N.], [Khan S., Javed O., Rasheed Z., Shah
M.], [Lipton A.J., Fujiyoshi H., Patil R.S.], [Sidenbladh H., Black M.J., Fleet D.J.], [Wren C.R., et al.]). Les
systmes de surveillance comme ceux proposs par [Hongeng S., Bremond F., Nevatia R.], [Pentland A., Liu
A.] et [Xiang T., Gong S., Parkinson D.] prsentent quelques difficults pour analyser le comportement dans
des scnes de bagarre ou vandalisme vues de plusieurs camras, et dans des environnements texturs telles que
les scnes de mtro.
L'approche suivie par [Rohr K.] pour analyser une dmarche est de reconnatre une personne dans une image
et de suivre les mouvements de ses membres dans chaque image. Le corps humain est modlis par un
ensemble de cylindres articuls. Les rgions correspondants des objets en mouvement sont extraites grce
la dtection des changements temporels de l'intensit. La position 3D de la personne est dtermine par la
projection des contours du modle (des lignes droites) sur les contours dans l'image approchs par des lignes
droites. L'approche est tendue une squence d'images en estimant les paramtres dynamiques du modle.
L'estimation de ces paramtres dans les images successives est faite en utilisant un filtre de Kalman, autorisant
le suivi sur une squence d'image.
1.3 Les mthodes de suivi image par image
La premire tape de tout systme de traitement de squence d'images pour le suivi de personnes consiste
dtecter le mouvement des rgions mobiles dans l'image.
Nous pouvons classer les mthodes de suivi en six catgories :
-Catgorie 1: les mthodes, parfois sans modle, bases rgion ou suivi de blobs , bass sur la couleur,
la texture, les primitives ponctuelles, les contours ([Bremond], [Cai, Q., Mitiche, A., Aggarwal, J.K], [Khan
S., Javed O., Rasheed Z., Shah M.], [Lipton A.J., Fujiyoshi H., Patil R.S.], [Wren C.R., et al.]);
-Catgorie 2 : les mthodes utilisant un modle d'apparence 2D du corps humain ([Baumberg A.M.],
[Haritaoglu I., Harwood D., Davis L.S. 00], [Johnson N.] avec son modle d'apparence temporelle), les
approches 2D avec modle explicite de la forme, et les approches 2D sans modle explicite de la forme.
-Catgorie 3 : les mthodes avec un modle articul en 3D du corps humain ([Gavrila D.M., Davis L.S.],
[Sidenbladh H., Black M.J., Fleet D.J.]);
-Catgorie 4 : Les mthodes par soustraction du fond procde par soustraction de l'image courante avec une
image du fond ([Haritaoglu I., Harwood D., Davis L.S. 98], [Wren C.R., et al.]). Le systme peut tre plus
robuste dans des environnements texturs en combinant la couleur, la texture, et le mouvement pour segmenter
42 sur 146
l'avant-plan.
Voyons en dtail les travaux de [Ali M.A., Indupalli S., Boufama B.] qui utilisent une mthode par
soustraction du fond. [Ali M.A., Indupalli S., Boufama B.] font de la dtection de personnes en mouvement et
du suivi dans un environnement complexe avec un fond inconnu, pour la vido surveillance. Une mthode de
mise en correspondance des primitives des blobs par corrlation dans une squence d'intrieur est propose. Le
fond est modlis par une mthode statistique et remis jour continuellement. La segmentation des objets
d'avant-plan est effectue par un algorithme de soustraction du fond et un algorithme de clustering K-means.
L'espace HSV (invariance en luminance) est utilis pour minimiser l'effet des ombres. Pour le suivi, la plupart
des travaux font de la prdiction sur les primitives et comparent les valeurs prdites et estimes pour remettre
jour le modle, via un filtre de Kalman. [Ali M.A., Indupalli S., Boufama B.] prsentent une mthode par
corrlation de Pearson : aprs avoir dtect les blobs, les primitives sont extraites et compares avec les
primitives de blobs dans les images prcdentes via la corrlation de Pearson . Les occultations ont t
rsolues par des boites englobantes autour des blobs et de l'information de mouvement;
-Catgorie 5 : La diffrence temporelle (deux ou trois images) [Anderson C., Burt P., Van Der Wal G.].
Les mthodes base de diffrence des catgories 4 (soustraction du fond) et 5 (diffrence temporelle) calculent
une carte binaire de mouvement, et les pixels de mouvement sont regroups en blobs , rgions de pixels
connexes ([Haritaoglu I., Harwood D., Davis L.S. 00], [Jabri S., Duric Z., Wechsler H., Rosenfeld A.], [Zhao
T., Nevatia R., Lv F.]). Les mouvements et les interactions entre les personnes sont obtenus par le suivi des
blobs .
La diffrence temporelle est bien adapte aux environnements dynamiques mais souffre du problme
d'ouverture d aux couleurs homognes d'objets en mouvements et effectue une mauvaise extraction des
primitives. La soustraction du fond permet d'extraire les objets en mouvements mais le fond doit tre bien
modlis, et cette mthode est trs sensible aux changements de lumire ou aux mouvements des objets dans le
fond. Le flot optique est une technique trs robuste, mme en prsence de mouvement de camra, mais est trs
chre en cot de calcul et donc peu usite pour les applications temps rel. Seule la soustraction du fond
requiert une modlisation du fond (des gaussiennes ou mlanges de gaussiennes), et est plus rapide que les
autres mthodes;
-Catgorie 6 : Une autre approche complmentaire aux catgories 5 et 6, est l'approche diffrentielle base
d'estimation du champ de vitesse en tous points de l'image, aussi dite par dtection de mouvement. Elle
consiste connatre les vecteurs vitesses dans la scne, en faisant l'hypothse d'invariance entre t et t+dt, c'est-
-dire que la fonction d'intensit lumineuse en un point (x, y, z) est identique en (x+dx, y+dy, t+dt). On dfinit
une fonction d'erreur appele DFD Deplaced Frames Difference :
DFD( x , y , t )= f ( x , y , t ) f ( x+dx , y+dy , t+dt ) et DFD( x , y , t )=0 x yt , quation
connue sous le nom Equation de Contrainte du Mouvement Apparent (ECMA) . On cherche minimiser la
DFD pour tout (x, y) de l'image l'instant t. Cette famille comprend la mthode par flot optique .
L'estimation du mouvement par flot optique [Barron J.L., Fleet D.J., Beauchemin S.S.] en fonction des
variations spatio-temporelles de la fonction d'intensit lumineuse est une faon d'apprhender le mouvement
dans une scne. La dtection de mouvement met en vidence des rgions mobiles dans l'image courante. La
soustraction du fond est bien adapte pour les environnements intrieurs dans lesquels la lumire est stable et
les mouvements d'arrire plan peu nombreux, tandis que la dtection de mouvement par flot optique
correspond aux environnements texturs avec des mouvements dans le fond.
Enfin, il existe dans cette mme catgorie, les approches bases sur la corrlation base de similitudes
spatio-temporelles pour l'estimation du mouvement d'ensemble.
Nous prsentons dans la suite les mthodes bases primitives, les approches bases modle du corps en 2D ou
3D, les mthodes avec modle d'apparence en 2D, les approches en 2D avec modle explicite de la forme, les
approches en 2D sans modle explicite de la forme, et les mthodes avec modle articul en 3D.
1.3.1 Les mthodes bases primitives
Dans les mthodes de suivi de caractristiques, l'objectif est de dtecter des descripteurs lis des points
43 sur 146
particuliers, et dcrivant l'objet par un ensemble d'attributs gomtriques (points, segments, courbes
paramtriques, artes, contours), ou des rgions de l'image. Ces mthodes ont l'avantage d'une bonne
robustesse aux occultations car des associations qui n'ont pas pu se faire sur certains points de l'objet cachs
dans l'image, ne mettent pas en chec le suivi sur l'ensemble des points.
[Du L., Sullivan G., Baker K.] et [Koller D., Daniilidis K., Nagel H.-H] dtectent des vhicules par extraction
des angles du toit et du capot. Ces primitives peuvent aussi tre la taille, la position, la vitesse, le rapport des
deux axes de l'ellipse. Elles sont obtenues par une extraction de contours ([Deriche R.], [Shen J., Castan S.])
et analyse de la norme du gradient de l'image. Cette approche a l'avantage d'avoir un contenu smantique
(points prcis sur les objets, comme le toit d'une voiture). Le suivi de primitives ponctuelles est un procd de
mise en correspondance d'une image la suivante. Les primitives des blobs sont extraites pour une mise en
correspondance dans la squence, par la distance euclidienne ou l'approche base corrlation. La trajectoire
peut alors tre value par le regroupement de ces primitives tout au long de la squence. Cette approche
n'identifie que quelques points sur l'objet suivi et non l'objet en entier, ce que font les approches contour et
rgion.
Le suivi par contours appel contours actifs suit le bord de l'objet, il suffit pour cela qu'il ait assez de
contrastes au niveau de ses contours ou bien cause de son mouvement. Des boites englobantes reprsentent le
contour externe des objets remis jour dynamiquement dans les images successives. Cette approche est
sensible l'initialisation et limite en terme de prcision de suivi.
Dans les approches de suivi par l'apparence bas contour, les contours actifs appels snakes estiment la
frontire de l'objet chaque instant mais ils sont trs sensibles l'initialisation du contour. Une autre approche
pour le suivi de contours consiste l'approcher par un ensemble de points et le suivi est rendu possible par
l'utilisation de Modles de Markov Cachs ou HMM. [Chen Y., Rui Y., Huang T.S.] reprsentent le contour
par une ellipse, chacun des points reprsente un tat du HMM. L'objet d'intrt est suivi au cours du temps
grce son contour, soit par mise en correspondance du contour de l'objet soit en suivant le contour. La mise
en correspondance du contour, dans une approche descendante, consiste la minimisation d'une distance entre
les positions du contour entre deux instants successifs.
Les approches descendantes recherchent directement le corps humain ([Dimitrijevic M., Lepetit V., Fua P.]
[Mori G., Malik J.]) partir de la mise en correspondance entre l'image et le template . Un mlange d'arbre
reprsente le corps pour grer les occultations [Ioffe S., Forsyth D.A., 03], ou des gabarits spatio-temporels
pour dtecter la marche d'une personne [Dimitrijevic M., Lepetit V., Fua P.] (cf. figure 24).
(a) Image originale. (b) Contours d'aprs l'algorithme
de Canny.
(c) Gabarit utilis pour la dtection
de pitons.
Figure 24 : Template matching sur les contours ([Dimitrijevic M., Lepetit V., Fua P.], [Noriega P. a]).
L'approche par rgion se caractrise par l'extraction dans l'image courante de rgions dnommes blobs ,
ensemble de pixels connexes et regroups en fonction d'un critre dtermin, par exemple les pixels dont la
valeur est diffrente avec ceux de l'image prcdente, et le suivi des rgions homognes au cours de la
squence. Cette mthode est base sur la variation du mouvement dans les rgions de l'image. Elle ne rsout
pas les occultations entre objets. L'hypothse est faite qu' l'intrieur d'une rgion, l'apparence est invariante et
44 sur 146
le mouvement est homogne, par exemple le suivi de blobs par filtrage de Kalman [Crowley J.L.,
Demazeau Y.]. [Chleq N., Thonnat M.] et [Baumberg A., Hogg D.] utilisent la diffrence absolue entre
l'image courante I
t
et une image de rfrence I
O
: I
rsultat
=|I
O
-I
t
|. L'inconvnient de cette mthode est la mise jour
de l'image de rfrence I
O
. L'autre mthode trs usite est la diffrence d'images successives [Jain R., Martin
W., Aggarwal J.] : I
rsultat
=Max(|I
t
-I
t-1
|, |I
t-1
-I
t
|), lorsqu'on ne dispose pas d'image de rfrence, mais elle ne prend
pas en compte les mouvements des rgions uniformment colores. Seules les rgions textures sont dtectes
[Ricquebourg Y. 93].
Dans les approches de suivi par l'apparence bas rgions, les mthodes base de densit de probabilit
modlisent la rpartition colorimtrique ou texturale sous forme par exemple de mlange de gaussienne.
[Fieguth P., Terzopoulos D.] calculent la couleur moyenne de la boite englobante de l'objet suivi. [Perez P.,
Hue C., Vermaak J., Gangnet M.] font du suivi bas apparence par le calcul des similarits entre des
histogrammes dans l'espace HSV, obtenue avec le coefficient de Bhattacharya. Le suivi a lieu avec l'algorithme
de condensation [Isard M., Blake A., 98], estimant la densit du vecteur d'tat de l'objet suivi. Dans le
contexte de la vido surveillance, un modle d'apparence propos par [Haritaoglu I., Harwood D., Davis L.S.
00] W
4
est appris en mme temps que des personnes sont suivies. Le fond est soustrait, mettant en vidence les
rgions en mouvement qui sont mises en correspondance au cours du temps. Le modle d'apparence est
constitu d'un prototype de forme reprsentant la probabilit qu'un pixel appartienne la personne, et un
prototype de texture contenant les informations d'intensit lumineuse et de texture. Au fur et mesure du
droulement de la squence, le modle d'apparence est form dynamiquement intgrant l'aspect temporel du
suivi. Il existe des modles d'apparence qui varient avec le point de vue [Black M.J., Jepson A.D.].
Le systme W
4
[Haritaoglu I., Harwood D., Davis L.S. 00], avec une seule camra en niveau de gris ou en
infra rouge, pour la dtection, le suivi et la surveillance (2000) temps rel analyse ce que les personnes font
(what), o (where), quand (when) et qui (who) le fait. Le systme suit la tte, le torse, les bras et les jambes
d'une personne debout en temps rel. L'objectif est de suivre des blobs de l'avant-plan par une approche base
primitives, avec des images basse rsolution, ncessitant un dtecteur de mouvement prcis et trs robuste. La
dtection des personnes en mouvement a lieu par soustraction de l'image courante avec un modle du fond
gaussien bimodal. Les histogrammes des blobs d'avant-plan sont projets le long des axes principaux. Une
mesure de similarit les compare avec des histogrammes appris, dterminant s'il s'agit de simple personne ou
d'un groupe. Les membres du corps sont suivis par un modle de mouvement pour la position et par une mise
en correspondance des silhouettes des blobs avec des prototypes ou template de texture temporelle,
et des techniques de corrlation prdisent les occultations des membres du corps dans l'image suivante. W
4
suit
correctement et tiquette les membres du corps. L'avantage de W
4
est sa gnricit, il peut dtecter et suivre
diffrentes postures, et cela en temps rel. En revanche, comme le suivi est bas sur des blobs, ils doivent tre
bien dtects. Du coup le suivi se perd en cas d'ombres, de bruit et de changement d'illumination. Dans le
dernier cas le modle du fond est recalcul.
[Landabaso J.L., Xu L.Q., Pardas. M.] font du suivi de personnes, groupe de personnes ou de voitures pour la
vido surveillance avec une seule camra. Les pixels de non fond sont dtects par soustraction avec un
modle du fond adaptatif, compos d'un mlange de gaussiennes, et appris de faon statistique via l'intensit,
la couleur, les contours, et les textures. Une analyse de la connectivit des pixels permet de les regrouper en
blobs . Les blobs sont suivis via des template temporelles comprenant des primitives caractristiques :
vitesse, taille, ratio, l'orientation des axes principaux de l'ellipse, la couleur dominante. Le template de
chaque objet suivi donne lieu un ensemble de filtres de Kalman qui vont prdire les valeurs des paramtres
caractristiques l'image suivante. Les objets en mouvements qui se rejoignent et se sparent ne sont pas
traits.
[Lee M.W., Cohen I.] associent un dtecteur de visage pour la recherche du visage, des contours actifs pour
dtecter les paules, les blobs de teinte chair pour reprer la teinte chair, et l'axe mdian des jambes afin de
dtecter la tte, paules, jambes, main (cf. figure 25).
45 sur 146
(a) dtection du
visage
(b) dtection des
paules d'aprs un
contour actif
(c) blobs de teinte
chair
(d) axe mdian des
jambes
Figure 25 : Association de dtecteurs ([Lee M.W., Cohen I.], [Noriega P. a]).
1.3.2 Les approches bases modle du corps en 2D ou 3D
Pour dtecter et identifier les diffrents membres du corps, il faut avoir un modle gomtrique en 2D
(sans ou avec modle explicite de la forme) ou en 3D. Le suivi avec modle explicite compare les donnes
issues de l'image avec un modle de l'objet ou de la personne suivre. Cette mthode requiert le dveloppement
d'un modle 2D ou 3D de la personne, selon l'application.
-Si le modle du corps est simple, il sera facile implmenter, rapide, mais sujet aux occultations, et peu
prcis par rapport aux variations de posture, d'angle, et d'apparence (fonction du point de vue et des
occultations). Pour les applications o la capture de la pose n'est pas ncessairement exacte comme le suivi de
personnes pour la tlsurveillance, l'approche 2D est approprie. Il en est de mme des applications avec une
seule personne impliquant des contraintes sur le mouvement et un point de vue simple (estimation de la posture
de la main en reconnaissance de la langue des signes face la camra, reconnaissance de la marche
latralement la camra);
-Les approches 3D correspondent aux applications de suivi de mouvements complexes et non contraints
(interactions entre personnes comme se serrer la main, danser ou se battre). La pose du corps humain
reprsente par des angles 3D est indpendante du point de vue car moins sensibles aux variations dans la
taille des personnes. Les approches 3D sont plus exactes et rsolvent les occultations et collisions, en revanche
elles ne sont pas adaptes au temps rel.
Les mthodes bases modle sont robustes aux occultations car elles possdent une connaissance a priori d'un
modle de la forme, contrairement aux autres mthodes sans modle, mais elles demandent un cot de calcul
important. L'information structurelle du modle de la forme sert mettre en correspondance les donnes image
avec le modle, soit par une approche ascendante associant des hypothses images, soit par une approche
descendante o on cherche le modle ayant le maximum de corrlation avec les donnes image. Mais elles
demandent un cot de calcul important.
1.3.2.1 Mthodes de mise en correspondance image/modle
Dans une approche descendante, un modle et des informations a priori au plus haut niveau de la hirarchie
doivent expliquer les observations au bas niveau par mise en correspondance entre un modle du corps et
l'image, et dans le cas de mouvements cycliques tel que la marche, des poses cls servent la reconnaissance.
Le modle gomtrique est donc utilis de faon directe.
En revanche, dans une approche ascendante, les membres du corps sont recherchs partir des
caractristiques bas niveaux extraits dans chaque image, sans modle a priori. Par la suite, le modle voit ses
paramtres modifier pour tenter de correspondre au mieux aux caractristiques image. Il permet alors
d'identifier les membres candidats. [Ren X., Berg A.C., Malik J.] (cf. figures 26 et 27), dans une stratgie
46 sur 146
ascendante similaire celle de [Mori G., Ren X., Efros A.A., Malik J.] (cf. figure 28), dtectent des contours,
qui sont dcomposs en segments et une triangulation de Delaunay s'appuyant sur ces segments est mise en
place.
(a) Image originale (b) Contours (c) Triangulation de
Delaunay
(d) Affichage des
membres candidats
Figure 26 : Dtection de membres candidats ([Ren X., Berg A.C., Malik J.], [Noriega P. a]).
(a) Image originale (b) Slection des membres
candidats d'aprs les critres
gomtriques sur les segments
extraits de l'image, slection
finale des membres
(c) Rsultat de la pose en 2D
d'aprs des critres
anthropomorphiques
Figure 27 : Reconnaissance des membres par une approche montante ([Ren X., Berg A.C., Malik J.],
[Noriega P. a]).
(a) Image originale (b) Contours (c) Segmentation par coupe
normalise
Figure 28 : Segmentation des membres ([Mori G., Ren X., Efros A.A., Malik J.], [Noriega P. a]).
Des ensembles d'artes parallles produisent des membres hypothses. Seuls sont conservs ceux qui vrifient
les contraintes du modle, permettant d'tiqueter les membres. [Haritaoglu I., Harwood D., Davis L.S. 99]
dtectent la silhouette par suppression du fond et recherchent le dplacement qui maximise la corrlation de
deux silhouettes entre deux instants diffrents dans une stratgie ascendante.
47 sur 146
1.3.2.2 Les mthodes avec modle d'apparence en 2D
L'apparence est un autre indice pour mettre en correspondance les objets au cours du temps dans une
squence d'images. L'apparence peut tre une caractristique de couleur, de forme ou de texture. Ces
approches de suivi par la texture se dnomment Suivi Visuel ou Visual Tracking en anglais. Parmi ces
approches de suivi bases apparence, nous pouvons considrer les approches rgion et les approches
contours. Dans les approches rgion, l'apparence d'un objet peut tre dfinie soit par un prototype soit par un
modle probabiliste. Dans le cas du prototype, il s'agit d'une mthode descendante, le maximum de corrlation
entre le prototype de l'objet l'instant t et l'objet dans l'image t+1 est recherch.
En ce qui concerne le suivi visuel d'objets, [Isard M., Mac Cormick J.P.] proposent un suivi baysien multi
blob et un filtre particule pour l'infrence. [Hue C., Le Cadre J.P., Perez P.] dcrivent une extension du
filtre particule classique o le vecteur stochastique est estim par un chantillonneur de Gibbs. Ces
algorithmes de suivi sont bass sur le (Maximum Posteriori) MAP marginal. Un algorithme de suivi doit
fournir la meilleure squence des tats observs. Mais quand les tats dynamiques et les vraisemblances sont
des distributions gaussiennes, l'tat observ joint est aussi une distribution gaussienne. Dans ce cas la solution
MAP de la distribution jointe et la distribution marginale sont identiques, et il n'est pas utile de travailler avec
le suivi de trajectoire. Mais pour des distributions gnrales, le suivi marginal MAP n'est pas une bonne
approximation du suivi de trajectoire et le problme est plus accru pour le suivi multi objets.
Parmi les mthodes avec modle d'apparence en 2D, le systme de l'universit de LEEDS People Tracker
de Adam Baumberg (cf. figure 29), sous la supervision de David Hogg [Baumberg A.M.], est bas sur un
modle 2D des contours externes de la personne (modle d'apparence 2D du corps humain). L'algorithme de
suivi, avec une seule camra, est un modle de la forme active qui se cale sur les contours d'un piton, gnr
via une tape d'entranement et les contours extraits du modle sont analyss par analyse en composantes
principales. Il fonctionne bien tant que la personne est visible et peu en occultation. Cette mthode 2D est
assez rapide pour une utilisation en temps rel.
Figure 29 : Le modle d'apparence d'objet non-rigide de [Hogg D.]
La dtection de personnes se fait en plusieurs tapes, du bas niveau au haut niveau. Initialement, le
mouvement est initialement dtect par soustraction des pixels avec le fond de l'image et seuillage. Les pixels
du fond sont remis jour dans l'image courante si leur valeur varie sur plusieurs images conscutives. Les
zones de l'image correspondant des personnes couramment suivies sont masques du dtecteur de
mouvement, mais pas de la remise jour du fond. L'objectif est de dtecter des mouvements seulement pour
les nouveaux objets tandis que les anciens objets continuent d'tre suivis. Dans une seconde tape, la forme est
initialise par une fonction B-Spline. Enfin, le modle est automatiquement gnr dans une phase
d'entranement via un ensemble de vidos contenant des pitons. Une analyse en composante principale sur la
silhouette des donnes d'entranement met en exergue divers modles. Un dtecteur de contours extrait les
contours et la distance de Mahalanobis value la proximit avec le modle. A chaque nouvelle personne
dtecte dans l'image, les paramtres du modle PCA ainsi que la position de la personne dans l'image sont
48 sur 146
stocks et rutiliss pour la partie suivie. Le suivi des personnes dans les diffrentes images a lieu via un
modle de mouvement du second ordre, le filtre de Kalman modlisant la vitesse et l'acclration de la
personne suivie et prdisant la position dans l'image courante. La position initiale estime ainsi que les
paramtres de la forme courante constituent un point de dpart pour la dtermination de la position et du
contour dans l'image courante.
L'avantage de People Tracker est sa robustesse et sa rapidit, mais les personnes qui marchent, celles qui
sont assises, les groupes, et les personnes seules ayant un faible contraste avec le fond, ne sont pas dtectes.
Le suiveur s'initialise mal lorsque les personnes entrent par deux ou plus dans la scne, et s'il perd des
personnes suivies, une fois qu'elles seront suivies de nouveau, il n'y aura pas reconnaissance possible de la
personne.
1.3.2.3 Approche en 2D avec modle explicite de la forme
Les approches 2D avec modle explicite de la forme ont une connaissance a priori du corps humain en 2D.
Le modle peut tre une figure en btons ( fils de fer [Karaulova I.A., Hall P.M., Marshall A.D.]),
entoures de rubans ou blobs . La silhouette du corps est dtecte par soustraction du fond, en supposant le
fond stationnaire et la camra fixe. Les rgions homognes sont identifies par la couleur ou la texture. Le
modle 2D contient les contraintes d'articulations entre les rgions correspondants aux membres du corps
humain. Le mouvement est dtect et le fond est spar des objets en mouvement chaque nouvelle image. La
teinte chair permet de dtecter le visage et les mains. Le filtre de Kalman [Rigoll G., Eickeler S.] permet
d'estimer les paramtres du modle tout au long de la squence. Les modles de Markov [Rigoll G., Eickeler
S.] et le filtrage particulaire [Chen Y., Rui Y., 2004] sont des techniques de modlisation statistique des
paramtres du modle.
Dans les approches descendantes (haut/bas), le modle de la pose du corps va permettre d'estimer la
vraisemblance des hypothses. Les modles de contours 2D comme celui propos par [Ju S., Black M.,
Yacoob Y.] modlisent le corps humain par un modle cardboard (cf. figure 30).
Figure 30 : Modle cardboard : les membres de la personne sont
reprsents par des patchs plans [Ju S., Black M., Yacoob Y.].
Les membres du corps sont modliss par des patchs planaires (rectangulaires cardboard pour [Ju S.,
Black M., Yacoob Y.]) ou blobs, relis entre eux. Les patchs cardboard sont composs d'un rectangle pour
chacun des membres. Leurs projections dans l'image permettent d'valuer la vraisemblance des hypothses en
deux dimensions. Un modle simplifi est celui du cardboard propos par [Cham T.J., Rehg J.M.],
compos de rectangles connects entre eux. Chaque patch est suivi au cours du temps avec un modle de
mouvement, Le modle est utilis de faon explicite et l'information a priori est propage de manire
descendante dans les couches hirarchiques. [Felzenszwalb P.F., Huttenlocher D.P. 00] ainsi que [Forsyth
D.A., Fleck M.M.] ont propos un modle articul 2D dans une approche descendante conduisant identifier
un certain nombre de membres candidats pour chacun d'eux, mais la mesure de similarit pour dtecter les
49 sur 146
membres est base apparence avec comme hypothse forte que les membres portent un vtement de teinte
chair. [Ronfard R., Schmid C., Triggs B.] proposent de remplacer cette hypothse par un apprentissage base
d'une Machine Vecteur de Support (SVM).
Dans [Leignel C., Viallet J.E.] (cf. figure 31), les membres sont dtects sous la forme de segments,
conduisant ainsi au squelette 2D, mais l'approche est ascendante.
(a) Image originale et les
membres suprieurs complets.
(b) Image des gradients robustes - Dtection des mains par la teinte
chair (carrs), gradients robustes en tirets fins dterminant la direction
globale (segments) des bras et avant-bras, partir des paules (croix) et
des mains, et qui se croisent au niveau du coude (cercle).
Figure 31 : Dtection des membres suprieurs complets candidats [Leignel C., Viallet J.E.].
1.3.2.4 Approche en 2D sans modle explicite de la forme
Les approches 2D sans modle explicite de la forme dcrivent le mouvement humain par des caractristiques
2D bas niveau issues des rgions d'intrt. Les modles du corps issus de ces primitives bas niveau sont
statistiques. Les caractristiques extraites de l'image sont dans ce cas mises en relation avec la pose de la
personne suivie. La structure from motion permet de retrouver les coordonnes 3D d'une personne suivie
au cours du temps grce aux points 2D en mouvement dans une srie d'images prises sous des angles
diffrents. Le codage des contours d'une silhouette extraite de l'image d'aprs un descripteur de forme de type
shape context (cf. figure 32) [Agarwal A., Triggs B.] permet de comparer l'image avec une base apprise.
Figure 32 : shape context - localisation des articulations. Les points
chantillonns le long de la silhouette exemple ( gauche) et de test (au centre)
sont mis en correspondance ([Mori G., Malik J.], [Noriega P. a]).
50 sur 146
Une approche implicite modlisant la pose humaine consiste comparer une base de poses apprises avec
chaque nouvelle image. Beaucoup d'applications ont vu le jour comme l'estimation de la pose de la main dans
la reconnaissance de la langue des signes ou le dialogue bas sur le geste. Une soustraction du fond suivie de
la dtection de la couleur de la peau permet d'extraire la forme de la main et son mouvement.
1.3.2.5 Les mthodes avec modle articul en 3D
Les modles 3D reprsentent la structure articule en trois dimensions, levant les ambiguts des modles 2D
dpendant de la pose. Les membres sont modliss par des cylindres [Hogg D.] ou des cnes [Sminchisescu
C., Triggs B. 01], tandis que [D.M. Gavrila and L.S. Davis ] font le choix de super quadriques (cf. figure 33).
Figure 33 : Modlisation des membres par des primitives ellipsodales [Noriega P. a].
Parfois des gaussiennes 3D ou mtasphres modlisent chaque muscle du corps ([Plnkers R., Fua P. 01]
[Plnkers R., Fua P. 03]) (cf. figure 34).
Figure 34 : Modlisation des tissus musculaires avec des primitives
gaussiennes ([Plnkers R., Fua P. 01], [Noriega P. a]).
Parmi les mthodes utilisant un modle articul en 3D du corps humain pour le suivi de personnes, le modle
de [Gavrila D.M., Davis L.S.] de l'universit de Maryland sous la direction de L.S. Davis [Gavrila D.M.,
51 sur 146
Davis L.S.] proposent 22 degrs de liberts comprenant des cylindres et des ellipsodes, et dcrit par les angles
d'articulations. Les mesures sont prises avec deux camras calibres; dans chaque vue orthogonale, la
segmentation d'une forme en 2D est issue du rsultat du dtecteur de contours.
Ce modle donne de bons rsultats mais il n'est pas adapt pour des applications de surveillance du fait qu'il
faut deux camras stro orthogonales et les occultations ne sont pas prises en compte. De plus, le dtecteur
de contours a ncessit que les personnes portent des vtements colors afin de diffrencier les diffrentes
parties du corps. Enfin, le temps rel n'est pas envisageable.
Le modle de Sidenbladh 3D people tracker [Sidenbladh H., Black M.J., Fleet D.J.], sous la direction de
Michael Black l'universit de Brown, est galement un modle complexe 3D articul, avec une seule camra.
Le modle du corps est reprsent par un ensemble de cylindres articuls contenant 25 degrs de liberts. Ce
modle de suivi est compos de deux parties : un modle probabiliste est estim en utilisant les donnes
d'activits typiques obtenues par un ensemble de donnes de mouvement 3D. Les mouvements rptitifs, tels
que la marche, sont dcomposs en une squence de modles temporels, les cycles de mouvement . La
construction de ces modles temporels provient de la segmentation des donnes d'entranement. Puis ce modle
probabiliste est inject comme prior d'une distribution baysienne d'un filtre particule (propagation). Le
suivi est correct mais la grande complexit du modle rend l'algorithme trs coteux en temps de calcul, ce qui
le rend inapte aux problmatiques de vido surveillance.
Pour dtecter et suivre une personne dans une scne, le modle est d'autant meilleur qu'il est dtaill, surtout
dans les situations difficiles. Le modle complexe 3D, tel que celui de Sidenbladh [Sidenbladh H., Black M.J.,
Fleet D.J.], est trop lent pour une utilisation en temps rel. Certains systmes ncessitent de plus une
calibration et un systme de camras orthogonales, comme celui de [Gavrila D.M., Davis L.S.]. C'est la raison
pour laquelle, en gnral, les systmes de surveillance visuelle sont bass rgion ou bien avec un modle
d'apparence 2D.
Le modle est ensuite affin par rapport aux caractristiques extraites de l'image par un mthode soit
dterministe, soit stochastique, soit par apprentissage, soit base de rgles, soit descendante.
1.4 Les approches pour affiner le modle
1.4.1 Les approches dterministes
Les approches dterministes cherchent le modle le plus proche des caractristiques extraites de l'image grce
l'optimisation d'une fonction de cot, quelquefois sous la forme d'une probabilit [Demirdjian D., Taycher L.,
Shakhnarovich G., Grauman K., Darrell T.]. Dans cette approche, les produits d'exponentiels de twists
permettent de suivre le corps humain [Bregler C., Malik J.] avec une seule camra.
1.4.2 Les approches stochastiques
Les approches stochastiques sont ncessaires lorsqu'il existe des imperfections dans modle et des sources
d'incertitudes dans les observations lies au bruit des camras. Dans ce cas, une fonction de probabilit
modlise plus correctement le modle. Des hypothses sont gnres et vrifies partir des observations de
l'image, grce des techniques comme les HMM (Hidden Markov Model) [Lan X, Huttenlocher D.P.], les
MCMC (Monte Carlo Markov Chain) [Lee M.W., Cohen I.], le filtre particules (et sa variante
condensation [ Andrew Blake and Michael Isard.]) ou le filtre grille [Taycher L., Demirdjian D., Darrell
T., Shakhnarovich G.].
L'approche probabiliste dans tout problme de vision par ordinateur consiste trouver le maximum
posteriori (MAP) de la densit de probabilit des N paramtres du modles x=(v
1
, v
2
, v
3
) d'aprs les
observations y sur l'image : x=(v
1
, v
2
, v
3
)=arg
max
P(x/y), et d'aprs l'criture baysienne : P(x/y)P(y/x).P(x).
La probabilit P(y/x) est appele la vraisemblance et note L(x, y), plus facile calculer si on considre un
modle x et les observations image qu'il gnre y, P(x) est la probabilit a priori sur le modle qui peut tre
calcule par apprentissage par exemple ([Gao J., Shi J.], [Lan X, Huttenlocher D.P.]). Le MAP a pour objectif
de propager les hypothses pertinentes au cours du temps et le suivi multi hypothses permet de retrouver la
52 sur 146
bonne solution mme aprs une erreur de suivi.
[Lee M.W., Cohen I.] estiment la densit posteriori par un chantillonnage de type Metropolis Hasting .
La densit de proposition est remplace par une fonction conditionne par les observations. C'est une
technique d'chantillonnage par MCMC conduite par les donnes de l'image (data driven Monte Carlo chain)
et permettant de faire converger l'algorithme vers un optimum global plus efficacement. Il est alors ncessaire
d'extraire des cartes de probabilits pour chacun des membres, les proposal maps sont des hypothses
pondres par leur confiance, provenant des indices extraits de l'image, et modlises sous la forme de
gaussiennes 2D sur l'image.
La densit posteriori n'tant pas possible exprimer analytiquement, il faut en trouver une approximation,
conduite par un chantillonnage d'importance squentiel suivant une distribution de proposition dans le cadre
du filtre particules [Isard M., Blake A., 98]. Un r chantillonnage est ncessaire pour empcher la
dgnrescence des chantillons vers une solution unique. Le nombre de particules, les chantillons, doit tre
assez important pour reprsenter toutes les hypothses possibles mais l'espace de recherche dans le cas du
suivi tant de grande dimension, le nombre de particules ncessaire est souvent trop grand. Afin d'viter de
rechercher un optimum dans un espace trop petit, le street light effect [Demirdjian D., Taycher L.,
Shakhnarovich G., Grauman K., Darrell T.], il faut amliorer le r chantillonnage. La fonction de
vraisemblance possdant des maxima allongs sous la forme de valles conduit r chantillonner avec une
covariance qui suit ces valles par la technique de covariance scaled sampling [Sminchisescu C., Triggs B.
01]. Une seconde amlioration a t donne par [Sminchisescu C., Triggs B. 03a], des chantillons sont
gnrs vers les poses 2D qui prsentent une ambigut avec la projection du modle dans l'image. En
exploitant la proprit multi hypothses du filtre particules, le procd de saut cinmatique [Sminchisescu
C., Triggs B. 03a] permet de raccrocher le suivi aprs que la pose 2D ne soit plus ambigu grce aux
contraintes temporelles (cf. figure 35).
Figure 35 : Ambiguts 3D-2D : un membre avec deux articulations vu en 2D peut gnrer quatre
positions 3D qui ont la mme projection dans l'image. Cet exemple est celui du bras complet muni
des articulations du coude et du poignet ([Sminchisescu C., Triggs B. 03a], [Noriega P. a]).

Le formalisme de Bayes associ un rseau baysien [Gao J., Shi J.] permet de calculer la probabilit
posteriori de la posture. Un rseau baysien reprsente les dpendances des probabilits par des liens entre les
noeuds correspondant aux tats paramtrs des membres du corps humain. La probabilit jointe est dans ce
cas le produit des probabilits indpendantes entre les membres non adjacents. Ces probabilits sont issues
d'un apprentissage pralable et la vraisemblance d'un membre est fonction du nombre de pixels appartenant au
membre dtect en mouvement. La propagation de croyances discrtes peut se faire avec un algorithme de
filtre particules en interactions [Bernier O., Cheung-Mon-Chang P.]. Les potentiels d'interaction entre les
membres adjacents sont calculs pour chaque paire de particules appartenant ces membres. La propagation
de croyances peut se faire dans un espace continu, les potentiels et les messages sont approxims par des
mlanges de gaussiennes [Sigal L., Bhatia S., Roth S., Black M.J., Isard M.], mais la mise jour des
gaussiennes crant une explosion combinatoire du nombre de gaussiennes du fait des mlanges, un
chantillonneur de Gibbs similaire l'algorithme PAMPAS [Isard M.] permet de garder le mme nombre de
53 sur 146
gaussiennes tout au long du processus.
1.4.3 Approches base de rgles
Ces approches utilisent plusieurs caractristiques bas niveau qui, relies par des rgles de haut niveau,
permettent de suivre le corps d'une personne par ses membres. Par exemple [Leignel C., Viallet J.E.], un
systme d'intelligence artificielle compos de trois niveaux d'intelligence hirarchique, chacun li un tableau
noir hirarchis. Au plus bas niveau de la hirarchie, les spcialistes effectuent les traitements bas niveau, pour
la dtection des membres. Les lments bas niveau issus de ces traitements sont regroups dans le tableau noir
bas niveau : paule, bras, avant-bras, main, buste, tte. Au niveau intermdiaire, les tches regroupent les
lments bas niveaux pour la constitution de membres suprieurs complets : une main + un avant-bras + un
bras + une paule, et les membres suprieurs complets sont stocks dans le tableau noir intermdiaire. Au plus
haut niveau de la hirarchie, la stratgie regroupe les membres suprieurs complets avec le buste et la tte,
formant ainsi le haut du corps complet et le rsultat est stock dans le tableau noir haut niveau li la
stratgie. Les tableaux noirs de niveaux suprieurs activent les tches et les spcialistes de niveau infrieur en
fonction des hypothses qu'ils contiennent.
1.5 Suivi lors des occultations
La ncessit de dtecter et suivre des personnes en mouvement, y compris en cas d'occultations, est requise
dans beaucoup d'applications de surveillance (W
4
, Pfinder). Pfinder s'occupe de suivi de personnes dans des
scnes complexes mais est restreint une seule personne sans occultations. [Niu W., Jiao L., Han D., Wang
Y.-F.] font du suivi multi-personnes en prsence d'occultations avec un filtre de Kalman dans un
environnement extrieur. Le systme propos par [Rerkrai K., Fillbrandt H.] suit des personnes sous des
occultations partielles mais limit une seule personne-via un filtre de Kalman. L'avant plan est segment par
une mthode de soustraction du fond. Une silhouette moyenne est trouve par rgression linaire, et de la
connaissance a priori est applique la rgression linaire pour dfinir la prsence d'occultations. Le modle
de camra est utilis pour calculer la position et hauteur de la personne suivie. Une carte de profondeur des
objets dans le fond permet de dtecter les occultations de la scne. Une personne est en occultation si sa
profondeur est suprieure que celle d'un objet. Tout ce qui est en occultation et appartenant la personne est
mis au mme plan que la personne dans l'image de profondeur. Ainsi la forme de la personne (silhouette) est
localise pendant les occultations. Les ombres sont galement limines, du faut qu'une ombre cre une petite
rduction d'intensit sans changer la couleur de l'image.
Dans le cas des occultations, les mthodes dterministes, en mettant jour les paramtres d'un modle de faon
unique, risquent de manquer le suivi et de dcrocher pour toujours de l'objet suivi. C'est le cas du filtre de
Kalman ([Kalman R.E.], [Kalman R.E.], [Welch G., Bishop G.]) qui sait grer des distributions normales mais
pas des densits de probabilits avec plusieurs modes. Il s'agit d'un estimateur rcursif avec un modle de
mouvement linaire. L'hypothse est faite que le bruit de la dynamique du processus et le bruit de mesure
suivent des lois normales, ce qui est limitant dans le cadre du suivi d'objets. Dans bon nombre de situations
courantes dans les squences vido (occultations), la distribution du bruit ne suit pas une loi normale. ([Isard
M., Blake A., 96], [Isard M., Blake A., 98]) ont par la suite propos d'approcher la densit de probabilit multi
modale, c'est l'algorithme de condensation ( Conditional Density Propagation ), connue aussi sous le
nom de filtrage particulaire , utile lorsque les densits de probabilits sont non-Gaussiennes et multi-
modales. Ce filtre approche les distributions de manire non paramtrique et peut suivre plusieurs hypothses
simultanment.
Trois grandes tapes dfinissent cet algorithme de filtrage particulaire (cf. Annexe 2) : propagation,
pondration, r chantillonnage. [Thome N.] a adapt cet algorithme de la faon suivante. Un vecteur d'tat
X correspond au centre de la bote englobante de la silhouette de la personne et la densit de probabilit des
paramtres est estime partir de la position initiale avant occultation.
-L'tape de propagation comporte deux termes, un correspond la vitesse estime de l'objet, l'autre au bruit
de propagation alatoire des particules;
54 sur 146
-L'tape de mesure image consiste attribuer un poids chaque particule, value par une mesure de
corrlation entre l'apparence de la particule et le modle de l'objet, par calcul d'une distance euclidienne. Le
rsultat est le poids et l'tat moyen du filtre est calcul comme la moyenne des positions des diffrentes
particules pondres par leur poids;
-L'tape de r chantillonnage des particules est effectu en associant une probabilit de tirer une particule
par rapport son poids.
L'tat moyen du filtre est la somme pondre des particules par leur poids, c'est l'estimation de la position de la
personne. Le filtre particules est capable d'estimer des distributions multi modales et est robuste aux
occultations. La remise jour du modle d'apparence permet d'tre invariant la taille des personnes dans
l'image et de supporter les cas d'occultations. Le modle W
4
[Haritaoglu I., Harwood D., Davis L.S. 00] ne
remet pas jour le modle d'apparence.
Dans les cas d'occultations, le suivi de l'objet se fera correctement ds lors que l'occultation a disparu et que
l'objet est de nouveau visible, grce la propagation de l'information de faon diffuse pendant qu'il y a
occultation et que la mise en correspondance est difficile.
Bien que l'algorithme de condensation sache grer les problmes d'occultations, la diffusion des particules avec
un bruit dynamique isotrope est en chec dans le cas d'un problme de grande dimension. C'est la raison pour
laquelle [Sminchisescu C., Triggs B. 03b] proposent d'adapter l'algorithme de condensation en grande
dimension pour trouver la solution optimale par un chantillonnage optimal efficace Covariance Scaled
Sampling (cf. figure 36). Le principe est de propager les particules de faon coller au mieux la fonction
de cot. Le r chantillonnage des particules intervient en utilisant un modle de densit de probabilit queue
longue (permettant une meilleure diffusion), dont la covariance rsulte du calcul prcdent, d'o la
dnomination Covariance Scaled Sampling .
(a) Le r chantillonnage se fait d'aprs une ellipsode
qui suit les valles fort vraisemblance. Avec
l'algorithme Condensation classique , ce r
chantillonnage a lieu selon un mouvement brownien.
(b) Avec l'algorithme Covariance scaled sampling ,
de nouveaux maxima sont dcouverts plus
probablement.
Figure 36 : Covariance scaled sampling . A gauche ([Sminchisescu C., Triggs B. 03b], [Noriega P. a]).
55 sur 146
La figure 37 prsente quelques rsultats de suivi monoculaire en 3D.
Figure 37 : Suivi monoculaire en 3D. Les amliorations sur le r chantillonnage du filtre particules
offrent un environnement peu contraint mais pas encore assez robuste ([Sminchisescu C., Triggs B. 03a],
[Sminchisescu C., Triggs B. 03b], [Noriega P. a]).
1.6 La reconnaissance
La reconnaissance des objets concerne les modles d'apparence d'objets et les modles d'objets rels.
1.6.1 Les modles d'apparence d'objets
Les modles d'apparence d'objets sont utiliss lorsqu'il est difficile de classifier l'objet cause du bruit dans
l'image ou de la complexit des objets. [Baumberg A., Hogg D.] dfinissent un modle d'apparence d'objet non
rigide complexe pour l'analyse du mouvement humain. Un modle 2D de la forme est extrait grce aux points
de contours de la projection de la personne dans le plan image, en se basant sur un modle de distribution
appels PDM Point Distribution Model issu des travaux de ([Cootes T.F., Taylor C.J.], [Cootes T.S,
Taylor C.J., Cooper D.H., Graham J.]). Dans ce modle, une diffrence dx est mesure entre un modle
quelconque et le modle moyen dx=x-x
moyen
, x est un vecteur de points, x
moyen
est le vecteur moyen. Les vecteurs
diffrence donnent les modes de variation principaux (les eigenshape ) du modle. Les rsultats sont
obtenus sur un ensemble d'apprentissage rduit des personnes marchant latralement. L'avantage de ces
mthodes bases apparence est de venir juste aprs la dtection compose d'indices pour l'apparence. En
revanche, il n'y a pas d'aspect volumique ni de caractristiques intrinsques de l'objet.
1.6.2 Les modles d'objets rels
Les modles d'objets rels utilisent des caractristiques de l'objet. Les objets rigides, tels que les vhicules,
peuvent tre dcrits sur des considrations volumiques. [Koller D., Daniilidis K., Nagel H.-H] dcrivent un
vhicule par un polydre 3D, et les contours obtenus l'tape de dtection sont mis en correspondance avec le
modle par minimisation d'une distance de Mahalanobis, pour chaque arte du polydre. Les modles non
rigides sont ceux pour lesquels il n'y a pas pas d'invariance de la forme au cours du temps, aux
56 sur 146
transformations affine prs (rotation, translation, homothtie). C'est le cas des humains. Pour une personne
donne, les caractristiques qui la dcrivent varient au cours du temps cause des variations lies aux
dplacements (oscillations des bras et des jambes). De plus, le modle est diffrent pour deux personnes
distinctes. Dans le cas des objets non rigides tels que le corps humain, [Akita K.] utilise un modle compos
d'un squelette de six segments (deux bras, deux jambes, torse et tte). [Chen Z., Lee H.] dfinit un modle de
squelette de dix-sept segments, et [Rohr K.] un modle volumtrique avec quatorze cylindres elliptiques.
1.7 L'interprtation smantique de la scne
L'interprtation smantique d'une scne se dcompose en mthodes discriminatives et gnratives
Les approches discriminatives partent des caractristiques extraites des images et proposent une classification
directe du mouvement, soit par apprentissage par classification supervise, soit par classification non
supervise. Ces mthodes modlisent le mouvement de faon implicite, celui-ci est dans le processus
d'apprentissage. Dans les mthodes gnratives, il est possible de fabriquer un ensemble d'instances de
mouvements partir de la mme classe du fait qu'il y a une description explicite du mouvement.
Parmi les mthodes discriminatives, nous diffrencions les mthodes d'apprentissage de type template
matching , proposant une stratgie d'apprentissage pour discriminer les types de mouvements et les
approches de classification non supervise, pour la dtection d'vnements rares.
2 Les diffrentes approches d'extraction des caractristiques
Les caractristiques de l'image extraire en vue de la dtection bas niveau des indices, pour le suivi du corps,
sont la couleur, les contours, la texture, le mouvement, la profondeur. Par la suite, les positions des membres
sont estimes, soit par une approche ascendante soit par une approche descendante.
2.1 Extraction de la caractristique couleur
Pour la caractristique couleur, PFINDER est un systme temps rel pour le suivi de personnes et
l'interprtation de ses comportements, l'aide d'un modle statistique multi classes 2D de la couleur (les zones
de teinte chair [Leignel C., Viallet J.E.]) et de la forme reprsentant la tte et les mains. La soustraction du
fond permet de dcouper la silhouette d'une personne dans l'image [Leignel C., Viallet J.E.]. Mais l'information
de couleur seule ne suffit pas, elle n'est pas robuste aux variations de luminosit. La chrominance normalise
permet de s'abstenir de la luminosit. Les ombres portes sont des rgions qui ne correspondent pas au fond,
mais qu'il est ncessaire de supprimer. Les pixels correspondant ces ombres ont une luminosit plus faible
que l'image de rfrence mais la mme chrominance. Dans un espace colorimtrique invariant en luminance et
donc aussi l'influence des ombres (Lab, Luv), on peut sparer les ombres des objets, ce que fait PFINDER.
L'objectif de PFINDER est de modliser des personnes en mouvement devant une camra, afin de les insrer
dans un environnement virtuel. Une personne est modlise par un ensemble de blobs dtects en temps
rel et qui suivent le corps humain, mettant jour le modle du corps. Les vecteurs de primitives associs
chacun des pixels sont composs des coordonnes spatiales et spectrales des composantes de l'image. Les
pixels sont ensuite regroups en rgions 2D connexes de proprits colorimtriques et spatiales similaires, les
blobs . La tte et les mains sont ainsi modlises par des blobs , reprsents par leur moyenne et matrice
de covariance, et par un modle gaussien pour leurs statistiques spatiales. Le fond statique est modlis par
une autre gaussienne. Les deux modles, pour le fond et pour l'avant-plan, sont remis jour rgulirement.
PFINDER a t adopt pour les interfaces non contraintes et le codage bas dbit.
2.2 Extraction de la caractristique contour
D'un autre ct, les contours, bien que plus robustes que l'information colore aux variations d'clairage, le
sont moins au bruit dans l'image. [Cristian Sminchisescu and Bill Triggs] estiment la vraisemblance de leur
modle par rapport aux observations issues de la dtection de contours par l'algorithme de Sobel et le calcul de
flot optique. [Mori G., Ren X., Efros A.A., Malik J.] segmentent l'image par un dtecteur de Canny,
diffrentes zones dans l'image correspondent aux membres de la personne. Dans [Leignel C., Viallet J.E.], un
algorithme de Shen Castan dtecte les contours dans l'image et une transforme de Hough rassemble les
57 sur 146
contours en droites, correspondant aux directions gnrales des membres candidats.
2.3 Extraction de la caractristique mouvement
Dans le cas du suivi, l'estimation du mouvement dans une image permet de prdire la position des membres
l'image suivante, en supposant la variation du mouvement ngligeable sur une courte priode de temps. Une
des techniques utilise est par calcul du flot optique entre les images afin d'estimer le mouvement dans la
scne.
2.4 Extraction de la caractristique profondeur
En plus des informations de couleur, contour et mouvement, l'information de profondeur permet de lever
l'ambigut dans le cas des occultations des membres. L'information 3D est obtenue par l'cart de position (la
disparit) entre deux pixels qui regardent le mme point de la scne dans deux images issues de deux
camras calibres. L'estimation de la vraisemblance du modle est mesure en 3D et non en 2D. Cependant,
cette mthode ncessite une calibration au pralable des camras afin de dterminer leurs paramtres
intrinsques et les paramtres extrinsques des positions mutuelles entre les camras. La calibration n'est pas
ncessaire avec une seule camra, ce qui constitue un avantage dans une application de vido surveillance.
3 Quelques exemples
3.1 Prsentation des travaux de [Thome N.]
[Thome N.] dtecte les personnes dans des squences d'images monoculaires, en temps rel et avec des
solutions non invasives (environnement non contraint). Une segmentation au sens du mouvement par
diffrence de l'image courante avec un modle du fond est effectue, suivie d'une mise en correspondance
dynamique de rgions, correspondant un problme d'associations de donnes. L'approche originale de suivi
de personnes est un modle d'apparence articul (cf. figure 38), invariant aux transformations affines,
permettant un suivi correct mme dans les cas d'occultations.
(a) Gomtrie du modle d'apparence (b) tiquetage final
Figure 38 : Gomtrie du modle d'apparence et tiquetage final [Thome N.].
L'utilisation d'un modle articul capturant les informations structurelles pour chacun des membres est
ncessaire, surtout lorsque les caractristiques globales de couleur, reprsentes par des densits de
probabilits, sont insuffisantes. La silhouette met en vidence les membres de la personne par analyse de la
forme.
58 sur 146
La forme du squelette est reprsente sous la forme d'un graphe et une technique de mise en correspondance
de graphes identifie chaque membre (cf. figure 39).
(a) Silhouette
initiale
(b) Calcul du
squelette sur la
silhouette lisse
(c) ensemble de
segments aprs
polygonisation
(d) Suppression
des petites artes
Figure 39 : Extraction des segments de la silhouette [Thome N.].
3.1.1 Modle d'apparence articul
Les composantes connexes ou blobs sont extraites l'tape de segmentation de mouvement et mis en
correspondance au cours du temps. Le suivi bas rgion relie les rgions entre les instants successifs en
associant les donnes. Un modle d'apparence articul est compos des caractristiques de forme, couleur et
texture, utiles pour traiter les situations difficiles (occultations). Le modle d'apparence est gnr et mis jour
chaque instant, et les membres tiquets. Il s'agit de mettre en correspondance un graphe image issu du
squelette (topologie des segments extraits du squelette) de la silhouette extraite de la personne suivie avec un
graphe modle. Les pixels mobiles de la scne sont extraits, par une soustraction entre l'image courante et un
modle du fond statique, conduisant une carte binaire de mouvement. L'image du fond dite image de
rfrence modlise les parties statiques de la scne analyse. Il existe diffrentes approches pour modliser
et mettre jour cette image de rfrence. [Thome N.] choisit un mlange de gaussienne. La mthode avait t
au pralable introduite par [Stauffer C., Grimson W.E.L.b]. Une mise jour dynamique du modle du fond
permet de grer les variations d'illuminations de la scne, les ajouts ou suppression des objets du fond.
L'approche propose par [Thome N.] repose sur un nombre variable de gaussiennes, dtermin
automatiquement et voluant au cours du temps. La mthode est similaire celle de [Shimada A., Arita D.,
Taniguchi R.I.]. Dans les scnes extrieures, le fond peut changer tout moment, de part le mouvement ou les
ombres par exemple dans certaines parties de l'image et dans ces cas, le fond ncessite une modlisation multi
gaussienne. Enfin, une analyse en composantes connexes regroupe les pixels qui ont un mouvement suffisant,
en objets avec des proprits smantiques.
3.1.2 Mise en correspondance de blobs
Les objets extraits sous la forme de blobs l'instant t sont mis en correspondance avec ceux dtects
l'instant t+1. Une prdiction du vecteur d'tat X, associ l'objet suivi sous forme paramtrique, est mise
jour dynamiquement en fonction des observations dans l'image chaque image de la squence. Autrement dit
la position de chaque objet est prdite en fonction de sa position l'instant prcdent t-1, et d'un modle de
mouvement, simple vitesse constante ou complexe et paramtrique, permettant de restreindre l'espace de
recherche. Une matrice de similarit dtermine les liens entre les objets entre deux instants successifs.
59 sur 146
L'objectif du suivi est de minimiser une fonction de cot entre le vecteur d'tat estim et le vecteur d'tat extrait
de l'image observe. Ce problme d'association de donnes peut tre rsolu par un algorithme de type Plus
Proche Voisin mais il risque d'chouer dans les cas d'objets multiples proches. Pour contourner cette
difficult, deux autres grandes techniques de suivi multi-hypothses existent dont le principe est d'associer des
objets non plus seulement sur deux images mais sur plusieurs images conscutives : les associations
probabilistes de donnes (Joint Probabilistic Data Association Filter) [Bar-Shalom Y., Fortmann T.E.] et le
Suivi Multi Hypothses (Multiple Hypothesis tracking) ([D.B. Reid.], [Cox I.J, Hingorani S.L.], [Cox I.J.],
[Cox I.J, Hingorani S.L.]). La cohrence temporelle permet de savoir si l'objet suivi est rellement un objet
d'intrt ou du bruit. Pour cela il devra tre suivi pendant un certain nombre d'images. Comme dans les
approches multi hypothses , la dcision sur les mises en correspondances dpend des associations des
donnes sur un intervalle de temps.
3.1.3 tiquetage des membres
Aprs l'tape de mise en correspondance des blobs , il s'agit d'tiqueter les membres afin de former un
modle d'apparence articul. L'tiquetage est possible par une mise en correspondance de graphes partir
d'un modle 3D du squelette humain, indpendante de la pose de la personne, du point de vue, de la gomtrie
ou de l'apparence des membres. Pour reprsenter l'apparence, il existe deux approches, soit par des
descriptions statistiques soit par l'utilisation de templates . Parmi les approches statistiques, citons [Wren
C.R., et al.] qui dtectent et suivent les membres d'une personne dans une vido, en environnement intrieur,
par une modlisation gaussienne multi dimensionnelle pour la position et la couleur de chaque blob . La
modlisation par template ou gabarit revient mmoriser l'imagette de l'objet d'intrt. Mais la mise
jour du modle d'apparence au cours du temps demande un stock considrable d'imagettes . Dans W
4
[Haritaoglu I., Harwood D., Davis L.S. 00], le modle d'apparence, une boite englobante, est mis jour pour
chaque personne suivie et est utilis en cas d'occultations. [Thome N.] met jour un modle d'apparence
articul pour chaque personne suivie, en tiquetant les membres partir de la silhouette segmente, des
segments candidats ayant t identifis pour les diffrents membres. Dans ce modle, les occultations partielles
n'empchent pas de mettre jour le modle car il n'y a que les modles d'apparence des membres dtects qui
sont modifis.
Pour suivre les personnes dans les cas d'occultations, un algorithme de type Condensation estime la
position de la personne suivie partir des caractristiques d'apparence, et donne une approximation robuste de
la densit mme dans les cas multi modaux.
3.2 Approche avec une camra champ large
Dans les applications de surveillance, il est parfois utile d'avoir la position de l'objet suivi en trois
dimensions. Les camras vido stro champ large fournissent l'information de position de grandes
distances, ce qui n'est pas possible avec les camras vido stro standard [Hampapur A., Brown L., Connell
J., Ekin A., Haas N., Lu M., Merkl H., Pankanti S.]. Pour tablir la correspondance entre les deux images, les
apparences des objets sont mis en correspondance, par leurs histogrammes colors, par la distance de
Bhattacharya entre toutes les paires possibles.
La premire tape est de dtecter des objets d'intrts et de les suivre dans chaque champ de vue de la camra
via un modle d'apparence. Les objets en 2D suivis sont combins via la stro champ large pour former
des objets 3D suivis. La tte est dtecte en 2D puis les centrodes de la tte dans les deux vues sont combins
pour dtecter et suivre la position de la tte en 3D par triangulation. Chaque camra se voit affecter une
orientation et un zoom en fonction de l'objet suivi, le systme slectionne de faon automatique la camra
qui va se suivre la tte. Le systme recherche donc le visage et une fois dtect, la camra se centre sur celui-
ci et le zoom est augment. L'orientation est galement contrle en fonction du dplacement relatif du centre
du visage par rapport au centre de l'image.
La classification d'objets est applique tous les objets suivis, gnrant trois types de label, les vhicules, les
groupes de personnes et les personnes seules, en fonction des primitives de forme comme la compacit, les
paramtres de l'ellipse englobante et les primitives de mouvement (vitesse et direction). A partir d'un petit
ensemble d'entranement, les objets sont classs par un classificateur des plus proches voisins et d'une
60 sur 146
information de cohrence temporelle. Le suivi de plusieurs objets recherche des trajectoires en combinant la
fois l'apparence des objets et les caractristiques du mouvement. Les modles d'apparence sont des
templates bass image et un nouveau modle d'apparence est cre lorsqu'un nouvel objet entre dans la
scne.
Une alerte temps rel est dclenche selon des critres prdfinis, comme la dtection de mouvement dans
certaines zones, la dtection d'objets abandonns, etc. Un index des vidos est stock, il contient la trajectoire
des objets dans la scne, la taille des objets, le type des objets, l'apparence des objets, et le fond dynamique.
3.3 Approche avec suivi de visage
[Ruiz-del-Solar J., Shats A., Verschae R.] est un systme de suivi robuste de personnes dans un
environnement rel et temps rel. Trois composantes sont mises en oeuvre : l'analyse de mouvement, l'analyse
de la couleur, et l'analyse de visage.
Les systmes de contrle d'accs scuriss sont devenus de plus en plus importants et sont permis par le
suivi de visages. [Ruiz-del-Solar J., Shats A., Verschae R.] proposent un systme de suivi temps rel bas sur
la dtection du visage via la couleur de la peau et des rgles heuristiques. Les rgions de teinte chair sont
obtenues via une table de teinte chair. Les autres objets de la scne avec les mmes caractristiques
colorimtriques qu'un visage dans le fond de la scne sont immobiles. Un visage tant en gnral en
mouvement dans une scne, l'information de mouvement permet d'liminer les faux candidats.
3.4 Approche par modle de Markov cach pour la dtection des
vnements rares
Une personne peut tre diffrencie d'une autre personne par la reconnaissance de sa dmarche. [Kale A. et al.]
laborent une distance de la silhouette de la personne (obtenue par dtection des rgions en mouvement)
obtenue chaque image, avec un ensemble de poses de silhouettes reprsentatives du mouvement. Cette
mesure du vecteur d'observation d'un Modle de Markov Cach, permet de modliser le mouvement de la
marche pour une personne et de le distinguer d'une autre personne.
3.4.1 Dfinition du modle de Markov Cach
Un HMM ( Hidden Markov Models ou modle de Markov cach ) est un modle statistique dans lequel
les tats sont relis un vecteur d'observation, exprim par une probabilit d'observation. La matrice de
transition modlise la probabilit de passage d'un tat un autre, c'est--dire la vraisemblance avec laquelle
les tats sont susceptibles de se suivre. [Lan X, Huttenlocher D.P.] suivent un sujet anim de la marche grce
un modle de Markov cach, comprenant les postures cls de la marche observes depuis huit angles de vue, et
dcales de 45

(cf. figure 40).


Les observations associent chaque image avec un tat du modle de Markov d'aprs la distance de Chanfrein
entre le modle cardboard et la silhouette. [Yamato J., Ohya J., Ishii K.] analysent le mouvement dtect
dans les images, grce aux caractristiques des blobs de mouvement, de couleur et de texture. Ces
observations images sont associes aux tats du HMM. [Nair V., Clark J.] dtectent des activits inhabituelles
grce un HMM. Le vecteur d'observation pour le HMM est constitu des paramtres extraits sur les rgions
en mouvement. Des mouvements a priori sont dfinis : entrer , sortir d'une pice et roder . La
vraisemblance de ces mouvements a priori avec les images de la squence conduit la reconnaissance des
mouvements inhabituels d'une personne dans un couloir. Si la squence ne peut pas tre explique par aucun
de ces trois modles, alors un vnement inhabituel est dtect.
61 sur 146
Figure 40 : Modle de Markov comportant les positions cls de la marche pour la
vue de ct ([Lan X, Huttenlocher D.P.], [Noriega P. a]).
3.4.2 Dfinition du rseau baysien
Les Rseaux Baysiens Dynamiques ( Dynamic Bayesian Networks , DBN ), appels aussi modles
graphiques dynamiques , sont une gnralisation des Modles de Markov Cachs [Jensen F.a]. Ils consistent
en une reprsentation graphique oriente o chaque tat est influenc par un nombre quelconque de variables
(une seule dans les HMM), et avec une extension temporelle indfinie (une seule compose du pass immdiat
dans le cas des HMM). Les Rseaux Baysiens Dynamiques sont appliqus l'analyse du comportement
humain dans la vido ([Brand M., Kettnaker V.], [Buxton H., Gong S.]).
La plupart des mthodes de suivi dtectent les rgions en mouvement, soit par une soustraction du fond soit
par une diffrence d'images, et suivent les rgions en mouvement via leur trajectoire, soit par un filtre de
Kalman, soit par un arbre multi hypothses [Cox I.J, Hingorani S.L.], soit avec une mthode d'infrence
base de degrs de confiance comme l'algorithme JPDAF [Bar-Shalom Y., Fortmann T.E.] ou le filtre
particule [Isard M., Blake A., 98]. Une approche diffrente est utilise avec les rseaux baysiens (BN)
[Abrantes A., Marques J., Lemos J.]. Le rseau baysien est dfini par le graphe (ensemble de dpendances
causales) et le modle probabiliste associ chacun des noeuds. Ils sont proposs pour modliser les
interactions entre les trajectoires des objets dans des applications de suivi. Ils permettent de lever les
ambiguts sur les conflits entre les superpositions des diverses rgions actives (les groupes d'objets) ou au
sujet des occultations. Dans les cas d'occultations, les trajectoires sont rompues avec la plupart des
mthodes, tandis qu'avec un rseau baysien, les diffrents segments appartenant au mme objet sont
relies en leur assignant un label commun. Le rseau baysien est construit automatiquement pendant la
phase de suivi et il tente de modliser les interactions causales entre les trajectoires des objets en
mouvements. [Jorge P.M., Marques J.S., Abrantes A.J] estiment l'architecture du rseau baysien l'aide de
mthodes d'apprentissage supervis par un rseau de neurones, un perceptron multi couches. Le suivi d'objets
a lieu en deux tapes. La premire tape dtecte les rgions actives et associe des rgions par paires dans des
images conscutives. Un ensemble de segments de chaque trajectoire est extrait, chacun correspondant
l'volution d'un objet ou d'un groupe d'objets dans la vido. La trajectoire entire de chaque objet est extraite
en reliant les diffrents segments trajectoires, ce qui revient une opration d'tiquetage des segments de
trajectoire, en assignant une probabilit chaque segment. Les interactions entre les segments sont
modliss dans le rseau baysien. Les noeuds sont les tiquettes et les liens les dpendances causales
62 sur 146
modlises par des probabilits conditionnelles entre les noeuds. Le perceptron multi couches va classifier
chaque lien comme pertinent ou non. Il est entran pour remplacer les rgles heuristiques pas toujours
adaptes pour traiter les cas d'occultations de plusieurs personnes. Cela permet une rduction significative de
la complexit du rseau tout en traitant les cas d'occultation non traits prcdemment.
Un rseau baysien est propos par [Jorge P.M., Marques J.S., Abrantes A.J] pour le suivi d'objets afin de
modliser les interactions entre les trajectoires dtectes et d'obtenir une identification des objets en
prsence d'occultations. Les rseaux baysiens sont composs de rgles simples et ne sont pas robustes dans
certains cas. [Jorge P.M., Marques J.S., Abrantes A.J] proposent une nouvelle mthode pour estimer
l'architecture des rseaux baysiens partir des squences vido grce des techniques d'apprentissage
superviss.
[Oliver N., Horvitz E., Garg A.] ont modlis les interactions entre les personnes avec des HMM coupls pour
la dtection et la classification des interactions. [Han M., Xu W., Gong Y.] ont travaill galement avec des
HMM pour des applications de reconnaissance des interactions des vhicules d'aroport. Ces approches
utilisent des modles probabilistes coupls reprsentant les relations entre les trajectoires individuelles
segmentes. Une alternative serait d'utiliser un modle probabiliste joint couvrant l'ensemble de la scne.
[Galata A., Johnson N., Hogg D.] dterminent les trajectoires en encodant les relations spatiales et temporelles
entre les objets en mouvement et en interaction (automobiles) via des modles appris partir des observations.
3.4.3 Cas des comportements inhabituels/anormaux
Pour [Junejo I.N., Shah O., Shah M.], l'objectif est d'apprendre les routes ou les chemins les plus
communment pris par les objets et de dtecter les comportements inhabituels, une personne marchant dans
une zone non piton etc. Un chemin est dfini par une ligne de parcours, et une trajectoire comme un chemin
avec un objet en mouvement. Les applications sont en vido surveillance, comme dans les aroports o il s'agit
de dtecter la prsence d'intrus dans des zones surveilles. [Grimson W.EL., Stauffer C., Romano R., Lee L.]
ont utilis un systme distribu de camras pour couvrir la scne entire. Les pistes sont clustrises l'aide
de primitives spatiales bases sur une quantification vectorielle. Les comportements inhabituels sont alors
dtects par mise en correspondance des trajectoires avec les clusters. [Junejo I.N., Shah O., Shah M.]
proposent une nouvelle approche de dtection de chemin avec des primitives multiples. Le systme est entran
sur des squences prises depuis une seule camra, mais le systme peut tre tendu plusieurs camras. La
trajectoire de l'objet est dfini par une succession de points, de longueur variable. Les trajectoires similaires
obtenues lors de l'entranement sont clustrises. Un noeud du graphe reprsente une trajectoire. Chacun
des noeud est connect aux autres noeuds, rendant le graphe complet. Le poids d'un lien entre deux noeuds
est la distance de Hausdorff mesure entre deux trajectoires. L'avantage de cette mesure est qu'elle compare
deux ensembles de cardinalit diffrente, donc deux trajectoires de longueurs diffrentes.
Le NEC Laboratories America a t dvelopp pour le systme de vido surveillance SmartCatch, pour
plusieurs aroports aux tats unis [Gong Y.]. Ce systme est capable de dtecter des comportements
anormaux portant atteinte la scurit des aroports, les apparitions et disparitions d'objets, ainsi que
les interactions avec les autres objets de la scne.
Les mthodes traditionnelles de suivi d'objet traitent la dtection comme un processus part initialisant le
suivi. Une fois l'objet dtect, son suivi est assur uniquement par le module de suivi. L'inconvnient de cette
approche est que des erreurs de suivi peuvent arriver lors de changements d'apparences et d'illuminations de la
scne. De plus des erreurs apparaissent aussi cause des occultations entre objets. Divers mthodes ont tent
de suivre des objets de faon plus robuste, comme le filtre particule. Mais ces mthodes ne conservent
qu'une seule hypothse par objet suivi, celle ayant la probabilit posteriori la plus grande, base sur
l'observation courante et prcdente. Des mthodes multi-hypothses sont plus robustes aux occultations,
aux fonds texturs et la confusion entre plusieurs objets, car le rsultat du suivi correspond l'tat de la
squence qui maximise la probabilit jointe de l'observation. Il existe dans cette gamme d'algorithme, le MHT
Multiple Hypothesis Tracking , le JPDAF Joint Probabilistic Data Association Filter , mais l'objet
suivi doit tre simple.
63 sur 146
Le suivi multi objets doit rsoudre deux problmes, le problme d'estimation comme un problme de suivi
traditionnel, et le problme d'association de donnes spcialement dans le cas d'interactions multi objets.
Bon nombre d'algorithmes de suivi rsolvent le problme d'estimation par un maximum posteriori
MAP [Bar-Shalom Y., Li X.], l'hypothse courante tant celle ayant la probabilit posteriori maximale base
sur les observations courantes et prcdentes. La formulation MAP peut tre simplifie si on suppose un
problme markovien HMM [Rabiner L.R.]. Cette approche choue cause des fonds texturs, des
occultations et des ambiguts multi objets. Un autre type d'algorithme de suivi estime la distribution de
squence d'observations d'tats jointe. Le rsultat du suivi correspond une squence d'tats qui maximise la
probabilit jointe entre les tats de la squence et les observations de la squence. Les tats de la squence
indiquent les trajectoires des divers objets suivis, c'est du suivi de trajectoire.
Un travail bien connu dans le suivi de trajectoire est le suivi multi hypothse (MHT) dvelopp par Reid
[D.B. Reid.], dcompos en une estimation des tats et des composantes d'association de donnes. Le filtre
JPDAF d'association de donnes de probabilits jointes [Fortmann T.E., Bar-Shalom Y., Scheffe M.] dtecte
les tats estims en valuant les probabilits d'association des suivis mesurs.
3.4.4 Cas de la dtection de chute
Les vnements rares sont des vnements anormaux, difficiles dcrire par les mthodes bases modle,
mais faciles reconnatre. [Zhong et al.] proposent de reconnatre les vnements anormaux dans une cantine
d'hpital en comparant chaque vnement l'ensemble de ceux prsents dans la squence vido afin de
constituer une base d'vnements similaires. Tous les vnements sont compars cette base afin de dterminer
s'il s'agit d'un vnement inhabituel. La dtection d'un vnement rare est donc trs dpendante du contexte.
[Nait-Charif H., McKenna S.] extraient la trajectoire des personnes suivies de faon automatique grce une
camra omni-directionnelle. Un filtre particules suit les paramtres d'une ellipse modlisant la personne. Le
mouvement est expliqu dans un langage naturel comprhensible par les humains. L'vnement rare (la chute
de la personne ge) correspond un vnement fort diffrent des vnements appris.
La contribution de [Thome N.] pour la dtection de chute consiste interprter la squences de postures
avec un Modle de Markov Cach Hirarchique ( Hierarchical Hidden Markov Model ). La pose de la
personne, debout ou couch, est dtermine dans une image. La carte binaire de mouvement est extraite. Le
suivi de la personne est effectu grce aux informations de mouvement, forme et apparence. Le rectangle
minimal de la rgion extraite suivie permet d'extraire ses axes principaux, et l'angle entre le grand axe et la
direction verticale comme caractristique de la verticalit de la personne dans la squence. Le dtecteur de
verticalit diffrencie une personne debout d'une personne couche. La squence est ensuite analyse, partir
de la suite des postures, avec un HHMM pour reconnatre un mouvement anormal comme la chute. Un modle
HHMM deux niveaux analyse chaque mouvement courant (cf. figure 41) :
-Le premier niveau de mouvement correspond aux mouvements dits lmentaires . Pour la dtection de
chute, ce niveau comprend trois instances : marche , tombe , couch .
-Le second niveau correspond des mouvements globaux, des squences de mouvement primitif sur des dures
plus longues.
64 sur 146
(a) Architecture gnrale du HHMM deux niveaux
(b) Exemple de la modlisation d'un mouvement de chute
Figure 41 : Architecture du Modle de Markov Cach Hirarchique [Thome N.]
Le HHMM permet de travailler des chelles de temps diffrentes, allant des mouvements brusques de la
chute avec des mouvements sur un intervalle de temps plus long, grce aux contraintes haut niveau donnes
par les modles de mouvement. L'architecture hirarchique est bien adapte l'interprtation smantique de la
scne pour la dtection de mouvements brusques et permet de filtrer les fausses alarmes issues d'erreur bas
niveau.
3.5 Reprsentation symbolique
Oppos ces mthodes probabilistes, il existe des reprsentations symboliques. [Ivanov Y., Bobick A.F.]
dcrivent la squence temporelle des vnements par une reprsentation grammaticale et dveloppent une
technique probabiliste. La principale application concerne les interactions voiture/personne. [Intille S.S.,
Bobick A.F., 95] exploitent une reprsentation probabiliste et symbolique pour la reconnaissance des 22
joueurs de football amricain. L'avantage de la reprsentation symbolique est la capacit d'encoder plus
facilement une connaissance a priori du domaine, surtout dans les situations o la quantit d'observations est
limite (comportements inhabituels). L'inconvnient par rapport aux mthodes purement probabilistes est le
risque d'chec pour reprsenter les interactions.
65 sur 146
Chapitre 3 Systmes de vido surveillance
66 sur 146
1 Les diffrents systmes de vido surveillance existants
Nous prsentons dans cette section les systmes de vido surveillance en dveloppement ou finalis, chez les
chercheurs mais aussi les industriels. Parmi les projets de recherche, nous prsentons de faon dtaille les
projets VSAM, ADVISOR, BEHAVE, CASSIOPEE, VIGITEC, CAVIARE, et PASSWORDS. Trois d'entre
eux sont dvelopps l'INRIA : ADVISOR, CASSIOPEE, CAVIARE.
1.1 Le projet VSAM
Le projet VSAM (Video Surveillance and Activity Monitoring) [Collins R., et al.a] a t dvelopp par le
Robotics Institute de l'Universit de Mellon Carnegie of Southern California (CMU) et l'Institut Sarnoff fond
par DARPA. Ce projet a eu lieu entre octobre 97 et janvier 2000. V.S.A.M avait pour objectif de dvelopper
des algorithmes de dtection et suivi automatique de plusieurs personnes et vhicules dans un environnement
urbain et complexe avec un rseau de camras distribues, pour la surveillance automatique de squences
vido prises partir de drnes, avions automatiques volant haute altitude. Les zones de surveillance sont
connues et concernent le franchissement de ponts, les points de contrle routier et le suivi de convois militaires.
Diffrentes camras permettent de suivre une cible en transmettant des vnements symboliques un
contrleur, qui a un rsum des activits dtectes dans une zone de couverture assez large. Une seule
personne ne pouvant contrler en mme temps des dizaines de camras, un des objectifs de ce projet tait
qu'une seule personne assure le contrle d'une grande zone, l'aide de capteurs multiples. Le suivi de plusieurs
personnes, voitures et leurs interactions dans un environnement complexe urbain est une tche difficile.
L'approche de VSAM est de fournir une interface graphique et interactive qui place des agents dynamiques de
faon automatique, et reprsentant les personnes et les voitures dans une vue synthtique de l'environnement.
La visualisation des vnements de la scne n'est pas fixe une rsolution initiale et un angle de vue d'une
seule camra. L'interface est une carte de la zone avec tous les objets et les vidos superposs la carte. Des
camras thermiques ont t ajoutes en fin de projet.
Dans VSAM, l'approche est similaire celle de [Grimson E., Viola P.]. La soustraction du fond est robuste
grce un modle statistique dynamique du fond. Les objets individuels doivent tre suivis au cours du temps.
Pour cela, les blobs gnrs par la dtection de mouvement sont mis en correspondance dans les images
successives de la vido.
Beaucoup de systmes de suivi sont bass sur le filtre de Kalman qui ne tolre pas des hypothses multiples
cause de la nature des densits gaussiennes unimodales. [Isard M., Blake A., 96] proposent une approche
stochastique (algorithme de Condensation ) qui gre des hypothses alternatives. Dans VSAM, une
approche plus simple base de fonction de cot de mise en correspondance image par image est propose. Les
blobs sont mmoriss avec les informations de trajectoire des centrodes des objets (position et vitesse),
l'apparence des blobs sous la forme d'un template image, la taille des blobs en pixels et l'histogramme
de couleur des blobs. La position et la vitesse de chaque blob sont dtermines partir de l'instant
prcdent et servent la prdiction de la position dans l'image courante. Une fonction de cot est dtermine
entre un objet identifi et un blob candidat en mouvement, pour la mise en correspondance de chaque
blob image aprs image.
L'objectif final de VSAM est sa capacit identifier des classes d'objets (humain, groupes et voitures) et
dterminer les actions individuelles (dans les catgories courir ou marcher pour le mouvement des
personnes), grce un rseau de neurones permettant une classification de l'objet. La comprhension des
activits humaines est un problme encore ouvert dans le domaine de la vido surveillance automatique.
Depuis les annes 1997, la dtection et l'analyse des mouvements humains en temps rel partir d'images
vido est devenue possible grce l'algorithme PFINDER (cf. figure 42) de [Wren C.R., et al.] et W
4
[Haritaoglu I., Harwood D., Davis L.S. 98]. Le corps humain est dtect par ses membres (mains, pieds, tte)
qui sont suivis et mis en correspondance avec un modle a priori, tel le modle cardboard [Ju S., Black
67 sur 146
M., Yacoob Y.].
(a) Image vido d'entre (b) Reprsentation 2-D des statistiques des blobs
Figure 42 : PFINDER
Dans les scnes d'extrieur, en gnral une unique camra est insuffisante pour suivre un objet pendant
longtemps. Les objets peuvent se trouver en occultation par les lments extrieurs : les arbres et les
btiments. Une solution prometteuse est d'utiliser un rseau de camras pour un suivi d'objets de faon
cooprative, et de faon coordonne d'une camra l'autre. [Matsuyama T.] a prsent une telle approche dans
des environnements intrieur o quatre camras suivent un objet en mouvement sur le sol.
Dans VSAM, les objets sont golocaliss afin de dterminer o chaque camra doit regarder. L'orientation et le
zoom des camras les plus proches sont contrls pour amener l'objet dans son champ de vue, et les objets
d'intrts en mouvement sont recherchs.
1.2 Le projet ADVISOR-INRIA
ADVISOR ( 2.2) Annoted Digital Video for Surveillance and Optimised Retrieval [Siebel N., Maybank
S. et al.] est un projet europen (IST-1999-11287) de l'quipe ORION de l'INRIA Sophia-Antipolis, en vido
surveillance multi-camras, impliquant trois partenaires acadmiques (Univ. Kingston, Univ. Reading, KCL
Londres) et trois partenaires industriels (THALES, BULL, VIGITEC), entre janvier 2000 et mars 2003. Ce
systme a pour objectif de scuriser les transports publics par la dtection automatique de situations
anormales temps rel pouvant conduire des accidents, de la violence ou des actes de vandalisme (cf. figure
43).
(a) Suivi d'un groupe de personnes (b) Analyse du mouvement de la foule
Figure 43 : Analyse d'images dans ADVISOR [Siebel N., Maybank S. et al.]
Sans systme automatis, dans un systme de scurit contenant une centaines de camras vidos dans une
station de mtro, les oprateurs humains ne pouvant visualiser que quelques camras chaque instant, certains
68 sur 146
accidents dtects tardivement engendraient vandalisme et violence. Le systme ADVISOR permet d'assister la
surveillance humaine, en slectionnant les crans de surveillance. Une analyse temps rel des vidos gnre des
alarmes dans les cas de comportements dangereux dtects. Les squences vidos dintrt sont archives pour
les problmes de surveillance avec une application la surveillance des mtros. ADVISOR est le premier
systme intgrant la fois le suivi de personnes, le contrle des foules, et l'analyse des comportements. Ce
systme a t test dans les stations de mtro de Barcelone, Londres et Bruxelles.
1.3 Le projet BEHAVE
BEHAVE est un projet anglais de Robert Fischer l'Engineering and Physical Science Research
Council (EPSRC), pour la dtection des comportements anormaux et/ou criminel [Andrade E., Blunsden S.,
Fisher R.].
Le projet est compos de deux volets. Le volet 1 s'intresse la comprhension des interactions subtiles entre
les personnes, partir des mthodes de reconnaissance des comportements habituels dans un petit groupe
d'individus, visant diffrencier une salutation d'une bagarre, l'aide de modles de Markov cachs
dynamiques pour le suivi des individus. Parmi les patterns de flux utiles dans le suivi court terme, une
classification statistique permet de diffrencier les patterns normaux (les supporters quittant un stade de foot
ont des patterns de mouvement standard) et anormaux (la densit de la foule peut rendre impossible le suivi
individuel, donc l'identification des bagarreurs, et l'interruption du flux est alors dtecte). Le but est de
diffrencier les comportements normaux et anormaux par des modles probabilistes du flux, issus du suivi
court terme. Le volet 2 intervient quand le suivi d'individus court terme n'est plus possible du fait du nombre
de personnes en interaction croissant, car les individus ne peuvent tre suivis que pendant quelques images et
dans des images contenant peu de personnes. Le volet 2 permet l'analyse de la foule (pour la comprhension
des scnes dynamiques, [Remagnino P., Shihab A., Jones G.] et [Buxton H., Gong S.]). Dans ce cas, une
interprtation symbolique des comportements devient impossible, il faut analyser le flux de faon statistique.
Les rsultats sont bons en ce qui concerne les interactions discrtes l'aide d'un modle probabiliste et d'une
reprsentation symbolique. En revanche, il est plus difficile de modliser les interactions subtiles parmi
d'autres interactions peu diffrentes, comme les comportements de bagarre. En ce qui concerne la
reconnaissance de comportements dans la foule tels les vnements sportifs, la question est toujours d'actualit
pour la dtection d'vnements criminels et la prvention.
1.4 Le projet AVITRACK
AVITRACK ( 2.1) [Fusier F., Valentin V., Bremond F, Thonnat M.] est un projet IST europen en
collaboration avec Silogic S.A. Toulouse (France), University of Reading (UK), CCI Aroport Toulouse
Blagnac (France), Fedespace (France), Tekever LDA, Lisbon (Portugal), ARC Seibersdorf research GMBH,
Wien (Austria), Technische Universitaet, Wien, (Austria), IKT (Norway) et Euro Inter Toulouse (France). Ce
projet a dbut en fvrier 2004 et s'est termin en Fvrier 2006. Son objectif principal tait l'identification des
activits autour des avions stationns leur parking, allant des vnements simples impliquant un objet mobile
comme l'arrive ou le dpart des vhicules au sol aux scnarios complexes comme faire le plein ou le
chargement de bagage.
1.5 Le projet CASSIOPEE-INRIA
Le projet CASSIOPEE [Avanzi A., Bremond F., Tornieri C., Thonnat M.], du groupe Crdit Agricole avec
Eurotelis (Securitas) et Ciel (4 ans 2002-2006) pour la conception de sites de vido surveillance bancaire, a
pour objectif de dtecter des comportements dfinis comme risque partir d'une acquisition vido
continue et d'une connaissance a priori de l'agence. L'objectif n'est pas de dtecter coup sr les
comportements mais plutt de dtecter des comportements potentiellement intressants afin que leur prise en
charge soit ralise par la station centrale de vido surveillance pour lever le doute. Le projet regroupe les
comptences d'une banque, d'un intgrateur de systmes d'acquisition vido, d'un oprateur de tlsurveillance
et de l'INRIA.
69 sur 146
1.6 Le projet VIGITEC
VIGITEC, appel galement Videa , est un projet qui a commenc en novembre 2003 et s'est termin en
novembre 2005 [Velastin S.]. Le but de ce projet est de transfrer une partie de la technologie de vido
surveillance de l'quipe d'ORION dans des produits industriels pour l'identification de comportements humains
spcifiques, tels que le contrle daccs de btiment et les violences urbaines.
1.7 Le projet CAVIARE-INRIA
CAVIARE Context Aware Vision Picture-based Active Recognition [Jorge P.M., Marques J.S., Abrantes
A.J] est un projet europen (IST 2001) de l'INRIA Grenoble, qui tudie des techniques d'analyse d'images pour
amliorer les performances des systmes de surveillance dans les environnements urbains et les centres
commerciaux.
1.8 Le projet PASSWORDS
Le projet PASSWORDS est un projet europen ESPRIT avec VIGITEC, SEPA, DIBE, AUCHAN (3 ans,
1994 1997) dont l'objectif est d'assurer la transition entre les ingnieurs experts ([Chleq N., Thonnat M.],
[Bogaert M., Chleq N., Cornez P., Regazzoni C., Teschioni A., Thonnat M.]).
1.9 Les projets dans l'industrie
Des systmes de surveillance existent pour la dtection de colis abandonns dans les terminaux
d'aroports, les personnes dangereusement proches des rails dans les stations de mtro (le mtro
londoniens contient 6000 camras lui seul), les voitures conduisant contresens dans les tunnels et sur les
routes [Siemens].
Un systme de vido surveillance a t dvelopp au dpartement Real-time Vision and Modeling
Department au Siemens Corporate Research (SCR) Princeton, New Jersey. [Zhu Y., Comaniciu D.,
Pellkofer M., Koehler T.] a dvelopp une technique appele Robust Information Fusion qui est une
mthode statistique visant pondrer les donnes issues des diffrentes sources. Un autre domaine de
recherche du SCR est l'apprentissage statistique afin d'amliorer la robustesse des systmes de vido
surveillance. En effet, le modle statistique explique les variations observes dans les donnes. Des
applications en reconnaissance de trafic autoroutier ont vu le jour et le SCR s'est quip de camras
additionnelles telles les camras radar, infrarouge, et ultrasons afin de communiquer avec les automobilistes
trop proches les uns des autres et viter les collisions. Des technologies de vision bases modle sont en
dveloppement, afin de suivre un modle en 3D, dterminer sa position et son orientation, et sa structure 3D
partir du mouvement.
Dans les aroports, the Sistore CX EDS (Enhance Detection Solution) monitoring system de Siemens
Building Technologies (SBT) Karlsruhe, Allemagne, est un systme de dtection automatique de
mouvement, et de suivi automatique des objets. Le senseur vido peut apprendre les situations normales en
mmorisant les tats les plus frquents pendant un intervalle de temps, afin de reconnatre une situation
anormale . EDS peut aussi extraire des primitives, telles que la taille et la vitesse, pour distinguer une
personne d'un animal ou d'un vhicule par exemple. Un autre avantage de connatre ce qu'est un fond normal
est de pouvoir dtecter de faon automatique les actions de sabotage. Si une personne malveillante tourne la
camra la faisant pointer dans une autre direction, modifiant ainsi le fond, la camra ne reconnat pas son
environnement usuel et provoque une alarme. Siemens a install un systme digital Sistore complet pour les
jeux asiatiques de 2006, Doha au Qatar. Plus de 1300 camras dtectent, valuent et suivent des
mouvements suspects dans la cit sportive. Le systme de surveillance a galement t mis en place en
Allemagne. La police fdrale Berlinoise protge certains quartiers avec ce systme de vido surveillance.
Siemens participe galement un projet amricain pour la scurit des vols ariens : le projet SAFEE
Security od Aircraft in the Future European Environment enregistre les vnements bord d'un avion et les
70 sur 146
compare avec des images enregistres. Si le systme dtecte des mouvements ou des conversations suspectes, il
dclenche une alarme et envoie un message crypt immdiatement. Si des terroristes pntrent dans le cockpit
et tente de dtourner l'avion, SAFEE compare la position de l'avion avec les limites de zones enregistres, et
remet l'avion dans sa trace originale automatiquement.
Le bureau Fraunhofer Allianz Vision office Erlangen en Allemagne existe depuis une dizaine d'annes
pour crer de la synergie entre les diffrents instituts Fraunhofer. Les applications sont les systmes
d'assistance la conduite pour la conduite d'engins, les systmes de dtection automatique pour
l'industrie alimentaire, la sant par exemple pour vrifier la qualit de l'air et la temprature ambiante, enfin
pour la reconnaissance biomtrique du visage dans le but d'identifier une personne. Des systmes de
surveillance permettent d'identifier des voleurs la sauvette dans une foule grce leur mouvement.
Cependant, il faut encore dvelopper des systmes prenant en compte les variations d'apparence des personnes
car les systmes travaillent par comparaison d'images avec des images de rfrence.
2 Prsentation dtaille de quelques systmes de vido
surveillance
2.1 AVITRACK
[Fusier F., Valentin V., Bremond F, Thonnat M.] proposent un systme de comprhension vido temps rel
pour la reconnaissance des activits sur des squences vido en trois tapes : suivi, maintenance de la
cohrence et comprhension (cf. figure 44).
Figure 44 : systme de comprhension vido temps rel en trois parties, suivi, maintenance de la cohrence et
comprhension [Fusier F., Valentin V., Bremond F, Thonnat M.].
Le but est de faire du suivi robuste en vue de la reconnaissance d'vnements extrieur dans des conditions
d'applications temps rel avec un rseau de camras, et de reconnatre de faon automatique des vnements
complexes avec plusieurs acteurs en interaction. Le systme a t valu en monitoring des activits
d'aroport sous des conditions normales d'utilisation, dmontrant sa robustesse. Les erreurs de suivi sont
corriges par la maintenance de la cohrence. Le systme fonctionne en vision cognitive mais aussi dans les
activits d'aroports, avec des perspectives dans les stations de trains.
Trois tapes sont prvues : le suivi de la scne, la maintenance de la cohrence, et la comprhension de la
scne. Le suivi de la scne consiste dtecter des objets bass sur leur mouvement, les suivre au cours du
temps et les classifier (personne, voiture, avion), et par fusion de donnes calculer la position 3D des objets
mobiles dans un systme de coordonnes globales. La maintenance de la cohrence a pour objectif de
calculer une reprsentation cohrente de la scne 3D avec une remise jour de son volution au cours du
temps. La comprhension de la scne reconnat en temps rel des vnements vido. L'objectif est un suivi
robuste capable de reconnatre des vnements quelles que soient les conditions, sur une aire d'aroport pour le
projet europen AVITRACK.
2.1.1 La dtection de mouvement
La dtection de mouvement segmente l'image en rgions connectes des pixels d'avant-plan reprsentant les
objets en mouvement. Un algorithme de segmentation par soustraction du fond est bas sur une distribution
71 sur 146
gaussienne (couleur moyenne et variance) en couleur RGB normalise pour modliser le fond [Wren C.R., et
al.]. Cela a t tendu en incluant une dtection des composantes des ombres et des hautes lumires
[Horprasert T., Harwood D., Davis L.] rendant la dtection de mouvement robuste aux changements
d'illumination. Ces rsultats permettent de suivre des objets dans diffrentes images.
2.1.2 Suivi d'objet
Le module de suivi de scne de AVITRACK comprend deux tapes, suivi d'objet 2D avec une seule camra, et
suivi d'objet dans un monde 3D. Le suivi d'objet par camra dtecte des objets en mouvement, puis les suit et
les classe par une reconnaissance d'objets hirarchiques. Les objets suivis par les huit camras sont envoys
un serveur central o les observations multiples sont fusionnes.
Le suivi d'objets temps rel peut tre dcrit comme un problme de correspondance et implique de trouver des
objets en correspondance d'une image l'autre. L'algorithme de suivi de Kanade-Lucas-Tomasi (KLT) pour le
suivi de primitives [Shi J., Tomasi C.] est utilis dans AVITRACK. Mais cet algorithme considre que les
primitives sont indpendantes et les suit de faon individuelles. Pour passer un niveau de suivi d'objets, le
KLT est incorpor dans un processus de suivi haut niveau regroupant des primitives en objets, maintenant une
association entre eux et prenant en compte les interactions complexes entre les objets.
2.1.3 Reconnaissance d'objets
Les objets sur le tarmac tels que les personnes, les voitures au sol (cf. figure 45), les avions, sont classs par
un classifieur obtenu par mlange de gaussiennes entranes sur des descripteurs tels que la largeur 3D, la
hauteur, la dispersion et le ratio, inspirs des travaux de Collins [Collins R., et al.b].
(a) Image montrant un vhicule de
transport sur une zone d'aroport.
(b) Le modle bas contour et
apparence 3D du vhicule de
transport, pour la classification.
(c) Le modle d'apparence adapt
au vhicule.
Figure 45 : Classification d'un vhicule de transport en zone aroportuaire [Fusier F., Valentin V., Bremond F,
Thonnat M.].
2.1.4 Fusion de donnes
La mthode de fusion de donnes est base sur une approche par filtre de Kalman et plus proches voisins [Bar-
Shalom Y., Li X.] avec un modle vitesse constante. L'tape d'association de donnes associe des pistes
prdites avec des mesures observes dans chaque camra. Dans l'algorithme des plus proches voisins, la
meilleure mise en correspondance est dfinie pour tre la seule observation par camra. Pour de multiples
pistes suivies, et diffrentes camras, l'algorithme des plus proches voisins associe le plus proche voisin par
camra pour chaque piste suivie. Le filtre de Kalman est remis jour pour chaque piste avec les mesures
fusionnes.
2.1.5 Maintenance de la cohrence dans des scnes 3D dynamiques
L'interprtation haut niveau des scnes 3D est issue de la coopration du suivi de scne et de la comprhension
72 sur 146
de la scne. Le but de la maintenance de la cohrence est d'analyser la dynamique des objets mobiles afin
d'amliorer la robustesse du suivi de scne, par exemple en grant les occultations ou mauvaises dtections
sur plusieurs images et les changements d'objets mobiles (disparition, apparition). La maintenance de la
cohrence est dcrite dans une tche de suivi long terme et dans une tche de suivi global. Le suivi long
terme utilise une fentre temporelle pour augmenter les performances du suivi des objets mobiles, grce une
analyse de graphe temporelle, ds que le suiveur image par image rencontre des difficults comme en cas
d'occultations. Bien que le suivi image par image et long terme soient efficaces, ils montrent quelques limites
impliquant l'utilit d'un suivi global. Ces limites sont par exemple la perte des objets suivis cause des
occultations ou l'intgration des objets mobiles dans le fond aprs une longue priode, des sur ou sous
dtections cause des ombres ou du manque de contraste, et un mlange de l'identit des objets suivis quand
plusieurs objets se regroupent. Pour viter ces problmes, un module haut niveau appel le suiveur global a en
charge d'augmenter les comptences du suivi long terme afin de fournir des donnes cohrentes la
comprhension de la scne. Le suiveur global utilise la connaissance a priori de l'environnement observ et
une analyse 3D spatio-temporelle, avec un ensemble de rgles (si alors).
Dans le suivi long terme, c'est la cohrence temporelle de chaque objet mobile qui est vrifie, tandis que dans
le suivi global c'est la cohrence spatio-temporelle de tous les objets mobiles.
Le suiveur global a connu des applications ayant du succs comme le contrle d'accs dans les btiments,
les agences bancaires, le monitoring des activits des aroports (cf. figure 46), tmoignant de sa gnricit.
Son utilit est dmontre dans le cas de la perte des objets suivis. Par exemple, lorsqu'un vhicule est rest trs
longtemps au mme endroit, la remise jour de l'image de rfrence, l'image du fond, tend intgrer le
vhicule dans le fond, rsultant en une mauvaise dtection et une perte de ce vhicule. Cela peut tre le cas
d'un vhicule Tanker stationn sous les ailes de l'avion pendant le remplissage de gasoil de l'avion.
(a) Avant le suiveur global, un vhicule de
chargement est dtect comme plusieurs objets
mobiles (sur dtection).
(b) Aprs le suiveur global, le vhicule de
chargement est correctement dtect comme un
seul objet mobile.
Figure 46 : Apport du suiveur global dans un aroport [Fusier F., Valentin V., Bremond F, Thonnat M.].
Le suiveur global et long terme ont amlior les performances du systme et autoris le suivi sur une large
gamme de personnes, voitures et avions qui interagissent ensemble sur le tarmac. La comprhension de la
scne est ainsi capable de reconnatre des activits dans des situations plus complexes.
2.1.6 Comprhension de la scne
Le but de la comprhension de scne est de fournir une interprtation haut niveau des trajectoires des
objets mobiles suivis en termes de comportements humains, activits des vhicules, ou de leurs interactions.
Deux catgories d'approches ont t utilises pour reconnatre des vnements vido, soit avec un rseau de
neurones probabiliste, soit avec un rseau symbolique correspondant aux vnements reconnatre. Pour la
communaut de vision par ordinateur, c'est l'approche par rseau de neurone qui est prfre. Les noeuds du
73 sur 146
rseau correspondent aux vnements vido reconnus un instant donn grce une probabilit calcule
[Hongeng S., Bernard F., Nevatia R.] et cela fonctionne bien pour les vnements courts mais pas pour les
vnements complexes impliquant plusieurs personnes. Pour la communaut intelligence artificielle, un
vnement vido est reconnu par un rseau symbolique dont les noeuds correspondent une reconnaissance
boolenne des vnements vido [Pinhanez C., Bobick. A.]. Une approche traditionnelle est base sur une
reprsentation dclarative des vnements vido dfinis comme un ensemble de contraintes logiques et spatio
temporelles. [Chleq N., Thonnat M.] ont propag des contraintes temporelles pour la vido surveillance. Cette
mthode reconnat un scnario par prdiction des vnements vido attendus, afin d'tre reconnus l'instant
suivant. [Vu T., Bremond F., Thonnat M.] ont tendu cette dernire mthode dans le cas de la reconnaissance
des activits complexes impliquant plusieurs objets physiques de diffrents types (individus, vhicules, avions)
dans un champ large observ par une camra en rseau et pendant longtemps.
La mthode propose reconnat des vnements vido l'aide d'un raisonnement spatio-temporel prenant
avantage de la connaissance a priori de l'environnement observ et des modles d'vnements vido. Une
reprsentation par formalisme aide les experts dcrire les vnements vido d'intrts qui arrivent dans la
scne observe. Une connaissance du contexte de la scne observe est une information a priori que le systme
doit connatre pour interprter les activits. La connaissance contextuelle est statique et dynamique. La
connaissance statique correspond l'information des objets statiques et de la scne 3D vide (description
gomtrique et smantique des zones spcifiques). La connaissance dynamique contextuelle concerne les zones
d'intrt des vhicules qui peuvent interagir avec les autres voitures ou personnes. Cette connaissance est
ncessaire si on veut reconnatre des activits impliquant des vhicules en stationnement.
2.1.7 La reconnaissance d'vnements vido
La reconnaissance des activits vido automatique est une tche difficile pour la Vision Cognitive du fait
qu'elle s'intresse la reconnaissance des activits complexes impliquant plusieurs objets physiques de
diffrents types. Un algorithme temps rel de reconnaissance d'vnements vido est dcrit dans [Vu T.,
Bremond F., Thonnat M.]. Le processus de reconnaissance d'vnements du projet AVITRACK se sert de la
cohrence du suivi d'objets, de la connaissance a priori de la scne statique et dynamique et des modles
d'vnements prdfinis.
2.1.8 Comprhension vido pour le monitoring des activits
aroportuaires
La comprhension vido a t valide dans une application d'activit d'aroport dans le projet europen
AVITRACK. Le systme a dmontr ses capacits dans la comprhension de la scne dans les environnements
d'aroports afin de reconnatre de faon automatique les activits autour des parkings sur un tarmac, donc
reconnatre en temps rel les interactions entre personnes et vhicules. Le langage de description des
vnements a dmontr son efficacit dans bon nombre d'applications comme le monitoring des stations de
mtro [Cupillard F., Avanzi A., Bremond F., Thonnat M.], des agences bancaires [Georis B., Maziere M.,
Bremond F., Thonnat M.], de l'intrieur des trains, parking et tarmac d'aroport.
2.2 ADVISOR
[Cupillard F., Avanzi A., Bremond F., Thonnat M.] se proposent de reconnatre des personnes isoles, des
groupes de personnes, ou bien des comportements de foule dans le contexte de la surveillance des scnes de
mtro utilisant plusieurs camras (cf. figure 47). Les scnes dcrites sont celles de bagarre ou de vandalisme
dans des environnements texturs, les stations de mtro. Ce travail s'inscrit dans le projet ADVISOR.
Le systme de vido interprtation est compos d'un module de vision et d'un module de reconnaissance de
comportement. Le module de vision comprend :
-un dtecteur de mouvement;
-un suivi image par image gnrant un graphe des objets en mouvement dans chaque camra calibre;
-un graphe global pour toute la scne observe par l'ensemble des camras.
74 sur 146
(a) Fraude reconnue
par un automate.
(b) Vandalisme
reconnu par un rseau de
contraintes temporelles.
(c) Blocage reconnu
par un automate.
(d) Foule reconnu par
un arbre ET/OU.
Figure 47 : Illustration de 4 comportements reconnus par le systme d'interprtation [Cupillard F., Avanzi A.,
Bremond F., Thonnat M.].
Le dtecteur de mouvement dtecte les rgions en mouvement dans la scne et les classifie dans une liste
d'objets mobiles avec des labels correspondant leur type ( une personne ). La dtection des personnes en
mouvement dans la scne a lieu grce la diffrence entre l'image courante et un modle du fond contenant
l'apparence de la scne sans personne, remis jour priodiquement pour s'adapter aux changements de lumire
et aux mouvements de la camra. Une image binaire de mouvement (contenant certains pixels classs en
mouvement) et une image du fond sont fournies au systme d'analyse de niveau suprieur afin d'en extraire une
description des objets de la scne de faon plus abstraite. Un pixel de l'image courante est class en
mouvement s'il n'est pas expliqu par le modle. Le modle de fond le plus simple est un fond statique sans
personne dans l'image. Dans le cas des changements de luminosit ou de mouvements du fond (les arbres ou le
vent), des modles statistiques plus labors sont ncessaires, comme les mlanges de gaussiennes du MIT
([Stauffer C., Grimson W.E.L.b]) ou le modle non-paramtrique de l'universit du Maryland [Elgammal
A.M., Harwood D., Davis L.S]. Une personne en mouvement peut tre dtecte par un modle dcrivant
l'apparence de la personne et ajustable aux mesures dans l'image grce aux paramtres du modle. Mais le
problme peut tre complexe du fait de la complexit du corps articul et des changements dans l'apparence
selon les points de vue, ainsi que des problmes d'occultations. Les modles simples sont plus rapides lorsqu'il
s'agit de travailler en temps rel mais ils rencontrent des difficults en prsence d'occultations. Un modle plus
complexe est favorable dans ce cas mais le temps rel n'est plus toujours atteint.
Une liste d'objets mobiles est obtenue chaque image, chacun dcrit par les paramtres 3D (centre de gravit,
position, etc.) et par une classe smantique. Le rle du suivi image par image est de relier d'une image l'autre
la liste des objets mobiles calculs par le dtecteur de mouvement. La sortie de ce module est un graphe des
objets mobiles (cf. figure 48), qui fournit toutes les trajectoires possibles qu'un objet mobile peut avoir. Le
lien entre un nouvel et un ancien objet mobile est calcul en fonction de trois critres: la similitude entre les
classes smantiques, leur distance 2D dans l'image et 3D dans le monde rel.
Les graphes individuels sont combins en un graphe global afin de prendre avantage des camras calibres qui
voient la mme scne mais de divers points de vue, et utilises pour le suivi long terme. Un modle 3D de la
scne pour chaque camra et une connaissance a priori contextuelle de la scne observe sont utiliss. Le
modle de la scne comprend les positions 3D et dimensions des objets statiques de la scne (une machine
vendre les tickets par exemple) et les zones d'intrt. Les attributs smantiques sont associs aux objets ou aux
zones d'intrt pour tre utiliss dans la reconnaissance du comportement.
ADVISOR dtecte et suit des individus autant que des groupes d'individus. L'analyse de la foule s'effectue via
l'analyse de mouvement partir du modle du fond. La surpopulation ou la congestion de zones pr dfinies
(sorties ou Escalator) sont dtectes, ainsi que la stationnarit d'objets et de personnes, et le flux de personnes
contre sens.
Le module d'analyse de comportement peut dtecter un certain nombre de comportements comme la violence
entre personnes, le vandalisme contre les quipements comme les machines vendeurs de billets, l'vasion de
75 sur 146
personnes escaladant les barrires au lieu d'utiliser un ticket.
Figure 48 : Illustration de la combinaison de multiples camras [Cupillard F., Avanzi A., Bremond F.,
Thonnat M.]. Trois personnes voluent dans la scne. La camra C1 dtecte les trois objets mobiles tandis
que la camra C2 dtecte seulement deux objets mobiles. La matrice de combinaison dtermine une forte
correspondance entre l'objet mobile M
1
1
de C1 et l'objet mobile M
1
2
de C2. Ces deux objets mobiles
sont fusionns dans le graphe combin. La matrice de correspondance dtermine galement une
correspondance ambigu entre les deux objets mobiles M
2
1
et M
3
1
de C1 et l'objet mobile M
2
2
de C2.
Les deux objets mobiles M
2
1
et M
3
1
dtects par C1 sont slectionns dans le graphe combin.
2.3 La vido surveillance avec une architecture base de
connaissances
Une architecture base de connaissances est propose pour la surveillance vido dans [Georis B., Bremond
F., Thonnat M.] (cf. figure 49). Une base de connaissance est compose de trois types de connaissances : La
connaissance du domaine, la connaissance de l'environnement de la scne, et la connaissance des traitements
vido. Chaque type de connaissance est fourni par des experts. Le rle de la composante du contrle
(raisonnement) est d'exploiter toutes les connaissances a priori ou apprises contenues dans la base de
connaissance afin de produire un plan. Le contrle est conduit par les donnes pour guider le processus de
prise de dcision. Il contient des rgles sous la forme condition/action.
Le formalisme utilis pour permettre aux experts d'exprimer leurs connaissances directement utilises par le
systme, est ddi la reprsentation des connaissances pour les programmes de supervision [Thonnat M.,
Moisan S., Crubezy M.], incluant des rgles de production.
La premire tche est la dtection et la classification des objets d'intrt prsents dans la scne. Une fois
l'image acquise, il faut gnrer une image du fond (image de rfrence) permettant de dtecter des rgions en
mouvement par soustraction de l'image courante l'image de rfrence. Le rsultat seuill donne lieu des
blobs ou rgions en mouvement, associs avec un ensemble de primitives comme la densit ou la position.
Dans l'tape de classification, les petits blobs correspondant au mme objet physique sont regroups pour
corriger les erreurs de segmentation, et une sparation est opre sur les larges blobs correspondant
plusieurs objets physiques. Un ensemble de primitives 3D comme la position 3D, la largeur et la hauteur sont
calculs pour chacun des blobs . En comparant cet ensemble de primitives 2D et 3D avec des modles
76 sur 146
prdfinis, ces blobs sont classs en diverses classes prdfinies (personne, groupe, voiture, etc). Ces
blobs avec leur label sont appels les objets physiques d'intrt . Une fois la dtection obtenue, la liste
des objets physiques d'intrt est suivie dans une analyse spatio temporelle, compose des tapes de suivi
image par image, fusion et suivi long terme.
Figure 49 : Un systme de surveillance vido avec un architecture base de connaissances, compose de la
base de connaissances (bleu), du contrle (vert) et de la librairie de programmes (jaune) [Georis B., Bremond
F., Thonnat M.].
2.3.1 Suivi image par image
Le suivi image par image a pour objectif de relier les objets physiques d'intrt d'une image la suivante
[Georis B., Bremond F., Thonnat M., Macq B.]. Un graphe contenant les objets physiques dtects remis
jour chaque instant et un ensemble de liens entre les objets dtects l'instant t et ceux dtects l'instant t-1
est cre. Un objet physique associ des liens temporels vers les prcdents est appel un objet physique
d'intrt suivi . Ce graphe fournit toutes les trajectoires possibles pour un objet.
2.3.2 Fusion des suivis
La fusion des suivis consiste n'obtenir qu'un seul graphe partir des graphes des objets physiques
d'intrts en provenance des diffrentes camras avec des champs de vue se recouvrant. Des matrices
tablissent la correspondance entre les diffrentes vues du mme objet. Le graphe des objets physiques d'intrt
fusionns obtenu, contient tous les liens temporels des objets originaux fusionns et leurs primitives 3D sont
les moyennes pondres des primitives 3D originales. Les pondrations sont calcules en fonction des
distances des objets originaux aux camras correspondantes. De cette faon les primitives 3D rsultantes sont
en gnral plus exactes que les originales.
77 sur 146
2.3.3 Suivi long terme
Sur les graphes fusionns des objets, le suivi long terme est mis en place. Un ensemble de chemins est calcul
dans le graphe, reprsentant les trajectoires possibles pour les objets suivis. Les objets physiques d'intrt
sont suivis avec un dlai pour comparer l'volution des diffrents chemins. A chacune des images, le meilleur
chemin dans le graphe est slectionn.
2.3.4 Reconnaissance d'vnements
Une fois les objets physiques d'intrts suivis, la reconnaissance d'vnements est mise en place. Selon le
type d'vnements reconnatre (cf. figure 50), il existe diffrentes mthodes, soit par les rseaux baysiens
[Moenne-Locoz N., Bremond F., Thonnat M.] dans le cas d'vnements rapides avec de l'incertitude, soit par
les arbres AND/OR pour les vnements avec une grande varit d'invariants comme les bagarres. Enfin,
pour des vnements impliquant de multiples objets physiques d'intrt et des relations temporelles
complexes, la technique est un rseau de contraintes dans lequel les noeuds correspondent des sous
vnements et les artes des contraintes temporelles [Vu T., Bremond F., Thonnat M.]. La sortie est une liste
des vnements reconnus.
(a) surveillance
des banques
(b) comptage de
personnes dans
un hall
d'immeuble
(c) dtection de
vandalisme dans
un bureau
(d) contrle de
magasin
(e) dtection de
violence sur une
place publique
(f) surveillance
d'un parking de
vhicule
Figure 50 : Cette figure montre 6 applications traites avec la base de connaissance du systme [Georis B.,
Bremond F., Thonnat M.].
Dans cette architecture, le contrle appelle les tches de traitements vido, et les programmes venant de
n'importe quelle librairie de traitement vido peuvent tre intgrs, permettant d'tendre la capacit du systme
sans modifier le contrle.
2.4 Un rseau synergtique deux niveaux pour les interactions multi
personnes
La reconnaissance des activits des personnes est un processus compliqu, surtout dans les environnements
non contraints cause du bruit et des ambiguts des activits des personnes. La structure spatio temporelle
des activits des personnes est analyse diffrents niveaux de dtail [Park S., Trivedi M.M. 07].
-Au plus haut niveau, l'activit d'une personne est analyse en termes de suivi de boites englobantes en
mouvement appel l'analyse de niveau suivi. Les systmes de surveillance bass sur le suivi sont utiles pour
beaucoup de situations incluant le temps puisque la rgion en mouvement peut tre extraite.
-Au niveau de dtail, l'activit d'une personne est analyse en termes de la coordination des membres
individuels du corps appel l'analyse du niveau du corps. Dans les situations de surveillance en intrieur,
l'analyse du niveau du corps a t trs tudie. Dans des situations extrieures, les performances du systme
dpendent des processus de vision bas niveau comme la robustesse de la modlisation du fond, une
segmentation efficace, etc.
Des systmes de surveillance bass sur le suivi existent avec des vhicules et des personnes en mouvement,
dans le cas d'un parking ([Oliver N.M., Rosario B., Pentland A.P.], [Remagnino P., Shihab A., Jones G.],
78 sur 146
[Velastin S., Boghossian B., Lo B., Sun J., Vicencio-Silva M.]) ou sur l'analyse du corps [Haritaoglu I.,
Harwood D., Davis L.S. 00]. Dans certaines applications de suivi, une reprsentation du corps humain sous
forme de boite englobante ou d'une ellipse peut tre suffisante pour suivre une personne [Oliver N.M., Rosario
B., Pentland A.P.]. D'autres recherches se sont concentres sur une description plus dtaille du corps humain
comme les rgions en mouvement ou blob ([Remagnino P., Shihab A., Jones G.], [Velastin S., Boghossian
B., Lo B., Sun J., Vicencio-Silva M.]).
[Park S., Trivedi M.M. 07] prsentent un rseau synergetique deux niveaux (cf. figure 51) pour les
interactions multi personnes et les activits dans des environnements extrieurs, incluant les variations
lumineuses, les changements de temps, les ombres en mouvement, les perspectives de camra et les variations
de lieux. Un mcanisme de bascule adaptative au contexte est propos pour passer de l' analyse du corps
celle du suivi de celui-ci. Le concept de l'espace spatio-temporel pour modliser les aspects de l'cologie
humaine dans les interactions interpersonnels est aussi dfini.
Figure 51 : Les deux tapes de l'analyse d'activits : bascule entre le niveau du corps
body level (SB) en cas d'information sur le corps, et le niveau du suivi track
level (ST) quand l'information du corps est insuffisante .
2.4.1 Le niveau suivi
Le niveau suivi est robuste aux fluctuations environnementales, tandis que le niveau analyse , bas sur
l'apparence, choue sous des faibles illuminations et des apparences de personnes similaires.
Le niveau suivi reprsente les activits du corps humain en termes des mouvements de son corps. Le
niveau analyse du corps effectue une reprsentation plus dtaille des activits en termes d'angles des
articulations du squelette ou de positions des membres. La sensibilit du niveau corps est affecte par
plusieurs sources d'incertitudes comme les occultations, la perspective de la camra. L'analyse au niveau
suivi est plus robuste ces sources d'incertitudes. Le rseau propos est un intermdiaire efficace entre le
suivi robuste si l'apparence du corps est dgrade et la moins robuste analyse pour l'interprtation des
activits.
2.4.2 Le niveau analyse du corps
L'analyse du corps se focalise sur des activits plus dtailles de personnes individuelles. [Haritaoglu I.,
Harwood D., Davis L.S. 00] analysent les contours de la silhouette pour dtecter des membres du corps
comme la tte, les mains, le torse et les jambes. La posture du corps est estime partir de la configuration des
membres.
Une autre diffrence est faire entre les environnements intrieurs et extrieurs.
-Les environnements intrieurs ont des conditions de lumire et des fonds plus stables mais les personnes
peuvent se trouver en occultation plus facilement par d'autres objets de la scne. Les systmes de surveillance
intrieur prsentent un faible champ de vue et peuvent fournir des images haute rsolution. [Park S.,
79 sur 146
Aggarwal J.K. 04a] ont analys les interactions entre personnes dans un environnement intrieur grce une
reprsentation dtaille du corps humain par de multiples blobs .
-Les systmes de surveillance extrieure prsentent des variations environnementales comme les
changements de conditions climatiques entre le matin et le soir, et les changements de fond. Les systmes de
surveillance extrieure doivent tre robustes ces variations. ont un systme robuste pour la surveillance
base sur le suivi et la protection prive dans les environnements extrieurs. La plupart des systmes de
surveillance en extrieur font du suivi et non de l'analyse du corps , cause du grand champ de vue de
la scne impliquant une faible rsolution. Certains travaux comme ceux de [Zhao T., Nevatia R.] utilisant
la fois le suivi et les modles du corps bas niveau pour analyser les comportements de pitons comme la
marche, la course et la position debout.
Un dveloppement rcent en surveillance vido est l'utilisation de systme distribus couvrant diffrentes
zones de la scne avec des champs de vue diffrents. [Remagnino P., Shihab A., Jones G.] ont prsent un
module multi-agent bas surveillance avec une intelligence dcentralise ([Valera M., Velastin S.]). La
coopration des diffrents niveaux de dtails ( analyse au niveau suivi et au niveau du corps ) partir
des diffrentes camras htrognes et l'intgration des multiples niveaux d'analyse des activits humaines est
l'objectifs des travaux de .
2.4.3 L'analyse des activits humaines en deux tapes
L'avant plan est segment par une modlisation du fond ([Chalidabhongse T., Kim K., Harwood D., Davis L.],
[Hall D., Crowley, J. et al.]), suivi par un graphe relationnel d'attributs pour segmenter et suivre les
membres du corps humain.
2.4.4 Reprsentation multi niveau des mouvements du corps humain
Le suivi avec le graphe relationnel d'attribus des diffrents corps humain utilise des boites englobantes et
des ellipses gaussiennes 2D pour suivre les personnes dans l'avant-plan. Le mouvement du corps est reprsent
diffrents niveaux: boites englobantes, ellipse 2D, et membres du corps segments. La boite englobante et
l'ellipse reprsentent le mouvement global du corps au niveau suivi (translation du corps), tandis que les
membres du corps segments reprsentent les membres individuels en mouvement au niveau membres du
corps . Le suivi sait rsoudre les occultations mais l'analyse n'est pas dtaille, tandis que le niveau
analyse du corps fournit une information plus riche sur le corps humain mais choue en cas d'occultation,
d'o l'ide de dvelopper une analyse deux niveaux synergiques et un mcanisme adaptatif pour passer du
niveau suivi au niveau analyse du corps.
2.4.5 La modlisation des activits au niveau des activits du corps
humain
Bon nombre d'activits humaines et d'interactions se font tandis que les personnes sont dans la mme position.
L'analyse du suivi ne peut pas traiter les primitives d'activits humaines dtailles faites par des personnes
stationnaires, comme se serrer la main , danser , etc. Les activits au niveau du corps des
personnes est formule en termes d'une estimation stochastique des postures et des gestes en utilisant les
modles de Markov cach. Un geste humain est reprsent par une squence de mots de code, et reconnus par
des HMM. Les approches bases HMM pour la reconnaissance des activits ([Huang K.S., Trivedi M.M.],
[Oliver N., Horvitz E., Garg A.]) avec des ensembles de primitives diffrentes existent dj.
utilisent un ensemble indpendant de HMM pour reprsenter les gestes du haut du corps, les translations du
corps, avec les hypothses que les gestes individuels ont une volution indpendante d'un membre l'autre.
2.4.6 La modlisation des interactions
Il est ncessaire d'associer des primitives visuelles avec des concepts et des symboles pour construire les
vnements smantiques des activits d'une personne. Dans cette approche, la reprsentation des activits
multi-personnes est base sur une hirarchie d'vnements [Park S., Aggarwal J.K. 04b]. Une interaction
80 sur 146
humaine est une combinaison des actions d'une simple personne et l'action d'une seule personne est compose
des gestes de diffrents membres du corps, tels le mouvement du torse et le mouvement des bras et des jambes.
Chaque geste d'un membre du corps humain est un vnement lmentaire du mouvement. Il est compos d'une
squence de postures instantanes chaque image. Un simple vnement peut tre au niveau du suivi ou au
niveau des activits du corps humain, en fonction de l'application.
2.5 Suivi de trajectoires l'aide d'un SVM
De multiples camras sont dployes dans un parking pour la vido surveillance de multiples personnes, en
temps rel, grant des occultations temporaires [Niu W., Jiao L., Han D., Wang Y.-F.]. Il n'y a pas de modle
3D ni d'analyse des interactions ni de dtections de comportements douteux.
La segmentation et le suivi de plusieurs personnes en temps rel est un problme dlicat mais important
en vido surveillance. Dans des applications proches pour lesquelles une analyse haute rsolution est
ncessaire, il existe plusieurs techniques en reconnaissance de visage, de geste et de la marche. Dans le cadre
de la vido surveillance, la reconnaissance de la marche est un des problmes les plus intressants, classe
entre les mthodes bases modle et les mthodes sans modle. Une mthode bas modle est donn dans
[Lee L., Grimson W.E.L.] o sept ellipses sont utilises pour reprsenter diffrentes parties de la silhouette
d'une personne. L'hypothse est faite que la personne est vue par la camra perpendiculairement sa
dmarche. La silhouette de la personne est segmente par rapport au fond grce un algorithme de
soustraction du fond adaptatif [Stauffer C., Grimson W.E.L.a]. Afin de rendre la reprsentation insensible aux
changements de vtements et la distance entre la camera et le marcheur, la couleur de l'avant plan n'est pas
utilise, uniquement une silhouette binaire normalise en chelle. Cette reprsentation est base sur des
primitives (les moments extraits de chaque silhouette de la marche). Afin d'obtenir de la robustesse au bruit et
un modle simple, plus fin que la silhouette grossire, la silhouette est dcoupe en 7 zones et dans chaque
zone une ellipse est dfinie ainsi que des paramtres moyenne, orientation, soit un total de 28 paramtres
calculs dans deux vues orthogonales. Ces paramtres constituent les moments extraits de chaque silhouette de
la marche. Ces primitives sont ensuite utilises pour reconnatre des individus par leur dmarche apparente et
pour prdire le genre de dmarche inconnue. Cette approche fonctionne bien sous des conditions de lumire
varies. Un exemple d'une mthode sans modle serait avec des blobs .
2.5.1 Moyenne rsolution
A moyenne rsolution, le but est de reconnatre des activits gnriques comme le mouvement des bras et des
jambes au lieu d'essayer de faire correspondre une action un acteur particulier.
Un template ou gabarit a pour objectif la formation d'une image statique du mouvement tudi, afin d'en
extraire des caractristiques en vue d'une classification et d'une reconnaissance. Parmi les mthodes de
template matching , citons les travaux de ([Bobick A.F., Wilson A.D.], [Davis J.W., Bobick A.F.]) qui
reconnaissent diffrents mouvements l'aide de template spatio-temporels, une image binaire appele
Motion History Image (MHI) (cf. figure 52) et une image en niveaux de gris, Motion Energy
Image (MEI) (cf. figure 52) .
Une carte de mouvement est extraite chaque instant par suppression du fond. Le MHI mmorise chaque
pixel dtect en mouvement pour une dure infinie, tandis que le MEI donne un poids plus important aux
mouvements plus rcents. [Chomat O., Crowley J.L.] gnrent des templates grce un banc de filtres
spatio-temporels, mis en place via une analyse spatio-temporels en composantes principales (ACP). Mais les
templates sont dpendants du point de vue.
Par exemple moyenne rsolution, les images mouvement-histoire (MHI) enregistrent la segmentation et
l'information de mouvement temporel. Le MHI est une simple image compose d'une superpose d'images
d'une squence d'objets en mouvement segments et avec un poids voluant au cours du temps (couverture
spatiale et temporelle d'une activit). Les pixels de l'avant-plan les plus rcents se voient assigner une couleur
claire tandis que les pixels de l'avant-plan appartenant au pass sont progressivement assombris. Les MHI
n'utilisent pas de structure pour modliser le corps humain. Un vecteur de sept moments est calcul pour
81 sur 146
chaque MHI. Les activits sont reconnues en trouvant la meilleure correspondance entre le vecteur de
moments des MHI et les patterns entrans. Les images contenant l'historique du mouvement peuvent tre
utilises ou les CHMM pour suivre la tte et les deux mains. Ce sont des HMM coupls reprsentant les
interactions entre personnes. Un modle bton 2D reprsentant le torse, les bras et les jambes, ou bien un
modle 3D, peuvent galement tre utiliss.
(a) MHI pour une personne s'asseyant (b) MEI pour des mouvements varis
Figure 52 : Templates spatio-temporels de ([Davis J.W., Bobick A.F.], [Bobick A.F., Wilson A.D.]).
2.5.2 Basse rsolution
A basse rsolution, l'objectif du suivi de personnes est de dtecter la prsence, et d'identifier les mouvements
et les interactions de plusieurs personnes via le suivi de blobs . A basse rsolution, des systmes existent
avec ou sans modle du corps. Avec modle, le corps peut tre dcrit par des ellipses. Ceux, sans modle, ont
des primitives et l'algorithme PCA permet de rduire la dimension de l'espace des primitives. La classification
est faite base sur les k plus proches voisins, ou avec un HMM. Le systme VSAM suit le corps humain
comme un blob entier, sans mme savoir ce qu'il suit. Une soustraction du fond adaptative combine une
diffrence entre trois images permet de dtecter les objets en mouvement et le filtre de Kalman permet de
suivre les objets en mouvement au cours du temps. Un rseau de neurones est entran pour reconnatre quatre
classes: une personne seule, un groupe de personnes, des voitures, et la texture. Le systme VSAM est trs
efficace dans le suivi de personnes et de voitures, et dans la discrimination entre diffrents types de voitures
mais se limite la reconnaissance de la marche en ce qui concerne la reconnaissance des activits. Le systme
W
4
est ddi aux tches de surveillance extrieure et pour les situations d'clairage nocturne ou de faible
lumire, sur des images monoculaires en niveau de gris. Un modle de mouvement de second ordre incluant la
vitesse et l'acclration est utilis pour suivre le mouvement global du corps et le mouvement des divers
membres. Ce systme permet d'analyser et de reconnatre les activits humaines mais le modle cardboard
utilis pour prdire la posture et la position du corps est restreint la pose debout. [Paragios N., Deriche R.]
ont une approche par contours actifs godsique mais le suivi est limit l'information de contour, le suivi de
rgions pourrait tre ajout pour augmenter la robustesse. Le temps de calcul de cette mthode est trs long,
une approche multi-chelle lui est prfr pour le temps rel.
2.5.3 Analyse des trajectoires de vhicules
Un systme de vido surveillance pour le suivi de vhicule a t mis en place par l'analyse des trajectoires de
vhicules. Diffrentes camras sont dployes dans un parking afin d'augmenter la couverture. La trajectoire
d'une voiture est issue des rsultats de suivi de divers camras. L'algorithme de reconnaissance prend la
trajectoire en entre et est compos de deux tapes : transformer les donnes numriques de la trajectoire en
82 sur 146
une description smantique comme tourner , s'arrter , etc, et utiliser des SVM et HMM pour
reconnatre les patterns de mouvement. [Niu W., Jiao L., Han D., Wang Y.-F.] reprennent ces travaux pour
les appliquer au suivi de personnes.
2.5.4 Analyse des trajectoires de personnes
Quand les personnes sont loignes, on peut les dcrire par un blob . L'objectif est de les suivre mme en
prsence d'occultations, de bruit, de courtes priodes d'absence et d'apparition des silhouettes, de longues
priodes d'inactivits face une des camras. Pour la dtection et le suivi, une diffrence d'image est effectue
suivie d'une corrlation. Les comportements ont t tudis dans un parking, et les comportements suspicieux
sont distingus des comportements normaux. La reprsentation de la personne par un blob permet de
dcrire la trajectoire du blob par sa vitesse et sa position. La formulation est base sur un algorithme de
condensation, utilis ds lors que le bruit n'est pas gaussien et les tats ne sont pas unimodaux, donc le filtre de
Kalman est inadapt. C'est plus un estimateur baysien qui permet de suivre plusieurs hypothses qu'un
estimateur du maximum de vraisemblance (cas Kalman). Chaque blob est reprsent par un tat
comprenant la position, vitesse et acclration estims de la rgion en mouvement. La position du blob est
propage au cours du temps en utilisant la vitesse et acclration enregistrs dans le vecteur d'tat. La
prdiction est valide par rapport l'image observe (signatures au cours du temps de la couleur et texture).
Un SVM avec une fonction noyau gaussien est utilise pour l'entranement et la classification. Les taux de
reconnaissance sont meilleurs qu'avec un HMM ou CHMM. De plus la complexit de l'approche statistique
est plus faible que celle d'une approche structurelle qui en plus doit apprendre des modles de Markov. C'est
pourquoi une approche statistique est plus apte distinguer des comportements anormaux.
Dans un premier temps les objets sont dtects automatiquement (extraits par soustraction avec un modle de
fond adaptatif). Le systme de vido surveillance peut dtecter des objets en mouvement et les classifier en
catgories smantiques comme les voitures et les personnes. Le filtre de Kalman est utilis pour suivre
chacune des personnes. Plusieurs personnes peuvent entrer et sortir de la scne. Si des silhouettes sont
regroupes par erreur, le suivi est maintenu et corrig une fois que le groupe de personnes se spare. La
dtection d'objet dbute par une soustraction du fond de faon adaptative [Collins R., et al.a] en faisant
l'hypothse d'un fond statique. Un filtre de second ordre de Kalman (tats incluant position, vitesse et
acclration) est utilis pour modliser le mouvement de chacune des personnes de la scne. Un SVM
reconnat les primitives de mouvement. Ce systme peut suivre plusieurs personnes en temps rel. Des
occultations temporaires sont acceptes si la mme personne revient dans le champ de vue aprs une priode
de temps courte.
2.6 Suivi de trajectoires l'aide d'une gestion haut niveau
De plus en plus de systmes de vido surveillance disposent de camras en rseaux [Regazzoni C.S, Sacchi C.,
Gera G.], permettant le temps rel du fait de la distribution des traitements. Chaque camra donne lieu un
traitement local bas niveau et ce sont uniquement les informations haut niveau qui circulent d'une camra
l'autre. Dans une stratgie de perception active , les capteurs et les traitements sont activs leur tour en
fonction du contexte. La gestion des incertitudes lies aux dcisions haut niveau est donne par les notions de
possibilit/ncessit. La possibilit d'une hypothse correspond un degr de compatibilit et la mesure de
ncessit une notion de certitude de cette hypothse. Enfin, l'information tant parfois incomplte au
moment d'une prise de dcision, il est ncessaire de pouvoir revenir sur une dcision en tenant compte d'une
nouvelle information, c'est le rle de la fusion temporelle . L'approche perception active , associe la
gestion de l'incertain et la fusion temporelle correspond la gestion haut niveau du systme.
2.6.1 Applications
L'application consiste raliser un systme de surveillance pour la Dtection Automatique d'Incidents
(DAI) en environnement autoroutier. Les scnarios dangereux sont les arrts sur la voie d'urgence, les
accidents, les bouchons, les vhicules contresens et les vhicules lents. Dans ce genre d'environnement, il
faudrait un nombre beaucoup trop consquent de camras pour couvrir tout le territoire surveiller. Un
systme de suivi multi camras permet de rduire le nombre de camras tout en assurant la scurit de la
83 sur 146
zone.
La premire tape est la dtection du mouvement, sujette beaucoup d'imperfections. C'est la raison pour
laquelle des descripteurs robustes et complmentaires ont t choisis, des modles polydriques. Les vhicules
sont donc modliss par un paralllpipde. Quelques travaux existent dj [Koller D., Daniilidis K., Nagel
H.-H]. Une distance de Mahalanobis est mesure entre le modle et l'objet dtect, intgrant les imprcisions
de la mesure.
Une classification floue est labore afin de tenir compte des imprcisions des classes et aussi des mesures
issues des observations. Les classes sont construites par un expert partir des donnes contextuelles. Afin de
tester le comportement des associations sur des situations complexes, un simulateur de trafic a t dvelopp,
il gnre des donnes multi capteurs.
2.6.2 Dtection de mouvement avec une image de rfrence
[Motamed C.] a travaill sur la dtection du mouvement avec une seule camra fixe. Ce module a pour
objectif la dtection des zones en mouvement dans l'image. Un masque des objets mobiles est obtenu par
dtection de mouvement, afin de ne s'intresser qu'aux zones d'intrt de l'image. La mthode consiste
soustraire l'image courante une image de rfrence sans objet en mouvement. L'approche Markovienne a
t utilise pour la dtection de mouvement [Perez P.], considre alors comme un problme statistique
d'tiquetage en plusieurs classes de rgions. Mais les temps de calcul sont trop importants pour la vido
surveillance.
Cependant, la mise jour de cette image de rfrence est une tche difficile. Il s'agit d'une image de la scne
rcente sans aucun objet mobile. Une fois l'image de rfrence acquise la premire image et ractualise, la
dtection de mouvement a lieu via une mthode de gradient directionnel, peu sensible aux variations de
luminosit par rapport la diffrence d'image simple.
2.6.3 Phase de mise en correspondance et gestion d'un systme
distribu de suivi
Un systme de suivi de plusieurs objets simultanment doit maintenir les pistes des objets suivis, sans les
perdre ni les confondre. C'est la phase de mise en correspondance ou d'association . En prsence de
plusieurs camras, la mise en correspondance se situe non seulement au niveau des objets mais galement entre
chacune des vues issues de chaque camra pour un objet donn.
Les objets sont suivis partir de la dtection de leur mouvement (masque de dtection de l'objet). Le systme
de suivi doit pouvoir grer les occultations d'un objet par un autre, les crations de pistes des nouveaux
objets, le maintien des pistes des objets suivis, et la terminaison de pistes lorsque l'objet quitte la scne.
[Motamed C.] propose une stratgie de gestion haut niveau actif, dans le sens o il s'adapte en fonction
des situations prsentes dans la scne. C'est un systme d'interprtation haut niveau car un certain
nombre de situations sont reconnues par celui-ci et intgres de faon dynamique. Cette gestion haut
niveau est innovante par rapport des systmes existants [Kettnaker V., Zabih R.].
L'approche propose par [Motamed C.] est de type cooprative et qualitative. Ces techniques sont issues de
l'intelligence artificielle et usites en vision par ordinateur [Kholer Ch., Ottlik A., Nagel H.-H, Nebel B.].
[Kholer Ch., Ottlik A., Nagel H.-H, Nebel B.] interprte des scnes de trafic urbain avec l'quipe de Nagel. Un
raisonnement haut niveau et des informations qualitatives spatiales et temporelles permettent d'viter les
occultations entre vhicules et donc certaines situations incertaines, augmentant ainsi la robustesse du suivi de
vhicules. L'approche de [Motamed C.] est similaire celle de Nagel mais le modle de comportement des
objets de la scne est plus gnrique. La modlisation du comportement des objets de la scne a pour but de
guider le suivi, lui mme ayant pour objectif l'obtention des pistes des objets mobiles.
La gestion haut niveau du suivi est centralise par un superviseur, qui a accs une base de donnes
BDO (Base de Donnes Objet) et aux rsultats fournis par les modules bas niveaux spcialistes. La
BDO contient les pistes des objets suivis ou en cours de suivi, et un modle visuel de l'objet, comprenant
les dimensions de l'image et l'histogramme de la couleur de l'objet. L'objectif central du systme de suivi est le
maintien des pistes, en prenant en compte les occultations. Deux types de traitement sont appliqus, selon qu'il
84 sur 146
s'agisse de suivre des objets isols ou un groupe d'objets (les objets dont les rgions ont t fusionnes forment
un groupe). Le superviseur active, selon les cas, un des modules de maintien des pistes (par objet ou par
groupe) pour chaque objet suivi et gre les objets et les groupes par deux autres modules l'origine de la
cration, maintien et suppression de pistes des objets ou des groupes. Deux indicateurs, consistance et 'identit
attribuent une qualit au suivi. Le module de maintien des pistes des objets isols utilise une approche par
plus proche voisin NN (Nearest Neighbor). La ressemblance est estime par la distance entre descripteurs
visuels utiliss (ceux de l'objet et ceux d'une observation), dans ce cas l'histogramme de couleur de l'objet. Le
module de maintien des pistes en prsence de groupes estime la position de chaque objet au sein d'un groupe,
grce l'algorithme Mean-Shift, approche statistique non paramtrique pour la recherche de rgions
candidates partir de l'histogramme de couleur, utilis dans le suivi de rgions en temps rel. La distance entre
les histogrammes colors des rgions candidates et le modle de l'objet est donne par la distance de
Bhattacharya. Mais l'algorithme Mean-Shift est bas sur l'apparence et ne donne pas de bons rsultats dans le
cas des occultations. Un autre traitement, bas sur la notion de groupe, rassemble des objets isols en prsence
d'occultation, ceci par une approche haut niveau, limitant ainsi les inconvnients des approches apparence.
Cette approche a t valide pour la reconnaissance de comportements de pitons partir de leurs
trajectoires. Pour chaque comportement, les zones de la scne et les dures des enchanements entre les zones
sont modlises par des variables floues. La gestion de l'incertitude de la reconnaissance a utilis la thorie des
possibilits, pour grer les imprcisions spatio temporelles des trajectoires observes et choisir le
comportement le plus plausible partir du couple Ncessit/Possibilit.
Une extension multi-camras a vu le jour dans le cadre du projet rgional Gymnase Intelligent avec
Sportica 2000 (1999-2002) Gravelines et le dpartement Sciences et Techniques des Activits Physiques et
Sportiuves (STAPS) de l'Universit du Littoral, pour l'analyse de scnes de basket-ball. Diffrentes camras
ayant des points de vue complmentaires couvrent tout le terrain de jeu et l'objectif de ce systme
d'interprtation est d'analyser les dplacements des joueurs. L'objectif du suivi multi camras est de lever les
ambiguts lors des phases d'occultation, celles-ci n'apparaissant pas simultanment sur les diffrentes
camras. Chacune d'elles est slectionne de faon active.
L'interprtation multi camras possde deux niveau de suivi hirarchiques, un suivi bas niveau local associ
chaque camra, et un suivi haut niveau global qui regroupe les rsultats issus des diffrentes camras au
niveau local.
[Motamed C.] a donc propos une architecture globale pour le suivi d'objets partir de leurs rgions
(apparence) pour la vido surveillance. La gestion haut niveau permet de dpasser les ambiguts telles
que les occultations, gres par la notion de groupe. La configuration multi camras a pour objectif de
slectionner de faon active une des camras en fonction des situations d'occultation. C'est le systme
d'interprtation haut niveau qui a en charge le choix de la camra chaque instant.
Ce systme est constitu de camras loignes, leurs champs d'observation ne se recouvrent pas et ne couvrent
pas obligatoirement la scne en entier. L'objectif d'un tel systme est la r identification des objets entre les
camras. Ce problme est courant dans tous les sites de surveillance, gares, aroports, etc. Ces applications
ncessitant le temps rel, une architecture de type Vision Coopratuve Distribue [Motamed C., Wallart
O.] compos d'un groupe de capteurs intelligents et communicants.
La r identification est un problme de mise en correspondance entre une observation et un objet
pralablement observ. Un superviseur central rcupre les dcisions locales de suivi afin de coordonner
les camras dans une surveillance globale.
La mise en correspondance est effectue non pas de faon binaire mais floue. Les associations
observation/objet attendu sont parfois ambigus. Cette ambigut est traduite par un degr de confiance, issu
de la thorie des possibilits (le degr de possibilit d'une hypothse correspond un degr de confiance). Une
distribution de possibilit est partage entre tous les experts pour chaque observation et pour la camra
pointant l'observation. Chaque expert donne son avis sous forme de ncessit d'une association
(observation/objet) candidate (une hypothse) aprs avoir intgr les avis des autres experts. Si le degr de
ncessit est important, l'expert valide l'association, sinon il y a ambigut. Les experts haut niveau mettent en
place une fusion temporelle dans ce cas. Les arbres de type MHT (Multiple Hypothesis Testing) issus de la
85 sur 146
poursuite radar [D.B. Reid.] sont utiles dans le cas d'un trop grand nombre de donnes fusionner. Les
hypothses du MHT forment une configuration d'association entre les objets, et le MHT propage
rcursivement les hypothses (les branches de l'arbre). Le MHT est ainsi dvelopp dynamiquement en
fonction des observations. La fusion temporelle met en exergue les hypothses les plus fortes : chaque
nouvelle observation, la qualit des hypothses est estime par les degrs de ncessit de chaque hypothse de
l'arbre. La mesure de ncessit reprsente l'cart relatif entre la possibilit d'une hypothse vis--vis des autres
hypothses concurrentes gnres par l'arbre.
La plupart des travaux sur le suivi multi camras en vision par ordinateur prsentent des configurations avec
des capteurs ayant des champs en communs [Chang T.H., Gong S., Ong E.J.] et l'objectif est de ramener
toutes les informations dans un mme repre et de les fusionner, grce la redondance et la complmentarit
des informations.
[Kettnaker V., Zabih R.] a utilis des camras distantes, [Kettnaker V., Zabih R.] pour la surveillance des
btiments, travers une approche baysienne. L'approche de [Motamed C.] est aussi une stratgie base sur
l'approche baysienne, intgrant les connaissances a priori lies l'apparence des objets et leur
comportement dynamique, aidant aux dcisions de reconnaissance. La prsence de zones aveugles
importantes fournit des informations partielles et complmentaires, mais pas temporellement
redondantes sur un mme sujet. Dans les scnes de transport routier, le suivi est une tche difficile du fait de
nombreuses contraintes, des informations incompltes et incertaines. L'architecture dispose alors d'un
raisonnement distribu et temporel, et grant l'incertitude des dcisions. Diverses informations
contextuelles sont exploites, comme celle de la configuration de la scne avec la disposition des camras et
les zones aveugles, les informations de classes des objets mobiles et dynamiques (comportements
cinmatiques). Lors de la mise en correspondance, une gestion intelligente a t mise en place, permettant au
systme une focalisation gographique et temporelle. La focalisation gographique indique qu'un objet ne
peut emprunter qu'un nombre restreint de chemins possibles et donc seules certaines camras sont
slectionnes, celles correspondants aux lieux des objets attendus possibles. La focalisation temporelle
indique une fentre temporelle devant une camra donne, ainsi le nombre d'objets prvus chaque instant
pour apparatre devant une camra est gr de faon dynamique. L'architecture choisie est de type multi
agents base sur les socits d'experts [Matsuyama T.]. La communication entre experts est ralise par
envoi de messages. La tche de suivi d'objets par leur r identification est ralise de faon cooprative et
distribue. Pour chaque objet, un ensemble de chemins possibles est envisag et le systme vrifie les
hypothses. Il peut alors ce moment l dcider d'associer les objets.
La cration de nouveaux objets est prvue afin d'initialiser les pistes. Les nouveaux objets sont ceux trop
diffrents des objets attendus. La terminaison de pistes correspond aux objets attendus mais non dtects et
ceux qui terminent vraiment leur piste. La phase de maintien des pistes prend avantage de la fusion
temporelle dont le rle est de combiner des informations au cours du temps et d'amliorer ou de rendre une
dcision. Cette approche est initie par le contexte dynamique avec des informations volutives au cours du
temps de faon incrmentale. Ainsi les informations peu crdibles perdent en vracit en attendant des
informations complmentaires.
2.7 Suivi de pitons dans un rseau routier
Un piton est plus facile modliser qu'un humain, car seuls certains mouvements sont possibles dans la rue:
en position debout, un piton marche ou est stationnaire. Mais beaucoup de cas d'occultations sont
envisager, ainsi que les variations d'illuminations, et la prsence des ombres.
[Papageorgiou C., Oren M., Poggio T.] dtectent des pitons avec une mthode base de SVM (Support
Vector Machines). [Chen H.T., Lin H.H., Liu T.L.] font du suivi par mise en correspondance dynamique de
graphes. L'avant-plan est extrait du fond, et les pixels regroups en blobs . Chaque agent a un profil
enregistr en mmoire, et remis jour de faon dynamique. Les objets dtects dans chacune des images sont
mis en correspondance avec les profils enregistrs. S'il n'y a pas de correspondant, un nouveau profil est cre.
Chaque profil est dot d'un ge. Si un profil n'a pas de correspondant, son ge augmente. Le profil est
supprim s'il devient trop vieux. En revanche, son ge est rinitialis s'il est mis en correspondance avec un
objet dtect. Les relations entre les profils et les objets sont modlises par un graphe complet en deux parties
(bipartite) avec d'un ct, les profils, et de l'autre, les objets dtects. Le cot du graphe est la somme des
86 sur 146
fonctions de similarit entre profils et objets, appliques aux paires de profils et correspondants. [Viola P.,
Jones M., Snow D.] dtectent des objets par extraction de primitives dans une fentre glissante et comparaison
avec des primitives rfrence. Ils dtectent par la suite des pitons dans une squence vido avec une cascade
de classifieurs. [Heisele B., Whler C.] utilisent la priodicit de la marche pour dtecter des pitons, dans
une squence d'images acquise avec une camra en mouvement. Dans chaque image, un nombre dfini de
clusters color segmente l'image. Les clusters sont mis en correspondance d'une image la suivante, avec un
algorithme k-means . La taille du cluster varie priodiquement pendant la marche, mais le pied du piton
appartient au mme cluster. L'analyse de la priodicit des variations de taille des clusters permet d'identifier
les clusters contenant le pied du piton. Un rseau de neurones TDNN ( Time Delay Neural Network ) est
utilis pour augmenter les performances en reconnaissance.
2.7.1 Comportements multi agents
Pour dcrire des interactions entre plusieurs personnes, deux types de mthodes ont t examines [Pop I.]. La
premire est base sur les modles de Markov Cachs (HMM), et la seconde sur les rseaux baysiens
(propagation de croyance).
-L'avantage du HMM est la prsence de la notion temporelle, mais son inconvnient majeur est que les
valeurs sont numriques et le vecteur d'observation de taille fixe;
-Tandis que le rseau de croyance intgre des notions conceptuelles, mais pas le temps.
[Oliver N.M., Rosario B., Pentland A.P.] prsentent un modle driv des HMM pour l'analyse les interactions
entre deux agents. Les HMM chans ( Chained HMM , CHMM ) sont composs de deux chanes de
HMM, avec leurs observations et leurs tats. Un CHMM est diffrent d'un HMM classique : les probabilits
de transition sont estimes diffremment. Dans un CHMM, l'tat futur d'une chane de CHMM dpend non
seulement de l'tat courant de la chane, mais aussi de l'tat courant des autres chanes. Les primitives utilises
sont la distance entre agents ainsi que leur direction relative, leur vitesse, leur orientation, et leur position.
[Intille S.S., Bobick A.F., 01] analysent les interactions entre les joueurs (les agents ) pendant un match
de football Amricain et identifient les scnarios d'attaque et de dfense. Les informations sur les agents de
position les uns par rapport aux autres, ou par rapport un lieu, sont analyses, grce leur trajectoire et leur
position. Les informations sont soumises un rseau baysien afin d'estimer le rle d'un agent, frapper une
balle , course entre deux joueurs , etc. Un graphe sur la squence entire montre l'volution de la
probabilit des objectifs de chacun des agents. Les graphes sont compars par analyse temporelle, et une
relation temporelle est dfinie entre les objectifs des agents pour chacun d'eux.
Par la suite, un expert met en place des scnarios dans un rseau baysien multi agents. Dans ce rseau, toutes
les informations concernant les objectifs des agents sont prises en compte, ainsi que leurs relations
temporelles, permettant ainsi d'estimer une probabilit pour chaque scnario possible.
2.7.2 Description du scnario
Il s'agit d'une intersection entre une route 4 voies et une route deux voies l'universit de Karlsruhe (cf.
figure 53). Beaucoup de pitons traversent ces routes. Il y a un pont qui traverse la quatre voie o des pitons
peuvent traverser. Les images captures du pont ont assez de dtails pour identifier et suivre des pitons. La
scne est filme par plusieurs camras calibres (paramtres intrinsques et extrinsques). Les enregistrements
sont ainsi corrigs, et un modle de la scne est ncessaire pour prdire des ventuelles occultations des
agents (voiture et personne) par des lments statiques de la scne.
Le comportement des vhicules est simple compar au comportement humain. Une voiture peut aller tout
droit ou tourner, il s'agira donc de dterminer la route sur laquelle elle se trouve ainsi que le moment auquel
elle tourne. Le comportement des pitons est plus complexe car les pitons peuvent changer de direction tout
moment. Pour traverser une route, il faut dterminer les localisations de dbut et de fin de parcours.
Si dans un premier temps, le comportement du piton est analys comme un agent isol, dans un deuxime
87 sur 146
temps, les interactions entre les agents sont analyses sous la forme de relations cause/effet. Des patterns
d'interaction sont construits et les actions des diffrents agents sont compars ces patterns , par exemple
un piton attendant qu'une voiture passe. Les interactions entre les vhicules, entre vhicules et pitons et entre
pitons sont dtects.
Les applications sont diverses, citons l'automatisation des feux tricolores, la surveillance des parkings
gnrant un texte dcrivant le comportement des pitons et des vhicules, plus concis que l'enregistrement de la
squence entire.
Figure 53 : Un modle simple de l'intersection tudie. Les flches bleues indiquent la position des camras.
Les flches blanches sur le bitume tmoignent du sens de circulation des vhicules [Pop I.].
Les SGT [Arens M., Nagel H.-H.] sont des structures de graphes modlisant les comportements des
agents. Son unit de base est un schma de situation reprsentant l'tat et l'action d'un agent un instant
donn. Les situations sont regroupes en graphe. Les situations sont connectes par des liens de prdiction.
Dans un modle conduit par la localisation, on considre toutes les localisations possibles d'un piton et on
recherche sa trajectoire. Tous les chemins possibles sont structurs dans un SGT.
Dans un modle conduit par le comportement, les comportements des pitons sont considrs. La diffrence
avec le modle conduit par la localisation rside dans l'absence de la localisation dans les schmas de
situations.
Une liste de prdicats et de rgles d'infrence [Gerber R., Nagel H.-H.] interprtent la scne.
88 sur 146
L'architecture adopte fournit de bons rsultats pour dcrire le comportements des vhicules. Le propos de
cette tude [Pop I.] est d'adapter les programmes pour la reconnaissance et le suivi de pitons et pour gnrer
du texte dcrivant le comportement des pitons et leurs interactions avec les vhicules.
2.7.3 Model-Based Tracking in Image Sequences Motris
Motris ( Model-Based Tracking in Image Sequences ) constitue une des applications utilises pour obtenir
en langage naturel la description des comportements des pitons et de leurs interactions. Il s'agit d'un rseau
pour le suivi 2D/3D. Motris estime la position des acteurs dans la scne et fournit une liste de prdicats
exprimant la localisation de chacun des agents dans chaque image. Motris connat deux types de suivi, en 2D
ou en 3D. En 2D, aucune information dans la scne n'est utilise et le suivi a lieu par l'analyse de l'image, sans
connaissance explicite de l'environnement 3D. Les objets suivis sont modliss par des ellipses. En 3D, le suivi
ncessite les informations de calibration de la camra et un modle 3D de l'agent suivi.
2.7.4 Suivi des voitures et des pitons
Le but du prototype est de configurer le systme pour suivre des voitures et des pitons et pour dcrire leur
comportement. Les interactions ne sont pas prises en compte dans un premier temps.
Pour les vhicules, leur suivi est bas sur un modle de l'objet. Les problmes d'occultations ne sont pas
rsolus car le systme n'a aucune connaissance a priori de la scne. Si un agent se trouve en occultation, le
suivi a lieu grce la prdiction, sinon le suivi s'effectue par le calcul du flot optique. Les problmes
d'occultations sont rsolus avec un modle 3D des vhicules qui s'adapte au vhicule grce divers images de
diffrentes positions des agents (vhicule dans ce cas).
Pour les pitons, deux mthodes similaires de suivi en 2D ont t testes. Dans l'algorithme original, un agent
est initialis avec des composantes connectes. La position et la taille des agents est mise en correspondance de
faon itrative avec les composantes connectes associes. Dans la seconde mthode, qui est une version
amliore de la premire, il n'y a pas de suivi par composantes connectes. C'est la taille et la position des
agents qui sont mises en correspondance avec un ensemble de pixels d'avant-plan via l'algorithme EM. Dans
cette nouvelle approche, le suivi a bien lieu y compris en cas d'occultation partielle d'un agent.
Bien que les rsultats en suivi 3D sont meilleurs que ceux du suivi 2D, il subsiste encore des problmes,
comme la dtermination des objets en mouvements propre des pitons. L'algorithme d'analyse des
irrgularits de la trajectoire est utilis dans ce but. Pendant le suivi, la taille et la position de l'ellipse est
adapte la forme de l'agent suivi, du fait du changement de forme du piton au cours de la marche. La
variation de la taille du blob entourant le piton est fonction de la frquence de la marche et dtermine les
variations dans la trajectoire des pitons. La frquence des variations est utilise comme mcanisme de
classification des pitons.
2.7.5 Lien entre la localisation et les actions des pitons
Dans le cas du croisement de routes tudi ici, il existe une relation forte entre la localisation et les
actions des pitons. Le modle conduit par la localisation et le modle conduit par le comportement sont
quivalent. Le modle conduit par la localisation analyse les informations des pitons par les schmas de
situations spcialiss, tandis que le modle conduit par le comportement utilise des prdicats. Les coordonnes
sont ensuite transformes du 2D vers le 3D grce aux informations de calibration de la camra relative la
scne. La vitesse et la direction de l'agent sont calculs via la vitesse de l'ellipse dans l'image. Afin que le
systme puisse reconnatre un piton, un modle 3D est associ, ce modle est similaire celui des vhicules,
mais les dimensions sont ajustes de faon ce qu'il corresponde la taille des pitons. Ce systme est
gnratif tout type d'objet (vlos, etc.).
2.7.6 Modlisation des intractions entre les agents
Pour modliser les interactions entres les agents dans une scne, trois approches sont proposes, soit en
tendant la smantique du SGT, soit en ajoutant un module d'interaction bas sur le ODHMM, soit en utilisant
89 sur 146
les rsultats du SGT pour alimenter un rseau baysien.
-Dans la premire approche, il n'y a plus d'agent actifs, toutes les informations sont valables l'instant
courant au sujet de tous les agents, et elles sont toutes utilises pour valuer la prochaine situation;
-Dans l'approche par ODHMM, les interactions entre agents sont analyses par ODHMM, une extension es
HMM. Mais les ODHMM n'utilisent pas des informations conceptuelles drives des SGT, ils ncessitent des
informations numriques comme les HMM. Il est donc difficile de dtecter des comportements de haut niveau,
surtout si une connaissance de la scne est requise. L'ODHMM propos aurait trois noeuds, l'un pour deux
personnes s'approchant l'une de l'autre, l'autre pour deux personnes parlant, et le troisime pour les deux
personnes marchant ensemble. Les primitives sont bases sur la distance entre les deux agents et leur
orientation relative;
-La troisime approche propose ressemble aux travaux de [Intille S.S., Bobick A.F., 01]. La diffrence
essentielle est que [Intille S.S., Bobick A.F., 01] utilise des SGT pour dtecter la probabilit des buts
simples des agents. L'information au sujet des buts est rtro propage vers un rseau baysien multi
agent, qui va estimer la probabilit de chaque but interaction . Ce rseau baysien est gnr
dynamiquement, bas sur l'information des buts des agents et leur rle dans le temps. Un scnario est ainsi
dcrit comme un piton qui attend qu'une voiture ne passe pour traverser.
2.7.7 Modle propos
C'est la premire architecture qui est retenue, c'est une structure multi agent transversal. Il existe aussi
une version centralise, dans laquelle toutes les informations sont stockes dans une base de connaissance.
Le modle de comportement entre deux pitons peut tre plus prcis si on dispose de l'information de direction
du regard. Le principal avantage est qu'il est possible de diffrencier entre les pitons qui marchent ensemble
par hasard et ceux qui changent des informations et marchent ensemble intentionnellement. Le modle
d'interaction entre vhicules est plus complexe, l'information tant contenue uniquement dans leurs trajectoires.
Le suivi d'un groupe de personnes est plus dlicat, un groupe tant considr par le systme comme un agent
unique. Une faon de rsoudre ce problme serait de construire un modle 3D des pitons et d'utiliser le
suiveur 3D, bien que cette solution ralentirait considrablement le suivi. Un dtecteur d'acteur vivant
permettrait d'oublier les acteurs morts, ne se proccupant que des acteurs dans les zones d'entre et d'accs de
la scne. Finalement, le suivi dans Motris a lieu en 2D, fournissant de bons rsultats dans le cas de non
occultations par d'autres agents en mouvements.
Deux architectures ont t dfinies, une centralise et une distribue, mais aucune des ces deux
architectures ne rsout les cas d'interactions nombreuses. C'est le propos du SGT qui doit en limiter le nombre,
par le choix des conditions d'instantiations pour chaque SGT.
Le premier modle multi agent SGT a modlis les interactions entre les vhicules et les pitons au croisement
tudi [Pop I.]. Les rsultats de l'analyse de comportements sont converties en texte, qui reprsentent une
adaptation plus conviviale pour dlivrer les rsultats. Bien que le texte gnr contienne des informations au
sujet des interactions entre les agents, il ne s'agit pas d'une relle description des interactions.
[Pop I.] propose d'ajouter une mthode de classification des pitons, de faon individuelle, mme si le piton
appartient un groupe. Une composante base comportement doit tre rajoute au suiveur, ainsi qu'un
gnrateur de texte dcrivant les interactions entre les agents. Par la suite une architecture distribue
permettrait d'augmenter la vitesse des traitements. Un exemple de rsultat est donn dans la figure 54.
90 sur 146
Figure 54 : La trajectoire d'un piton traversant l'intersection [Pop I.] .
2.8 Le suivi des trajectoires des tches de couleur
La mthode de [Megret R.] est base sur le suivi des trajectoires des tches de couleur, extraites sous la
forme de blobs gaussiens et laplaciens. Les pixels l'intrieur d'une tche de couleur sont regroups du fait
qu'ils prsentent des caractristiques colorimtriques, texturales et spatiales similaires.
PFINDER [Wren C.R., et al.] prsente une approche paramtrique puisque les tches sont modlises dans
l'espace des caractristiques par des densits gaussiennes paramtrises par leur centre et leurs matrices de
covariances dterminer.
[Comaniciu D., Meer P.] prsentent une approche non paramtrique de la distribution spatiale et
colorimtrique des tches de couleur, via l'estimation empirique des modes des distributions (cf. figure 55).
Chacun des modes correspond une classe de points regroupant un ensemble de pixels proches spatialement et
spectralement. La distribution spatiale et spectrale est obtenue par l'estimateur de la fentre de Parzen. Cette
mthode de classification, par recherche de modes base sur le Mean-Shift , permet d'associer chaque point
un mode sans estimer explicitement la fonction de densit.
Figure 55 : Rsultats de suivi par l'algorithme de Mean-Shift [Comaniciu D., Meer P.] .
Une analyse multi-chelle est utile pour extraire des structures prsentes divers chelles sous une forme
hirarchique, et les liens entre les chelles.
91 sur 146
Le suivi temporel cherche effectuer une mise en correspondance entre les primitives spatiales, points,
segments et rgions. En ce qui concerne les points, l'estimation de trajectoire associe une trajectoire chaque
point. [Allmen M., Dyer C. R.] calculent des courbes de flot spatio-temporel ( spatio-temporal flow curves )
par intgration du flot de mouvement local dans le temps. Un champ de mouvement local est estim pour
chaque paire d'images et chaque point est associ une trajectoire. Le suivi des points d'intrt uniquement
est une mthode plus couramment usite, permettant de s'abstenir d'accumuler des erreurs sur tous les points
de l'image. Les points d'intrts sont dtects chaque image et mis en correspondance de faon temporelle.
Pour limiter les correspondance, l'hypothse est faite d'une invariance temporelle des caractristiques et d'une
continuit temporelle du mouvement. Dans le cas du suivi de personnes, il n'y a pas d'objet d'intrt, il faut
considrer l'ensemble des primitives de l'image par l'invariance des caractristiques visuelles et la rgularit du
mouvement. Les points de Harris [Harris C., Stephens M.] sont des points d'intrt qui ont t utiliss au sein
du laboratoire LIRIS INSA Lyon, mais ils ont montr leur faiblesse au niveau de la non homognit de la
rpartition des points puisque la majeure partie des points se trouvent dans les zones de forte variance. Les
blobs de leur ct, prsentent une distribution plus rgulire et dtectent des zones contrastes comme les
yeux.
Pour suivre les blobs , [Megret R.] a utilis la mthode de suivi des points d'intrt multi hypothses
prsente dans [Cox I.J, Hingorani S.L.]. Des arbres d'hypothses d'appariement sont construit entre les
images qui se suivent. Les hypothses qui prsentent un conflit sont limines, permettant ainsi d'laguer
l'arbre. Les initialisations et terminaisons de trajectoires, et les disparitions accidentelles temporaires de
primitives sont traites dans cet arbre d'hypothses. La trajectoire est considre comme termine lorsque
les primitives ont disparu suffisamment longtemps, et considre comme nouvelle si les primitives
rapparaissent, vitant ainsi des erreurs d'appariement entre des primitives issues d'objets diffrents.
Les trajectoires doivent tre regroupes afin de dcrire le mouvement d'ensemble d'un objet (cf. figure
56).
Figure 56 : Suivi sur une longue squence Mandela et reprsentation des trajectoires [Megret R.].
Le regroupement de trajectoires a pour objectif soit de caractriser une trajectoire, soit de segmenter le
mouvement. En caractrisation de mouvement, les trajectoires ainsi obtenues correspondent des types de
92 sur 146
mouvement, caractristique de situations ou comportements. En segmentation par le mouvement, il s'agit de
regrouper un ensemble de trajectoires de mouvement similaire, afin de segmenter un objet en mouvement par
rapport au reste de la scne fixe. Dans la seconde catgorie, segmentation par le mouvement, [Megret R.]
s'intresse la segmentation par classification.
2.8.1 Segmentation du bloc spatio-temporel
L'ensemble des pixels d'une squence, constituant la base de l'analyse de celle-ci, est regroup en un bloc
spatio-temporel. Les approches de segmentation du bloc se scindent en deux catgories : celles a priorit
spatiale ralisent la segmentation dans l'image et recherchent par la suite la cohrence temporelle, tandis que
celles du domaine la fois spatiale et temporel intgrent les liens temporels en mme temps que la
segmentation. Dans les approches de segmentation spatiale, les liens temporels entre images sont estims via
une segmentation spatiale existante. Il existe deux familles de segmentation spatiale : par le mouvement ou par
les caractristiques statistiques telles que la couleur ou la texture. Parmi les techniques de segmentation
spatiale par le mouvement, coexistent celles bases sur la similarit de mouvement, et les autres sur
l'estimation de modles. Les premires, par la similarit de mouvement, font appel au mouvement estim
localement et aux caractristiques de mouvement associes chaque pixel ou rgion. Par estimation de
modle, les paramtres du mouvement sont estims sur des groupes d'lments. Ces deux mthodes sont bases
sur un modle de mouvement, implicite pour la premire (critre de rgularit spatiale du mouvement), et
explicite pour la seconde, et paramtrique.
[Gelgon M.] calcule les paramtres de mouvement sur chaque rgion individuelle. Pour chaque paire de rgion
voisine, la diffrence moyenne est value entre les prdictions du champ de mouvement issues des paramtres
de mouvement respectifs. Ces diffrences sont utiles pour la segmentation probabiliste par champ de Markov,
car elles avantagent ou au contraire dsavantagent l'tiquetage identique des rgions voisines.
2.8.2 Cohrence temporelle
La segmentation d'une image, au sens du mouvement, de la couleur ou de la texture est spatiale. Elle doit se
doter de liens temporels entre les images pour tre une structure spatio-temporelle. Ces liens sont la cohrence
temporelle des segmentations successives.
2.8.3 Mise en correspondance
Chaque rgion est relie la rgion de l'image suivante de meilleure similarit.
2.8.4 Hirarchies de segmentation
Une fois les rgions segmentes et mise en correspondance par des liens 1-1, association de chacune des
rgions maximum une rgion correspondante temporellement, [Gomila C.] utilise des hirarchies de
segmentation couleur.
2.8.5 Extension de l'horizon temporel
La cohrence temporelle (par exemple l'invariance de l'apparence) peut tre plus contrainte avec un horizon
temporel plus large.
2.8.6 Segmentation dans le domaine joint spatio-temporel
Les approches pour l'extraction de structures spatio-temporelles de la vido, sont constitues de deux sortes :
par similarit ou spatio-temporelle. Les mthodes par similarit cherchent des classes cohrentes dans le bloc
spatio-temporel, tandis que les mthodes spatio-temporelles ont un modle global pour tout le bloc.
2.8.7 Segmentation de graphes
Les mthodes base de graphe dtectent des similarits entre les pixels du bloc spatio-temporel. Chaque noeud
93 sur 146
est associ un pixel du bloc, chaque arte est pondre par la similarit entre les noeuds. Les artes
connectent les pixels spatialement et temporellement, d'o la dnomination de segmentation spatiale et
temporelle jointe.
Les mthodes par graphe sont bass sur les relations binaires entre noeuds, localement, tandis que la mthode
par modlisation paramtrique traite le problme globalement.
2.8.8 Modlisation paramtrique du bloc vido
On tend sur une priode temporelle, la reprsentation d'une image par un mlange de gaussiennes. La
modlisation de la scne tendue au bloc vido, associe une classe par rgion de couleur homogne. Elle se
dplace dans le temps vitesse constante. Nous obtenons une segmentation spatio temporelle avec un modle
de gaussiennes. Si la tche de couleur se dplace devant la face, nous voyons apparatre un cylindre gnralis,
dont la forme (la gnratrice) parcourt le temps en suivant un axe spatio-temporel (la directrice).
Un tube de couleur spatio-temporel est dfini par un ensemble de pixels de couleur voisine, et situs dans le
bloc vido autour d'une directrice droite (cf. figure 57). Il est semblable la tche de couleur, ensemble de
pixels de couleur similaire au voisinage spatial d'un point central, mais avec une translation vitesse
constante, rgissant un dplacement de la tche au cours du temps.
Figure 57 : Exemple de tube dtect dans un bloc vido. A gauche, un bloc vido vu sous la forme d'un
empilement d'images. A droite, mise en vidence d'un tube particulier dans ce bloc [Megret R.].
2.8.9 Classification
Le vecteur de caractristiques est associ un vecteur de sept caractristiques : trois pour la couleur, deux
pour la direction et deux de position spatio-temporelle. La classification dans l'espace des caractristiques est
non paramtrique et hirarchique. Lorsque deux centres de deux clusters diffrents sont trs proches, ils
sont regroups hirarchiquement : un nouveau noeud est cre, dont les fils sont les noeuds associs aux centres
proches. Cette mthode s'applique l'ensemble l'ensemble des pixels du bloc vido. Les regroupements
hirarchiques sont spatio-temporels.
2.8.10 Comparaison avec les autres mthodes
2.8.10.1 Segmentation de graphes
Par rapport la segmentation de graphes, dans [Megret R.] les pixels lointains temporellement peuvent tre
regroups dans le mme tube spatio-temporel de pixels, pour peu qu'ils aient des caractristiques communes.
Dans la segmentation de graphes, des pixels loigns spatio-temporellement ont des liens moins forts,
avantageant ainsi la localit spatiale des regroupements, y compris dans le cas de pixels de caractristiques
distincts.
2.8.10.2 Mlange de gaussiennes
La mthode de [Megret R.] ncessite l'estimation du flot optique, mais n'a pas besoin d'initialisation. Le
94 sur 146
nombre de classes n'est pas fix a priori, on peut obtenir plusieurs classifications de niveaux de dtails
diffrents.
2.8.10.3 Rseau spatio-temporel de primitives
Pour avoir une reprsentation plus complte de la squence que le tube spatio temporel, il est ncessaire de
prendre en compte les relations entre les primitives, ce qui conduit une structure spatio temporelle.
2.8.10.4 Structures spatio-temporelles par regroupement
[Megret R.] dfinit la structure spatio-temporelle base par le regroupement. Celui-ci peut avoir lieu
spatialement par similarit des caractristiques visuelles statiques (couleur, texture), spatialement par
cohrence du mouvement, ou par continuit temporelle.
Les structures spatio-temporelles sont un regroupement rcursif de pixels du bloc vido. Les relations
spatio-temporelles la base des regroupements de structures sont dcomposes en un aspect temporel, la
projection temporelle, et un aspect spatial, la relation synchrone.
Deux niveaux de dtails dterminent les regroupements :
-Le premier niveau de dtail se dcompose en similarit de couleur ou de texture, similarit de mouvement, et
continuit temporelle;
-Le second niveau de dtail possde trois critres pour les regroupements : la similarit de couleur/texture, la
similarit de mouvement, la proximit spatiale.
L'approche de [Megret R.] de la segmentation de trajectoires par le mouvement est base sur des relations
synchrones entre les trajectoires, permettant de comparer aussi bien des couleurs dans une image, que de
mesurer la similarit du mouvement entre deux structures sur un intervalle temporel tendu.
2.9 Suivi bas sur l'apparence avec un rseau de camras disjointes
[Madden C., Dahai Cheng E., Piccardi M.] ont propos une mthode de suivi de personnes travers un
rseau de camras de surveillance disjointes bas sur la reprsentation de l'apparence invariante la
luminosit ([Huang T., Russell S.J.],[J. Orwell, P. Remagnino, G.A. Jones], [Chang T.H., Gong S.], [Javed
O., Rasheed Z., Shafique K., Shah M.], [Javed O., Shafique K., Shah M.], [Piccardi M., Cheng E.D.]).
Si les camras ou les individus sont disjoints en temps et en espace, la cohrence n'est pas maintenue. Dans la
plupart des systmes, les vues sont disjointes car pour un oprateur humain, il n'est pas ncessaire de voir
continuement une personne pour la suivre. Si des systmes automatiques peuvent suivre des personnes
travers des vues disjointes, alors la vido surveillance devient possible.
[Madden C., Dahai Cheng E., Piccardi M.] mettent en correspondance des individus partir de camras
disjointes dans des scnarios de vido surveillance typique. L'approche simplifie consiste segmenter et
suivre chaque personne dans une seule camra et l'information pertinente (masque de l'objet et valeurs
des pixels dans chaque image) est stocke dans un enregistrement (une trace). Le but est alors de trouver
des correspondances entre les traces.
Le suivi de personnes pendant qu'elles bougent, au travers de vues disjointes, est un problme difficile puisque
leur apparence varie significativement d'une vue l'autre cause des variations des conditions lumineuses.
Les changements dans l'apparence sont ds aux variations d'illuminations et la gomtrie dformable des
personnes. ([Javed O., Rasheed Z., Shafique K., Shah M.], [Javed O., Shafique K., Shah M.]) proposent un
algorithme pour compenser les diverses conditions d'illuminations en estimant la fonction de transfert
d'intensit entre chaque paire de camra pendant une phase d'entranement initiale.
[Madden C., Dahai Cheng E., Piccardi M.] proposent une approche base sur la reprsentation de
l'apparence et une transformation de l'intensit adaptative aux donnes, pouvant tolrer des variations
95 sur 146
d'illuminations arrivant dans des scnes typiques de surveillance.
Une reprsentation par l'apparence invariante l'illumination, base sur un algorithme de clustering
couleur k-means capable de traiter les faibles changements de pose d'une personne en mouvement, donne
lieu un ensemble de couleurs clustrises, le Major Colour Spectrum Histogram
Representation (MCSHR) dcrivant les principales couleurs de l'objet. Une reprsentation de l'apparence
ainsi dfinie sera utilise pour chacun des objets segments dans l'image. Une mesure de similarit compare
les reprsentations par apparence entre deux individus afin de quantifier la similarit globale entre deux
MCSHR. Pour augmenter la validit de la mise en correspondance, l'intgration des dcisions de mise en
correspondance est calcule tout au long du suivi, le long des traces individuelles.
[Yu Y., Harwood D.] prsentent un modle d'apparence tablissant la correspondance de personnes entre les
images successives. Dans les mtro, un ensemble de camras observent les activits humaines dcales en
espace et temps. Il faut donc tablir des correspondances entre les observations des personnes qui
disparaissent et apparaissent selon les camras. En supposant que l'apparence d'une personne ne change
pas d'un point de vue l'autre, les primitives d'apparence peuvent donc tre utilises pour mettre en
correspondance les images. Cette mise en correspondance doit s'accommoder des variations
d'illuminations, de postures et de changements de vues et le critre de mise en correspondance doit reflter
les relles diffrences entre les observations (cf. figure 58).
Figure 58 : L'image de log-vraisemblance (c) reflte la diffrence dans
l'apparence locale entre l'image test (a) et l'image modle (b). Un pixel brillant
indique un ratio de la log-vraisemblance lev [Yu Y., Harwood D.].
Un modle d'apparence est construit par l'estimation d'un noyau de densit, bas sur les primitives statistiques
spatiales et colores. Pour prsenter l'information d'une squence vido dans laquelle la posture et la vue des
personnes peuvent changer, des images cls sont choisies dans la squence et une mesure de similarit entre
squences est calcule par la distance entre images cls. Les rsultats montrent une invariance en illumination,
insensible la posture de la marche, ce qui est important pour un modle d'apparence discriminante.
Le plus connu des modles d'apparence est l'histogramme de couleur ([Comaniciu D., Ramesh V., Meer P.],
[Fieguth P., Terzopoulos D.]) mais bien que robuste aux dformations non rigides, il ne contient aucune
information gomtrique, donc il ne peut discriminer des apparences possdant la mme distribution colore
mais diffrentes dans la structure des couleurs. Par exemple, une personne portant une chemise bleue et un
pantalon marron ne sera pas diffrencie d'une autre personne portant une chemise marron et un pantalon bleu.
Pour intgrer l'information de structure, [Elgammal A., Duraiswami R., Davis L.S.] propose un espace
contenant la fois les valeurs des primitives et la position spatiale des primitives. Mais cette approche pouvant
diffrencier les structures est sensible la pose. Par exemple, une personne qui marche avec le pied gauche au
sol et le pied droit en l'air sera diffrente d'une personne qui marche avec le pied droit au sol et le pied gauche
en l'air. Donc les primitives d'apparence invariantes la pose sont prfres. Si une transforme gomtrique
[Li J.,Chellappa R.] est applique aux diffrents membres du corps humain, alors un modle d'apparence
invariant la posture est obtenue. [Shan Y., Sawhney H., Pope A.] utilisent des histogrammes de la forme pour
construire et mettre en correspondance des vhicules des squences images.
96 sur 146
D'autres modles d'apparence ont t proposs pour la reconnaissance de visages et la mise en
correspondance de vhicules. [Shan Y., Sawhney H., Kumar R.] proposent d'aligner les contours des
vhicules et d'utiliser les primitives d'alignement pour mettre en correspondance les vhicules. Il serait
intressant d'appliquer cela l'apparence humaine puisque les plis des vtements donnent lieu des
contours.
[Yu Y., Harwood D.] proposent une soustraction de fond [Elgammal A., Duraiswami R., Harwood D., Davis
L.S.] segmentant les personnes en mouvement, et des oprations morphologiques de fermeture et d'analyse en
composantes connectes permettent d'obtenir la silhouette de la personne. En supposant que l'apparence
actuelle d'une personne change peu entre les observations, les primitives d'apparence idales doivent
diffrencier diffrentes apparences et tolrer des changements comme le mouvement ou l'illumination. Une fois
les traces des personnes gnres, la mise en correspondance de modles d'apparence est base sur une trace.
La similarit entre la distribution d'une image test et la distribution d'un modle d'apparence est value par la
distance de Kullback-Leiber.
Quand une personne marche, ses mains peuvent, en bougeant, cacher le torse. De plus une personne peut faire
demi tour et de nouvelles primitives apparaissent. Une solution consiste utiliser toutes les images de la
squence et une mise en correspondance image par image sur la squence entire. Cependant, ceci demande
beaucoup de stockage et ne prend pas avantage de la redondance entre les images. Il est alors judicieux de
slectionner des images cls contenant toutes les informations de la squence.
2.10 Panoramic Appearance Maps
[Gandhi T., Trivedi M.M.] prsentent le concept de Panoramic Appearance Maps (PAM) pour la
ridentification des personnes dans un rseau multi camra. Leur groupe de recherche au Computer Vision
and Robotics Research Laboratory (CVRR) l'universit de California San Diego effectue des recherches
au sujet des distributed interactive video array (DIVA) systmes. La soustraction de fond permet de
dtecter des personnes dans chaque camra. La correspondance est tablie entre les personnes dtectes. Une
nouvelle approche d'analyse des gestes avec des Shape Context 3D, un histogramme multi couche
cylindrique bas sur la voxelisation du corps humain, est dcrite dans [Huang K.S., Trivedi M.M.]. Le concept
de PAM complmentaire des 3D Shape Context , puisque ce dernier est bas sur l'information
volumtrique, tandis que le premier est bas sur l'information d'apparence de surface.
Chaque personne est suivie dans plusieurs camras et la position du sol est dtermine par triangulation. En
utilisant la gomtrie de la camra et la localisation de la personne, une carte panoramique centre sur la
personne est cre. L'axe horizontal de la carte reprsente l'angle azimuth par rapport au systme de
coordonnes du monde, et l'axe vertical reprsente la hauteur de l'objet au dessus du sol. Le PAM combine les
informations issues de toutes les camras (la distribution colore diffrentes hauteurs au dessus du niveau du
sol et diffrentes azimuth autour de la personne), formant ainsi une seule signature du corps de la personne,
qui sera utiliser pour la r identification. L'information colore est utilise comme primitive d'apparence pour
la comparaison. Chaque pixel de la carte possde une information colore des camras qui l'observent. Mais
d'autres informations d'apparence comme la texture peut aussi tre intgr. La carte gnre de deux
vnements diffrents peut tre compare pour trouver les mises en correspondance potentielles. Une mesure
de la distance euclidienne pondre est propose pour la comparaison des cartes entre les divers suivis,
slectionnant la meilleure mise en correspondance. L'intgration temporel amliore la mise en correspondance.
Les personnes sont correctement r identifies en comparant leurs cartes d'apparence.
97 sur 146
Chapitre 4 Suivi dans un rseau de camras
98 sur 146
1 Introduction sur le suivi dans un rseau de camras
La surveillance visuelle est devenue un domaine de recherche active dans les annes rcentes ([Hu W., Tan T.,
Wang L., Maybank S.], [Valera M., Velastin S.]). Le systme PRISMATICA [Velastin S., Boghossian B., Lo
B., Sun J., Vicencio-Silva M.] dvelopp par la fondation EU traite de la scurit dans les transports publics.
[Remagnino P., Shihab A., Jones G.] ont introduit le concept des agents intelligents , modules autonomes
regroupant des informations de plusieurs camras et construisant le modle de la scne de faon incrmentale.
Des camras multiples avec des champs de vue se recouvrant offrent une couverture de la scne plus
importante, fournissant une information 3D plus riche et autorisant des occultations, des estimes exactes de la
position du sol et des hauteurs des personnes, et l'observation des primitives de plusieurs perspectives. D'un
autre ct, les camras ayant des vues qui ne se recouvrent pas peuvent fournir une couverture d'une
grande zone sans perdre en rsolution. Un des problmes de ces applications est de r identifier les objets
qui sont sortis du champ d'une camra et entrent de nouveau, soit dans le champ de la mme camra, soit dans
le champ d'une autre camra. Ce problme est souvent difficile puisqu'un objet peut avoir un certain nombre
de correspondants et il n'est pas toujours possible de diffrencier les correspondants. Dans ce cas, il est
prfrable d'identifier tous les correspondants possibles avec des primitives au niveau bas comme la couleur, la
texture, et les transitions temporelles entre les camras afin d'laguer la recherche.
Les travaux initiaux sur la r identification furent initis par les applications de trafic routier o les
vhicules sont rigides, ont des couleurs uniformes et sont situs sur des chemins bien dfinis. [Trivedi M.M.,
Gandhi T., Huang K.S.] dcrivent les mises en correspondance de vhicules avec des primitives de couleur et
taille. Le suivi de personnes et la r identification sont souvent plus complexes car les personnes sont
articules, se meuvent de faon arbitraire et souvent sont vtues avec des couleurs diffrentes. [Kettnaker V.,
Zabih R.] proposent d'utiliser la similarit des vues de personnes, et la plausibilit de transition d'une camra
la suivante dans un rseau baysien. [Javed O., Rasheed Z., Shafique K., Shah M.] utilisent de multiples
primitives bases sur l'espace-temps (localisations des entres/sorties, vitesse, temps de voyage) et
l'apparence (histogramme color) dans un rseau probabiliste pour identifier les meilleures mises en
correspondances. [A. Mittal, L. Davis] proposent un systme de suivi de personnes multi-camera appel
M2-tracker . Ils dveloppent un algorithme stro bas rgion qui trouve la position 3D grce la
connaissance des rgions appartenant l'objet dans les deux vues. [Chang T.H., Gong S.] dveloppent un
rseau baysien pour fusionner les informations de diffrentes camras pour le suivi de personnes. Ils
maintiennent les identits des objets pendant les occultations temporaires grce la forme et l'apparence des
modles de personnes. [Wu T., Matsuyama T.], grce de multiples camras, obtiennent une reconstruction de
la forme base sur les voxels en temps rel. Voyons prsent l'analogie entre le suivi d'une personne dans un
rseau de camras et le suivi des membres d'une personne avec une seule ou deux camras. A cette fin, nous
prsentons le suivi du haut du corps travers un rseau baysien.
2 Suivi du haut du corps avec des filtres particules travers
un rseau baysien
L'estimation de la posture d'un modle articul et son suivi est un problme complexe, que ce soit en
mono, stro ou plusieurs camras, et aussi cause de l'aspect temps rel.
Les algorithmes pour le suivi du corps doivent traiter avec un espace de haute dimension dans lequel la
probabilit jointe est hautement multidimensionnelle.
Dans ce contexte, les mthodes peuvent tre classes entre :
-les approches dterministes ([Bregler C., Malik J.], [Plnkers R., Fua P. 03]);
- les approches stochastiques [[Demirdjian D., Taycher L., Shakhnarovich G., Grauman K., Darrell T.],
[Jiang Gao and Jianbo Shi], [Sminchisescu C., Triggs B. 01]), la dernire tant plus robuste.
99 sur 146
Les mthodes dterministes peuvent suivre en temps rel avec des camras vidos [Demirdjian D., Ko T.,
Darrell T.], mais chouent dans le contexte monoculaire cause des optimums locaux conduisant des
ambiguts pour des mouvements rapides ou des occultations [Demirdjian D., Taycher L., Shakhnarovich G.,
Grauman K., Darrell T.]. La propagation de croyances fournit un cadre judicieux pour rduire la dimension de
l'espace des hypothses gnres, rendant le filtre particules appropri.
Les algorithmes stochastiques sont utiles en vision monoculaire pour rsoudre les ambiguts rsultant de
l'infrence de la posture en 2D ou en 3D, en particulier quand un filtre particules [Andrew Blake and
Michael Isard.] plusieurs hypothses est utilis. [Sigal L., Bhatia S., Roth S., Black M.J., Isard M.]
proposent un modle graphique pour estimer la posture du haut du corps partir de plusieurs images via une
propagation de croyances non paramtriques. Mais la grande dimension de l'espace des paramtres interdit le
temps rel de toutes ces techniques, surtout celles statistiques.
2.1 Les modles de graphes
Les techniques probabilistes ont rencontr beaucoup de succs en vision par ordinateur, tant au niveau des
modles image bass sur les pixels [Jojic N., Petrovic N., Frey B.J., Huang T.S.], au suivi dans les espaces
paramtriques haut niveau [Isard M., Blake A., 98] mais lorsque la taille de l'espace augmente, il est
ncessaire de dcomposer le problme en un modle graphique structur [Jordan M.I., Sejnowski T.J.,
Poggio T.]. Les composantes de base sont des noeuds d'un graphe o chacun des noeud est
conditionnellement indpendant de tous sauf des voisins adjacents.
Lorsque les noeuds sont des lments image, les voisins peuvent tre :
-proches spatialement dans l'image;
-des niveaux adjacents dans une reprsentation multi chelle;
-des instants proches dans une squence.
Des objets complexes peuvent tre dcomposs en graphes o les noeuds sont des sous parties de l'objet et un
lien indique les deux parties connectes. Cette reprsentation permet une infrence computationnelle linaire
et non exponentielle par rapport la taille du graphe. L'infrence exacte sur des modles de graphes est
possible dans des circonstances prcises. Dans les autres conditions, l'chantillonneur de Gibbs est utilis
pour gnrer des chantillons approximatifs issus de la distribution jointe [Geman S., Geman D.], mais pour
la plupart des applications en vision par ordinateur cette technique n'est pas possible.
Des mthodes d'infrence approche peuvent tre utilises pour les modles gaussiens linaires conditionnels.
Deux mthodes rcentes permettent d'approcher l'infrence sur des graphes plus gnralistes:
-Les propagations de croyance en boucles ( Loopy Belief Propagation LBP [Yedidia J.S., Freeman W.T.,
Weiss Y.]) applicables aux graphes avec cycles;
-Les filtres particules [Doucet A., De Freitas N., Gordon N.] autorisant l'utilisation de distributions plus
gnrales sur des variables alatoires valeur continues mais appliques seulement sur des graphes avec une
simple structure en chane linaire. La restriction aux variables caches gaussienne est trs onreuse, ce qui a
rendu le filtre particule trs populaire.
A partir des ides des filtres particules et de la propagation de croyance ( belief propagation BP),
[Sudderth E. B., Ihler A. T., Freeman W. T., Willsky A. S.] ont dvelopp une propagation de croyances non
paramtrique ( Nonparametric Belief Propagation NBP) applicable aux graphes. Le NBP est appliqu
l'infrence de relations entre les composantes d'un modle de visages compos de primitives le dcrivant. Bien
que l'infrence exacte dans un graphe discret gnral est trop complexe, l'infrence approximative comme la
propagation de croyances en boucle BP produit de bons rsultats dans beaucoup de cas. Pour les problmes
d'infrence temporelle, les filtres particules [Isard M., Blake A., 96] ont montr leur efficacit et constituent
une alternative la discrtisation (pour approcher des modles graphiques valeurs continues). Ils
constituent la base de bon nombres d'algorithmes de suivi [Sidenbladh H., Black M.].
Le filtre particule approche les densits conditionnelles non paramtriques par une collection d'lments
reprsentatifs. Bien qu'il soit possible de mettre jour ces approches de faon dterministe par une
100 sur 146
linarisation locale, la plupart des implmentations utilisent des mthodes de Monte Carlo pour la remise
jour stochastique des chantillons pondrs. Les filtres particules sont trs efficaces, ils sont spcialiss
dans les problmes temporels dont les correspondants en graphes sont les chanes de Markov (cf. figure 59 ).
Figure 59 : Les filtres particules font l'hypothse que les variables vrifie l'hypothse de
Markov. L'algorithme NBP tend la technique du filtre particule aux modles graphiques
structurs arbitraires [Sudderth E. B., Ihler A. T., Freeman W. T., Willsky A. S.].
L'algorithme Non Parametric Belief Propagation NBP est diffrent de l'algorithme BP pour deux
raisons :
-En premier lieu, pour les graphes avec des cycles, on ne forme pas des arbres de jonction mais on itre la
remise jour locale de messages jusqu' convergence dans un BP boucl. Ceci permet de rduire la dimension
de l'espace dans lequel les distributions sont infres;
-Deuximement, un algorithme de remise jour de messages, adapt aux graphes contenant des potentiels non
gaussiens et continus, est fourni. Les messages produits peuvent tre calculs en utilisant un chantillonnage
de Gibbs local.
Les modles graphiques associent chacun des noeuds une variable alatoire cache non observe, et une
observation locale du bruit. Pour les graphes acycliques ou en structure d'arbres, la distribution conditionnelle
souhaite peut tre calcule directement par propagation de messages de faon locale, la propagation de
croyances BP. Pour les modles graphiques avec des variables caches continues, une valuation analytique de
l'intgrale de remise jour est souvent impossible et donc on reprsente les messages non paramtriques par
une densit noyau estime.
La remise jour de BP se dcompose en deux tapes. Les produits de messages combinent les informations
des membres voisins avec la croyance locale, conduisant une fonction rsumant toutes les connaissances
potentielles au sujet de la variable cache, c'est la fonction de vraisemblance. Cette fonction de vraisemblance
est combine avec une fonction potentielle. L'algorithme stochastique de propagation de croyance non
paramtrique approche ces deux tapes, produisant des reprsentations non paramtriques consistantes des
messages.
En supposant que les fonctions potentielles sont des mlanges de gaussiennes pondres, le produit de
gaussiennes est lui mme une gaussienne. On peut utiliser un chantillonneur de Gibbs [Geman S., Geman
D.] pour dessiner de faon asymptotique des chantillons du produit de densits.
Dans les simulated annealing , l'chantillonneur de Gibbs remet jour la chane de Markov dont la
dimension de l'tat est proportionnelle la dimension du graphe. Au contraire, NBP utilise des
chantillonneurs de Gibbs locaux, impliquant chacun quelques noeuds. Dans certaines applications, le
potentiel d'observation est spcifi par des fonctions analytiques. L'chantillonneur de Gibbs peut tre adapt
dans ce cas par une fonction d'importance [Doucet A., De Freitas N., Gordon N.].
L'algorithme NBP dans une seconde tape propage chacun des chantillons partir du produit des messages en
approchant la remise jour des croyances. PAMPAS [Isard M.] a propos une gnralisation du filtre
101 sur 146
particules avec un noyau dterministe.
Les modles graphiques gaussiens fournissent une des distributions continues pour lesquelles l'algorithme BP
peut tre implment de faon exacte. Pour cette raison, les modles gaussiens sont utiliss pour tester
l'exactitude de l'approche non paramtrique faite par le NBP.
[Sudderth E. B., Ihler A. T., Freeman W. T., Willsky A. S.] utilisent les NBP pour infrer des relations entre
les coefficients PCA dans un modle bas composantes du visage. Le modle tend l'approche de
([Felzenszwalb P.F., Huttenlocher D.P. 03], [Moghaddam B., Pentland A.]) pour estimer la localisation mais
aussi l'apparence des membres cachs. Les modles d'apparence locaux bass sur les membres ont des
indices communs avec les modles articuls utiliss pour le suivi.
[Isard M.] dcrivent l'algorithme PAMPAS (Particle Message PASsing) combinant le LBP Loopy Belief
Propagation avec les ides du filtre particule.
La propagation de croyances ( Belief Propagation BP) est en vogue depuis quelques annes pour
calculer des infrences dans des rseaux baysiens [Jordan M.I., Sejnowski T.J., Poggio T.] et a t
rcemment applique aux graphes avec cycles sous la dnomination de Loopy Belief Propagation
[Yedidia J.S., Freeman W.T., Weiss Y.]. La mthode consiste passer des messages entre les noeuds du
graphe.
Lorsque le graphe est une chane, un filtre particules [Doucet A., De Freitas N., Gordon N.] peut tre utilis.
Il reprsente les probabilits marginales dans une forme non paramtrique, l'ensemble des particules. Le
filtre particule, largement utilis en vision par ordinateur, fonctionne bien avec les modles de vraisemblance
des images. L'algorithme PAMPAS modifie le BP pour se servir des ensemble de particules comme des
messages et donc permettre une infrence approche sur des modles graphiques valeur continues.
La propagation de croyance peut tre analyse comme des couples d'ensemble de variables caches X et
d'ensemble de variables observes Y. Le rseau de particules se propage dans le rseau par propagation de
croyances. Le principe de n'importe quel algorithme de propagation de croyances avec des ensembles de
particules est celui de l'approximation de Monte-Carlo. Une solution consiste utiliser l'chantillonnage
d'importance pour certaines particules.
Une proprit des modles de vision par ordinateur est que la fonction potentielle peut s'crire comme un
mlange de gaussiennes et la vraisemblance est difficile chantillonner. L'algorithme PAMPAS est spcialiste
pour calculer la propagation de croyances avec ce type de modle. [Sudderth E. B., Ihler A. T., Freeman W. T.,
Willsky A. S.] a dvelopp un algorithme presque similaire pour le calcul de la propagation de croyances avec
l'aide des ensembles de particules, qu'ils ont appel NPB, Non parametric belief propagation . Afin de
traiter l'explosion exponentielle des messages produits, ils introduisent un chantillonneur de Gibbs. Tandis
que [Sudderth E. B., Ihler A. T., Freeman W. T., Willsky A. S.]] a dmontr que l'chantillonneur de Gibbs
est trs efficace pour quelques applications, dans les scnes textures l'algorithme peut gnrer des chantillons
avec une faible masse de probabilit dans quelques rgions. Un graphe reprsentant les objets lis a t
construit et l'algorithme PAMPAS est appliqu combin l'chantillonneur de Gibbs [Sudderth E. B., Ihler A.
T., Freeman W. T., Willsky A. S.] pour la propagation de messages et de croyances, afin de localiser les objets
dans une scne bruite.
L'algorithme PAMPAS peut tre efficace pour la localisation des structures articules dans des images, en
particulier des personnes. Des algorithmes de dtection de personnes existent dj pour la localisation et le
groupement des membres du corps [Mori G., Malik J.] mais ne correspondent pas un rseau probabiliste.
Rcemment des chercheurs ont eu de bons rsultats en cherchant des structures lies dans des images grce
une reprsentation en modles graphiques ([P.F. FELZENSZWALB & D.P. HUTTENLOCHER. 00], [Ioffe
S., Forsyth D.A., 03]). Un des avantages de la reprsentation en modle graphique est qu'elle s'tend
naturellement au suivi, en augmentant la taille du graphe et les liens entre les noeuds des intervalles de temps
102 sur 146
adjacents.
Beaucoup d'approches pour la dtection et le suivi de personnes sont bases sur les modles articuls du corps,
dans lesquels le corps est vu comme un arbre cinmatique en deux dimensions comme le modle cardboard
[Ju S., Black M., Yacoob Y.] ou en trois dimensions [Sminchisescu C., Triggs B. 01], conduisant un espace
paramtrique de grande dimension.
Cet espace de grande dimension peut tre rduit par une reprsentation hirarchique de la personne
exploitant la structure en arbre du modle [MacCormick J., Isard M.]. Malgr tout, cette mthode a des
inconvnients comme l'impossibilit d'incorporer des traitements bas niveau ou l'initialisation automatique.
2.2 Avec un modle de membres lches
[Sigal L., Isard M., Sigelman B.H., Black M.] proposent un modle du corps avec ses membres lches ,
c'est--dire non connects de faon rigide mais plutt en attraction l'un vers l'autre. Le corps est reprsent par
un modle graphique dans lequel chacun des noeuds du graphes correspond un membre du corps (torse, bras,
etc). Chacun des membres est paramtr par un vecteur dfinissant sa position et son orientation dans un
espace 3D de coordonnes globales, et chaque membre est trait indpendamment. Le corps entier est
assembl par infrence globale sur tout le modle graphique. Les contraintes spatiales entre les membres du
corps (relations spatiales et angulaires entre les membres adjacents) sont traites dans les liens du graphes. On
fait l'hypothse que les variables d'un noeud sont conditionnellement indpendantes des noeuds non
immdiatement voisins, connaissant les valeurs des noeuds voisins. Ceci est mis dfaut dans le cas de l'auto
occlusion d'un membre. Chacun des membres est modlis par un cylindre avec 5 paramtres fixes (longueur
du membre, etc), et 6 paramtres estims contenant la position en 3D (3 paramtres) et l'orientation en 3D (3
paramtres) du membre dans le systme de coordonnes globales. Chaque lien a une distribution de probabilit
conditionnelle qui modlise les dpendances probabilistes entre les membres adjacents, et approche par un
mlange de gaussiennes. Chacun des noeuds du graphe possde une fonction de vraisemblance qui modlise la
probabilit d'observation des images conditionnes sur la position et l'orientation des membres. A chacun des
membres est associ une probabilit dans le sens descendant dans le graphe (de la cuisse vers le mollet par
exemple) ou ascendant (de la cuisse vers le torse par exemple).
La dtection de personnes ou son suivi exploite la propagation de croyances pour estimer la distribution de
croyances sur les paramtres. L'infrence probabiliste combine un modle du corps avec un modle de
vraisemblance probabiliste. Un algorithme estime les distributions de croyance pour chacun des membres du
corps. L'algorithme adopt est celui de (PAMPAS [Isard M.], [Sudderth E. B., Ihler A. T., Freeman W. T.,
Willsky A. S.]), une gnralisation de l'algorithme particules qui autorise des infrences sur n'importe
quel graphe plutt que uniquement sur une chane. L'ensemble des particules propages dans un filtre
particules standard est trait comme une approximation des messages utiliss dans l'algorithme de propagation
de croyances, en remplaant la distribution conditionnelle par un produit des messages arrivant, qui peuvent
tre approchs par l'chantillonnage d'importance.
Une personne peut tre suivie en temps rel grce un filtre particules propag travers un rseau baysien.
[Sigal L., Bhatia S., Roth S., Black M.J., Isard M.] prsentent une mthode probabiliste pour dtecter et
suivre le corps d'une personne en 3D de faon automatique par un modle de membres lches avec des
paramtres continus reprsentant la localisation et la posture de la personne (cf. figure 60). L'infrence sur ce
modle est mene par la propagation des croyances sur un ensemble de particules. La propagation de
croyance permet d'viter la distinction entre initialisation et suivi, et autorise utiliser des dtecteurs bas haut
pour les membres du corps afin de stabiliser l'estimation du mouvement et de fournir une initialisation
chaque instant. De plus, les probabilits conditionnelles entre les membres dans l'espace et le temps sont
apprises partir de donnes d'entranement, et une fonction de Gibbs apprise partir des donnes
d'entranement modlise les dpendances conditionnelles entre les mesures sur les images.Cette approche
pourrait tre tendue aux images mono camras ou avec des camras en mouvement. Un des inconvnient de
cette approche provient du fait de l'hypothse d'indpendance des membres de mme nature entre la droite et la
gauche conditionnellement la position du torse, omettant des postures quand un membre est cach par un
autre. Le problme serait trait plus facilement avec un modle cinmatique du corps sous forme d'un arbre,
103 sur 146
donc le modle membre lches serait une tape intermdiaire entre les dtecteurs bas niveau et le modle
cinmatique complet.
Figure 60 : Modle graphique pour une personne. Les noeuds reprsentent les membres et les flches
reprsentent les dpendances conditionnelles entre les membres. Les dpendances temporelles sont montres
entre deux mages sur cette figure. Dans la ralit, chaque membre est connect par un arc flch au mme
membre dans les images prcdente et suivante [Sigal L., Bhatia S., Roth S., Black M.J., Isard M.].
Les probabilits conditionnelles des poses des membres en 3D sont apprises partir de donnes
d'entranement. Dans ce travail par rapport au prcdent [Sigal L., Isard M., Sigelman B.H., Black M.], il ne
s'agit pas uniquement de l'estimation de la pose mais galement du suivi de celle ci.
La plupart des techniques courantes modlisent le corps humain par un arbre cinmatique en deux dimensions
[Ju S., Black M., Yacoob Y.], ou trois dimensions ([Bregler C., Malik J.], [Deutscher J., Blake A., Reid I.],
[Sidenbladh H., Black M.J., Fleet D.J.], [Sminchisescu C., Triggs B. 01]), conduisant un espace de grande
dimension. La recherche de la solution dans un tel espace tant impossible, les mthodes courantes reposent
sur une initialisation manuelle du modle du corps. Quand de tels algorithmes perdent le suivi, la dimension
de l'espace de recherche rend difficile de recouvrir au suivi. L'utilisation d'un modle de membres lches
et articuls et la propagation de croyances fournit un bon moyen pour incorporer l'information des
divers dtecteurs de membres.
Le modle du corps ncessite une spcification des relations probabilistes entre les articulations un instant
donn et au cours du temps. Le modle ncessite aussi une image de la mesure de vraisemblance pour chacun
des membres. En utilisant les donnes d'entranement de membres connus dans l'image, on peut apprendre un
nouveau modle de la vraisemblance qui capture les statistiques des articulations. Les vraisemblances sont
apprises grce un modle de Gibbs [Zhu S., Wu Y., Mumford D.]. Quatre camras calibres participent au
suivi dans un environnement intrieur. Les modles du corps ne sont pas nouveaux pour le suivi articuls, par
exemple ([Ioffe S., Forsyth D.A., 01], [Ioffe S., Forsyth D.A., 03], [Ioffe S., Forsyth D.A., 99], [Ramanan D.,
Forsyth D.]). ([Ioffe S., Forsyth D.A., 01], [Ioffe S., Forsyth D.A., 03]) dtectent les membres du corps et les
regroupent en des figures dans une approche bas haut .
Dans les travaux prcdents [Sigal L., Isard M., Sigelman B.H., Black M.], les fonctions potentielles reliant
les membres se construisent manuellement tandis que dans ce travail elles sont apprises partir de donnes
d'entranement. Chacun des liens entre deux membres possde une fonction potentielle associe qui code la
compatibilit entre les configurations des paires de membres et peut tre vu comme la probabilit de la
configuration d'un membre conditionnellement la configuration d'un autre membre. La fonction potentielle
est en gnrale non gaussienne et est approche par un mlange de gaussiennes. L'image de vraisemblance
(d'observation des mesures sur l'image conditionnellement la pose d'un membre) est un modle probabiliste
qu'il faut combiner avec le modle du corps.
104 sur 146
De nombreux indices incluant les filtres de contours multi chelle [Sidenbladh H., Black M.] sont mis en
place, et les dpendances conditionnelles sont modlises entre les diverses rponses des filtres par
apprentissage de la densit jointe en utilisant le modle de Gibbs ([Roth S., Sigal L., Black M.], [Zhu S., Wu
Y., Mumford D.]). L'infrence de la posture du corps est dfinie comme une estimation de la croyance dans le
modle graphique.
Afin de s'abstenir de l'espace des paramtres en six dimensions pour chacun des membres, les densits
conditionnelles entre les membres qui sont non gaussiennes, et les vraisemblances non gaussiennes, on utilise
une forme non paramtrique de la propagation de croyances ([Isard M.], [Sudderth E. B., Ihler A. T., Freeman
W. T., Willsky A. S.]), gnralisation de l'algorithme particules ([Doucet A., De Freitas N., Gordon N.]) qui
permet des infrences sur une graphes arbitraire plutt que sur une simple chane.
Les messages envoys dans la propagation de croyances standard sont ici approches par un ensemble de
particules, et la distribution conditionnelle utilise dans l'algorithme particules standard est remplace par un
produit des messages entrants, ncessaire pour la propagation de croyances. On utilise ici l'algorithme
PAMPAS [Isard M.] plus adapt la problmatique et l'chantillonneur de Gibbs pour valuer les produits de
messages.
Les messages de la tte, des deux bras et des deux jambes sont envoys vers le torse (cf. figure 61).
Figure 61 : Produit de messages : les messages de la tte, des deux bras et des deux
jambes sont envoys vers le torse [Sigal L., Bhatia S., Roth S., Black M.J., Isard M.].
Ces messages sont des distributions reprsentes par un ensemble d'chantillons avec des poids comme dans le
filtre particules.
105 sur 146
Nous prsentons un exemple de suivi avec un modle de membres lches (cf. figure 62).
Figure 62 : Suivi avec modle de membres lches - quelques rsultats sur une squence [Sigal L., Bhatia
S., Roth S., Black M.J., Isard M.].
2.3 Avec une seule camra
[Noriega P. b] dcrit une mthode avec un modle graphique articul, reprsentant la structure articule du
corps humain, pour le suivi du haut du corps dans un environnement non contraint (vtements et lumire),
dans des scnes couleur monoculaires (cf. figure 63).
Figure 63 : Suivi du haut du corps. Dans la 1re ligne, l'image originale, de face, de ct et du dessus, des
positions obtenues des membres, avec une seule camra. Dans la 2me ligne, la soustraction du fond, les
contours, la carte de couleurs du visage, et la carte de distance d'nergie du mouvement [Noriega P. b].
106 sur 146
La propagation de croyances sur des graphes factoriels autorise le calcul des probabilits marginales des
membres (cf. figure 64).
Figure 64 : Graphe factoriel. Les cercles correspondent aux noeuds qui sont des variables, les tats
des membres, et les carrs sombres aux noeuds factoriels (cohrence temporelle et interaction ou non-
collision factorielle). Deux images conscutives sont reprsentes [Noriega P. b].
Le modle du corps est form de membres lches [Sigal L., Isard M., Sigelman B.H., Black M.] incluant
les contraintes articulatoires facilement intgres dans des facteurs d'attraction. Pour rsoudre les ambiguts
lies au suivi monoculaire, les indices sont les contours robustes, les couleurs, et une carte d'nergie de
mouvement (cf. figure 63).
Une faon d'viter le problme de la haute dimension de l'espace de recherche des algorithmes stochastiques,
consiste utiliser un modle du corps avec des membres lches [Sigal L., Bhatia S., Roth S., Black M.J.,
Isard M.] (cf. figure 65), o la vraisemblance de chacun des membres est value indpendamment. De cette
faon, un filtre particule peut tre associ avec chaque membre rduisant la dimension de l'espace de
recherche au nombre de degrs de liberts du membre [Bernier O., Cheung-Mon-Chang P.]. L'influence
entre les membres est prise en compte par la propagation de croyance des membres travers un graphe
factoriel [Kschischang, Frey, Loeliger]. Une technique similaire est utilise dans le cadre des scnes
monoculaires [Gao J., Shi J.] avec pour indice l'nergie du mouvement (cf. figure 66). Le nombre d'indices est
augment ici [Noriega P. b] pour accrotre la robustesse du suivi. La tte et les mains sont suivies grce
l'information colore et aux niveaux de gris: soustraction du fond, nergie du mouvement, carte d'orientation
des contours.
Une gaussienne sur la distance, entre deux points articuls, est utilise pour calculer les facteurs
d'interactions entre les membres articuls. Les facteurs de comptabilit des images sont calculs partir de
scores reprsentant la comptabilit entre un membre hypothse et des indices extraits des images. Les bras ont
tendance bouger rapidement et sont sujets des occultations partielles. Ainsi afin d'atteindre un niveau
suffisant de robustesse, une fusion des indices de contour et d'nergie de mouvement est calcule. Le score de
l'nergie du mouvement est calcule en considrant la distance gaussienne entre chacun des membres projets
et le pixel le plus proche o un mouvement a t dtect. La dtection de mouvement est fournie par des
diffrences d'images adjacentes.
107 sur 146
(a) Analogie avec un
jouet poussoir pourvu
d'articulations lastiques
(b) Modle graphique (c) 11 paramtres dfinissant un membre
Figure 65 : Modle de tronc de cnes membres indpendants dits laches ([Sigal L., Bhatia S.,
Roth S., Black M.J., Isard M.], [Noriega P. a]).
Figure 66 : Graphe intgrant une fentre temporelle sur trois images ([Gao J., Shi J.], [Noriega P. a]).
Le suivi baysien rcursif
Le haut du corps est modlis par un graphe comprenant les membres reprsents par des noeuds et des
liens correspondant des articulations, et des contraintes de non collision entre les membres. Un modle
de Markov peut tre utilis pour reprsenter la structure.
Le graphe factoriel complet inclut les tats prcdents pour prendre en compte la cohrence temporelle. Le
facteur de cohrence temporel est une simple gaussienne, indpendante pour chacun des paramtres, centr
sur la valeur de l'image prcdente. Pour les mains qui peuvent bouger trs rapidement, le facteur de cohrence
temporelle est un mlange de deux gaussiennes similaires, une centre sur les paramtres prcdents et l'autre
centre sur la prdiction des paramtres courants en utilisant la vitesse prcdente de la main. La probabilit
jointe connaissant les observations, la probabilit marginale des tats des membres est obtenue en utilisant la
propagation de croyances sur un graphe factoriel [Bernier O., Cheung-Mon-Chang P.].
Les messages sont reprsents par des ensembles d'chantillons pondrs. D'une image la suivante, ils sont
calculs via un algorithme de filtre particules consistant en une tape de r chantillonnage suivie par une
108 sur 146
tape de prdiction base sur la cohrence temporelle des facteurs [Andrew Blake and Michael Isard.].
L'algorithme de propagation de croyance en boucle ( loopy belief propagation ) est alors rduit, pour l'image
courante, un algorithme de propagation en boucle dans l'espace des tats discrets, l'espace des tats de
chacun des membres restreint ses chantillons. L'algorithme est quivalent un ensemble de filtres
particules en interaction, o les chantillons pondrs sont rvalus chaque image travers une propagation
de croyances prenant en compte les interactions entre les membres.
De plus, l'utilisation des filtres particules en interaction avec la propagation de croyances [Bernier O.,
Cheung-Mon-Chang P.] simplifie l'algorithme en calculant de faon rcursive une estimation dans un espace
discret, au lieu d'utiliser un chantillonneur de Gibbs dans un espace continu [Sigal L., Bhatia S., Roth S.,
Black M.J., Isard M.]. Des contraintes sur les articulations sont construites dans les facteurs de compatibilit.
Quelques exemples de suivi en monoculaire [Noriega P. b] sont prsents ci-dessous (cf. figure 67).
Figure 67 : Suivi 3D en monoculaire avec des poses difficiles incluant les occultations, les
fonds texturs et les environnements non contraints (lumire et vtements) [Noriega P. b].
2.4 Avec des camras stro
[Bernier O.] prsente un modle statistique pour le suivi 3D rapide du haut du corps articul avec une
camra stro en temps rel, similaire au modle de membres lches [Sigal L., Isard M., Sigelman
B.H., Black M.] mais o la cohrence inter images est prise en compte, via la probabilit marginale de
chacun des membres dans l'image prcdente, comme information a priori. La propagation de croyances sert
estimer la probabilit marginale courante de chacun des membres. L'algorithme rsultant correspond un
ensemble de particules, un pour chacun des membres, o le poids de chacun des chantillons est recalcul en
prenant en compte les interactions entre les membres.
De faon analogue [Sigal L., Bhatia S., Roth S., Black M.J., Isard M.], un modle graphique reprsente le
haut du corps, compos de M membres, chacun dans un tat donn X (cf. figure 68).
Chacun des membres gnre une observation, une image Y, et le modle est compos de liens entre les
membres reprsentant les articulations mais aussi des contraintes de non intersection. Chacun des tats des
membres est dpendant de son tat l'instant prcdent. Les paramtres du modle sont les probabilits
conditionnelles P(Y/X), la prdiction de probabilit a priori des tats des membres P(X
t
/X
t-1
) et le potentiel
d'interaction pour chacun des liens entre les membres.
L'infrence dans un modle graphique avec boucle peut se faire par la propagation de croyances avec boucle
Loopy Belief Propagation pour les tats discrets, ou la mthode de propagation de croyances non
paramtrique [Sudderth E. B., Ihler A. T., Freeman W. T., Willsky A. S.] afin d'obtenir la distribution
109 sur 146
marginale de chacun des membres sur l'image courante, qui son tour peut tre utilise comme prior dans
les images suivantes.
Figure 68 : Modle graphique : les lignes reprsentent des les liens entre les
membres, les tirets reprsentent les contraintes de non intersection [Bernier O.].
La probabilit marginale prcdente est reprsente par un ensemble d'chantillons pondrs. La croyance
locale de chacun des membres est estime par la mthode du filtre particules standard : r chantillonnage,
prdiction, et nouvelle pondration par les probabilits des observations. La croyance est alors reprsente par
une somme pondre des chantillons.
L'algorithme de propagation de croyance se rduit un algorithme de propagation boucl dans l'espace des
tats discrets. Dans cet espace chaque membre est reprsent par ses chantillons. De plus la probabilit
marginale est reprsente par une somme pondre des mmes chantillons que ceux utiliss pour la croyance,
l'estimation est donc rcursive.
L'algorithme est quivalent un ensemble de filtre particules en interaction o les poids sont rvalus
chaque image travers la propagation de croyances pour prendre en compte les liens entre les membres.
Initialement, un dtecteur de visage base de RN dtecte le visage. L'information de profondeur est prise en
compte. Les probabilits prdites sont des gaussiennes, indpendantes pour chacun des paramtres, centres
sur la valeur de l'image prcdente. Les observations sont des points estims 3D avec un facteur de confiance
et une probabilit de couleur pour le visage. Les observations sont supposes indpendantes pour chacun des
membres et chaque pixel. Pour chaque membre, la vraisemblance est proportionnelle un score S.
-Pour la tte, le score S est une distance gaussienne une sphre, multiplie par la probabilit colore de la
tte;
-Pour le torse, le score S est une distance gaussienne dont la forme est compose de deux cylindres plats;
-Pour les bras et les avant bras, le score est la distance un patch rectangulaire, parallle l'image plane
dans la direction du plus petit contour;
-Pour les potentiels d'interaction des liens, une gaussienne de la distance entre deux points lis est utilise.
Le systme suit correctement (cf. figure 69) mme en prsence d'auto occultations et cette mthode peut tre
gnralise d'autres systmes de suivi, monoculaire ou le corps entier. Les limitations de la mthode sont
lies l'impossibilit de l'tape de prdiction des chantillons de gnrer des chantillons dans des rgions
forte vraisemblance. Pour rsoudre ce problme, l'tape de prdiction devrait tre conduite avec des proposal
maps [Lee M.W., Cohen I.] pour chacun des membres, gnrant les chantillons pour les rgions de grande
vraisemblance, surtout pour les mains et les avant bras.
110 sur 146
Figure 69 : Rsultats de suivi sur une partie de la squence [Bernier O.].
3 Fusion d'informations pour l'estimation de la structure d'un
objet et la dtection de son mouvement
Les travaux de [Noyer J-C. ] s'intgrent dans la thmatique de la fusion d'informations pour l'estimation et la
dtection, avec comme domaine applicatif la vision par ordinateur. Les outils dvelopps concernent les
mthodes de Monte-Carlo squentielles telles que le filtrage particulaire, appliqu la perception multi
capteurs.
3.1 Fusion multicapteurs pour l'estimation de la structure et du
mouvement 3D d'objets : une approche primitive
On cherche estimer le mouvement 3D d'un objet et sa structure partir d'un ensemble de capteurs parfois de
nature physique diffrente. Les primitives points ou segments dcrivent la forme estimer. Une structure
globale de filtre est mise en place grce la fusion multi capteurs, la fusion centralise [Bar-Shalom Y., Li
X.].
La solution du problme d'estimation repose sur la densit de probabilit conditionnelle que l'on peut
dcomposer en deux densits de probabilits lmentaires : une loi de transition et une loi d'observation. Dans
le cas linaire gaussien [Kalman R.E.], ces densits de probabilits restent gaussiennes au cours du temps, et
le filtre de Kalman est la solution optimale. Dans le cas non-linaire (cas gnral), il n'y a pas de solution en
dimension finie des quations du filtrage. Nombre d'auteurs ont propos des solutions analytiques au problme
d'estimation mais les solutions sont sous-optimales:
-1965 : filtrage de Kalman tendu;
-1991: filtrage particulaire;
-1996 : filtrage condensation; etc.
Le filtre de Kalman tendu, adapt au problme d'estimation multi capteurs, permet de suivre dans une
squence d'images un objet avec des informations issues de plusieurs capteurs non ncessairement synchrones,
et d'estimer son mouvement. L'objet est dcrit par des points caractristiques ([Cox I.J, Hingorani S.L.],
[Koller D., Daniilidis K., Nagel H.-H]), des contours [A. Blake and M. Isard], des rgions. Ce filtre donne lieu
une linarisation des quations d'tat, lui permettant de se ramener une solution localement linaire
gaussienne. Cependant, la linarisation des quations d'tats dans le filtre de Kalman tendu conduit une
perte en prcision d'estimation de la structure et du mouvement, contrairement au cas linaire gaussien.
Au dbut des annes 90, le problme est rsolu par l'utilisation d'un filtrage particulaire , traitant les non-
linarits des modles sans faire d'approximations, pour la rsolution du problme d'estimation multi capteurs
de la structure et du mouvement conjointement 3D d'objets, le suivi de la forme dans la squence et la fusion
des mesures issues des divers capteurs.
[Noyer J-C. ] propose une modlisation globale du problme d'estimation multi capteurs de la structure et
du mouvement 3D. Des quations d'tat modlisent le problme en intgrant les mesures des capteurs
htrognes.
L'approche de [Noyer J-C. ] pour le suivi d'objets est base de primitives et de segments, convenant aux
111 sur 146
scnes d'intrieur contenant des objets modliss sous forme polydrique. Un objet en mouvement est
caractris par son vecteur d'tat compos des caractristiques de la primitive (mouvement, structure) : les
coordonnes 3D de chacune des extrmits du segment, et ses paramtres de mouvement.
Un systme d'quations d'tat modlise l'tat avec une quation de dynamique dcrivant l'volution de l'tat du
systme et une quation de mesure pour l'observation partielle que l'on en a. La rsolution du problme multi
capteurs ainsi pos dans le systme d'quations, passe par deux mthodes issues de la thorie de l'estimation
dynamique : le filtrage de Kalman tendu, et le filtrage particulaire .
[Noyer J-C. ] rsout le problme d'estimation multi capteurs des structure et mouvement 3D par filtrage
de Kalman tendu. Il ralise estimation et suivi, mais galement l'tape de fusion des informations issues de
chaque capteur. Le filtre de Kalman comporte deux parties : une prdiction pour le calcul de la loi de
transition entre deux tats successifs, et la correction qui utilise l'observation pour donner une estimation de
l'tat. Dans le cas non linaire, la proprit de gausiennet de la densit de probabilit n'existe plus. La
rsolution passe alors par la linarisation des quations d'tat autour de l'estime et on obtient ainsi le filtre de
Kalman tendu. La solution propose par [Noyer J-C. ] reprend la structure du type prdiction/correction dans
un problme d'estimation multi capteurs multi cibles pour le suivi de cibles au cours du temps. Le filtre prdit
les positions 3D des extrmits du segment primitive et ses paramtres de mouvement l'instant t partir des
mesures disponibles l'instant t-1.
Dans une tape de mise en correspondance, chaque primitive doit tre suivie dans la squence, et l'estime doit
tre mise jour (correction de l'estimation). La segmentation en points et segments gnrant trop de candidats,
le suivi multi cibles multi capteurs peut avoir lieu avec des mthodes d'association probabilistes de donnes
(PDAF) [Bar-Shalom Y., Li X.], le suivi multi-hypothses (MHT) [D.B. Reid.], ou bien la minimisation d'une
fonctionnelle de cot.
[Noyer J-C. ] a choisi la distance de Mahalanobis (couramment utilise en vision par ordinateur) entre deux
observations (position, intensit et profondeur) pour chaque segment et pour chaque capteur. Les segments mis
en correspondance participent la correction de l'estimation de l'tat l'instant t. Un filtre de Kalman tendu
traite squentiellement les donnes provenant des divers capteurs, et fournit l'estime de l'tat, comprenant les
paramtres de positions 3D du segment et ses paramtres de mouvement. Le schma gnral est le suivant (cf.
figure 70) : le premier capteur effectue une mise en correspondance entre l'tat prdit et l'tat observ, la
diffrence sert la correction utilise par le capteur suivant, et ainsi de suite pour tous les capteurs, estimant
en fin de chane la position et le mouvement 3D. Pour les capteurs ne russissant pas faire une mise en
correspondance cause de mesures manquantes, l'tape de correction n'est pas effectue, ceci constitue
l'intrt de la structure squentielle. Le traitement est temps rel.
Au dbut des annes 90, le filtrage particulaire a permis de traiter le filtrage non linaire sans aucune
approximation. L'ide principale est de trouver une estimation directe de la densit de probabilit
conditionnelle P( X
t
Z
0
t
) ), solution du problme de filtrage, par une approximation de type Monte-Carlo.
On cherche estimer l'volution du processus X partir de l'observation du processus Z.

X
t
reprsente l'tat du systme, c'est--dire le processus l'instant t, et
Z
0
t
reprsente les mesures
Z
0
t
=Z
0
, Z
1
,... , Z
t
jusqu' l'instant t. La solution ce problme d'estimation est donne par
convergence lorsque le nombre fini de particules du filtre augmente. L'ensemble de ces approches est regroup
sous le terme de filtrage particulaire . En vision par ordinateur, la dnomination frquente est algorithme
de condensation de [Andrew Blake and Michael Isard.].
La mthode particulaire repose sur la dcomposition de la loi de probabilit conditionnelle
P( X
t
Z
0
t
)
.
La mthode du filtre particules reprsente
P( X
t
Z
0
t
)
par un ensemble de mesures ponctuelles
6
X
i ( X
t
) d'amplitude
p
i
t
:
P( X
t
Z
0
t
)=

i=1
N
p
t
i
6
X
i ( X
t
)
.
6
X
i ( X
t
) est la mesure de Dirac et ces mesures ponctuelles sont qualifies de particules du fait du
caractre dynamique de la reprsentation de l'espace de probabilit.
p
i
t
reprsentent les poids associs.
112 sur 146
On approche la densit de probabilit a priori par :
P( X
O
, ... , X
t
)
1
N

i=1
N
6
X
0,
i
... , X
t
i ( X
0,
i
... , X
t
)
.
On obtient l'approximation suivante de la loi conditionnelle qui est la base du filtrage particulaire :
P( X
t
Z
0
t
)

i=1
N
p
t
i
6
X
i ( X
t
)
.
Figure 70 : Structure gnrale de la mthode propose base sur le filtrage de Kalman tendu (bas sur des
capteurs synchrones) [Noyer J-C. ].
Le noyau du filtre particulaire est compos de deux tapes :
-Une tape d'volution des particules
X
t
i
;
-Une tape de calcul des pondrations
p
t
i
partir des quations des capteurs.
Le droulement du filtre particulaire est le suivant (cf. figure 71) :
1. Initialisation : Comme tout filtre rcursif, on affecte les N particules
X
0
i
dans l'espace d'tat en
fonction de la probabilit a priori
P( X
0
)
;
2. volution : Chaque particule
X
i
se voit affecter sa propre dynamique dicte par l'quation
d'volution ;
3. Pondration : Chaque particule volue librement dans l'espace d'tat et l'tape de pondration permet
d'valuer la probabilit associe la rgion explore. Un poids
p
t
i
| 0, 1
associ chaque
particule est calcul selon la loi des capteurs ou de manire rcursive
p
t
i
= f ( p
t 1
i
)
;
4. Estimation : Chaque particule permet de dessiner une approximation de la loi conditionnelle
P( X
t
Z
0
t
)
et l'estimateur est alors construit par :

X
tt
=

i=1
N
p
t
i
X
t
i
113 sur 146
Figure 71 : Reprsentation schmatique de l'volution du rseau particulaire [Noyer J-C. ].
Initialement les particules sont distribues selon la loi
P( X
0
)
et sont quiprobables. Elles voluent ensuite
alatoirement selon l'quation de la dynamique et la pondration permet de dessiner une discrtisation de la
densit de probabilit conditionnelle. On voit aussi sur la figure 71 la ncessit d'introduire une tape
supplmentaire de rgulation de l'volution des particules ( redistribution ), car un nombre croissant de
particules ont un poids qui tend vers 0 lorsque t augmente.
3.1.1 Fonction de redistribution
Le filtre particulaire prsente parfois certaines pondrations trs faibles, rendant leur contribution trs
faible. Une solution consiste raffecter les particules de poids faible vers des rgions plus probables de
l'espace d'tat, caractrises par les particules de poids forts, donnant naissance plus de particules tandis que
celles de poids faibles disparaissent. C'est l'tape de redistribution . On utilise la fonction de rpartition,
solution du problme d'estimation, pour retirer chaque particule selon cette loi. Les particules
( X
t
i
, p
t
i
)
pour proposent ainsi un r chantillonnage de cette loi de probabilit, puisqu'elles dessinent une discrtisation
de cette densit de probabilit par des mesures ponctuelles de Dirac :
P( X
t
Z
0
t
)=

i=1
N
p
t
i
6( X
t
i
)
avec
Z
0
t
=Z
0,
... , Z
t

.
Les nouvelles particules donnent un nouvel chantillonnage de la densit de probabilit conditionnelle; leurs
poids sont rinitialiss 1/N.
3.1.2 Estimation multi capteurs de la structure et du mouvement 3D
Les travaux de la thse de Christophe Boucher [Boucher C.] ont conduit une formulation globale du
problme de fusion multi capteurs pour l'estimation de la structure et du mouvement 3D. La solution propose
repose sur un filtre centralis de type Kalman tendu qui fusionne les mesures de tous les capteurs, assure le
suivi de la forme et l'estimation des paramtres caractristiques (position et mouvement). La solution
particulaire a permis par la suite d'viter les problmes lis la linarisation des quations d'tat
dans un cadre multi capteurs. La fusion est centralise et la description de l'objet sous forme de points et
segments polydrique pour les scnes d'intrieur. La solution particulaire reprend les quations d'tat
prcdentes et la structure de filtre sous forme prdiction/correction :
1. Initialisation : les N particules
X
0
i
sont initialises selon l'information a priori sur les paramtres
initiaux de mouvement;
2. volution : chaque particule est anime de sa propre dynamique et cette tape permet de prdire les
positions 3D des extrmits de chaque segment ainsi que les paramtres de mouvement;
3. Mise en correspondance : il s'agit de suivre les particules au cours du temps. On va pour cela se servir
114 sur 146
des mesures prdites au moyen de chaque particule
X
t
i
. Grce l'quation de mesure, on prdit la
mesure sur chaque capteur. Cette mesure prdite sert de base au calcul de la distance de Mahalanobis
autorisant la mise en correspondance. Cette distance est fonction des mesures effectues sur les
capteurs et de la covariance de l'erreur de prdiction de la mesure pour le capteur
j
. Cette
covariance calcule dans le filtre de Kalman doit aussi tre value pour le filtre particulaire au
moyen de N particules;
4. Pondration : les N particules ont explor librement l'espace d'tats et chacune d'elles doit tre value
partir de la mesure retenue sur chaque capteur (par l'tape de mise en correspondance) :
p
t
i
= f ( p
t 1
i
)
avec
f
une fonction des mesures obtenues sur chaque capteur et permettant la
pondration des particules;
5. Estimation de la structure et du mouvement 3D : l'estimation particulaire est donne par

X
tt
=

i=1
N
p
t
i
X
t
i
;
6. Redistribution : la solution particulaire de base se doit d'tre complte par une tape de
raffectation des particules dans l'espace d'tat. Certaines particules peuvent en effet avoir un
poids
p
t
i
qui tend vers 0 lorsque t augmente et ne contribuent pas l'estimateur

X
tt
=

i=1
N
p
t
i
X
t
i
.
La mthode de rsolution particulaire repose sur un filtre unique qui suit les primitives au cours du temps
et estime la structure et le mouvement 3D. Le filtre assure aussi la fusion multi capteurs via un traitement
centralis (cf. figure 72).
Figure 72 : Structure gnrale de la mthode propose base sur le filtrage particulaire [Noyer J-C. ].
Le vecteur d'tat est initialis en position et mouvement. Les particules voluent contribuant prdire l'tat.
Chaque capteur value en parallle la distance de Mahalanobis entre les mesures observes et les prdiction
afin d'effectuer la mise en correspondance pour chacun d'eux, permettant de corriger l'tat et d'estimer le
nouvel tat, ensuite redistribu et qui participera de nouveau la prdiction. Cette solution est temps rel. La
115 sur 146
solution initiale propose par [Boucher C.] par filtrage de Kalman tendu prsente une structure de
fusion centralise et un traitement squentiel des mesures. L'inconvnient du filtre de Kalman tendu est
qu'il procde une linarisation des quations d'tat, ce qui ne garantit pas la convergence. D'o l'ide
du filtrage particulaire qui peut traiter des modles non linaires et accder au temps rel. Tout type
de capteur peut tre intgr.
3.2 Fusion multi capteurs pour l'estimation des positions et mouvement
3D et suivi 3D : une approche dense
Le filtrage de Kalman tendu a t remplac par un filtrage non-linaire, le filtrage particulaire qui a
montr un bon suivi et une estimation correcte. Mais c'est une mthode base primitives et ses rsultats sont
dpendants de l'extraction des primitives, donc de la segmentation (en profondeur et en intensit).
Parmi les approches issues de l'analyse de scnes, outre celles bases sur le suivi de primitives, nous avons les
mthodes issues des donnes mesures par les capteurs [Lanvin P.]. L'objet est alors dcrit de manire
ponctuelle et non plus par des primitives extraites. L'intrt de ce genre d'approche rside dans l'absence de
pr traitement des donnes, tape pouvant gnrer des erreurs dans la localisation des primitives. Une
description a priori de la forme poursuivre est utilise. Le filtre doit alors assurer :
-La dtection de la forme sur chaque mesure;
-Le suivi temporel;
-L'estimation des paramtres de position et de mouvement;
-La fusion des donnes issues des plusieurs capteurs.
L'approche adopte par [P.Lanvin] repose sur un filtre particulaire adapt ( la forme). Ce genre
d'approches existe dans de nombreuses applications de scnes naturelles (suivi de cibles, tlsurveillance, etc.)
o on a une information a priori sur la forme suivre (avion, voiture, etc.). Contrairement aux approches type
primitives qui font peu d'hypothses sur l'objet, l'approche propose exploite l'information a priori disponible
sur le type d'objet suivi. Cela permet d'amliorer les performances en suivi, notamment lors de faibles
rapports signal bruit.
Trois problmatiques dans le stage de DEA et la thse de [Lanvin P.] ont t poursuivis :
1. Suivi d'objets et estimation des paramtres de position et de mouvement 2D partir d'une squence
d'images monoculaire;
2. Suivi d'objets et estimation des paramtres de position et de mouvement 3D par une approche
monoculaire : tendre la modlisation au cas des objets 3D pour le suivi;
3. Suivi d'objets et estimation des paramtres de position et de mouvement 3D dans un contexte multi
capteurs, augmentant ainsi la robustesse des traitements.
L'ensemble des solutions s'intgre dans la thorie du filtrage non linaire dont la solution est le filtre
particulaire centralis adapt la forme suivie. Sa capacit traiter des modles non linaires autorise
une telle modlisation globale du problme d'estimation et de suivi d'objets. Le filtre peut raliser le suivi d'un
objet grce divers modles gnriques de formes et dtecter chaque instant l'hypothse de forme la plus
adapte.
3.2.1 Suivi d'objets et estimation des paramtres de position et de
mouvement 2D partir d'une squence d'images monoculaire
[Noyer J-C. ] dveloppe une mthode de suivi d'objets dans une squence d'images d'intensit, par une
description dense de la forme. Ce problme d'estimation est modlis sous forme d'quations d'tat
caractrisant l'volution de la forme (suivi bidimensionnel) dans la squence et caractrisant l'observation
associe (estimation des paramtres caractristiques-position, mouvement).
Le problme d'estimation dynamique d'un processus alatoire peut tre modlis par un systme d'quations
d'tat qui dcrit son volution (quation de dynamique) et l'observation partielle que l'on en a (quation de
mesure). L'objet est dcrit par une forme gnrique dont les paramtres gomtriques et cinmatiques (position
du centre de gravit, paramtres de mouvement) doivent tre estims. Le vecteur d'tat est donc compos des
coordonnes 2D du centre de gravit, du vecteur de translation, de la vitesse angulaire, de l'orientation
116 sur 146
angulaire de l'objet et du facteur d'chelle de la forme.
L'objet volue selon un mouvement rigide 2D (rotation et translation) ou affine dont les paramtres doivent
tre estims. Il s'agit alors de trouver l'quation de dynamique de l'tat.
[Noyer J-C. ] cherche raliser le suivi d'objet dans une squence d'images monoculaire. L'ide est de suivre
directement l'objet sur l'image niveaux de gris, sans dtection, et sans raliser de pr traitements usuels (par
exemple extraire des primitives). La mthode qui consiste extraire des primitives ne ncessite pas d'a priori
sur la forme suivie, mais elle peut donner des erreurs de localisation de la primitive. Dans la thse de [Lanvin
P.], une connaissance a priori sur le type de forme suivie permet de dcrire l'objet par un modle niveau de
gris dont les paramtres de position et de mouvement doivent tre estims, rendant le suivi plus robuste.
3.2.2 Estimation des positions et mouvement 2D par filtrage
particulaire
Une telle mthode vite de pr traiter l'image en assurant une prise en compte optimale des informations
fournies par le capteur. La forme est dcrite par le vecteur d'tat
X
t
qui caractrise les paramtres
gomtriques et cinmatiques (quation de la dynamique),
Z
t
est caractrise par l'quation de mesure.
La mthode de rsolution est celle de la structure gnrale du filtre particulaire :
1. Initialisation : les N particules sont initialises selon l'information a priori
P( X
0
)
;
2. volution : chaque particule
X
i
volue dans l'espace d'tat selon le modle de dynamique;
3. Pondration : la probabilit associe chaque particule est calcule partir de la mesure
Z
t
disponible l'instant t (image). Les poids de pondration peuvent tre vus sous l'hypothse de bruit de
mesure gaussien de moyenne nulle et covariance R;
4. Estimation : l'estime particulaire est donne par :

X
tt
=

i=1
N
p
t
i
X
t
i
5. Redistribution : on procde une tape de redistribution des particules en r chantillonnant l'espace
d'tat partir de la fonction de rpartition.
Contrairement l'approche primitive, il n'y a pas ici d'tape de mise en correspondance, du fait du
dfaut de segmentation. L'approche propose traite l'ensemble des mesures disponibles dans l'image complte
sans pr traitement. La mise en correspondance est ralise par le calcul des poids de manire transparente,
par un calcul de corrlation entre l'image mesure et la reconstruction de l'image associe la particule. Le
filtre ralise le suivi et l'estimation des paramtres de mouvement et de structure.
3.2.3 Extension au problme de dtection
Les rsultats prcdents dans la premire partie de la thse de [Lanvin P.] base de modle a priori de la
forme, sont amliors par la dtection parmi un ensemble de modles de formes, du modle le plus probable.
3.2.3.1 Modlisation
On cherche une mthode de dtection et suivi d'objets dans une squence d'images monoculaire. La solution
propose dtecte le modle au meilleur suivi par rapport la prcision de l'estimation des paramtres de
position et mouvement. Ce modle adapt est construit l'aide d'un filtre unifi qui rsout le problme
d'estimation/dtection/suivi afin de minimiser les pertes d'information chaque tape du traitement.
3.2.3.2 Solution particulaire du problme d'estimation-dtection et suivi 2D
Le filtre doit estimer l'tat X caractristique de la forme, c'est--dire estimer conjointement les paramtres de
position et de mouvement ainsi que le modle de forme.
Le problme d'estimation dtection est rsolu grce un filtre adapt chaque mode. A chaque instant, les
probabilits du mode k permet de dtecter le modle le plus probable.
La solution particulaire propose repose donc sur l'utilisation de m filtres adapts ( chaque mode)
117 sur 146
fonctionnant en parallle. Chaque filtre particulaire a la structure habituelle :
1. Initialisation : les N particules sont initialises selon l'information disponible a priori pour chaque
filtre;
2. volution : les particules voluent dans chaque mode selon le flot du systme au moyen de N
ralisations indpendantes;
3. Pondration : cette tape permet d'valuer la probabilit associe chaque particule grce la rgle de
Bayes. Elle utilise pour cela l'ensemble des mesures image l'instant t pour construire le poids de la
particule dans le mode k;
4. Estimation : on construit l'estimation particulaire associe au mode k;
5. Dtection : chaque filtre adapt au mode k estime conjointement la position et le mouvement et
paralllement, on cherche dtecter l'hypothse la plus probable;
6. Redistribution : chaque particule est redistribue pour chaque mode k selon la fonction de rpartition
de la loi
P( X
k , t
Z
0
t
)
.
La solution du filtre particulaire permet d'estimer conjointement les paramtres de position et de
mouvement selon chaque hypothse, en dtectant chaque itration le modle le plus probable. De plus le
filtre traite directement les images niveau de gris, ce qui vite la dtection des primitives pouvant engendrer
des erreurs de localisation de la forme.
[Noyer J-C. ] a ainsi propos une mthode de dtection et suivi 2D de formes dans une squence d'images
monoculaire. Une formulation conjointe a conduit au filtrage particulaire , adapt la modlisation non
linaire, que le Kalman tendu n'aurait pas permis de traiter sans s'affranchir de la segmentation. Il n'y a en
effet pas de pr traitement, pas de suivi de primitives entranant des erreurs de localisation. Le problme
d'estimation hybride pos est rsolu par n filtres adapts aux diffrents modles de forme qui voluent en
parallle. On calcule donc conjointement la probabilit associe chaque mode et une estimation des
caractristiques gomtriques et cinmatiques associes. Les hypothses de forme peuvent tre des hypothses
de modles dynamiques ou un mlange des deux, permettant de dtecter la fois le modle d'volution le plus
probable mais aussi le modle de forme adapt.
3.2.3.3 Suivi d'objets et estimation des positions et mouvement 3D par une
approche monoculaire
Des rsultats intressants ont t obtenus par une description bidimensionnelle de l'objet pour l'estimation des
paramtres de forme et de la dtection. La modlisation retenue repose sur l'utilisation d'un mouvement rigide
de la forme. Bien que valide dans bon nombre d'applications, elle ne convient pas aux modles dformables.
La modlisation tendue au cas 3D permet une meilleure prise en compte des dformations de la forme. On
reprsente la forme suivre par l'ensemble de ses paramtres gomtriques et cinmatiques, rsumes dans
X
t
. Son mouvement est modlis par un modle rigide 3D (rotation/translation). Un modle a priori de la
forme, sous la forme d'objets 3D, est dfini pour le suivi dans la squence d'images monoculaires. La fonction
de dynamique est non linaire. L'quation de mesure conserve la mme forme que dans le cas 2D.
3.2.3.4 Reconstruction 3D et estimation du mouvement 3D par filtrage
particulaire
Une partie des travaux de thse de [Lanvin P.] fut la mise en oeuvre d'une mthode de rsolution
particulaire pour le suivi de forme dans une squence d'images monoculaire, mais aussi pour estimer les
paramtres de position et de mouvement 3D. La modlisation globale du problme d'estimation et de suivi
permet de proposer un filtre non linaire qui rsolve de manire conjointe ces problmes. Le filtre
particulaire est solution de ce problme d'estimation (du vecteur d'tat
X
t
).
3.2.3.5 Extension au cas de la dtection d'objets 3D
La description bidimensionnelle prcdente ne permettait pas de prendre en compte trs prcisment les lgres
dformations de l'objet dans la squence, la problmatique s'tend au cas 3D. On introduit m hypothses
118 sur 146
H
k
de forme 3D. M filtres particulaires sont adapts chaque hypothse de la forme 3D. L'objet est
modlis en 3D et le filtre cherche adapter la forme retenue l'objet suivre.
3.2.3.6 Estimation des positions et mouvement 3D dans un contexte multi
capteurs
[Noyer J-C. ] tudie, la suite du cas multi capteurs, le problme d'estimation des positions et mouvement 3D
partir d'un systme multi capteurs. On pourra ainsi lever l'ambigut au problme de reconstruction 3D. En
effet, [Lanvin P.] a autoris la reconstruction 3D avec un modle a priori de la forme 3D. Ceci constitue une
hypothse lgitime dans certains domaines applicatifs comme la vido surveillance, le transport. Ils peuvent
intgrer un modle de forme 3D a priori permettant d'assurer un suivi efficace de l'objet et sa reconstruction.
Le dplacement de l'objet 3D est modlis par un mouvement rigide 3D dont les paramtres (rotation,
translation) doivent tre estims. Comme pour l'approche primitive, c'est une structure de fusion centralise
prenant en compte les mesures issues des capteurs en un noeud central de traitement, qui est retenue.
3.3 Fusion multi capteurs par filtrage particulaire pour la
reconstruction 3D, l'estimation du mouvement 3D et le suivi d'objets 3D
La dernire partie de la thse de [Lanvin P.] concerne l'utilisation de la fusion multi capteurs pour l'estimation
des positions et mouvement 3D d'objets et le suivi. La solution repose sur un filtre particulaire unique qui
fait l'estimation de ces paramtres et la fusion centralise des informations des capteurs. La structure du filtre
est compose des tapes suivantes :
1. Initialisation : les particules
( X
0
i
)
i =1, ... , N
reprsentent N ralisations alatoires de la loi
P( X
0
)

et sont donc initialiss selon l'information disponible a priori;
2. Pondration : les particules sont pondres en fonction des mesures obtenues sur chaque capteur, dans
le cas d'un systme de fusion centralise;
3. Estimation : l'estimation multi capteurs des positions et mouvement 3D;
4. Redistribution.
L'originalit de l'approche rside dans l'utilisation d'une modlisation d'tat pour dcrire ce problme
d'estimation. Les quations d'tat permettent de modliser l'volution des paramtres caractristiques de forme
(position, mouvement, facteurs d'chelle, ..) et leur lien avec la mesure. La nature non linaire de ces quations
a conduit au filtrage particulaire . La solution repose sur un filtre unique qui ralise non seulement
l'estimation des paramtres caractristiques de l'objet (position, mouvement), mais galement la fusion des
informations issues de chaque capteur dans un schma de fusion centralise. Cette mthode est bien adapte
la dtection de formes car elle propose une formulation globale du problme d'estimation-dtection en vitant
toute dcorrelation des traitements. Les mesures dlivres par plusieurs capteurs sont intgres. Les capteurs
ne sont pas ncessairement synchrones et peuvent tre de nature physique diffrentes.
119 sur 146
Conclusion
Au vu des travaux prcdents exposs dans cette bibliographique, il nous semble judicieux de proposer une
approche multi camras, dans un rseau baysien, chaque camra reprsente par un noeud du rseau. Les
messages sont envoys d'une camra l'autre par propogation de croyance, symbolisant la croyance qu'une
personne vue dans une camra puisse se trouver un instant plus tard dans le champ de l'autre camra, en
fonction de la configuration des camras, et de l'analyse de scne.
Il faut pour cela un module bas niveau qui dtecterait le mouvement, base de soustraction de fond et de
dtection de mouvement, par flot optique par exemple. Un autre module procderait la r identification des
personnes lors de leur passage d'une camra l'autre. Il faut pouvoir identifier chaque personne et suivre
chacune d'elles individuellement. Pour cela un modle d'apparence, silhouette et couleur des vtements et de la
teinte chair, pourrait nous y aider. Une fois la r identification possible, il faut pouvoir suivre les trajectoires
de chaque personne travers le rseau de camras. A cette fin, il est ncessaire d'avoir un modle de la scne
avec le positionnement des camras dans la scne et les unes par rapport aux autres, le positionnement des
rayons et des alles, les zones aveugles (non visites par les camras) o peuvent se positionner des
individus mal intentionns, le contenu des rayons (attractif?), le parcours possible l'intrieur du magasin. Il
est galement utile d'avoir une gestion haut niveau , le superviseur, contenant une description smantique
de l'action de chaque individu suivi chaque instant. Il faut en effet pouvoir coupler une approche globale
par suivi d'une camra l'autre (entre les zones du magasin) avec une analyse locale dans chaque
camra. L'approche globale serait gre par le superviseur, en tenant compte de la trajectoire totale de la
personne suivie, laquelle trajectoire serait obtenue partir des informations bas niveau issues d'une analyse
locale dans chaque camra. On pourrait envisager une architecture tableau noir avec une base de donnes
bas niveau. Ainsi, un score (probabilit) serait attribu chaque action, dterminant ainsi le degr de
dangerosit .
Un systme de perception active , o les camras seraient actives (zoom, translation, rotation)
individuellement, et tour de rle, en fonction de la description smantique des personnages dans la scne n'est
cpendant pas envisageable. En effet, il semble difficile de mobiliser une camra sans risquer, par un zoom, de
perdre une partie de l'observation de la scne.
120 sur 146
Annexe 1 Minimisation du critre du MAP
121 sur 146
Algorithmes de minimisation du critre du MAP
Pour minimiser le critre du MAP, il existe divers algorithmes de minimisation :
-Les algorithmes stochastiques, de type recuit simul (recuit avec dynamique de Metropolis ,
chantillonneur de Gibbs avec recuit ), les algorithmes gntiques, les algorithmes dterministes (les modes
conditionnels itrs ICM Iterated Conditional Modes , la non-convexit graduelle GNC Graduated
Non-Convexity , le recuit en champ moyen MFA Mean Field Annealing ).
-Les algorithmes dterministes sont plus rapides que ceux stochastiques mais peuvent tre pigs dans un
minimum local de l'nergie du critre du MAP au lieu d'un minimum global assur pour l'algorithme
stochastique.
Les algorithmes stochastiques d'optimisation sont une analogie avec le procd de recuit en mtallurgie et en
verrerie. Le matriau est port trs haute temprature et refroidit trs lentement, afin d'obtenir la meilleure
cristallisation, c'est--dire l'tat le plus ordonn possible. Le recuit simul appartient la famille des
algorithmes de relaxation stochastique de type Monte-Carlo. A chaque pas de l'algorithme, la solution
prcdente est vue comme une perturbation alatoire. Le recuit simul permet d'viter de converger vers un
minimum local alors que les algorithmes dterministes itratifs bass sur la minimisation du gradient suivent la
dcroissance de la fonction minimiser et peuvent converger sur un minimum local.
Dans l'algorithme du recuit simul , un paramtre appel temprature est l'origine de la probabilit
d'accepter une croissance de la fonction minimiser. Initialement, le systme est port une trs haute
temprature et le nouvel tat du systme est valu. La haute temprature permet d'accepter tous les tats
possibles du systme. La temprature est progressivement diminue selon une loi de refroidissement. Le nouvel
tat est calcul, et ainsi de suite, jusqu' atteindre une temprature qui permette la convergence vers un tat
d'quilibre, minimum global de la fonction minimiser.
1 Algorithme du recuit simul
Le recuit simul permet de trouver les configurations les plus probables correspondant aux tats d'nergie
minimale. Ces ralisations sont obtenues par l'algorithme de recuit simul avec dynamique de Metropolis et
l'chantillonneur de Gibbs avec recuit , qui permettent d'chantillonner selon la loi de probabilit de Gibbs
associe au champ de Markov. Ces deux algorithmes synthtisent donc les ralisations d'un champ de Markov.
tant donn un champ de Markov, on ralise le tirage d'une configuration image en suivant la loi de probabilit
de Gibbs caractristique de ce champ. Dans les annes 50, [Metropolis N. et al.] a mis au point un algorithme
de relaxation probabiliste issu de la physique statistique. Une suite d'images est construite qui sont des tirages
selon la loi du champ de Markov aprs un grand nombre d'itrations. A l'initialisation, la temprature tant
leve, tous les tats sont quiprobables. Lorsque la temprature diminue, la configuration la plus probable
correspond au minimum global de l'nergie. Le matriau est un cristal parfait quand la temprature tend vers
zro.
2 Cas d'une image
Dans le cas d'une image, on considre que la grille des pixels reprsente les atomes du matriau et les niveaux
de gris leurs tats possibles. Une image est une configuration X , laquelle est associe l'nergie U( x)
du systme correspondant la configuration x , une probabilit de ralisation
P( X =x)=
1
Z
exp(
(U( x))
T
) avec
Z=

x
exp(
(U( x))
T
)
la fonction de partition du systme, et
T>0 . Le terme de temprature provient de l'analogie avec la physique statistique. La variation de
temprature est suppose assez lente pour que le systme volue vers un tat le plus ordonn possible et qui
corresponde l'quilibre thermique cette temprature, et cette temprature le systme se trouve dans l'tat
X dont la probabilit est donne par P( X =x)=
1
Z
exp(
(U ( x))
T
) .
A chaque temprature, on effectue une petite perturbation au systme jusqu' ce qu'il se trouve dans son tat
122 sur 146
d'quilibre thermique , par exemple, modifier lgrement la valeur d'un pixel en lui ajoutant une valeur
alatoire appele grain. A chaque pas de l'algorithme, on gnre alatoirement une nouvelle perturbation
candidate. Si cette solution produit une diminution de l'nergie U ( x) ( U ( x)0 ), la solution est
accepte, sinon elle est accepte selon la probabilit P( X =x) :

P( X =x)=exp(AT ) , si AU>0 ou bien 1 , si AU0 , T est la temprature et AU
est la variation d'nergie suite la perturbation.
A temprature grande, il y a plus de chances d'accepter la configuration qu'en cas de faible temprature car on
va chercher baisser la temprature. Cet algorithme ncessite beaucoup d'itrations pour converger du fait que
les perturbations sont gnres alatoirement, mais la convergence vers un minima local est vite grce
l'acceptation des configurations d'nergie suprieure.
3 Algorithmes de Gibbs et Metropolis
L'chantillonneur de Gibbs est un algorithme propos par [Geman S., Geman D.], il repose sur la construction
itrative d'une suite d'images. Cependant, l'analogie avec le processus physique de recuit est moins vidente car
on n'attend pas que le systme se stabilise chaque temprature. La diffrence principale avec l'algorithme
de Metropolis rside dans la gnration des perturbations. En effet, au lieu de gnrer des perturbations de
manire alatoire et de dcider ensuite si elles sont acceptes ou non, les perturbations sont gnres selon des
fonctions de densit de probabilit conditionnelles locales, drivant d'une distribution de Gibbs. A la
convergence, les images gnres sont des ralisations tires selon la loi de Gibbs globale :
P( X
s
=x
s
/ V
s
)=
(exp(U
s
( x
s
/V
s
)))
(

(E
exp(U
s
((/V
s
)))
.
A l'itration n en partant de l'itration n1 , on choisit un site s selon une loi uniforme ou un balayage
de l'image, la condition tant de balayer tous les sites un trs grand nombre de fois. Selon la configuration des
voisins
V
s
pour l'image
x
( n1)
, on calcule la probabilit conditionnelle locale :
P( X
s
=x
s
/ V
s
)=
(exp(U
s
( x
s
/V
s
)))
(

(E
exp(U
s
((/V
s
)))
. Enfin, on met jour le site s par tirage alatoire selon la
loi
P( X
s
=x
s
/ V
s
)
. On considre que l'algorithme a converg aprs un grand nombre d'itrations ou
lorsque le nombre de changements est faible.
Cet algorithme construit une suite d'images
x
( n)
qui sont les observations d'une suite
X
( n)
de champs
alatoires formant une chane de Markov. Lorsque la squence balaye chaque site une infinit de fois, on a le
thorme suivant :
x
( 0)
xD lim
n-
P( X
( n)
=x/ X
( 0)
=x
( 0)
)=P( x)
, P est la mesure de Gibbs
associe au champ de Markov. Aprs un grand nombre d'itrations, les images
x
( n)
gnres sont des
ralisations de la loi globale P( X )
x
( 0)
la configuration initiale.
L'algorithme de Gibbs est connu sous le terme d'algorithme de relaxation , car il met jour de faon
successive des sites et de faon probabiliste du fait du tirage alatoire.
Par rapport l'algorithme de Gibbs, l'algorithme de Metropolis tire au sort le nouveau descripteur (niveau
de gris dans notre cas) au lieu de considrer la loi dfinie par tous les descripteurs. Les balayages des sites et
le critre d'arrt sont similaires entre les deux algorithmes. Cependant, l'algorithme de Metropolis est plus
rapide chaque tape que l'chantillonneur de Gibbs, mais la convergence peut tre plus lente car l'algorithme
de Metropolis a un taux d'acceptation infrieur 1, alors que l'chantilonneur de Gibbs accepte toutes les
transitions.
Une distribution de Gibbs est une probabilit P( X =x)=
1
Z
exp(
(U ( x))
T
) . Pour une temprature
123 sur 146
infinie, on dmontre que tous les tats sont quiprobables (converge vers la probabilit uniforme). Pour une
temprature qui tend vers 0, on dmontre que la probabilit est uniformment distribue sur les minima
globaux de l'nergie, c'est--dire sur les configurations les plus probables. Ceci est la base de l'algorithme de
recuit simul.
4 Fonctionnement de l'algorithme du recuit simul
Cet algorithme a pour objectif non plus l'chantillonnage, mais la recherche de la configuration d'nergie
minimale d'un champ de Gibbs. C'est un algorithme de simulation itratif qui tablit la solution
progressivement. L'algorithme de recuit simul est le suivant avec n le numro de l'itration :
1. On choisit une temprature initiale
T
( 0)
assez grande;
2. On choisit une configuration initiale quelconque
x
(0)
;
3. A l'tape n , on simule une configuration
x
( n)
pour la loi de Gibbs d'nergie
(U ( x))
T
( n)
partir
de la configuration
x
( n1)
; la simulation a lieu soit par l'chantillonneur de Gibbs soit par
l'algorithme de Metropolis. On balaie l'image la temprature
T
( n)
. Puis on fait diminuer la
temprature lentement.
4. On arrte si le changement est faible.
L'algorithme de recuit simul, contrairement l'chantillonneur de Gibbs et l'algorithme de
Metropolis qui en chantillonnant selon la loi de Gibbs peuvent donner toutes les configurations possibles,
fournit des images uniques correspondant aux minima globaux de l'nergie. L'algorithme de recuit simul
atteint un minimum global car il permet des remontes en nergie. En faisant dcrotre la temprature assez
lentement pour ne pas rester pig dans un minimum local de l'nergie, les sauts d'nergie sont progressivement
supprims en se rapprochant de l'optimum global.
Les algorithmes stochastiques du type recuit convergent en probabilit vers un minimum global du critre du
MAP, indpendamment de la configuration initiale. Si l'nergie du MAP est une somme de termes locaux, on
utilise l'chantillonneur de Gibbs avec recuit, sinon on utilise le recuit simul avec l'algorithme dynamique de
Metropolis [Chadhury S., Subramanian S., Parthasaraty G.]. Cependant, les algorithmes de recuit ont un cot
de calcul important.
5 Algorithme ICM Iterated Conditional Mode
L'algorithme de recuit simul est trs long en calculs, puisqu'il faut gnrer beaucoup de configurations en
mme temps que la temprature dcrot. L'ICM ( Iterated Conditional Mode ) propos par [J. Besag] est
plus rapide mais il n'assure pas de convergence vers un minimum global. Cet algorithme est itratif, modifiant
chaque tape les valeurs
x
s
de l'ensemble des sites de l'image, mais la modification est maintenant
dterministe. Cet algorithme ne permet d'atteindre qu'un minimum local de l'nergie, la transition d'une
configuration une autre n'tant possible que si l'nergie est infrieure. Les algorithmes dterministes tels que
descente de gradient, gradient conjugu ou modes conditionnels itrs (ICM) risquant de rester pigs dans un
minimum local, des algorithmes ont t dvelopps afin de fournir des estimes de bonne qualit. Citons le
Non-Convexit Graduelle (GNC Graduated Non-Convexity ) et le recuit en champ moyen (MFA Mean
Field Annealing ).
L'algorithme ICM est appel aussi recuit gel ou Metropolis gel , ou Gibbs gel , car c'est un cas
particulier de l'algorithme de Metropolis ou de l'chantillonneur de Gibbs : la probabilit d'accepter des
perturbations qui augmentent l'nergie est toujours nulle. Cet algorithme est similaire l'chantillonneur de
Gibbs, mais on choisit pour chaque pixel la valeur maximisant la probabilit conditionnelle locale, au lieu de
tirer une valeur alatoire d'une distribution de probabilit conditionnelle.
On construit, partir d'une configuration initiale x(0) une suite d'images x( n) convergeant vers une
approximation du MAP x recherch. Une itration est une mise jour d'un site, un tour correspond la
visite de tous les sites de l'image, et une tape est l'accomplissement d'un tour.
Le droulement de l'tape n s'effectue en parcourant tous les sites et en chacun d'eux, on effectue deux
124 sur 146
oprations :
1. On calcule les probabilits conditionnelles locales pour toutes les valeurs possibles de \ dans E
du site : P( X
s
=\/ x
r
(k ) , r+
s
) ;
2. On met jour la valeur de \ qui maximise la probabilit conditionnelle locale
x
s
(k+1)=Argmax
\
P( X
s
=\/ x
r
(k) , r+
s
) .
On arrte quand le nombre de changements d'une tape l'autre devient faible. L'nergie globale de la
configuration x diminue chaque itration. L'algorithme ICM converge plus rapidement que les algorithmes
stochastiques de type recuit simul, mais sa qualit dpend de l'initialisation car il converge vers un minimum
local, tant donn qu'il n'accepte que les perturbations de variation d'nergie U( x) ngative . L'ICM
ressemble une descente de gradient (l'nergie baisse chaque itration) ou un recuit simul gel
temprature nulle (d'o sa dnomination de recuit gel ), et donc peut rester bloqu dans le minimum local
le plus proche de l'initialisation. Tandis que le recuit simul, grce aux remontes en nergie qu'il se permet via
le paramtre temprature, permet d'atteindre le minimum global. Il faut donc choisir une estime initiale
convenable. Mais si le nombre d'tats possibles du systme est petit, comme le dplacement maximal en
estimation de mouvement ou le nombre d'tiquettes en segmentation, l'ICM converge trs rapidement.
Nous allons expliquer des algorithmes de simulation permettant de gnrer des ralisations d'un champ de
Markov quelconque, pour des applications en segmentation.
6 Cas de la segmentation
Le problme est modlis dans un cadre baysien. On suppose une image y et une ralisation d'un champ
alatoire Y . Le champ markovien est ici dcrit sur un autre espace de configurations que Y car seules
quelques tiquettes sont considres, celles correspondant aux diverses classes recherches. Le processus de
passage de X , le champ des tiquettes ou des labels pour la segmentation (le champ des intensits pour la
restauration), Y ne dcrit pas le processus d'acquisition mais l'apparence des classes dans l'image. Nous
cherchons une ralisation x de l'image segmente (ou restaure dans le cadre de la restauration), modlise
par un champ de Markov X . Le champ X est la ralit terrain tandis que le champ Y est l'image
bruite. La segmentation (ou la restauration) permet de remonter une ralisation de X partir de
l'observation de l'image bruite y . Il s'agit alors d'un champ de Markov cach pour X , ou de donnes
incompltes puisque y n'est pas une ralisation de X . Grce au critre du maximum posteriori, on
recherche la configuration x maximisant la probabilit suivante dfinie par la rgle de Bayes :
P( X =x/ Y =y)=
( P(Y =y/ X =x)P( X =x))
( P(Y =y))
,
P(Y =y/ X =x) correspond l'observation des donnes image (probabilit de ralisation d'une
configuration connaissant son tiquetage, c'est--dire la classe de chaque pixel). On fait l'hypothse courante
d'indpendance conditionnelle des pixels sites les uns par rapport aux autres (bruit non corrl par exemple), et
que le niveau de gris
y
s
en un site s ne dpend que de l'tiquette
x
s
en ce site :
P(Y =y/ X =x)=

s
P(Y
s
=y
s
/ X
s
=x
s
)
.
Les valeurs des probabilits conditionnelles sont donnes par l'histogramme conditionnel des niveaux de gris
pour une classe donne. On fait de plus l'hypothse sur le champ X de markoviennit :
P( X =x)=
(exp(U ( x)))
Z
.
On dmontre que P( X =x/ Y =y)exp(o( x/ y)) , avec P( X =x/ Y=y)exp(o( x/ y)) , avec
o( x/ y)=

s S
ln ( p( y
s
/ x
s
))+

cC
U
c
( x)
. Donc la distribution posteriori est une distribution de Gibbs
et le champ des tiquettes X conditionnellement y est aussi un champ de Markov (thorme de
Hammersley-Clifford), et d'nergie de Gibbs o( x/ y) . Le terme d'ordre 1 exprime la cohrence des
donnes (le niveau de gris doit correspondre la classe), et le terme d'ordre 2 la contrainte de rgularisation. Il
est ainsi possible de simuler des ralisations de ce champ l'aide de l'chantillonneur de Gibbs ou de
125 sur 146
l'algorithme de Metropolis. Il est ncessaire de dterminer les tats d'nergie minimale correspondant au
maximum de la probabilit d'un champ markovien. Autrement dit, la configuration x recherche est celle qui
maximise la probabilit posteriori, c'est--dire la ralisation la plus probable du champ de Gibbs ou celle qui
minimise l'nergie o( x/ y) . L'algorithme de recuit simul permet de trouver ces configurations.
Prenons un exemple, et faisons l'hypothse de la prsence d'un mouvement dominant, par exemple dans le
cas du mouvement du fond. Dans ce cas, il faut segmenter les objets de l'avant-plan. Le mouvement dominant
est alors recherch pour toute l'image courante I(t), c'est le modle global A. L'image prcdente I(t-1) est
compense : chaque point de I(t-1) est dplac grce aux paramtres du modle trouv A. L'erreur de
compensation Deplaced Frame Difference est calcule pour chaque pixel. Les objets non conforme au
mouvement du modle dominant sont mal compenss. Ils seront dtects par seuillage de l'erreur de
compensation, mais il existe aussi des mthodes markovienne plus complexes [Odobez J.M., Bouthemy P. 94].
126 sur 146
Annexe 2 Filtrage particulaire
127 sur 146
1 Le filtre particulaire
Le filtre de Kalman n'est pas optimal dans les applications de suivi visuel (suivi d'un objet via les
caractrstiques d'apparence) car les hypothses de normalit du bruit de mouvement et d'observation ne sont
pas toujours satisfaites.
Le suivi probabiliste est ralis grce la couleur. Il s'agit d'estimer le vecteur d'tat compos de la position et
du facteur d'chelle de la bote englobante de l'objet. Les situations qui engendrent le dcrochage du filtre de
Kalman sont les suivantes :
1. Lorsque le fond de la scne prsente une apparence similaire l'objet suivi, connu sous le nom de
clutter . Sur la figure 73a, les cartons du fond de la scne prsentent une apparence similaire la
peau du bb, conduisant un dcrochage partir de l'image 50;
2. Lorsqu'il y a une occultation de l'objet suivi. Sur la figure 73b, le suivi est compltement dcroch
partir de l'image 103.
Dans le premier cas, l'hypothse de normalit du vecteur d'tat conditionnellement aux observations n'est pas
vrifie. Lorsque l'objet suivi se trouve dans une zone similaire d'un point de vue de l'apparence, plusieurs
positions du vecteur d'tat correspondent au modle et en deviennent quiprobables.
Dans le second cas, lors d'une occultation, l'information d'apparence de la personne suivie n'tant plus visible,
la rpartition de l'tat sera multi modale et l'hypothse de normalit conditionnellement aux observations n'est
plus vrifie.
(a) Fond d'apparence similaire 'objet d'intrt et variation de point de vue
(b) occultation
Figure 73 : Limite du filtrage de Kalman dans le cas du suivi visuel ([Perez P., Hue C., Vermaak J., Gangnet
M.], [Thome N.]).
Le filtre de Kalman propose une solution optimale lorsque l'hypothse de normalit est vrifie, mais dans le
cas contraire, la recherche dterministe par filtre de Kalman risque de driver vers une mauvaise solution, sans
aucune chance de retrouver la personne suivie quelques images plus loin.
D'autre part, le filtre de Kalman suppose la recherche de l'observation dont la corrlation avec le modle est la
128 sur 146
plus grande. Ceci signifie qu'en cas de dcrochage, il n'est plus possible de rattraper le suivi.
Une alternative au filtrage de Kalman a t propose afin d'viter ses limites dans le cas du suivi visuel. Au
lieu d'utiliser une loi de paramtres a priori connus pour la densit de probabilit de l'tat, on approche la
distribution recherche par simulation numrique. Les mthodes de Monte-Carlo permettent de trouver une
solution, mais dans le cas du suivi visuel, le filtrage particulaire est un exemple trs connu d'application des
mthodes de Monte-Carlo, pour l'estimation du vecteur d'tat d'un systme Markovien non linaire et non
gaussien.
Le filtrage particulaire est une mthode d'exploration de l'espace d'tat du problme par des particules dont
la dynamique volue alatoirement. L'ensemble des particules est distribu selon la probabilit du processus
estimer, conditionnellement aux observations dlivres par les capteurs. Comme cette mthode ne ncessite pas
une rsolution explicite des quations, elle est applicable dans le cas de non linarit ou non gaussienet.
Le but du filtrage particulaire, en tant qu'estimateur baysien, est d'estimer rcursivement la densit de
probabilit a posteriori
p( x
k
/ z
1:k
)
du vecteur d'tat
x
k
l'instant k conditionnellement sur l'ensemble
des mesures
z
1:k
=z
1
,... , z
k
. L'ide est d'approcher la distribution de probablit de l'tat X de la
personne suivie par un ensemble de n chantillons
x
(i )
associs des poids
n
( i)
:
X =( x
i
,n
i
) , i=1,... , n
, et

i=1
N
n
(i)
=1 . Chaque chantillon
x
(i )
est appel une particule,
reprsentant une instance de l'tat X dans l'espace dans lequel il est dfini. Le poids n
( i)
correspond la
probabilit que
X =x
(i )
.
A chaque instant k, la densit
p( x
k
/ z
1:k
)
est approche grce la distribution ponctuelle
p( x
k
/ z
1: k
)

i=1
N
n
k
( i)
6( x
k
x
k
(i)
) , et

i=1
N
n
(i)
=1 , exprimant la slection d'une particule x
k
(i )
avec la probabilit ou poids

i=1
N
n
(i)
, i=1, .... , N.
Les particules x
k
(i )
voluent de faon stochastique dans le temps et sont chantillonnes selon une fonction
d'importance qui a pour but d'explorer de faon adaptative les zones pertinentes de l'espace d'tat.
L'initialisation de l'algorithme gnrique du filtrage particulaire consiste dfinir un ensemble de particules
pondres dcrivant la distribution a priori
p( x
0
)
, en affectant des poids identiques n
0
( i)
=
1
N
des
chantillons x
1
(0)
, .... , x
N
( 0)
indpendants identiquement distribus (i.i.d) selon
p( x
0
)
. La dtermination de
l'ensemble des particules pondres x
k
( i)
, w
k
(i )
associe la densit a posteriori
p( x
k
/ z
1: k
)
se fait en
deux tapes :
1. Les x
k
(i )
sont chantillonns selon la fonction d'importance
q( x
k
/ x
k1
, z
k
)
;
2. Les poids n
( i)
sont ensuite mis jour de faon assurer la cohrence de l'approximation
p( x
k
/ z
1: k
)

i=1
N
n
k
( i)
6( x
k
x
k
(i)
)
L'ensemble des particules pondres a donc pour objectif d'estimer la densit de probabilit de l'tat (cf. figure
74). Les n particules voluent en parallle, et chaque particule progresse en fonction des mesures fournies par
les capteurs chaque instant, en simulant une trajectoire possible. Cette trajectoire reprsente le
droulement d'un processus qui a les mmes quations que le processus estimer. Chaque particule fournit
l'information du vecteur d'tat similaire au vecteur d'tat du processus estimer, et le poids reprsentatif de la
probabilit que ce vecteur soit celui du processus estimer.
Pour un grand nombre de particules, on dmontre que l'ensemble des tats des particules pondrs par leurs
poids respectifs correspond la loi de probabilit conditionnelle du vecteur d'tat du processus.
129 sur 146
Figure 74 : Estimation de la distribution de l'tat par simulation de n particules [Thome N.].
Les trajectoires des particules sont reprsentes par les courbes et leur poids respectifs par la hauteur des
flches (cf. figure 75).
Figure 75 : Trajectoires des particules et leur poids respectifs rprsents par la hauteur des flches.
Dans le but d'augmenter la capacit d'exploration de l'estimateur, sans augmenter le nombre de particules, on
redistribue priodiquement les particules selon leur probabilit.
La redistribution permet d'explorer au maximum le rseau de particules dans les rgions de probabilit
maximale,afin d'amliorer la prcision de l'estimation. Nous voyons l'effet de la redistribution la figure 76 :
plusieurs particules sont nes au mme endroit, tandis que d'autres ont disparu. Ceci vient du fait que les
particules les plus lourdes sont favorises en donnant naissance plusieurs particules la mme position,
alors que les particules aux rgions les moins probables sont peu choisies, et disparaisssent de cette faon.
130 sur 146
Figure 76 : Effet de la redistribution.
Pour estimer la densit de probablit grce aux particuls pondres, il faut trois tapes : propagation,
pondration, et rchantillonnage. En effet, il faut trouver le nombre de particules ncessaires, et la manire
dont l'chantillonnage va tre effectu. Ensuite, il faut une mesure associe aux observations image pour
dterminer le poids de chaque particule. C'est ce que font les trois tapes de propagation, pondration, et
rchantillonnage.
1. Etape de propagation : les particules sont diffuses selon un modle de mouvement dont les
paramtres sont estims. La propagation contient deux termes (cf. figure 77). Un terme correspond au
mouvement dterministe et est une drive ( drift ) en fonction du pass. Un second terme est
alatoire et correspond un bruit dynamique dit le mouvement brownien , avec des paramtres
statistiques. Ce terme alatoire parcourt l'espace d'tat en cherchant de nouvelles solutions
( diffuse ).
2. Etape de pondration : une mesure de similarit avec les donnes images est effectue. A
l'initialisation du suivi, un modle est gnr, et une distance est calcule entre le modle gnr et la
mesure image correspondant la valeur
x
(i )
de l'espace d'tat de la particule en question. A chacune
des tapes de pondration, le poids
n
( i)
de chaque particule est calcul. Il est d'autant plus grand
que la mesure image correspond bien au modle. A la fin de l'tape de pondrarion, on calcule l'tat
moyen du systme par la somme des diffrentes particules pondres par leurs poids. Cet tat moyen
correspond l'estimation du vecteur d'tat renvoy par le filtre particulaire :
x=E | X =

i=1
n
n
(i )
x
( i)
.
3. Toute mthode de simulation squentielle de type Monte Carlo prsente un problme de
dgnrescence : aprs quelques itrations, les poids non ngligeables vont se concentrer sur une seule
particule. Afin de limiter ce problme, une tape de rchantillonnage (appele aussi tape de
redistribution) est introduite en fin de chaque cycle de l'algorithme de filtrage particulaire. Cette tape
a pour but de tirer un ensemble de n particules, chacune avec la probabilit correspondant aux poids
calculs lors de l'tape de pondration, donc selon la densit estime de l'tat. N nouvelles particules
sont obtenues par rchantillonnage avec remise dans l'ensemble x
k
( i)
. Les particules associes
des poids n
k
( i)
levs sont dupliqus, au dtriment de celles, faiblement pondres, qui
disparaissent. Le tirage avec remise est appel chantillonnage d'importance ou Sampling
Importance Resempling , c'est l'algorithme SIR. Cette tape de redistribution peut tre soit
applique systmatiquement, soit tre dclenche seulement lorsqu'un critre d'efficacit du filtre est en
dessous d'un certain seuil. Cette tape ne doit pas tre oublie, sinon cela correspondrait simuler le
131 sur 146
jeu de n particules initial une fois pour toutes, sans remise, c'est--dire sans prendre en compte la
pondration calcule grce aux donnes image, alors que cette tape permet d'approcher la densit
recherche.
Figure 77 : Etapes de l'algorithme du filtrage particulaire [Thome N.].
2 L'algorithme de CONDENSATION
L'algorithme de CONDENSATION (CONditional DENSity propagATION for visual tracking) [Isard M.,
Blake A., 98] fut la premire application de filtrage particulaire. Il peut tre vu comme le cas particulier de
l'algorithme SIR (cf. figure 78) o la fonction d'importance est relative la dynamique du processus d'tat.
Ceci donne la CONDENSATION une structure prdiction/mise jour comparable celle du filtre de
Kalman, puisque la densit ponctuelle

i=1
N
n
k
(i )
6( x
k
x
k
( i)
) approche la prdiction
p( x
k
/ z
1:k
)
. De plus,
la mise jour des poids rappelle la formule de Bayes correspond l'tape de mise jour de l'estim de
Kalman.
Dans le cas du suivi visuel, l'algorithme de CONDENSATION original dfinit les vraisemblances des
particules partir des primitives visuelles telles que les contours.
132 sur 146
Figure 78 : Algorithme gnrique de filtrage particulaire (SIR) et CONDENSATION [Brthes L., Dans P.,
Lerasle F.].
3 Prsentation des travaux de [Perez P., Hue C., Vermaak J.,
Gangnet M.]
Nous prsentons les rsultats de suivi avec le filtre particules propos par [Perez P., Hue C., Vermaak J.,
Gangnet M.] la figure 79. Le vecteur d'tat, cmme indiqu prcdemment, est compos de la position et du
facteur d'chelle de la bote englobante de l'objet suivi, et la pondration des particules est obtenue par une
mesure de distance entre histogrammes dans l'espace HSV. A la figure 79, les botes jaunes reprsentent les
diffrentes particules
x
(i )
gnres pour estimer la densit de probabilit de l'tat, et la bote rouge
correspond l'tat estim par le filtre particules. Cet tat estim correspond la moyenne pondre des
particules. Nous pouvons constater que le suivi est correct dans les deux cas. En effet, le filtre particules
adapte la recherche dans l'espace d'tat en fonction de la forme de la distribution qui est approche. Dans les
situations simples, quand l'objet suivi a une apparence diffrente du fond de la scne, un petit nombre
d'chantillons a un poids important et la diffusion dans l'espace de recherche est faible. Il n'est en effet pas
utile de chercher des rgions candidates loin de l'objet suivi. La modlisation de la densit par une Gaussienne
tant possible, le filtre de Kalman aurait pu convenir galement. Cependant, dans le cas d'occultation par un
fond o l'hypothse de normalit n'est plus vrifie, le filtre de Kalman fonctionne mal. Le filtre particules,
l'inverse, s'adapte aux mesures images et le mode correspondant l'tat prcdemment suivi devient de moins
en moins marqu, ce qui a pour effet qu'un grand nmbre de particules se voit attribuer un poids non
ngligeable. Ceci apparat sous la forme d'un nuage de particules beaucoup plus diffus (cf. figure 79),
permettant de parcourir des zones de l'espace d'tat plus lointaines, pour chercher des particules fortement
discriminantes. Ainsi la figure 79a, le bb revient dans une pose o son apparence est similaire au modle
tabli avant le suivi, et la figure 79b la fin de l'occultation, la personne qui se trouvait dans le fond revient
dans le champ. Le filtre particulaire est plus souple que le filtre de Kalman, dans le sens o il permet le
raccrochage aprs des situations d'occultations ou de camouflage.
133 sur 146
(a) Fond d'apparence similaire 'objet d'intrt
(b) Suivi par filtrage particulaire dans le cas d'occultations
Figure 79 : Performances du filtrage particulaire dans le cas du suivi visuel ([Perez P., Hue C., Vermaak J.,
Gangnet M.], [Thome N.]).
4 Prsentation des travaux de [Brthes L., Dans P., Lerasle
F.]
Enfin, citons les travaux de [Brthes L., Dans P., Lerasle F.] traitant du suivi visuel de personnes partir
d'une camra embarque sur un robot mobile en environnement humain, a priori encombr et volutif. Le but
est alors de guider les visiteurs d'une exposition et d'interagir avec eux. Des mesures visuelles sur la couleur, la
forme ou le mouvement sont dcrites, ainsi que diffrentes stratgies de filtage prenant en compte plus ou
moins ces mesures. Les mesures visuelles combines dfinissent une fonction d'importance selon laquelle les
particules sont chantillonnes, et si elles sont fusionnes l'intrieur d'un modle de mesure, alors celui-ci sert
de base la dfinition des poids.
Le repositionnement des particules par la fonction d'importance puis l'association d'informations htrognes
dans le modle de mesure augmente la robustesse et la prcision du suivi.
La figure 80 montre un exemple de suivi incluant une occultation.
Figure 80 : Exemple de suivi incluant une occultation [Brthes L., Dans P., Lerasle F.].
134 sur 146
Rfrences
[Abrantes A., Marques J., Lemos J.], Long Term Tracking Using Bayesian Networks . In IEEE
International Conference on Image Processing.Vol. 3, pages 609-612, Rochester, Sept. 2002.
[Adelson E. H., Noyogi S. A.], Analysing and recognizing walking figures in xyt . In Proc. CVPR, Vol.
309, pages 469-474, Seattle, Wash., 1994.
[Andrade E., Blunsden S., Fisher R.], Performance Analysis of Event Detection Models in Crowded
Scenes . In Proc. Workshop on Towards Robust Visual Surveillance Techniques and Systems at Visual
Information Engineering 2006, Bangalore, India, pages 427-432, Sept 2006.
[Aggarwall J.K., Nandhakumar N.], On the computation of motion from sequences of images - A review .
In Proceedings of IEEE, 1998, Vol. 76, N8, pages 917-935.
[Agarwal A., Triggs B.], Recovering 3D human pose from monocular images . In IEEE Transactions on
Pattern Analysis & Machine Intelligence, Vol. 28, N1, January 2006.
[Akita K.], Image sequence analysis of real world human motion . In Pattern recognition, Vol. 17, N1,
pages 73-83, 1984.
[Ali M.A., Indupalli S., Boufama B.], Tracking Multiple People for Video Surveillance , University of
Windsor, Canada.
[Allmen M., Dyer C. R.], Computing spatiotemporal relations for dynamic perceptual organization . In
Computer Vision, Graphics and Image Processing: Image Understanding, Vol. 3, N58, pages 338351, 1993.
[Anderson C., Burt P., Van Der Wal G.], Change detection and tracking using pyramid transformation
techniques . In Proceedings of SPIE Intelligent Robots and Computer Vision, Vol. 579, pages 72-78, 1985.
[Arens M., Nagel H.-H.], Behavioral Knowledge Representation for the Understanding and Creation of
Video Sequences . In Proceedingsof the 26
th
German Conference on Artificial Intelligence(KI-2003), 15-18
September 2003, Hamburg, Germany. LNAI, Vol. 28, N21, pages 149-163. Springer: Berlin Heidelberg New
York/NY 2003.
[Avanzi A., Bremond F., Tornieri C., Thonnat M.], Design and Assessemnt of an Intelligent Activity
Monitoring Platform . In EURASIP Journal on Applied Signal Processing, Special Issue on Advances in
Intelligent Vision Systems: Methods and Application , August 2005, Vol. 2005, N14, pages 2359-2374.
[Barron J.L., Fleet D.J., Beauchemin S.S.], Performance of Optical Flow techniques . In Int. Journal.
Comp. Vision, Vol. 12, N1, pages 43-77, 1994.
[Baumberg A.M.], Learning Deformable Models for Tracking Human Motion . PhD thesis, School of
Computer Studies, University of Leeds, Leeds, UK, 1995.
[Baumberg A., Hogg D.], An adaptative eigenshape model . In British Machine Vision Conference BMVC,
Birmingham, 1995.
[Bar-Shalom Y., Fortmann T.E.], Tracking and data association , Academic Press, 1988.
[Bar-Shalom Y., Li X.], Multitarget-Multisensor Tracking: Principles and Techniques . YBS Publishing,
1995.
[Bernier O.], Real-Time 3D Articulated Pose Tracking using Particle Filters Interacting through Belief
Propagation , ICPR, 2006.
[Bernier O., Cheung-Mon-Chang P.], Real-time 3D articulated pose tracking using particle filtering and
belief propagation on factor graphs . In British Machine Vision Conference, Vol.01, pages 005-008, 2006.
[Besag J.], Spatial interaction and the statistical analysis of lattice systems . J. Royal Statist. Soc., 36 B:
192-236, 1974.
[Beymer D.], Person counting using stereo . In Workshop on Human Motion, December 2000.
[Blackman S.S.], Multiple-target tracking with radar applications , Artech House, 1986.
[Blake A., Isard M. 98], Active Contours . In Springer Verlag, 1998.
[Black M.J., Jepson A.D.], EigenTracking: Robust Matching and Tracking of Articulated Objects Using a
View-Based Representation , ECCV, Vol. II, pages 329342, 1996.
[Bobick A., Campbell L.], Recognition of human body motion using phase space constraints . In Technical
Report 309, M.I.T Media Laboratory, Perceptual Computing Section, 1994.
[Bobick A.F., Wilson A.D.], A state-based technique for the summarization and recognition of gesture . In
Proceedings of 5
th
International Conference on Computer Vision, pages 382-388, Cambridge, 1995.
135 sur 146
[Bogaert M., Chleq N., Cornez P., Regazzoni C., Teschioni A., Thonnat M.], The passwords project . In
International conference on Image Processing (ICIP'96). Proceeding in IEEE ICIP. Vol 3, pages 675-678.
Lausanne, Switzerland, September 1996.
[Boucher C.], Contribution la Fusion d'Informations Par Filtrage Non-Linaire : Application l'Estimation
de la Structure et Du Mouvement 3D Dans un Contexte Multi-Capteurs . In PhD thesis, Universit du
Littoral Cte d'Opale, Octobre 2000.
[Bouthemy P. 87], Estimation et structuration d'indices spatiotemporels pour l'analyse du mouvement dans
une squence d'images , Traitement du Signal, Vol. 4, N3, pages 239-257, 1987.
[Bouthemy P., Santillana Rivero J.], A hierarchical likelihood approach for region segmentation according to
motion-based criteria . In Proc. of 1rst Int. Conf. on Computer Vision, pages 463-467, Londres, 1987.
[Bouthemy P. 88], Modles et mthodes pour l'analyse du mouvement dans une squence d'images , 2nd
Atelier Scientifique Traitement d'Images : du Pixel l'Interprtation, Aussois, 1988, XXV1 XXV19 .
[Bouthemy P. 89], A Maximum Likelyhood Framework for Determining Moving Edges . In IEEE Trans.
PAMI, Vol. 11, N5, pages 499-511, May 1989.
[Bouthemy P., Franois E.], Motion segmentation and qualitative dynamic scene analysis from an image
sequence . In Int. Journal of Computer Vision, Vol. 10, N2, pages 157-182, April 1993.
[Bouthemy P., Lalande], Recovery of moving object masks in an image sequence using local spatio-temporal
contextual information . In Optical Engineering, Vol. 32, N6, pages 1205-1212, 1993.
[Brand M., Kettnaker V.], Discovery and segmentation of activities in video . In IEEE Trans. Pattern Anal.
Mach. Intell., Vol. 22, N8, pages 844-851, 2000.
[Bregler C., Malik J.], Tracking people with twists and exponential maps . In CVPR, pages 8-15, 1998.
[Bremond], Environnement de rsolution de problmes pour l'interprtation de squences d'images . PhD
thesis, INRIA-Universit de Nice Sophia-Antipolis.
[Brthes L., Dans P., Lerasle F.], Stratgies de filtrage particulaire pour le suivi visuel de personnes :
description et valuation . In RFIA 2006, Tours France.
[Buechler G., Smith P.], A branching algorithm for discriminating and tracking multiple objects . In IEEE
Trans. Automat. Contr., Ac-Vol.20, pages 101-104, February 1975.
[Buxton H., Gong S.], Advanced Visual Surveillance using Bayesian Networks . In International
Conference on Computer Vision, Cambridge, Massachusetts, June 1995.
[Cai Q., Mitiche A., Aggarwal J.K.], Tracking human motion in an indoor environment . In Proceedings of
the 2
nd
International Conference on Image Processing (ICIP95), pages 215-218, 1995.
[Chadhury S., Subramanian S., Parthasaraty G.], Heuristic search approach to shape matching in image
sequences , in Proceedings of IEEE, Vol. 138, N2, pages 97-105, 1991.
[Chalidabhongse T., Kim K., Harwood D., Davis L.], A perturbation method for evaluating background
subtraction algorithms . In Joint IEEE International Workshop on Visual Surveillance and Performance
Evaluation of Tracking and Surveillance. Nice, France, 2003.
[Cham T.J., Rehg J.M.], A multiple hypothesis approach to figure tracking . In Perceptual User Interfaces,
pages 19-24, November 1998.
[Chang T.H., Gong S., Ong E.J.], Tracking multiple people under occlusion using multiple cameras . In
Proceedings of the 11
th
British Machine Vision Conference, 2000.
[Chang T.H., Gong S.], Tracking multiple people with a multicamera system . In Proceedings of IEEE
ICCV Workshop on Multi-Object Tracking, pages 19-26, Vancouver, 2001.
[Chen Y., Rui Y., 2004], Real-time Speaker Tracking Using Particle Filter Sensor Fusion .
In Proceeding of the IEEE, Vol. 92, N3, pages 485-494, March 2004.
[Chen Z., Lee H.], Knowledge-guided visual perception of 3D gait from a single image sequence . In IEEE
Transactions on systems, man and cybernetic, Vol. 22, N2, pages 336-342, 1992.
[Chen H.T., Lin H.H., Liu T.L.], Multi-Object Tracking Using Dynamical Graph Matching . In
Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Vol. 2,
pages 210-217, 9-14 December 2001, Kauai Marriott, Hawaii.
[Chen Y., Rui Y., Huang T.S.], JPDAF based HMM or real-time contour tracking . In CVPR, Vol. 1, pages
543-550, 2001.
[Chleq N., Thonnat M.], Realtime image sequence interpretation for videosurveillance . In IEEE, editor,
International Conference on Image Processing, Lausanne, Switzerland, pages 801-804, 1996.
136 sur 146
[Choi S., Seo Y., Kim H., Hong K.], Where are the ball and players? soccer game analysis with color-based
tracking and image mosaik . In ICIAP, 1997.
[Chomat O., Crowley J.L.], Recognizing motion using local appearance . In International Symposium on
Intelligent Robotic Systems, University of Edinburgh, 1998.
[Cohen I., Medioni G.], Detecting and Tracking Moving Objects for Video Surveillance . In IEEE
Proceedings of Computer Vision and Pattern Recognition, Fort Collins, Jun. 1999, pages 1-7.
[Collins R., et al.a], A System for Video Surveillance and Monitoring . CMU-RI-TR-00-12, Robtics
Institute, CMU, May, 2000.
[Collins R., et al.b], A System for Video Surveillance and Monitoring: VSAM Final Report . In Technical
report CMU-RI-TR-00-12, 2002.
[Comaniciu D., Meer P.], Mean shift : A robust approach toward feature space analysis . In IEEE Trans.
Pattern Analysis Machine Intell., Vol. 24, N5, pages 603-619, 2002.
[Comaniciu D., Ramesh V., Meer P.], Kernel-based object tracking . In PAMI, Vol. 25, N5, pages
564-577, 2003.
[Cootes T.F., Taylor C.J.], Active shape models - `Smart snakes' . In British Machine Vision Conference,
pages 276-285, september 1992.
[Cootes T.S, Taylor C.J., Cooper D.H., Graham J.], Active shape models-Their training and application ,
Computer Vision and Image Understanding, Vol. 61, N1, pages 38-59, January 1995.
[MacCormick J., Isard M.], Partitioned sampling, articulated objects, and interface-quality hand tracking .
In ECCV, Vol. 2, pages 319, 2000.
[Cox I.J.], A review of statistical data association techniques for motion correspondence . In Int. J. of
Computer Vision, Vol. 10, N1, 1993.
[Cox I.J, Hingorani S.L.], An Efficient Implementation of Reids Multiple Hypothesis Traking Algorithm
and Its Evaluation for the Propose of Visaul Traking . In IEEE Trans. Pattern Anal. Mach. Intell., Vol. 18, N
2, pages 138-150, February 1996.
[Crowley J.L., Demazeau Y.], Principles and Techniques for Sensor Data Fusion , Signal Processing
(EURASIP), Vol. 32, pages 5-27. [
[Cupillard F., Avanzi A., Bremond F., Thonnat M.], Video understanding for metro surveillance . In IEEE
International Conference on Networking, Sensing and Control, March 2004.
[Le Cun Y., Bottou L., Bengio Y., Haffner P.], Gradient-based learning applied to document recognition . In
Proc. IEEE, Vol. 86, N11, pages 2278-2324, 1998.
[Davis J.W., Bobick A.F.], The representation and recognition of human movement using temporal
templates . In Proceedings on the Computer Vision and Pattern Recognition, pages 928-934, 1997.
[Demirdjian D., Ko T., Darrell T.], Constraining human body tracking . In ICCV 03: Proceedings of the 9
th
IEEE International Conference on Computer Vision, page 1071, IEEE Computer Society, 2003.
[Demirdjian D., Taycher L., Shakhnarovich G., Grauman K., Darrell T.], Avoiding the streetlight effect :
Tracking by exploring likelihood modes . In ICCV, pages 357-364, 2005.
[Deriche R.], Using Canny's criteria to derive a recursively implemented optimal edge detector ,
International Journal of Computer Vision, Vol. 2, pages 167-187, 1987.
[Deutscher J., Blake A., Reid I.], Articulated body motion capture by annealed particle filtering , CVPR,
Vol. 2, pages 126-133, 2000.
[Dimitrijevic M., Lepetit V., Fua P.], Human body pose recognition using spatio-temporal templates . In
ICCV, 2005.
[Djeraba C.], State of Art in Body Tracking , Publication interne N6, Laboratoire d'Informatique
Findamentale de Lille, Universit des Sciences et Technologies de Lille, 2005.
[Doucet A., De Freitas N., Gordon N.], Sequential Monte Carlo methods in practice . In Stats. for Eng. and
Info, Sciences, Springer Verlag, 2001.
[Du L., Sullivan G., Baker K.], Quantitative analysis of the view point consistency constraint in mode-based
vision . In International Conference of Computer Vision, pages 632-639, Berlin, 1993.
[Elgammal A., Duraiswami R., Davis L.S.], Probabilistic tracking in joint feature-spatial spaces . In
Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition, 2003.
[Elgammal A., Duraiswami R., Harwood D., Davis L.S.], Background and foreground modeling using non-
parametric kernel density estimation for visual surveillance . Proc. IEEE Vol. 90, N7, pages 1151-1163,
137 sur 146
2002.
[Elgammal A.M., Harwood D., Davis L.S], Non-parametric Model for Background Subtraction . In
Proceedings of the 6
th
European Conference on Computer Vision-Part, Vol. 2, pages 751-767, June 26-July 01,
2000.
[Felzenszwalb P.F., Huttenlocher D.P. 00], Efficient Matching of Pictorial Structures . In Proceedings on
the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 66-75, Hilton
Head Island, USA, 2000.
[Felzenszwalb P.F., Huttenlocher D.P. 03], Pictorial structures for object recognition . Submitted to IJCV,
2003.
[Fieguth P., Terzopoulos D.], Color-based tracking of heads and other mobile objects at video frame rates .
In CVPR 97 : Proceedings of the 1997 Conference on Computer Vision and Pattern Recognition (CVPR 97),
page 21, Washington, DC, USA, 1997. IEEE Computer Society.
[Forsyth D.A., Fleck M.M.], Body plans . In Proceedings on the IEEE Conference on Computer Vision and
Pattern Recognition, pages 678-683, Puerto Rico, USA, 1997.
[Fortmann T.E., Bar-Shalom Y., Scheffe M.], Sonar tracking of multiple targets using joint probabilistic data
association . In IEEE J. Oceanic Eng. OE-8, pages 173-184, 1983.
[Fuentes L.M., Velastin S.A.], People tracking in surveillance applications . In Proceedings of the IEEE
Workshop on Performance Evaluation of Tracking and Surveillance (PETS2001), 2001.
[Fusier F., Valentin V., Bremond F, Thonnat M.], Video understanding for complex activity recognition . In
Machine Vision and Applications (2007), Special Issue Paper, Vol. 18, pages 167-188. Springler-Verlag 2007.
[Galata A., Johnson N., Hogg D.], Learning variable length markov models of behaviour . In Journal of
Computer Vision and Image Understanding, pages 398-413, 2001.
[Gandhi T., Trivedi M.M.], Person tracking and reidentification: Introducing Panoramic Appearance Map
(PAM) for feature representation . In Machine Vision and Applications (2007), Special Issue Paper, Vol. 18,
pages 207-220. Springler-Verlag 2007.
[Gao J., Shi J.], Multiple frame motion inference using belief propagation . In FGR, pages 875-882, 2004.
[Garcia V.], Rapport de DEA Image Vision, Estimation de mouvement subpixlique par blocs adapte la
couleur avec modle de mouvement , Laboratoire I3S, Equipe CreATIVe, soutenu le 14 Septembre 2004.
[Gauvrit H., Le Cadre J.P.], A formulation of multitarget tracking as an incomplete data problem . In IEEE
Trans. Aerosp. Electron. Systems. Vol. 33, N4, pages 1242-1257, 1997.
[Gauvrit H.], Extraction multi-pistes : approche probabiliste et approche combinatoire . Thse Universit
de Rennes 1 IRISA, dcembre 1997.
[Gavrila D.M., Davis L.S.], 3-D Model-Based Tracking of Humans in Actions: A Multi-View Approach .
In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pages 73-80, San Francisco,
USA, June 1996.
[Gelgon M.], Segmentation spatio-temporelle et suivi dans une squence dimages : application la
structuration et lindexation de vido . Thse de doctorat, Universit de Rennes 1, 1998.
[Geman S., Geman D.], Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images .
In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 6, n6, novembre 1984, pages
721-741.
[Gerber R., Nagel H.-H.], Representation of Occurrences for Road Vehicle Traffic . In Internal Report,
31 March 2006. Institut fr Algorithmen und Kognitive Systeme, Fakultt fr Informatik der Universitt
Karlsruhe(TH), 76128 Karlsruhe.
[Georis B., Bremond F., Thonnat M., Macq B.], Use of an evaluation and diagnosis method to improve
tracking performances . In Hamza,M.(ed.) Proceedings of the 3rd IASTED International Conference on
Visualization, Imaging and Image Processing (VIIP03), pages 827-832. Acta Press, Benalmadera, Spain,
2003.
[Georis B., Bremond F., Thonnat M.], Real-time control of video suveillance systems with program
supervision techniques . In Machine Vision and Applications, Special Issue Paper, Vol. 18, pages 189-205.
Springler-Verlag 2007.
[Georis B., Maziere M., Bremond F., Thonnat M.], A video interpretation platform applied to bank agency
monitoring . In Proceedings of IDSS04-2nd Workshop on Intelligent Distributed Surveillance Systems
London,UK, 2004.
138 sur 146
[Gomila C.], Mise en correspondance de partitions en vue du suivi dobjets . Thse de doctorat, cole
Nationale Suprieure des Mines de Paris, 2001.
[Gong Y.], Integrated Object Detection and Tracking by Multiple Hypothesis Analysis . In NEC J Adv
Technol. Vol. 2, N1, pages 13-18, 2005.
[Grava C.], Compensation de mouvement par rseaux neuronaux cellulaires. Application en imagerie
mdicale , Thse de doctorat, soutenue le 12 dcembre 2003, INSA de Lyon.
[Grimson E., Viola P.], A forest of sensors . In Proceedings of DARP -VSAM workshop II, November
1997.
[Grimson W.EL., Stauffer C., Romano R., Lee L.], Using Adaptive Tracking to Classify and Monitor
Activities in a Site . In CVPR archive Proceedings of the IEEE Computer Society Conference on Computer
Vision and Pattern Recognition, IEEE Computer Society Washington, DC, USA, 1998.
[Hall D., Crowley, J. et al.], Comparison of target detection algorithms using adaptive background models .
In IEEE VS-PETS. Beijing, China, 2005.
[Hampapur A., Brown L., Connell J., Ekin A., Haas N., Lu M., Merkl H., Pankanti S.], Smart video
surveillance: exploring the concept of multiscale spatiotemporal tracking . in Signal Processing Magazine,
IEEE, Vol. 22, N2, pages 38-51March 2005.
[Han M., Xu W., Gong Y.], Multi-object trajectory tracking , Machine Vision and Applications, Special
Issue Paper, Vol. 18, pages 221-232. Springler-Verlag 2007.
[Haritaoglu I., Harwood D., Davis L.S. 98], Ghost : A human body part labeling system using silhouettes .
In Fourteenth International Conference on Pattern Recognition, Brisbane, Vol. 8, 1998.
[Haritaoglu I., Harwood D., Davis L.S. 99], Hydra: multiple people detection and tracking using
silhouettes . In IEEE Workshop on Visual Surveillance, 1999.
[Haritaoglu I., Harwood D., Davis L.S. 00], W
4
: Real-Time Surveillance of People and Their Activities .
In IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 22, N8, pages 809-830, August 2000.
Proceedings of the 17th International Conference on Pattern Recognition (ICPR04) 1051-4651/04 $ 20.00
IEEE.
[Harris C., Stephens M.], A combined corner and edge detector . In Alvey Vision Conference, pages
147-151, 1988.
[Heisele B., Whler C.], Motion-Based Recognition of Pedestrians . In Fourteenth International Conference
on Pattern Recognition, Brisbane, Qld., Australia, 16-29August 1998, Vol. 2, pages 1325-1330.
[Hogg D.], Model-based vision: A program to see a walking person . In Image and Vision Computing, Vol.
1, pages 5-20, 1983.
[Hongeng S., Bernard F., Nevatia R.], Representation and optimal recognition of human activities . In
IEEE Proceedings of Computer Vision and Pattern Recognition, South Carolina, USA, 2000.
[Hongeng S., Bremond F., Nevatia R.], Bayesian framework for video surveillance application . In Proc. of
the 15
th
International Conference on Pattern Recognition, Barcelona, Spain, September 2000.
[Horn B.K.P, Schunk B.G.], Determining optical flow . In Artificial intelligence, Vol. 17, pages 185-204,
1981.
[Horprasert T., Harwood D., Davis L.], A statistical approach for real-time robust background subtraction
and shadow detection . In IEEE ICCV99 FRAME-RATE Workshop, Kerkyra, 1999.
[Housewright R.B., Singer R.A., Sea R.G.], Derivation and evaluation of improved tracking filters for use in
dense multitarget environments , In IEEE Transactions on Information Theory, Vol. 20, July 1974, pages
423-432.
[Hu W., Tan T., Wang L., Maybank S.], A survey on visual surveillance of object motion and behaviors . In
IEEE Trans. Syst. ManCybern. Part C, Vol. 34, N3, 334-352, 2005.
[Huang T., Russell S.J.], Object identification in a Bayesian context . In Proceedings of IJCAI1997, pages
1276-1283, 1997.
[Huang K.S., Trivedi M.M.], 3D shape context based gesture analysis integrated with tracking using omni
video array . In Proceedings of the IEEE Workshop on Vision for Human-Computer Interaction (V4HCI).
San Diego,USA, 2005.
[Hue C., Le Cadre J.P., Perez P.], Tracking multiple objects with particle filtering . In IEEE Trans. Aerosp
Electron. Systems, Vol. 38, N3, 791-812, 2002.
[Intille S.S., Bobick A.F., 95], Closed world tracking . In 5
th
International Conference on Computer Vision
139 sur 146
ICCV, Cambridge.
[Intille S.S., Bobick A.F., 01], Recognizing Planned, Multiperson Action . In Computer Vision and Image
Understanding, Vol. 81, N3, pages 414-445, 2001.
[Ioffe S., Forsyth D.A., 99], Finding people by sampling . In ICCV, pages 1092-1097, 1999.
[Ioffe S., Forsyth D.A., 01], Probabilistic methods for finding people . In IJCV Vol. 43, N1, pages 45-68,
2001.
[Ioffe S., Forsyth D.A., 03], Human tracking with mixtures of trees . In ICCV, pages 690-695, 2001.
[Isard M.], Pampas : Real-valued graphical models for computer vision . In CVPR, Vol. 1, pages 613-620,
2003.
[Isard M., Blake A., 96], Contour tracking for stochastic propagation of conditional density . In the 4
th
Proceedings of the European Conference on Computer Vision, pages 343-356, Cambridge UK, April 1996,
LNCS 1065.
[Isard M., Blake A., 98], Condensation-Conditional Density Propagation for Visual Tracking . In IEEE Intl
J. Computer Vision, Volume 29, N1, pages 5-28, 1998.
[Isard M., Mac Cormick J.P.], BraMBLe: A Bayesian Multiple-Blob Tracker . In IEEE Proc. 8
th
Int. Conf.
on Computer Vision, Vol. 2, Vancouver, July 2001, pages 34-41.
[Ivanov Y., Bobick A.F.], Recognition of visual activities and interactions by stochastic parsing . In PAMI,
2000.
[Jabri S., Duric Z., Wechsler H., Rosenfeld A.], Detection and location of people in video images using
adaptive fusion of color and edge information . In Proc. 15th International Conference on Pattern
Recognition, Barcelona, Spain, Vol. 4, N9, pages 627-630, 2000.
[Jain R., Martin W., Aggarwal J.] (1979). Segmentation throught the detection of changes due to motion .
In Computer Graphics and Image Processing, Vol. 2, pages 13-34.
[Jain R.], Dynamic scene analysis using pixel based processes , In IEEE Transactions on Computers, Vol.
14, N8, aot 1981, pages 12-18.
[Javed O., Rasheed Z., Shafique K., Shah M.], Tracking across multiple cameras with disjoint views . In
Proceedings of IEEE International Conference on Computer Vision, pages 1-6, 2003.
[Javed O., Shafique K., Shah M.], Appearance modeling for tracking in multiple non-overlapping cameras .
In IEEE CS Conf. Comput.Vis.Pattern Recognit. Vol. 2, pages 26-33, 2005.
[Jehan-Besson S.], Prsentation Analyse vido. Introduction, formats, applications , GREYC-Images,
ENSICAEN option Image/Multimdia & Telecom, Septembre 2004.
[Jensen F.a], An introduction to bayesian networks . Springer, pages 398-413, 1996.
[Jensen F.b], Bayesian Networks and Decision Graphs , Springer, 2001.
[Johansson G.], Visual perception of biological motion and a model for its analysis . In Perception and
Psychophysics. Vol. 14, N2, pages 201-211, 1973.
[Johnson N.], PhD thesis, Learning Object Behaviour Models . School of Computer Studies, University of
Leeds, Leeds, UK, September 1998. http://www.scs.leeds.ac.uk/neilj/ps/thesis.ps.gz.
[Jojic N., Petrovic N., Frey B.J., Huang T.S.], Transformed hidden markov models: estimating mixture
models of images and inferring spatial transformations in video sequences . In CVPR, Vol. 2, pages 26-33,
2000.
[Jorge P.M., Marques J.S., Abrantes A.J], Estimation of the Bayesian network architecture for object
tracking in video sequences . In Proceedings of the 17
th
International Conference on Pattern Recognition
ICPR, Vol. 2, pages 732-735, Cambridge, August 2004.
[Jordan M.I., Sejnowski T.J., Poggio T.], Graphical Models : Foundations of Neural Computation . In MIT
Press, 2001.
[Ju S., Black M., Yacoob Y.], Cardboard people : A parameterized model of articulated image motion . In
FG '96 : Proceedings of the 2nd International Conference on Automatic Face and Gesture Recognition (FG
'96), pages 38-44, Washington, DC, USA, 1996. IEEE Computer Society.
[Junejo I.N., Shah O., Shah M.], Multi Feature Path Modeling for Video Surveillance . In Proceedings of
the Pattern Recognition, 17
th
International Conference on (ICPR'04), Vol. 2, pages 716-719, 2004.
[Kale A. et al.], Identification of humans using gait . In IEEE Transactions on Image Processing, 2004.
[Kalman R.E.], A new approach to linear filtering and prediction problems . In Transaction of the ACME
Journal of basic ingineering, pages 343356, 1960.
140 sur 146
[Karaulova I.A., Hall P.M., Marshall A.D.], A hierarchical model of dynamics for tracking people with a
single video camera . In British Machine Vision Conference, pages 352-361, 2000.
[McKenna S., Raja Y., Gong S.], Tracking color objects using adaptive mixture models . Image Vis.
Comput. Vol. 17, pages 225231, 1999.
[Kettnaker V., Zabih R.], Bayesian multi-camera surveillance . In IEEE Conference on Computer Vision
and Pattern Recognition, Vol. 2, pages 253-259, 1999.
[Khan S., Shah M.], Consistent labeling of tracked objects in multiple cameras with overlapping fields of
view . In IEEE Pattern Analysis and Machine Intelligence,Vol. 25, N 10, October 2003, pages1355-1360.
[Khan S., Javed O., Rasheed Z., Shah M.], Human tracking in multiple cameras . In Proceedings of the 8
th
IEEE International Conference on Computer Vision (ICCV 2001), Vancouver, Canada, July 9-12, pages
331-336, 2001.
[Kholer Ch., Ottlik A., Nagel H.-H, Nebel B.], Qualitative Reasoning Feeding Back into Quantitative
Model-Based Tracking , Technical Report N204, Fakultat fur Informatik, Albert-Ludwigs-Universitat,
http://cogvisys.iaks.uni-karlsruhe.de.2004.
[Koga T., Linuma K., Hirano A., Lijima Y., Ishiguro T.], Motion compensated interframe coding for video
conferencing , Proc. Nat. Telecommun. Conf., 1981.
[Koller D., Daniilidis K., Nagel H.-H], Model-based object tracking in monocular image sequence of road
trafic scenes . In International Journal of Computer Vision, Vol. 3, N10, pages 257-281, 1993.
[Kschischang, Frey, Loeliger], Factor graphs and the sum-product algorithm . In IEEETIT: IEEE
Transactions on Information Theory, Vol. 47, 2001.
[Lanvin P.], Suivi de formes par filtrage particulaire . In Technical report, DEA Automatique et
Informatique Industrielle, Universit Lille 1, Juin 2001.
[Lan X, Huttenlocher D.P.], A unified spatio-temporal articulated model for tracking . In CVPR, Vol. 1,
pages 722-729, 2004.
[Landabaso J.L., Xu L.Q., Pardas. M.], Robust Tracking and Object Classification Towards Automated
Video Surveillance . In International Conference on Image Analysis and Recognition ICIAR 2004, Part II,
pages 463-470, Porto, Portugal, September 29-October 1, 2004.
[Lee L., Grimson W.E.L.], Gait analysis for recognition and classification , In 5
th
IEEE International
Conference on Automatic Face and Gesture Recognition, May 2002.
[Lee M.W., Cohen I.], Proposal maps driven MCMC for estimating human body pose in static images . In
CVPR, Vol.2, pages 334-341, 2004.
[Leignel C., Viallet J.E.], A blackboard architecture for the detection and tracking of a person . In RFIA,
Toulouse, 2004.
[Li J.,Chellappa R.], Appearance modeling under geometric context . In the 10
th
IEEE International
Conference on Computer Vision, 2005.
[Lipton A.J., Fujiyoshi H., Patil R.S.], Moving target classification and tracking from real-time video . In
Proceedings of the DARPA Image Understanding Workshop(IUW98), pages 129-136, Monterey, USA, 1998.
[Madden C., Dahai Cheng E., Piccardi M.], Tracking people across disjoint camera vieuws by an
illumination-tolerant appearance representation , Machine Vision and Applications, Special Issue Paper, Vol.
18, pages 233-247. Springler-Verlag 2007.
[Matsuyama T.], Cooperative distributed vision . In Proceedings of DARPA Image Understanding
Workshop, Vol. 1, pages 365-384, November 1998.
[Maybeck P.S], Stochastic models, estimation, and control . Vol. 141 of Mathematics in Science and
Engineering. Academic Press, 1979.
[Megret R.], Structuration spatio-temporelle de squences vido , thse de doctorat, soutenue le 17
dcembre 2003, Laboratoire d'InfoRmatique en Image et Systmes d'Information LIRIS, INSA de Lyon.
[Metropolis N. et al.], Equations of state calculations by fast computing machines , Journal of Chemical
Physics, Vol. 21, pages 1087-1091, 1953.
[Meyer F., Bouthemy P. 92], Region-based tracking in an image sequence . In Proc. Second European
Conference on Computer Vision, S. Margherita, Ligure, Italy, May 1992, G. Sandini (ed.), Lecture Notes in
Computer Science 588, Springer-Verlag, Berlin, Heidelberg, New York, 1992, pages 476-484.
[Meyer F., Bouthemy P. 94], A Region-based tracking using affine motion models in long image sequences ,
Computer Vision, Graphics and Image Processing. In Image Understanding, Vol 60, n2, pages 119-140,
141 sur 146
1994.
[Mitiche A., Bouthemy P.], Computation of image motion: a synopsis of current problems and methods . In
Int. Journ. of Comp. Vis., Vol. 19, N1, pages 29-55, 1996.
[A. Mittal, L. Davis], M2 tracker: a multi-view approach to segmenting and tracking people in a cluttered
scene . I n Int.J. Comput.Vis. Vol. 51, N3, pages 189-203, 2003.
[Moenne-Locoz N., Bremond F., Thonnat M.], Recurrent bayesian network for the recognition of human
behaviors from video . In Crowley J., Piater J.,Vincze M., Paletta L. (eds.) Proceedings of the 3
rd
International Conference on ComputerVision Systems (ICVS03). Lecture Notes in Computer Science, pages
68-77. Springer, Graz, 2003.
[Moghaddam B., Pentland A.], Probabilistic visual learning for object representation . In IEEE Trans.
PAMI, Vol. 19, N7, pages 696-710, July 1997.
[Mori G., Malik J.], Estimating human body configurations using shape context matching . In Proc. 7th
European Conf. Computer Vision, pages 666680, 2002.
[Mori G., Ren X., Efros A.A., Malik J.], Recovering human body configurations : Combining segmentation
and recognition . In CVPR, Vol. 2, pages 326-333, 2004.
[Motamed C.], Habilitation Diriger des Recherches H.D.R, Contribution la conception de systmes
d'interprtation de squences d'images , Universit du Littoral Cte d'Opale, 2006.
[Motamed C., Wallart O.], Suivi d'objets dans une scne tendue par un systme de vision distribu,
application la surveillance d'environnements autoroutiers , revue Traitement du signal, Vol. 20, N1, pages
87-100, 2003.
[Nagel H.-H], The representation of situations and their recognition from image sequences . In RFIA, pages
1221-1229, Lyon-Villeurbanne, 1988.
[Nair V., Clark J.], Automated visual surveillance using hidden markov models . In ICVI, Vol. 5, pages
88-93, 2002.
[Nait-Charif H., McKenna S.], Activity summarisation and fall detection in a supportive home
environment . In ICPR, pages 323326, 2004.
[Niu W., Jiao L., Han D., Wang Y.-F.], Real-Time Multi-person Tracking in Video Surveillance , ICICS-
PCM 2003, 15-18 Decembre 2003.
[Noriega P. a], Modle du corps pour le suivi du haut du corps en monoculaire , thse de doctorat, LORIA,
Nancy 1, soutenue le 11 Octobre 2007.
[Noriega P. b], Multicues 3D Monocular Upper Body Tracking Using Constrained Belief Propagation ,
2007. In British Machine Vision Conf., Warwick, UK, September 10-13 2007.
[Noyer J-C. ], Fusion multicapteurs par filtrage non-linaire : application la dtection et au suivi de formes
en vision par ordinateur , H.D.R. Habilitation Diriger des Recherches, soutenue le 19 dcembre 2003,
Universit du Littoral Cte d'Opale, Laboratoire d'Analyse des Systmes du Littoral.
[Odobez J.M., Bouthemy P. 94], Detection of Multiple Moving Objects Using Multiscale MRF with Camera
Motion Compensation , Int. Conf. Image Proc., Austin TX (USA), Vol. 2, pages 257-261, 1994.
[Odobez J.M., Bouthemy P. 98], Direct incremental model-based image motion segmentation for video
analysis . In Signal Processing, Vol. 66, N3, pages 143-156, May 1998.
[Oliver N., Horvitz E., Garg A.], Layered representations for human activity recognition . In Proceedings of
the 4
th
IEEE Int. Conf. on Multimodal Interfaces, pages 3-8, 2002.
[Oliver N.M., Rosario B., Pentland A.P.], A Bayesian computer vision system for modeling human
interactions . In IEEE Trans. Pattern Anal. Mach. Intell. Vol. 22, N8, pages 831-843, 2000.
[Orkisz M., Clarysse P.], Estimation du flot optique en prsence de discontinuits : une revue . In
Traitement du Signal, Vol 13, N5, Spcial 1996.
[J. Orwell, P. Remagnino, G.A. Jones], Multi-camera colour tracking . In Proceedings of the IEEE
International Workshop on Visual Surveillance, June 26, Fort Collins, Co, pages 14-21, 1999.
[Papageorgiou C., Oren M., Poggio T.], A General Framework for Object Detection . In Proceedings of 6
th
International Conference on Computer Vision, Bombay, India, 4-7 January 1998, pages 555-562. IEEE
Computer Society 1998.
[Paragios N., Deriche R.], Geodesic active contours and level sets for the detection and tracking of moving
objects . In IEEE Trans. Pattern Anal. Mach. Intell., pages 266-280, 2000.
[Park S., Aggarwal J.K. 04a], A hierarchical bayesian network for event recognition of human actions and
142 sur 146
interactions . In Multimedia Systems: Special Issue on Video Surveillance, pages 164-179, 2004.
[Park S., Aggarwal J.K. 04b], Semantic-level understanding of human actions and interactions using event
hierarchy . In IEEE Workshop on Articulated and Nonrigid Motion. Washington, DC,USA, 2004.
[Park S., Trivedi M.M. 07], Multi-person interaction and activity analysis: a synergetic track- and body-
level analysis framework , Machine Vision and Applications, Special Issue Paper, Vol. 18, pages 151-166,
Springler-Verlag 2007.
[Pentland A.], Machine understanding human action . In 7
th
International Forum on of Frontier of
Telecommunication Technology, Tokyo, 1995.
[Pentland A., Liu A.], Modeling and prediction of human behaviour . In Neural Computation, pages
229-242, 1999.
[Perez P.], Champs markoviens et analyse multi-rsolution de l'image : application l'analyse du
mouvement , thse de doctorat, Universit de Rennes 1, IRISA, 1993.
[Perez P., Hue C., Vermaak J., Gangnet M.], Color-based probabilistic tracking . In Eur. Conf. on
Computer Vision, ECCV2002, LNCS 2350, pages 661-675, Copenhaguen, Denmark, June 2002.
[Piccardi M., Cheng E.D.], Multi-frame moving objects track matching based on an incremental Major
Color Spectrum histogram matching algorithm . In IEEE International Workshop on Object Tracking and
Classification in and Beyond theVisible Spectrum (OTCBVS05), San Diego, CA, USA, June 20, 2005.
[Pinhanez C., Bobick. A.], Human action detection using pnf propagation of temporal constraints . In
M.I.T. Media Laboratory Perceptual Section Report, Vol. 423, 1997.
[Polona R., Nelson R. 94a], Low level recognition of human motion (or how to get your man without finding
his body parts , 1994.
[Polona R., Nelson R. 97], Detection and Recognition of Periodic, Nonrigid Motion , Int'l J. Computer
Vision, Vol. 23, N3, pages 261-282, 1997.
[Polona R., Nelson R. 94b], recognizing activities . In International Conference on Pattern Recognition,
1994.
[Pop I.], Rapport de DEA, sous la direction de H.-H. Nagel, On the interaction between pedestrians and
vehicles using trafic videos , Institut des systmes cognitifs et algorithmiques de la facult d'informatique,
Universit de Karlsruhe, Allemange.
[Puri A., Hang H.M., Schilling D.L.], An efficient block matching algorithm for motion-compensated
coding , Proc. of IEEE Int. Conf. Acoust, Speech and Signal Proc., pages 1063-1066, 1987.
[Rabiner L.R.], A tutorial on hidden markov models and selected applications in speech recognition . In
Proc. IEEE 77, pages 257-286, 1989.
[Plnkers R., Fua P. 01], Articulated soft objects for video-based body modeling . In ICCV, pages
394-401, 2001.
[Plnkers R., Fua P. 03], Articulated soft objects for multiview shape and motion capture . In IEEE Trans.
Pattern Anal. Mach. Intell., Vol. 25, N9, pages 1182-1187, 2003.
[Ramanan D., Forsyth D.], Finding and tracking people from the bottom up . In CVPR, Vol. 2, pages
467-474, 2003.
[Rangarajan K., Allen W., Shah M.], Matching Motion Trajectories Using Scale-Space . In Pattern
Recognition, Vol. 26, N4, pages 595-610, 1993.
[Rao B.S.Y., Durrant-Whyte H.F., Sheen J.A.], A fully decentralized multi-sensor system for tracking and
surveillance , The International Journal of Robotics Research, Vol. 12, N1, February, 1993.
[Regazzoni C.S, Sacchi C., Gera G.], Intelligence distribution of a third generation people counting system
transmitting information over an urban digital radio link . In Proceedings of the 2
nd
Europena Workshop on
Advanced Video-based Surveillance Systems, Kingston, UK, pages 53-69, August 2001.
[Reid D.B.], An algorithm for tracking multiple targets . In IEEE Trans. on Automatic Control, Vol. 24, N
6, pages 843-854, 1979.
[Remagnino P., Shihab A., Jones G.], Distributed intelligence for multi-camera visual surveillance . In
Pattern Recognit. : Special Issue on Agent-Based ComputerVision, Vol. 37, N4, pages 675-689, 2004.
[Rerkrai K., Fillbrandt H.], Tracking Persons under Partial Scne Occlusion Using Linear regression . In 8
th
International Student Conference on Electrical Engineering POSTER 2004, Prague, Faculty of Electrical
Engineering, Czech Technical University, May 2004.
[Ricquebourg Y. 93], Segmentation et suivi d'objets mobiles par modles structurels adaptatifs . Master's
143 sur 146
thesis, Institut national des sciences appliques de Rennes, 1993.
[Ricquebourg Y., Bouthemy P.], A statistical regularization framework for estimating normal displacememts
along contours with subpixel accuracy , Lectures Notes in Computer Science, Vol. 970, Vaclav Hlavac et
Radim Sara ed., pages 73-81, 6
th
international conference on Computer Analysis of Images and Patterns,
Prague, Czech Republic, septembre 1995.
[Ricquebourg Y. 97], Analyse de mouvements articuls: mesure et suivi 2D; application la
tlsurveillance . Thse de doctorat, Universit de Rennes I, 1997.
[Rigoll G., Eickeler S.], Real-time tracking of moving persons by exploiting spatiotemporal image slices .
In IEEE Pattern Analysis and Machine Intelligence, Vol. 22, N8, pages 797-808, August 2000.
[Rohr K.], Towards model-based recognition of human movements in image sequences . In CVGIP: Image
Understanding, Vol. 59, pages 94-1, January 1994.
[Rota N.], Rapport de DEA : Systme adaptatif pour le traitement de squences d'images pour le suivi de
personnes , Septembre 1998, sous la direction de Monique Thonnat, et Nicolas Chleq, Projet ORION,
INRIA, Sophia-Antipolis.
[Ronfard R., Schmid C., Triggs B.], Learning to Parse Pictures of People . In Proceedings on the European
Conference on Computer Vision, pages 700-714, Copenhagen, Denmark, 2002.
[Roth S., Sigal L., Black M.], Gibbs likelihoods for Bayesian tracking . In CVPR, 2004.
[ORourke J., Badler N.], Model-based image analysis of human motion using constraint propagation . In
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 2, pages 522-536, 1980.
[Ruiz-del-Solar J., Shats A., Verschae R.], Real-time tracking of multiple persons , 12
th
International
Conference on Image Analysis and Processing, pages 109-114, September 2003. IEEE Computer Society
Washington, DC, USA.
[Shan Y., Sawhney H., Kumar R.], Unsupervised learning of discriminative edge measures for vehicle
matching between non-overlapping cameras . In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, 2005.
[Shan Y., Sawhney H., Pope A.], Measuring the similarity of two image sequences . In Asia Conference on
Computer Vision, 2004.
[Shen J., Castan S.], An optimal linear operator for step edge detection , Computer Vision, Graphics and
Image Processing, Vol. 54, N2, March 1992, pages 13-17.
[Shi J., Tomasi C.], Good features to track . In Proceedings of IEEE Conference on Computer Vision and
Pattern Recognition, pages 593-600, 1994.
[Shimada A., Arita D., Taniguchi R.I.], Dynamic control of adaptive mixture-of-gaussians background
model . In AVSS, 2006.
[Sidenbladh H., Black M.J., Fleet D.J.], Stochastic tracking of 3D human figures using 2D image motion .
In Vernon D., ed. : 6
th
European Conference on Computer Vision (ECCV 2000), Dublin, Ireland, Springer
Verlag, pages 702-718, 2000.
[Sidenbladh H., Black M.], Learning the statistics of people in images and video . In IJCV, Vol. 54, N13,
pages 183-209, 2003.
[Siebel N.T.], PhD, Design and Implementation of People Tracking Algorithms for Visual Surveillance
Applications , March 2003.
[Siebel N., Maybank S. et al.], The ADVISOR Visual Surveillance System . In Proceedings of the ECCV
2004 Workshop, Applications of Computer Vision (ACV'04), Prague, Czech Republic, pages 103-111,
May 2004, ISBN 80-01-02977-8.
[Siemens], The magazine for Research and Innovation | Fall 2006, Siemens.
[Sigal L., Isard M., Sigelman B.H., Black M.], Attractive people: Assembling loose-limbed models using
non-parametric belief propagation . In NIPS, 2003.
[Sigal L., Bhatia S., Roth S., Black M.J., Isard M.], Tracking loose-limbed people . In CVPR, Vol. 1,
pages 421-428, 2004.
[Sminchisescu C., Triggs B. 01], Covariance scaled sampling for monocular 3D body tracking . In
Proceeding. of the IEEE Conference on Computer Vision and Pattern Recognition, Kauai, Hawaii, USA, Vol.
1, pages 447-454. In IEEE Computer Society Press, December 2001.
[Sminchisescu C., Triggs B. 03a], Kinematic jump processes for monocular 3D human tracking . In
International Conference on Computer Vision and Pattern Recognition CVPR, Vol. 1, pages 69-76, June 2003.
144 sur 146
[Sminchisescu C., Triggs B. 03b], Estimating articulated human motion with covariance scaled sampling .
In International Journal of Robotics Research, Vol. 22, N6, pages 371-391, June 2003. Special issue on
Visual Analysis of Human Movement.
[Stauffer C., Grimson W.E.L.a], Adaptive background mixture models for real-time tracking . In CVPR,
1999.
[Stauffer C., Grimson W.E.L.b], Learning Patterns of Activity Using Real-Time Tracking . In IEEE Trans.
on Patt. Anal. and Machine Intell., Vol. 22, N8, pages 747-757, August 2000.
[Stiller C., Konrad J.], On models, criteria and search strategies for motion estimation in images
sequences , IEEE Signal Procesing Magazine, pages 1-41, 1998.
[Streit R.L., Luginbuhl T.E. 93], A probabilistic multi-hypothesis tracking algorithm without enumeration
and pruning , in Proc. of the 6
th
Joint Service Data Fusion Symposium, pages 1015-1024. Laurel, June 1993.
[Streit R.L., Luginbuhl T.E. 94], Maximum likelihood for probabilistic multi-hypothesis tracking , SPIE
International Symposium, Orlando, USA, April 1994.
[Sudderth E. B., Ihler A. T., Freeman W. T., Willsky A. S.], Nonparametric belief propagation . In Proc.
Conf. Computer Vision and Pattern Recognition, Vol. 1, pages 605-612, June 2003.
[Taycher L., Demirdjian D., Darrell T., Shakhnarovich G.], Conditional random people : Tracking humans
with crfs and grid fillters . In CVPR '06 : Proceedings of the 2006 IEEE Computer Society Conference on
Computer Vision and Pattern Recognition, pages 222-229, Washington, DC, USA, 2006. IEEE Computer
Society.
[Thome N.], PhD, Reprsentations hirarchiques et discriminantes pour la reconnaissance des formes,
l'identification des personnes et l'analyse des mouvements dans les squences d'images , INSA Lyon, Juin
2007.
[Thonnat M., Moisan S., Crubezy M.], Experience in integrating image processing programs . In H.
Christensen(ed.) Proceedings of the 1
st
International Conference on Vision Systems, Lecture Notes in
Computer Science, pages 200-215. Springer, Las Palmas, Gran Canaria, 1998.
[Trivedi M.M., Gandhi T., Huang K.S.], Distributed interactive video arrays for event capture and enhanced
situational awareness . In IEEE Intell. Sys. Spec. Issue AI Homeland Security Vol. 20, N5, pages 58-66,
2005.
[Tupin F., Sigelle M], Cours donn l'ENST Paris, Dfinition et simulation d'un champ de Markov ,
Octobre 2006.
[Valera M., Velastin S.], Intelligent distributed surveillance systems: a review . In IEEE Proc. Vis. Image
Signal Process. Vol. 152, N2, pages 192-204, 2005.
[Velastin S.], ADVISOR, Annotated Digital Video for Surveillance and Optimised Retrieval , EU, IST
Programme, IST-1999-11287 with Thales Research Ltd, Reading University, INRIA, Vigitec, Bull, S.A.
Velastin, Value 1,533,042, Duration 36 months, 2001.
[Velastin S., Boghossian B., Lo B., Sun J., Vicencio-Silva M.], Prismatica: toward ambient intelligence in
public transport environments . In IEEE Trans. Syst. Man Cybern. Part A35, Vol. 1, pages 164-182, 2005.
[Viola P., Jones M., Snow D.], Detecting Pedestrians Using Patterns of Motion and Appearance . In
Proceedings of 9
th
IEEE International Conference on Computer Vision, pages 734-741, Nice, France, 13-16
October 2003.
[Vu T., Bremond F., Thonnat M.], Automatic video interpretation: a novel algorithm for temporal scenario
recognition . In Proceedings of the 18
th
International Joint Conference on Artificial Intelligence, pages
1295-1300 Acapulco, Mexico, 2003.
[Welch G., Bishop G.], An introduction to the kalman filter . TR-95-041, Dept. of Computer Science, Univ.
of North Carolina at Chapel Hill., 2004.
[Wu T., Matsuyama T.], Real-time active 3D shape reconstruction for 3D video . In Proceedings of 3
rd
International Symposium on Image and Signal Processing and Analysis, vol. 1, pages 186-191, 2003.
[Wren C.R., et al.], PFINDER : Real-time tracking of the human body . In IEEE Trans. Pattern
Anal.Mach. Intell., Vol. 19, N7, pages 780-785, 1997.
[Xiang T., Gong S., Parkinson D.], On the Structure of Dynamic Bayesian Networks for Complex Scene
Modelling . In Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of
Tracking and Surveilflance (VS-PETS). Nice (France), October 2003.
[Ren X., Berg A.C., Malik J.], Recovering human body configurations using pairwise constraints between
145 sur 146
parts . In Proc. 10
th
Intl. Conf. Computer Vision, Vol. 1, pages 824-831, 2005.
[Yamato J., Ohya J., Ishii K.], Recognizing human action in time-sequential images using Hidden Markov
Model . In CVPR, pages 379-385, 1992.
[Yedidia J.S., Freeman W.T., Weiss Y.], Understanding belief propagation and its generalizations . In
Technical Report TR2001-22, MERL, 2001.
[Yu Y., Harwood D.], Human appearance modeling for matching across video sequences , Machine Vision
and Applications (2007), Special Issue Paper, Vol. 18, pages 139-149. Springler-Verlag 2007.
[Zhao H.-X., Huang Y.-S.], Real-time multiple-person tracking system , In International Conference on
Pattern Recognition, August 2002.
[Zhao T., Nevatia R., Lv F.], Segmentation and tracking of multiple humans in complex situations . In
IEEE PAMI, Vol. 9, 2004.
[Zhao T., Nevatia R.], Tracking multiple humans in complex situations . In IEEE Trans. Pattern Anal.
Mach. Intell. Vol. 26, N9, pages 1208-1221, 2004.
[Zhu X.L.S., Chau L.], Hexagon-based search pattern for fast block motion estimation . In IEEE Trans. On
Circuits and Systems for Video Technology, Vol. 12, May 2002.
[Zhu Y., Comaniciu D., Pellkofer M., Koehler T.], Reliable Detcection of Overtaking Vehicles Using Robust
Information Fusion . In IEEE Trans. Intelligent Transportation Systems, Vol. 7, N4, pages 401-414, 2006.
[Zhu S., Ma K.], A new diamond search algorithm for fast block-matching motion estimation . In IEEE
Trans. On Image Processing. Vol. 9, February 2000.
[Zhu S., Wu Y., Mumford D.], FRAME: Filters, random field and maximum entropy: Towards a unified
theory for texture modeling . PAMI, Vol. 27, N2, pages 1-20, 1998.
146 sur 146