Apprentissage Et Recherche Par Le Contenu Visuel

Apprentissage et Recherche par le Contenu Visuel de Catgories Smantiques d'Objets Vido
Shuji ZHAO Master 2 Informatique - parcours Images Universit Paris Descartes Juillet 2007
Laboratoire des Equipes Traitement des Images et du Signal CNRS UMR 8051 ENSEA 6 avenue du Ponceau 95014 Cergy-Pontoise, France
Encadr par: Frdric PRECIOSO
REMERCIEMENTS
Je voudrais adresser mes sincres remerciements Sylvie Philipp-Foliguet, Directrice de lquipe MIDI du laboratoire ETIS, et Frdric Precioso, Responsable du stage, pour mavoir accueilli trs chaleureusement au sein du laboratoire, et pour avoir cru en mes capacits mener ce travail bien. Frdric Precioso a t un responsable de stage exemplaire. Il ma apport dinnombrables conseils prcieux sur la recherche et les mthodes. Il ma redonn confiance et encourag pendant la priode difficile o jai t malade. Grce lui jai pu rencontrer des spcialistes du domaine et participer des sminaires mayant permis de dcouvrir les techniques les plus rcentes. Je voudrais aussi adresser toute ma reconnaissance Inbar Fijalkow, Directrice du laboratoire ETIS, pour sa comprhension et sa gentillesse. Par ailleurs, je remercie de tout cur Matthieu Cord (laboratoire LIP6) pour ses conseils sur les mthodes noyau, Jean-Emmanuel pour sa prsentation sur la mthode dAdaBoost, ainsi que toute lquipe MIDI (Sylvie, Frdric, Michel, Justine, Philippe-Henri, David) pour leurs conseils et les discussions concernant mon sujet. La trs bonne ambiance et le dynamisme de lquipe ont renforc mon envie de poursuivre dans la voie de la recherche. Mes remerciements s'adressent aussi tous les professeurs qui m'ont encadr tout au long de cette anne de master, spcialement Nicole Vincent, Nicolas Lomnie, Florence Cloppet et Mohamed Cheriet pour leurs implications et pour tout le savoir dont ils m'ont imprgn. Enfin, jadresse de vifs remerciements tous les ami(e)s qui ont pris soin de moi quand jtais malade, et ma famille pour tre l, tout simplement.
Abstract: During this internship, we focus on the problem of video semantic category learning and retrieval. Our framework associating both approaches powerful visual feature extraction and statistical learning strategies to carry out an efficient semantic class learning and retrieval system. Our approach is based on a new definition for video objects. Indeed, we will consider the spatiotemporal tube, containing several instances (one instance per frame of the shot sequence) of the extracted object of interest, identified and tracked, as one video object. In our context, the classification and learning methods will be applied on spatiotemporal tubes of detected people. In this document, we will present our work of semantic category learning and retrieval of actor face in the film. We will detail in three parts: first, face detection, segmentation and tracking based on the algorithm AdaBoost (Chapter 2); second, visual feature extraction based on spatiotemporal tube description (Chapter 3); third, new kernel functions (kernel on sets, kernel on sequences) for learning and content-based retrieval (Chapter 4).
Rsum: Durant ce stage, nous nous intressons au problme de lapprentissage et de la recherche de catgories smantiques dobjets vido. Notre travail associe la fois des mthodes puissantes et innovantes dextraction de descripteurs visuels et des stratgies performantes dapprentissage statistique, afin dlaborer un systme dapprentissage et de recherche de catgories smantiques. Notre approche est base sur une nouvelle dfinition des objets vido. En effet, nous considrerons un tube spatio-temporel, contenant plusieurs instances (une par frame de la scne vido) de lobjet dintrt extrait, identifi et suivi, comme un unique objet vido. Dans notre contexte, les mthodes de classification et dapprentissage seront appliques aux tubes spatio-temporels de visages de personnes dtectes. Dans le cadre de ce stage, on se concentrera tout d'abord sur les catgories smantiques correspondant des visages d'acteurs de films. Ce stage est organis suivant la ralisation de trois modules principaux: le premier concerne la dtection, la segmentation et le suivi de visages dans le flux vido, base sur l'algorithme AdaBoost (Chapitre 2) ; le deuxime module est ddi lextraction de caractristiques visuelles partir des tubes spatio-temporels (Chapitre 3) ; le troisime module sintresse aux mthodes noyaux pour lapprentissage et la recherche par le contenu sur les tubes spatio-temporels (Chapitre 4).
Mots cl Catgorie smantique, Dtection dobjet, Segmentation, Reconnaissance de visage, Tube spatio-temporel, AFR, AdaBoost, Contour actif Splines, Gabor, HSV, SIFT, SVM, Mthodes noyau, OpenCV
SOMMAIRE
1 Introduction ................................................................................................................... 1 1.1 Contexte................................................................................................................. 1 1.2 Etat dart ................................................................................................................ 2 1.2.1 Challenges ......................................................................................................... 2 1.2.2 Dtection du visage ........................................................................................... 2 1.2.3 Reconnaissance du visage ................................................................................. 3 1.3 Schma gnral...................................................................................................... 4 2 Dtection de visages ...................................................................................................... 6 2.1 Introduction ........................................................................................................... 6 2.2 AdaBoost ............................................................................................................... 7 2.2.1 Descripteurs de Haar ......................................................................................... 7 2.2.2 Image Intgrale.................................................................................................. 9 2.2.3 Classifieur faible et classifieur fort ................................................................. 10 2.2.4 Cascade............................................................................................................ 12 2.3 Implmentation.................................................................................................... 14 2.3.1 OpenCV........................................................................................................... 14 2.3.2 Implmentation................................................................................................ 15 2.3.3 Rsultat ............................................................................................................ 15 2.4 Discussion et perspective .................................................................................... 17 3 Extraction de caractristiques...................................................................................... 19 3.1 Introduction ......................................................................................................... 19 3.2 Extraction de caractristiques de la couleur ........................................................ 19 3.2.1 Espace de couleur HSV ................................................................................... 19 3.2.2 Histogramme HS ............................................................................................. 20 3.3 Extraction de caractristiques de la texture ......................................................... 20 3.3.1 Filtre de Gabor................................................................................................. 21 3.3.2 Histogramme de Gabor Phase Patterns (HGPP) ............................................. 22 3.3.3 Histogramme de Gabor complexe................................................................... 25 3.4 Extraction de caractristiques des points dintrt par SIFT............................... 26 3.4.1 SIFT................................................................................................................. 26 3.4.2 Implmentation................................................................................................ 29 3.5 Similarit sur les caractristiques couleur et texture ........................................... 30 3.5.1 Distance 2 .................................................................................................... 31 3.5.2 Distances des vecteurs de couleur et de texture .............................................. 31 3.5.3 Evaluation des caractristiques ....................................................................... 33 3.6 Discussion et perspective .................................................................................... 34 4 Machines noyaux ...................................................................................................... 36 4.1 SVM .................................................................................................................... 36 4.2 Sparation linaire ............................................................................................... 36 4.3 Les fonctions noyaux........................................................................................... 38 4.4 Mthodes noyaux pour discriminer les tubes spatio-temporels .................. 39 4.5 Discussion et perspective .................................................................................... 39 5 Conclusion gnrale .................................................................................................... 41 Bibliographie ....................................................................................................................... 42 Annexe 1: ............................................................................................................................ 45 Annexe 2: ............................................................................................................................ 46
1
1.1
Introduction
Contexte
Les contenus vido sont prsents dans un nombre toujours croissant de domaines, tant scientifiques que commerciaux. Citons par exemple les applications de TV interactive, diffusion de contenus numriques, vido la demande, simulations et entranements, vido-confrences, etc., qui vont de paire avec le dveloppement des matriels et infrastructures de communication ncessaires. Les limitations de la bande passante disponible pour l'accs ces quantits de donnes vido ncessitent des techniques spcifiques pour l'administration des bases de donnes vido. De plus, les techniques actuelles de fouille darchives multimdia ne permettent que la recherche par mots-clefs ou de mta-donnes. Or ce type de recherche ne permet daccder quaux donnes multimdia dj annotes et surtout ne reflte pas toujours le contenu smantique quun utilisateur pourrait vouloir retrouver. En effet, une squence vido est une source d'information multimodale riche, contenant des donnes audio, parole, texte, couleurs et formes des objets prsents dans l'image, et mouvements de ces objets. L'accs rapide au contenu vido est un sujet de recherche en pleine expansion. Des progrs considrables ont ainsi t effectus dans les quatre domaines fondamentaux permettant l'accs au contenu vido : l'analyse, la reprsentation, lindexation et la recherche. Lquipe Masse de donnes et indexation multimdia du laboratoire ETIS est implique dans les travaux sur les systmes de recherche d'images et de vidos par le contenu ( Content-Based Image and Video Retrieval , CBIVR). Le systme RETIN, dvelopp au sein de cette quipe, comporte pour linstant deux modules : la segmentation automatique des squences vido en plans, et le calcul pour chaque plan ( shot ) de diffrents attributs structurs en descripteurs, ou index. Ces index sont ensuite utiliss par le moteur de recherche pour comparer, classer, ordonner, etc., les plans. Dans ce stage, nous nous intressons la segmentation et la recherche des catgories smantiques dobjets vido. Notre travail associe la fois des mthodes puissantes et innovantes dextraction de descripteurs visuels et des stratgies performantes dapprentissage statistique, afin dlaborer un systme dapprentissage et de recherche de catgories smantiques. Notre approche est base sur une nouvelle dfinition des objets vido. En effet, nous considrerons un tube spatio-temporel, contenant plusieurs instances (une par frame de la scne vido) de lobjet dintrt extrait, identifi et suivi, comme un unique objet vido. Dans notre contexte, les mthodes de classification et dapprentissage seront appliques aux tubes spatio-temporels de personnes dtectes. Un tel projet ncessite la ralisation de trois modules principaux (Figure 1): Le premier concerne le partitionnement de la squence vido en plans, considrs comme les primitives pour une analyse du contenu de plus haut niveau ; Le second module porte sur la dtection, la segmentation, le suivi des personnes, dans ces plans, ainsi quune nouvelle approche dextraction dinformation visuelle base sur la description en tubes spatio-temporels ; Le troisime module porte sur la conception et lapprentissage de nouvelles fonctions noyaux, noyaux sur des ensembles, noyaux sur des squences, afin dobtenir des reprsentations pertinentes de similarit, une classification performante et des stratgies de recherche bases sur le contenu.
-1-
Partitionnement de la vido en plan-squence
Dtection, segmentation, suivi dobjet et extraction d'attributs
Machines noyaux pour lapprentissage et la recherche par le contenu
Figure 1 :
Trois tapes de la recherche de catgories dobjets vido
Dans le cadre de ce stage, nous considrerons que le premier module est dj existant (lquipe ETIS a effectivement ralis un prototype efficace) et on se concentrera tout d'abord sur les catgories smantiques correspondant des visages d'acteurs de films. Ce stage concerne la dtection et la segmentation des visages dans le flux vido, lextraction de caractristiques visuelles pertinentes, l'apprentissage statistique pour identifier, traquer, et retrouver les visages dans des squences vido.
1.2 1.2.1
Etat dart Challenges
Le principal problme dans la dtection et la reconnaissance dun objet est relatif aux diffrentes reprsentations possibles de celui-ci. Ainsi la dtection et la reconnaissance du visage dpendent de plusieurs facteurs : La position : sur une image, un visage peut tre vu de face, de profil, ou dun angle quelconque. Lexpression faciale : lapparence dun visage dpend aussi de son expression. La prsence dattributs : une personne peut avoir un chapeau, des lunettes, une moustache, une barbe, une cicatrice. Les conditions extrieures : la couleur, lintensit, la taille, la texture sont diffrentes sur chaque image. Loccultation : une partie du visage peut tre cache par un autre objet ou une autre personne. 1.2.2 Dtection du visage
La dtection de visage peut tre dfinie comme : Etant donne une image, le but est de dterminer si un ou des visages sont apparents dans limage et sil y en a, de localiser chacun des visages. Les techniques de la dtection de visages sont dveloppes et employes dans plusieurs domaines, surveillance, identification, biomtrie, etc. Les mthodes de la dtection de visages peuvent tre classifies en quatre catgories, voir tableau 1 [Yang 2002] : Mthodes par a priori. Ces mthodes bases sur des rgles tentent de modliser la connaissance de ce qui caractrise un visage. Classiquement, ces rgles reprsentent des relations en caractristiques faciales. Approches par caractristiques invariantes. Ces approches se basent sur des caractristiques structurelles qui existent mme quand la pose, le point de vue, ou les conditions dillumination varient, et les utilisent pour localiser les visages. Mthodes bases modles. Plusieurs modles standard de visages sont utiliss pour dfinir un modle de visage ou des modles de caractristiques faciales sparment.
-2-
La corrlation entre une image prsente et la base des modles est value pour dtecter la prsence de visage. Mthodes par apprentissage. Par contraste avec les mthodes bases modles, les modles sont ici appris partir dun ensemble dimages dapprentissage qui doivent permettre de caractriser la variabilit de lapparence dun visage. Ces modles appris servent ensuite la dtection.
Tableau 1 : Catgories des mthodes de la dtection de visage dans une image
Nous proposons dans notre travail une approche prcise, robuste et rapide de dtection et segmentation de visages dans les plans-squences combinant les avantages de deux mthodes : un algorithme de dtection dobjet AdaBoost [Viola 2001] devenu une rfrence de dtection dobjet par ses qualits de rapidit suivi dune segmentation prcise et robuste base sur des contours actifs [Precioso 2005] [Precioso 2004]. 1.2.3 Reconnaissance du visage
Les rseaux de neurones (dans les annes 1980), puis les machines noyau (dans les annes 1990), ont permis des avances fondamentales dans le domaine de l'apprentissage artificiel. Depuis, les amliorations les plus significatives ont port sur l'optimisation des reprsentations numriques et les techniques de rgularisation. Un certain nombre de travaux [Grtner 2003] [Kashima 2003] et de comptitions sont consacrs l'extension des reprsentations vectorielles classiques, de manire structurer de manire plus complexe les donnes. Les graphes et les ensembles de donnes sont des exemples de ces nouvelles reprsentations. Dans plupart des travaux publis, les plans sont reprsents par une ou plusieurs images-cl ( key-frames ). De fait, plusieurs images cls peuvent tre ncessaires dans le cas de zoom ou de mouvements de la camra. La manire la plus usuelle d'extraire une image-cl est base sur le clustering des images de chaque plan, limage la plus proche de chaque centre de cluster tant retenue comme reprsentative. Dans le travail de [Sivic 2005], les auteurs ont considr lensemble de visages dun tube
-3-
avec le calcul dun histogramme pour dterminer la distribution visual words de lensemble de visages dun tube. Cependant, les mthodes dindexation et de recherche dinformation visuelle sur cette reprsentation du contenu de la vido sont celles existantes pour les images fixes et considrent, la plupart du temps, linformation issue de limage-cl dans sa globalit. La perte dinformation est considrable. Pour remdier cette limitation, nous proposons de considrer chaque plan comme un segment spatio-temporel compos de tubes spatio-temporels , dfinissant donc les objets d'intrt prsents dans ce plan. Aprs la dtection et la segmentation dans la premire tape, le suivi temporel des rgions segmentes, nous permettra de dfinir les objets vido dintrt comme des tubes spatio-temporels d'objets d'intrt. L'objectif sera alors de comparer ces tubes. Pour chaque tube nous serons capable dextraire la fois des attributs locaux pertinents, tels que les points dintrt SIFT, et des attributs globaux robustes [Cmara Chvez 2006], tels que la couleur, la texture ou le mouvement, sans aucun prtraitement. En effet, grce notre segmentation prcise, les tubes spatio-temporels ne comporteront que de linformation visuelle pertinente. Une premire reprsentation des donnes du tube c'est--dire une premire signature sera donne par le sac compos de tous les attributs extraits du tube. Nous pourrons nous intresser, par la suite, cette description des donnes contenues dans les tubes et considrer dautres formes de reprsentation de ces donnes. De nouvelles mesures de similarit doivent tre dfinies afin de comparer ces signatures structures, arbres et graphes d'adjacence. Les mthodes noyaux renforcent les algorithmes de classification par apprentissage en dplaant les calculs de similarit dans un espace vectoriel o la classification peut tre linaire [Rakotomamonjy, 2005]. Ces fonctions permettent de dfinir des similarits entre des objets plus complexes et mme non vectoriels, tels que histogrammes ou ensembles d'histogrammes, graphes, etc. [Shawe-Taylor, 2004] [Suard, 2005]. Un grand nombre de travaux se sont intresss rcemment au calcul de vecteurs partir des sacs avant leur comparaison. Arandjelovic et Zisserman [Arandjelovic 2005] ont propos de modliser l'information spatio-temporelle de chaque tube dans un vecteur unique. En utilisant un modle des vecteurs tubes, Arandjelovic et Zisserman dfinissent explicitement la fonction dinjection. Une telle approche simplifie le problme, mais rduit galement le champ des solutions. Au lieu de calculer un vecteur signature, le fait de travailler explicitement sur l'ensemble des attributs locaux constitue une alternative qui offre de nouvelles possibilits trs intressantes pour la comparaison et la classification de donnes [Kondor, 2003]. En sinscrivant dans le cadre puissant de ces mthodes noyaux, nous proposons de dvelopper des solutions efficaces pour la reconnaissance de tubes spatio-temporels . Nous extrairons du tube spatio-temporel une squence d'attributs structurs tels que mouvement, histogrammes couleurs, textures et ensembles de points d'intrt. Chaque tube sera donc caractris par diffrentes squences d'un attribut donn. Nous proposerons diffrentes mthodes pour construire des fonctions noyaux partir des squences. 1.3 Schma gnral Le travail de ce stage est organis selon les tapes suivantes : La premire, la dtection robuste et rapide d'objets d'intrt, base sur des adaptations
-4-
de l'algorithme AdaBoost. Cette partie sera dtaille dans le chapitre 2. La seconde, la segmentation temporelle et suivi d'objets, bass sur des contours actifs splines 2D+t (cette partie est ralise par Frdric Precioso qui est spcialiste sur la mthode splines 2D+t). Troisimement, lextraction d'attributs locaux (par exemple, descripteur SIFT autour de points d'intrt) et d'attributs globaux (textures, couleurs, mouvements, etc.), ainsi que les mesures de la similarit. Cette partie sera dtaille dans le chapitre 3. Finalement, la classification et apprentissage sur les tubes spatio-temporels et ltude de diffrentes fonctions noyaux (Figure 2). Cette partie sera dtaille dans le chapitre 4.
Vecteur tube spatio-temporel

Vi Vi Vi
Acteur 1
Acteur 2
Acteur ? Acteur n
Segmentation et suivi des visages Dtection des visages
Classification des acteurs
Extraction de Caractristiques
Reconnaissance des acteurs
Figure 2 :
Schma gnral de stage
-5-
2
2.1
Dtection de visages
Introduction
Dans ltape de dtection et de localisation des visages, nous proposons une approche par lalgorithme robuste et rapide bas sur la densit dimages, AdaBoost, qui combine des descripteurs simples (Haar feature) pour un classifieur fort. La notion de Boosting tait propose en 1995 par Freund [Freund 1995]. Lalgorithme Boosting utilise les hypothses faibles (taux derreur < 0.5) des connaissances a priori pour construire une hypothse forte. En 1996 Freund et Schapire ont propos lalgorithme AdaBoost qui permit de choisir automatiquement les hypothses faibles avec des poids adapt. AdaBoost ne dpend pas de connaissances a priori [Freund 1996]. En 2001, Viola et Jones ont appliqu lalgorithme AdaBoost dans la dtection de visages pour la premire fois. Avec des descripteurs simples (Haar feature), la mthode de calcul de valeur de descripteurs (limage intgrale), la cascade des classifieurs, cette mthode est devenue une rfrence de dtection de visage par ses qualits de rapidit et robustesse. La Figure 3 nous donne un des rsultats du travail de [Viola 2001].
Figure 3 :
Un des rsultats de Viola & Jones 2001
En 2002, Lienhart et al. ont tendu les descripteurs Haar, expriments dans plusieurs lalgorithmes dAdaBoost : Discrete Adaboost, Real Adaboost, Gentle Adaboost and Logitboost. Ces codes dapprentissage et de dtection par lalgorithme AdaBoost sont publis dans la librairie de fonctions OpenCV (Open source Computer Vison) [Lienhart & Maydt 2002] [Lienhart et al. 2002]. Lalgorithme Adaboost est dsormais dvelopp et amlior dans plusieurs publications : [Viola 2003] ont utilis cet algorithme pour toutes les poses et tous les angles de rotations de visages, aussi appel Multi-View (Figure 4) ; [Viola 2005] ont appliqu cette mthode pour la dtection de piton, combinant les informations de mouvement et dapparence (Figure 5) ; [Zhu 2006] utilisent les descripteurs des histogrammes de gradient orient pour la dtection de humains ou des vlos.
-6-
Figure 4 :
Rsultats de Viola & Jones 2003
Figure 5 :
Un des rsultats de Viola, Jones & Snow 2005
Dans notre travail nous avons appliqu lalgorithme Gentle AdaBoost laide de la librairie de fonction OpenCV en utilisant deux cascades visage de face et visage de profil -- pour dtecter et localiser la plupart de visages dans les squences vido.
2.2 2.2.1
AdaBoost Descripteurs de Haar
Les valeurs d'un pixel ne nous informent que sur la luminance et la couleur d'un point donn. Il est donc plus judicieux de trouver des dtecteurs fonds sur des caractristiques plus globales de l'objet. C'est le cas des descripteurs de Haar [Viola 2001]. Les descripteurs de Haar sont des fonctions permettant de connatre la diffrence de contraste entre plusieurs rgions rectangulaires contigus dans une image. On code ainsi les contrastes existants dans un visage et les relations spatiales (Figure 6). En effet, ces descripteurs permettent de calculer la diffrence entre la somme des pixels dans les zones blanches et la somme des zones noires. La valeur de descripteur est calcule par :
f i = Sum(ri, blanche ) Sum(ri, noire )
(1)
-7-
Figure 6 :
Descripteurs de Haar
Ces descripteurs sont calculs dans une fentre de taille fixe (ex. 24x24 pixels). Gnralement, ils sont classifis en 3 sortes : 2-rectangles, 3-rectangles et 4-rectangles descripteurs (Figure 7). Les 2-rectangles descripteurs sont utiliss horizontalement et verticalement (Figure 7A et B). Les rgions blanches ont des poids positifs et les rgions noires ont des poids ngatifs.
Figure 7 : Descripteurs de Haar dans une fentre : 2-,3-,4-rectangles dtecteurs.
Un descripteur de Haar est caractris par: le nombre de rectangles (2,3 ou 4) la position (le sommet suprieur gauche) (x,y) de chaque rectangle la largeur w et la hauteur h de chaque rectangle avec 0<x,x+w<W ; 0<y,y+h< H les poids positifs ou ngatifs de chaque rectangle
Un exemple est donn sur la Figure 8.
-8-
Figure 8 :
Dfinition dun descripteur de Haar dans une fentre
Les descripteurs de Haar sont trs simples mais trs nombreux du fait des variations de taille et de position. Etant donn une fentre de rsolution 24x24 pixels, on peut dfinir environ 160 000 dtecteurs possibles dans cette fentre selon [Viola 2001], sans compter les descripteurs 45 dgres proposs par [Lienhart et al. 2002]. Quelques exemples sont montrs dans la Figure 9. La ncessit de balayer pour chaque sous-fentre tous les pixels de l'image est un processus trop coteux en temps. Lide dimage intgrale est donc introduite afin dacclrer le calcul.
Figure 9 :
Exemples des descripteurs de Haar dans une fentre 24x24
2.2.2
Image Intgrale
L'image intgrale est une nouvelle reprsentation qui va permettre de calculer plus rapidement les attributs du descripteur. L'ide est de calculer seulement une fois la somme de tous les pixels de l'image [Viola 2001]. Le pixel la position (x,y) de l'image intgrale contient la somme de tous les pixels, de limage initiale, suprieurs et gauche de la position (x,y) (voir Figure 10).
-9-
Figure 10 : Image Intgrale
Soient limage intgrale ii(x,y) et l'image originale i(x,y), l' image intgrale s'obtient par :
(2) Avec limage intgrale, partir de ii(x,y) nimporte quel rectangle de limages peut tre calcul avec 4 points: 2=A+B 3=A+C 4=A+B+C+D D = 4 + 1 (2 + 3)
au lieu de laddition de touts les pixels de rgion D (Figure 11). Cela nous permet de rduire le calcul en temps constant.
Figure 11 : Calcul de la somme du rectangle D avec l'image intgrale
2.2.3
Classifieur faible et classifieur fort
Avec les descripteurs de Haar, on forme les classifieurs faibles. Un classifieur h(x), compos d'un descripteur f, d'un seuil , et d'une parit p, donne une prdiction sur la classe qui appartient x (ici, 1 pour visage et 0 pour non visage).
(3) Lalgorithme dAdaBoost vise combiner plusieurs classifieurs faibles pour obtenir un classifieur fort plus efficace.
- 10 -
Le tableau 2 dcrit lalgorithme dAdaBoost [Viola 2001]. Etant donn les exemples ngatifs et positifs, on initialise les poids de chaque exemple et on applique un processus de boosting : T itrations slectionnant T classifieurs faibles ht(x) avec chacun un poids t pour obtenir finalement un classifieurs fort C(x). Pour chaque itration, un classifieur est choisi en minimisant le taux derreur calcul avec les poids courrant des exemples. On augmente ensuite les poids des exemples mal classifis pour la slection suivante. Litration se termine quand le taux de bonnes dtections et le taux de faux positifs atteignent le compromis choisi au dpart.
Tableau 2 : Algorithme AdaBoost
Les classifieurs de prcision plus leve (taux derreur entre 0.1 et 0.3) sont slectionns au dbut de lapprentissage, et les classifieurs moins prcis (taux derreur entre 0.4 et 0.5) sont slectionns dans les dernires itrations. La Figure 12 prsente deux exemples de descripteurs les plus discriminants slectionns par AdaBoost partir d'une base d'images de visages [Viola 2001]. Le premier descripteur caractrise la diffrence d'intensit entre la zone des yeux et la zone des pommettes. Le second descripteur mesure la diffrence
- 11 -
d'intensit entre les yeux et la zone au dessus du nez.
Figure 12 : Deux descripteurs de Haar les plus discriminants
2.2.4
Cascade
Pour raliser un traitement efficace, il est ncessaire d'avoir l'avis de plusieurs classifieurs forts (Figure 13). Une cascade de classifieurs est un arbre de dcision dgnr dans laquelle, chaque tape est entrane pour dtecter un maximum d'objets intressants tout en rejetant une certaine fraction des objets non-intressants. La structure de la cascade reflte le fait que l'image est constitue majoritairement de sous-fentres ngatives. Une sous-image doit passer tous les classifieurs afin d'tre accepte comme visage. Le dclenchement de tous les classifieurs par un rsultat positif devient ainsi un vnement rare. Il faut que le nombre de sous-images limines ds les premires tapes de la cascade soit trs lev. La cascade des classifieurs commence par un taux de dtection de presque 100% mais avec un taux de faux positifs lev. Il diminue rapidement avec quelques itrations. Ainsi on rejette immdiatement un grand nombre de rgions ngatives, donc cela acclre lapprentissage et la dtection.
Figure 13 : Cascade de classifieurs forts
Pour une cascade, le taux global de faux positifs (fentres ngatives dclares comme positives) est le produit du taux de faux positifs de chaque tape :
- 12 -
(4) Le taux global de bonnes dtections est dfini selon la mme formule :
(5) Par exemple pour obtenir une cascade avec un taux global de bonne dtection de 0.9 et un taux global de faux positifs de 6x10-6, on peut entraner 10 tapes avec di=0.99 et fi=0.3. Le tableau 3 dcrit lalgorithme dapprentissage par une cascade dAdaBoost [Viola 2001]. Le taux maximum de faux positifs pour une tape f, le taux minimum de dtection pour une tape d et le taux global de faux positifs accepts Ftarget sont dfinis lentre de lapprentissage. Les tapes de la cascade sont construites par entranements successifs de classifieurs avec AdaBoost puis ajustement de leur seuil afin de minimiser le nombre de faux positifs. Chaque tape est entrane en ajoutant des classifieurs faibles jusqu' ce que les taux de dtection demands soient atteints. Des tapes sont ajoutes la cascade jusqu ce que les taux de la cascade entire soient atteints. Aprs chaque tape, on diminue lensemble dexemples ngatifs et on ne garde que les exemples mal classifis pendant la dernire tape.
Tableau 3 : Algorithme dapprentissage par une cascade dAdaBoost
La prsence d'un visage dans les images est trs rare et la cascade complte est ainsi trs rarement applique une sous-image. La grande majorit des sous-images sont rejetes en chouant ds les premires tapes.
- 13 -
0 0 0 0 0 1 1 0 1 0
1 1 1 1
AdaBoost AdaBoost2 1 Visage x 98% Visage x 99% Non visage x 9% Non visage x 30%
Visage x 90% Non visage x 0.00006% Non visage x 70% Non visage x 21%
Figure 14 : Exemple dune cascade pour la dtectant un visage
Sur l'image de la Figure 14, les deux descripteurs faibles votent visage pour la sous-image en rectangle rouge. Aprs la dcision, le classifieur fort 1 classe la sous-image dans le rectangle rouge comme un visage et la passe au classifieur fort 2 qui va, lui aussi, avec d'autres descripteurs indpendants des descripteurs prcdents, valider visage ou non et on itre N fois. Par contre, la plupart des sous-images visage comme la sous-image dans le rectangle vert sont rejets dans les premires tapes. Ainsi on rduit le nombre de faux positifs.
2.3 2.3.1
Implmentation OpenCV
OpenCV (Open Source Computer Vision Library) est une librairie de traitement d'images et de vision par ordinateur en langage C/C++, propose par Intel pour Windows et Linux. Cette bibliothque propose un grand nombre d'oprateurs classique : cration, lecture et criture d'images, accs aux pixels, traitement d'images, apprentissage, dtection de visages, suivi d'objet vido, etc. Avec OpenCV, nous pouvons entraner une cascade en format xml pour la dtection de visage. Pour lapprentissage, on donne les exemples dexemples positifs et ngatifs, c'est--dire, de visages et de non visages, et on dfinit le taux de faux positifs de chaque tape fi, le taux de bonne dtection de chaque tape di et le taux global de faux positifs accepts Ftarget. Une fois la cascade ralise, nous pouvons lancer la dtection en configurant les paramtres dentre de la fonction cvHaarDetectObjects : nom dimage, nom de cascade, facteur dchelle, taille minimale de sous-image, etc. La prcision et la vitesse de la dtection peuvent tre assez diffrents selon la configuration initiale choisie.
- 14 -
2.3.2
Implmentation
Nous avons lanc l'apprentissage sur une base de 1000 visages et 2000 ngatifs pour avoir une cascade avec un taux final de faux positifs infrieur 0.520. On obtient donc une cascade de 20 classifieurs forts avec chacun un taux de faux positifs infrieur 0.5. On obtient une cascade que l'on met sous le format xml. Il existe diffrents algorithmes de boosting, tels que Discrete Adaboost, Real Adaboost ou encore Gentle Adaboost mais nous retiendrons uniquement le dernier car cest celui qui offre les meilleures performances pour la dtection de visages selon [Viola 2001]. Nous avons appliqu notre propre cascade pour la dtection de visage. Nous avons utilis trois cascades de classifieurs pour les visages de faces et pour les visages de profil gauche et droit. Pour obtenir une bonne cascade, la banque dobjets dapprentissage devrait tre assez grande, entre 10 000 100 000.
2.3.3
Rsultat
Nous avons appliqu notre programme de l'algorithme AdaBoost sur des images et des vidos de diffrentes tailles. Quelques exemples des rsultats sont montrs sur la Figure 15. Les ellipses rouges sont les visages de face, les ellipses vertes sont les visages de profil gauche, les ellipses bleues sont les visages de profil droit. Lalgorithme donne des bons rsultats sur la dtection de visage.
Figure 15 : Dtection de visages par AdaBoost

- 15 -
Afin de quantifier la prcision de la dtection, nous avons appliqu notre programme sur une banque de donnes NRC-IIT Facial Video Database [Dmitry 2005] (Figure 16). Les vidos sont 160 x 120 pixels, compresss en AVI Intel codec avec bit-rate de 481 Kbps. Cette base de donnes contient un certain nombre de squences vido courtes en basse rsolution encodes en mpeg1, chacune prsentant le visage dun utilisateur assis devant la camera bougeant (changements dchelle et dorientation) et grimaant (changements dexpressions faciales). Le contexte tant celui dune capture par webcam lors dune video-confrence.
Figure 16 : Squences vido de 160x120 de la base IIT-NRC
Les rsultats sont prsents en tableau 4. Grce aux cascades profil , nos rsultats sont meilleurs que ceux prsents dans [Dmitry 2005] pour la plupart des vidos, mais laugmentation du taux de bonne dtection entrane laugmentation du taux de faux positifs pour certaines vidos.
- 16 -
Tableau 4 : Rsultats de dtection sur la base NRC-IIT Vido 00-1 00-2 01-1 01-2 02-1 02-2 03-1 03-2 04-1 04-2 05-1 05-2 06-1 06-2 07-1 07-2 08-1 08-2 09-1 09-2 10-1 10-2 Nombre de frame 228 249 237 329 257 339 448 438 353 404 198 248 324 353 258 328 346 426 318 388 338 378 Visage face 183 165 52 47 219 215 183 213 166 240 180 163 226 204 152 172 192 340 254 188 196 248 Profil gauche 1 1 0 0 10 22 62 62 60 52 0 2 17 30 15 9 55 17 28 31 12 13 Profil droit 12 6 0 0 3 18 15 22 22 49 0 0 39 34 19 1 20 16 14 6 1 11 Bonnes Dtections /Faux Positifs 196/0 172/0 52/1 47/0 232/0 255/4 260/0 297/0 248/20 341/6 180/0 165/0 282/2 268/6 186/0 182/0 267/0 373/0 296/0 225/3 209/1 272/2 Rsultat BD/FP de [Dmitry 2005] 77/121 131/63 96/1 54/0 176/3 184/2 232/2 308/2 172/1 276/3 78/0 121/1 231/10 237/1 208/6 239/1 351/12 401/1 300/1 273/26 184/81 274/36
2.4
Discussion et perspective
Selon les rsultats du programme dAdaBoost avec trois cascades de classifieurs (visage de face, de profil gauche et de profil droit), cet algorithme est rapide et robuste pour dtecter les visages de diffrentes expressions et diffrentes luminosits. La combinaison de trois cascades nous permet dobtenir un taux de bonnes dtections plus important. Cependant, les visages dtects doivent tre acquis de face, de profil et/ou avec une faible rotation centrale (au maximum 30). Certains visages ne sont pas dtects car ils ont une rotation trop importante. Pour contrer cet inconvnient, il faut enrichir la base d'images de diffrentes positions et rotations pour entraner des cascades plus pertinentes. Une des solutions pourrait tre un arbre de dcision avant les cascades de toutes les poses [Viola 2003]. Le taux de bonnes dtections des dernires tapes de la cascade est limit par l'emploi de classifieurs faibles. Le problme peut tre rsolu par l'ajout de classifieurs plus complexes que les classifieurs faibles dans les dernires tapes de la cascade, tel que les histogrammes de gradient orient [Dalal 2005] [Zhu 2006], les filtres de Gabor [Shan 2004] [Chen 2004] ou lemploi dEigenface [Turk 1991].
- 17 -
Aprs la dtection de visages, nous avons essay dutiliser lAdaBoost pour la dtection des yeux et de la bouche : Le premier essai est dutiliser la mthode dAdaBoost avec une cascade parojosEyes22x5.xml propose par Modesto Castrilln. La dtection atteind de bons rsultats sur les images de haute rvolution, voir la Figure 17. Cependant, dans les cas de rsolution faible, cette cascade narrive pas trouver des yeux. Pour la dtection de la bouche, nous navons pas encore trouv une cascade performante.
Figure 17 : Dtection des yeux par AdaBoost
Le deuxime essai est dutiliser la mthode de [Hsu 2001][Casiraghi 2003]) base sur le eyemap et le mouthmap couleur. Limplmentation de cette mthode est en cours.
- 18 -
3
3.1
Extraction de caractristiques
Introduction
Pour pouvoir apprendre les visages dacteurs, maintenant que nous les avons localiss, il nous faut extraire des caractristiques visuelles et tablir des similarits sur ces caractristiques suffisamment pertinentes. Nous avons actuellement tudi des caractristiques de couleur comme les histogrammes HS, des caractristiques texture comme les histogrammes de Gabor phase patterns et Gabor complexe, et des caractristiques SIFT sur des points dintrt.
3.2 3.2.1
Extraction de caractristiques de la couleur Espace de couleur HSV
Lespace HSV (Hue, Saturation, Value) ou TSV (Teinte Saturation Valeur) est un espace colorimtrique, dfini en fonction de ses trois composantes : Teinte (H) : le type de couleur. La valeur varie entre 0 et 360. Saturation (S) : l intensit de la couleur. La valeur varie entre 0 et 100 %. Plus la saturation d'une couleur est faible, plus l'image sera grise et plus elle apparatra fade, il est courant de dfinir la dsaturation comme l'inverse de la saturation. Valeur (V) : la brillance de la couleur, elle varie entre 0 et 100%.
Dans OpenCV, la valeur H est normalise en 0180; les valeurs S et V sont normalises en 0255 (la Figure 18).
Figure 18 : Espace de couleur HSV
Le modle HSV est une transformation non-linaire de l'espace de couleur RVB. Il est dfini dans OpenCV par la transformation ci-dessous :
- 19 -
V = max(R,G,B) S = (V-min(R,G,B))*255/V (G - B)*60/S, if H = 180+(B - R)*60/S, if 240+(R - G)*60/S, if if H < 0 then H = H + 360
if V!=0, 0 otherwise V=R V=G V=B
3.2.2
Histogramme HS
Lespace de couleur HSV spare les informations de couleurs en teinte, saturation et valeur. Ces informations peuvent tre utilises pour la reconnaissance de visage [Saxe 1996]. En considrant que la valeur de la brillance de la couleur est influence par la condition extrieure, nous nextrayons que les valeurs de H et S. Un histogramme 2D de la distribution de H-S est calcul pour chaque visage comme les caractristiques couleurs. Lhistogramme H-S est dfini en 30 bins laxe H et 32 bins laxe S. Il peut tre considr comme un vecteur 960 composants pour lapprentissage avec SVM. La Figure 19 donne un exemple de lhistogramme H-S dun visage segment.
(a)
(b)
(c)
Figure 19 : Histogramme H-S (a) une frame (b) visage segment (c) Histogramme H-S
3.3
Extraction de caractristiques de la texture
La texture est une caractristique importante de l'apparence des objets dans des scnes relles et la comprendre est une partie essentielle de la comprhension de la vision humaine. Une texture reprsente, une chelle donne, le mme aspect quelle que soit la zone observe. Dans ces conditions, on considre l'image comme la ralisation d'un processus stochastique local et stationnaire. C'est--dire que chaque pixel est caractris par un petit voisinage et que cette caractrisation est la mme pour tous les pixels de l'image. De nombreuses approches de l'analyse de textures ou dobjets par attributs frquentiels sont proposes : matrice de cooccurrence, dimension fractale, Transformation de Fourier, transforme en ondelettes, la pyramide laplacienne et la pyramide gaussienne. Nous avons adopt des mthodes dondelette de Gabor (propos par David Gabor en 1946) pour lextraction de caractristiques de texture, car ils imitent le fonctionnement de certaines cellules spcialises, localises dans le cortex visuel primaire [Morizet 2006]. Londelette de Gabor caractrise la structure en spatial et en frquentiel, et dans le mme temps prserve les informations des relations spatiales. Elle est donc pertinente pour extraire le contenu frquentiel orient des patterns.
- 20 -
3.3.1
Filtre de Gabor
Les ondelettes (filtres) de Gabor sont des ondes sinusodales avec une frquence et une orientation particulire module par une enveloppe gaussienne. [Zhang 2007]
(6)
, , , , , . Ici v est la frquence (chelle) entre 0 et 4, u est lorientation entre 0 et 7. La Figure 20 visualise une des filtres de Gabor en partie relle et imaginaire. Ils ont une forme de chapeau mexicain .
o,
(a)
(b)
Figure 20 : Filtre de Gabor (a) rel (b) imaginaire
La Figure 21 prsente les 40 filtres de Gabor de diffrentes frquences et de diffrentes orientations par leur partie relle et les modules de 5 frquences [Zhang 2007].
Figure 21 : Filtre de Gabor (a) rel (b) module
La transformation de Gabor est la convolution complexe dune image par un filtre de Gabor.
- 21 -
(7) La Figure 22 donne les rsultats de cette transformation, dans images des parties modules et des parties phases [Zhang 2007].
(a)
(b)
Figure 22 : Transformation de Gabor (a) module (b) phase
Les recherches prcdentes nutilisent que la partie module, comme [Wiskott, 1997], [Zhang 2005], car les phases varient considrablement mme dans des patterns locaux presque identiques et elles sont considres comme des informations inutiles pour la reconnaissance dobjet. Dans larticle [Zhang 2007], ils ont propos une mthode de reprsentation de la texture pour la reconnaissance de visage, Histogramme de Gabor phase pattern (HGPP), base sur la combinaison de lhistogramme spatiale et des informations de Gabor phase. Nous commenons premirement par la mthode dHistogramme Gabor Phase Patterns (HGPP) [Zhang 2007] car elle donne le meilleur rsultat pour la reconnaissance de visages selon cet article. La mthode HGPP sera dtaille dans 3.3.2. Puis nous essayons notre propre mthode en considrant la fois les informations de module et de phase, dtaille dans 3.3.3.
3.3.2
Histogramme de Gabor Phase Patterns (HGPP)
La mthode HGPP explore les informations de phase de Gabor par lencodage de la partie relle et de la partie imaginaire avec le codage QBC (Quadrant-bit codes) [Daugman 1993] et ensuite de loprateur LXP (Local XOR pattern). La mesure de la similarit sera donc base sur lhistogramme de ces patterns. (a) QBC (Quadrant-bit codes) Le codage QBC calcule les patterns de phase de Gabor avec les formules suivantes :
(8) On lappelle Quadrant-bit codes car il spare les convolues de Gabor dans 4 quadrants dans lespace complexe, 00 pour le quadrant I, 10 pour le quadrant II, 11 pour le quadrant III et 01 pour le quadrant IV, voir la Figure 23.
- 22 -
Figure 23 : Quadrant-bit codage de Gabor phase
A partir de QBC, on extrait deux sortes de Patterns : GGPP (Global Gabor Phase Patterns) et LGPP (Local Gabor Phase Patterns). (b) GGPP (Global Gabor Phase Patterns) Le pattern GGPP est un encodage dinformations globales dorientations. Il combine les parties relles (ou imaginaires) de QBC de toutes les orientations dune frquence, chacune un bit pour un pixel, dans une image de mme taille dimage originale.
(9) Ici k = 7, les 8 bits qui reprsentent 8 orientations forme un octet, cest dit, les pixels de 255 niveaux de gris dans une image. La Figure 24 nous montre les images de Patterns GGPP dun visage, en 5 diffrentes frquences.
Figure 24 : Patterns GGPP (a) rel (b) imaginaire
(c) LGPP (Local Gabor Phase Patterns) Le pattern LGPP reprsente la variation locale de chaque pixel. Pour chaque orientation et chaque frquence, la partie relle (ou imaginaire) de LGPP encode la diffrence de signe dun pixel et ses 8 voisins (Figure 25) par loprateur LXP (local XOR pattern) :
(10)
- 23 -
Figure 25 : Codage de LGPP
Les 8 bits qui reprsentent 8 voisins dun pixel forment un octet (255 niveaux de gris) pour un pixel dans une image de mme taille dimage originale. Toutes les orientations et toutes les frquences forment 40 images de partie relle du pattern LGPP, ainsi pour la partie imaginaire. (Figure 26)
Figure 26 : Patterns LGPP (a) rel (b) imaginaire
(d) HGPP (Histogram de Gabor Phase Patterns) Finalement, les histogrammes de Gabor Phase Patterns sont formuls comme : (11) Il consiste en 4 parties :
(12) Si le calcul de ces histogrammes est sur une image entire de visage, les informations locales seront perdues. La solution est de diviser limage originale dans 8x8 sous-rgions (Figure 27 a) et calculer les histogrammes de HGPP de toutes les sous-rgions. En effet, chaque histogramme est un micro-pattern, en 16 bins. En gnral, le schma de HGPP est prsent dans la Figure 27 (b). Les images de visages sont normalises en 128x128 pixels avant la convolution avec les filtres Gabor afin davoir le meilleur rsultat selon Zhang et al.
- 24 -
(a)
(b)
Figure 27 : (a) 8x8 sous-rgions de GGPP (b) schma gnral de HGPP
Nous avons utilis la mthode de Zhang et al. pour extraire les patterns HGPP des images de visage. Le nombre de micro-patterns HGPP sont 5760 (5x2x64 + 5x8x2x64 = 5760), soit un vecteur de 92160 composantes (5760x16 = 92160). Le nombre de composantes extraites de HGPP est trs important. En plus, en raison de division de 64 sous-rgions, le HGPP est sensible la pose de visage. Cela tait prouv par notre exprimentation. Nous pouvons considrer lutiliser justement sur les points dintrt (ou les rgions saillantes) au lieu de lutiliser sur limage entire.
3.3.3
Histogramme de Gabor complexe
Le HGPP considre que linformation de la phase de Gabor mais pas dinformation sur le module de Gabor, nous proposons dans ce travail un nouveau pattern, Gabor complexe, qui considre la fois la module et la phase de pattern de Gabor, cest dit, considre la fois la partie rel et la partie imaginaire de limage convolue par Gabor. En sinspirant de lide HGPP, nous construisons les histogrammes pour toutes les chelles et toutes les orientations de pattern de Gabor. Les diffrences sont suivantes : Les histogrammes de Gabor complexe calculent les distributions globales des informations textuelles, sans les diviser en sous-rgions ; Ils considrent la fois les informations relles et imaginaires dans 16 bins respectivement, au lieu de les encoder seulement en 0 et 1 ; Ils analysent la distribution des informations textuelles dans toutes combinaisons (couple) de valeur de partie relle et imaginaire. Justement les rgions qui ont les mmes informations textuelles de la partie relle et imaginaire sont considres comme de mme texture. Ils sont les histogrammes complexes 16x16, ou autrement dit les histogrammes 2D;
Dabord, les convolutions dune image de visage par les 40 ondelettes de Gabor sont calcules, sur les parties relles et imaginaires. Les rsultats sont montrs dans Figure 28. Puis, les histogrammes de Gabor complexe sont calculs pour chaque coupe de patterns rel et imaginaire, 40 coupes de diffrentes frquences et de diffrentes orientations. Le nombre de histogrammes de Gabor complexe pour une image sont 40, soit un vecteur de 10240 composantes (40x16x16=10240). Le nombre de composantes est relativement faible par apport celui du HGPP (92160).
- 25 -
(a)
(b)
Figure 28 : Descripteurs de Gabor (a) rel (b) imaginaire
3.4
Extraction de caractristiques des points dintrt par SIFT
Dans les sections 3.2 et 3.3, les caractristiques de couleur et de texture sont extraites. Cependant, pour la reprsentation pertinente de la signature dun visage, des points dintrt ou des rgions saillantes devront tre dtects et localiss afin dobtenir les informations plus prcises des nuances entre des personnes diffrentes. Une approche reprsentative pour caractriser les informations des points dintrt est la mthode SIFT (Scale-Invariant Feature Transform) propose et dveloppe par David Lowe [Lowe 1999] [Lowe 2004]. SIFT est un algorithme qui permet de dtecter des points dintrt et dextraire des caractristiques distinctives de ces points pour la reconnaissance dobjet. Les caractristiques de SIFT sont invariantes lchelle et la rotation, ce qui joue un rle trs important pour la reconnaissance des visages dacteurs dans les squences vido. Des travaux prcdents ont utilis cet algorithme pour la reconnaissance de visage [Sivic 2005]. Dans notre travail, nous avons utilis SIFT la fois pour dtecter des points dintrt de visages, yeux, bouche, nez, etc., et pour extraire des caractristiques autour de ces points
3.4.1
SIFT
La dtection et lextraction de caractristiques sur les points dintrt se droulent en quatre tapes : dtection dextrema despace-chelle (scale-space), localisation des points dintrt, choix de lorientation des descripteurs, calcul des descripteurs.
Pour la premire tape de dtection dextrema despace-chelle, limage est convolue avec un noyau gaussien. Lespace-chelle dune image est donc dfini par la fonction :
L ( x, y , ) = G ( x, y , ) I ( x , y )
o I(x, y) est limage originale et
G ( x, y , ) =
1 2 2
e ( x
+ y 2 ) / 2 2
- 26 -
A une normalisation prs, cela revient rsoudre I/=I, o I reprsente le Laplacien de I. La Figure 29 nous montre les images Gaussiennes groupes par quatre octaves. De gauche droite, lchelle augment. De haut bas, la taille dimage divise par deux.
Figure 29 : Images Gaussiennes groupes par octaves
La prslection des points dintrt et de leur chelle est faite en dtectant les extrema locaux des diffrences de gaussiennes (Figure 30):
D( x, y, ) = (G ( x, y, k ) G ( x, y, )) I ( x, y ) = L ( x , y , k ) L ( x , y , )
Notons que D(x,y,) (k 1) I lorsque k1.
Figure 30 : Diffrences de gaussiennes

- 27 -
Les extrema sont recherchs dans de petits voisinages en position et en chelle (typiquement 3 x 3 x 3) (Figure 31).
Figure 31 : Recherche des extrema
Une tape dinterpolation a pour but damliorer la localisation des points dintrt en espace et en chelle. Puis une analyse des rapports des valeurs propres de la matrice hessienne 2 x 2 permet dliminer les points dintrt situs dans des zones insuffisamment contrastes ou sur des bords prsentant une courbure trop faible. Ltape suivante consiste assigner chaque point une orientation. Cette orientation correspond lorientation majoritaire des gradients spatiaux dintensit calculs dans un voisinage du point dintrt lchelle pralablement dtermine. Un point dintrt peut se voir associer plusieurs orientations. Cela entrane par la suite une redondance des descripteurs. Finalement, pour une position, une chelle et une orientation donnes, chaque point dintrt se voit associer un descripteur. Pour chaque image, la norme du gradient spatial m(x,y) et lorientation du gradient spatial (x,y) correspondants cette chelle sont calcules :
Le descripteur est constitu dhistogrammes dorientation du gradient spatial dintensit pondrs par la norme du gradient spatial (Figure 32).
Figure 32 : Vecteur de descripteur des points dintrt
En effet, le voisinage du point dintrt dont la taille dpend de lchelle subit un

- 28 -
dcoupage 4 x 4 en blocs. Pour chaque bloc, un histogramme 8 niveaux de quantification rsume les orientations du gradient spatial dintensit lintrieur du bloc. Le descripteur SIFT est donc un vecteur 4 x 4 x 8 = 128 coordonnes.
3.4.2
Implmentation
Pour limplmentation de SIFT, nous avons utilis les codes SIFT++ de Andrea Vedaldi de l Universit de California en 2006, qui est une implmentation de lalgorithme des dtecteurs et descripteurs SIFT en C++ base sur larticle [Lowe 2004]. Nous lavons utilis, la fois pour dtecter des points dintrt au sein des images de visages et pour appliquer le descripteur SIFT aux zones dtectes. Le premier essai est de configurer diffrents paramtres (chelle de premier octave, seuil de contraste, seuil de bord, etc.) sur des images de visages (Figure 33). Le nombre de points dtects est diffrent selon les paramtres configurs.
(a)
(b)
(c)
Figure 33 : Dtection des points dintrt par SIFT en diffrents paramtres (a) fist-octave = -1, threshold = 0.007, edgeThreshold = 10 (b) fist-octave = 0, threshold = 0.02, edgeThreshold = 5 (c) fist-octave = 0, threshold = 0.03, edgeThreshold = 5
Avec les mmes paramtres comme Figure 33 (c), nous avons dtect des points dintrt des images de visages de diffrentes chelles et de diffrentes positions (orientations) voir la Figure 34. Aprs une tude sur les points dintrt dcrites sur la Figure 34, nous avons remarqu quon arrive peu prs tout le temps avoir un ou les deux yeux, la bouche et/ou le nez, qui sont les points dintrt que nous recherchons.
Figure 34 : Dtection des points dintrt par SIFT en diffrentes images

- 29 -
Pour lextraction des caractristiques sur les points dintrt, on obtient un fichier *.key qui contient les vecteurs des descripteurs SIFT pour chaque point dtect, reprsentant le coordonnes x et y, chelle, orientation, et les 128 composants des descripteurs SIFT. Pour valuer les vecteurs extraits par SIFT, quatre images de mme visage en diffrentes chelles et diffrentes rotations sont calcules, comme montres sur la Figure 35, les points dintrt dtects sont relativement stables, robustes, sur le mme visage en diffrentes chelles et diffrentes rotations.
(a)
(b)
(c)
(d)
Figure 35 : Dtection des points dintrt par SIFT en diffrentes chelles et diffrentes rotations Tableau 5 : Comparaison des descripteurs SIFT
image (a) (b) (c) (d)
PI(x) 54.52 26.98 76.72
PI(y) 73.08 36.26 26.95
chelle orientation (de 0 8) 5.39 2.65 5.41 2.66 3.259 3.251 4.812 4.815
128 composants des descripteurs SIFT

0 12 43 31 3 0 0 0 23 62 17 0 0 0 0 0 155 17 0 0 13 45 29 2 0 0 0 22 64 16 0 0 0 0 0 154 17 0 0 12 43 33 3 0 0 0 21 63 18 0 0 0 0 0 153 17 0 0 13 46 29 2 0 0 0 21 65 16 0 0 0 0 0 153 17 0
154.00 54.58
Une tude sur les 128 composants des descripteurs SIFT sur le Tableau 5 nous montre la invariabilit sur les points dintrt marqus en croix jaune des quatre images de la Figure 35. Les descripteurs SIFT pourraient tre discriminants pour la reconnaissance de visages de diffrents acteurs dans des vidos.
3.5
Similarit sur les caractristiques couleur et texture
Dans cette section, nous avons calcul la similarit entre les caractristiques couleur et texture uniquement, pour valuer la performance de ces caractristiques extraites. Jusqu maintenant, nous avons extrait des caractristiques de couleur et de texture sous la forme des vecteurs suivants : 960 vecteurs de couleur HS 92160 vecteurs de Gabor HGPP
- 30 -
10240 vecteurs de Gabor complexe
Nous avons segment les visages des acteurs (actrices) partir dune squence vido Prison Break de Brett Ratner. Nous avons obtenu 1174 images des visages de 40 tubes de 5 acteurs (actrices). Les vecteurs de couleur HS, de Gabor HGPP, et de Gabor complexe sont extraits des images des visages. Les vecteurs ont t uniformment normaliss entre 0 et 1. Afin dvaluer les performances de ces vecteurs, nous avons utilis la distance 2 (comme un premier essai de distance de similarit) qui a t utilise dans le travail de [Sivic 2005] pour comparer la similarit de deux histogrammes de visual words pour la reconnaissance de visages.
3.5.1
Distance 2
La distance 2 est calcule par lquation suivante:
(13) o, p et q sont deux histogrammes comparer, pk et qk sont les valeurs du kime bin des histogrammes p et q respectivement, s est le nombre de bins de ces histogrammes. 2 (p, q) reprsente la dissimilarit de deux histogrammes. La valeur est entre 0 et 2, soit 0 quand p = q et 2 quand p et q sont compltement diffrents .
3.5.2
Distances des vecteurs de couleur et de texture
Nous avons effectu le calcul des distances sur 7 tubes de 2 acteurs extrait du film prison break , soit 326 visages, voir tableau 6:
Tableau 6 : Tubes de visages calculer Acteur A A A A B B B Total Tube A02 A05 A06 A10 B06 B07 B15 Nombre de visages 32 61 29 39 59 40 66 326
(a) Distances des visages de mme tube

Nous avons dabord calcul les distances des visages de mme tube. Soit n nombre de visages dun tube, le nombre de coupes de visages est
i (Figure 36).
i =1
n 1
- 31 -
Figure 36 : Les couples des visages de mme tube comparer
Comme dcrit dans le tableau 7, les 7 tubes de visages ont 8109 coupes comparer.
Tableau 7 : Comparaisons des visages de mme tube Tube A02 A05 A06 A10 B06 B07 B15 Total Nombre de visages 32 61 29 39 59 40 66 326 Nombre de comparaisons
496 1830 406 741 1711 780 2145
8109
Les moyennes et des cart-types des distances 2 des 8109 coupes de visages sont calcules et montrs dans le tableau 8.
Tableau 8 : Distances des 8109 coupes de visages de mme tube Vecteur Distances Couleur HS 0,0940 0,0741 Gabor HGPP 0,0496 0,0116 Gabor complexe 0,2037 0,1544
(b) Distances des visages de 2 tubes

Les distances des visages de 2 diffrents tubes sont calcules entre toutes les coupes possibles des visages des 2 tubes. Soit n le nombre de visages dun tube, m le nombre de visages dautre tube, le nombre de coupes de visages entre 2 tubes est n x m (Figure 37).
Figure 37 : Les couples des visages de 2 tubes comparer

- 32 -
Nous considrons dabord les distances des visages de 2 tubes de mmes acteurs. Comme dcrit dans le tableau 9, on a 9042 coupes de visages comparer.
Tableau 9 : Comparaisons des visages de 2 tubes de mmes acteurs Tube 1 A02 A06 B06 B06 Tube 2 A05 A10 B07 B08 Total Nombre de Nombre de visages de tube 1 visages de tube 2 32 29 59 59 61 39 40 61 Nombre de comparaisons
1952
1131 2360 3599 9042
Les moyennes et des cart-types des distances 2 des 9042 coupes de visages sont calcules et montrs dans le tableau 10.
Tableau 10 : Vecteur Distances Distances des 9042 coupes de visages de 2 tubes de mmes acteurs Couleur HS 0,4639 0,3656 Gabor HGPP 0,0703 0,0068 Gabor complexe 0,3821 0,1508
Idem, le tableau 11 dcrit le nombre de coupes de visages comparer, et le tableau 12 dcrit les distances 2 des 8577coupes de visages compars.
Tableau 11 : Tube 1 A02 A05 A06 A10 Comparaisons des visages de 2 tubes de diffrents acteurs Tube 2 B07 B15 B06 B07 Total Nombre de Nombre de visages de tube 1 visages de tube 2 32 61 29 39 40 66 59 40 Nombre de comparaisons 1280 4026 1711 1560 8577
Tableau 12 : Vecteur Distances
Distances des 8577 coupes de visages de 2 tubes de diffrents acteurs Couleur HS 1,1274 0,2837 Gabor HGPP 0,0731 0,0043 Gabor complexe 0,4452 0,1601
3.5.3
38.
Evaluation des caractristiques
Selon les rsultats de 3.4.2, les distributions des distances sont dcrites dans la Figure
- 33 -
Nbre de comparaisons
Distance de mme tube Distance de 2 tube mmes acteurs
Attribut couleur HS
Distance de 2 tube diffrents acteurs
0,0940 0,0741
0,4639 0,3656
1,1274 0,2837
distance
Attribut texture HGPP
0,0496 0,0116
0,0703 0,0068
0,0731 0,0043
distance
Attribut texture Gabor complexe
distance
0,2037 0,1544 0,3821 0,1508 0,4452 0,1601
Figure 38 : Distributions des distances entre vecteurs
Les informations donnes par les distances sur la couleur sont plus aisment sparables que celles sur la texture. Les algorithmes pour la texture noffrent pas de grandes diffrences dans les rsultats pour la classification des classes. En revanche, le descripteur HGPP produit des vecteurs de plus grande dimension (9 fois plus que la mthode Gabor complexe) ce qui rduit lefficacit de lalgorithme. De fait, nous pourrons lutiliser plutt pour la description de rgions autour de points dintrt (ou les rgions saillantes) au lieu de lutiliser sur limage entire. Dans cet essai de lvaluation, les vecteurs sont normaliss entre 0 et 1 avec une normalisation uniforme. Cette normalisation nest pas performante pour la classification des catgories dobjets. En effet, une normalisation uniforme ne reflte pas la variabilit de la base de donnes que nous traitons. Nous allons plutt raliser une quantification des vecteurs de caractristiques ddie la base. Une telle approche a dj montr toute sa puissance dans limplmentation du systme dindexation dimages (RETIN) du laboratoire ETIS. Enfin, lvaluation des caractristiques sur seulement quelques tubes et quelques acteurs nest pas suffisante. Plus de vecteurs devront tre extraits pour amliorer lapprentissage. Une des principales difficults que nous avons dj rencontre et laquelle nous devrons trouver une solution est labsence de base de donnes de rfrence pour notre problmatique.
3.6
Dans notre travail dextraction, nous avons extrait des caractristiques de la couleur de lespace HS et des caractristiques de la texture base sur les ondelettes de Gabor. Dans notre 2me phrase dtude sur lvaluation des caractristiques couleur et texture, nous avons not quune seule caractristique ne peut pas tre capable de distinguer les visages des
- 34 -
acteurs. Comme montr sur le tableau 13, lintervalle des mesures de similarits entre des vecteurs de deux tubes du mme acteur et entre des vecteurs de deux tubes de deux acteurs diffrents se chevauchent pour les caractristiques couleur et texture (voir les chiffres en gras dans le tableau ci-dessous). Pour avoir un meilleur rsultat, il faut combiner plusieurs caractristiques extraites des images de visages dans une vido.
Tableau 13 : Tube 1 tube, 1 acteur A02 A05 A06 A10 B06 B07 B15 2 tubes, 1 acteurs 2 tubes, 2 acteurs A02A05 A06A10 B06B07 B06B08 A02B07 A05B15 A06B06 A10B07 Nbr visages 32 61 29 39 59 40 66 32/61 29/39 59/40 59/61 32/40 61/66 29/59 39/40 Nbr comparaisons 496 1830 406 741 1711 780 2145 1952 1131 2360 3599 1280 4026 1711 1560 Distances entre vecteurs Dis HS 0.05600.0298 0.10140.0822 0.09130.0421 0.05460.0195 0.16440.0951 0.07660.0417 0.06070.0204 1.11180.0958 0.49460.0375 0.15620.0863 0.30460.1007 0.50330.1106 1.17820.0773 1.22790.0470 1.39800.0640 Dis HGPP 0.05440.0129 0.04770.0094 0.05640.0107 0.04040.0075 0.06020.0110 0.05140.0081 0.04300.0070 0.07520.0032 0.07360.0022 0.06280.0056 0.07140.0059 0.08100.0020 0.07090.0024 0.07440.0028 0.07100.0020 Dis Gabor Complexe 0.16950.0532 0.12920.0663 0.26720.0956 0.10940.0434 0.38810.2126 0.24060.1012 0.13520.0492 0.22060.0404 0.52570.0934 0.34780.1780 0.44710.0841 0.64300.0721 0.31890.0475 0.41750.1195 0.63940.0583
Pour la reprsentation pertinente de la signature dun visage, le descripteur SIFT, qui permet dextraire des caractristiques invariantes lchelle et la rotation dobjet, est appliqu pour dtecter des points dintrt de visages et pour extraire des caractristiques autour de ces points. Cependant, les rgions saillantes (yeux, bouche, nez, etc.) ne sont pas encore prcisment localises. De nouveaux descripteurs des caractristiques des points dintrt, comme PCA-SIFT [Ke 2004] et SURF [Bay 2006], pourraient tre tudi dans la suite du travail. En plus, le suivi des points dintrt pourrait aussi favoriser linterprtation dun tube de visages.
- 35 -
4
4.1
Machines noyaux
SVM
Une machine vecteurs de support ou sparateur vaste marge (en anglais Support Vector Machine ou SVM) est une technique de discrimination. Elle consiste sparer deux (ou plus) ensembles de points par un hyperplan. Selon les cas et la configuration des points, la performance de la machine vecteurs de support peut tre suprieure celle d'un rseau de neurones ou d'un modle de mixture gaussienne. Plusieurs applications sur la dtection de visages et la reconnaissance de visages sont effectues [Osuna1997] [Guo 2001] [Casiraghi 2003] [Sivic 2005] [Arandjelovic 2005]. Un SVM, comme un perceptron, trouve un sparateur linaire entre les points de donnes de deux classes diffrentes. En gnral, il peut y avoir plusieurs sparateurs possibles entre les classes (en supposant le problme linairement sparable) et un perceptron n'a pas de prfrence parmi celles-ci. Dans les SVMs, cependant, nous faisons un choix particulier parmi tous les sparateurs possibles : nous voulons celui avec la marge maximale. Dans les SVMs, cependant, nous faisons un choix particulier parmi tous les sparateurs possibles : nous voulons celui avec la marge maximale. Nous considrons dabord les cas de la sparation linaire dans la section 4.2. Pour les cas de la sparation non-linaire, les mthodes noyau seront introduites en section 4.3.
4.2
Sparation linaire
La tche de discrimination est de trouver un hyperplan qui spare deux (ou plus) ensembles de vecteurs (Figure 39). Pour la dtection et la reconnaissance de visages, ces deux classes peuvent tre visage ou non-visage, actrice Julia Roberts ou non- Julia Roberts .
Hyperplan valide Marge maximale
D(x) > 1
Vecteurs de support
Hyperplan
D(x) < -1
D(x) = +1
optimal
D(x) = -1
D(x) = 0
Figure 39 : Sparateur vaste marge
La fonction linaire de lhyperplan :

w. x + b = 0
(14)
- 36 -
o, x est le vecteur d'exemple. Les deux hyperplans sur les frontires de deux ensembles de vecteurs sont sous forme canonique : w. x + b = 1 (15) La distance dun point lhyperplan est :
d ( x) =
w. x + w0 w
(16)
Lhyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut 2/||w||. Maximiser la marge revient donc minimiser ||w|| sous contraintes:
1 2 min w 2 i y i ( w. x i + w0 ) 1 0
(17)
o, y est ltiquette de classe, 1 et -1 par exemple. L'approche classique pour raliser une telle minimisation en prsence de contraintes est la mthode des multiplicateurs de Lagrange . L'approche basique implique la dfinition d'une nouvelle fonction L qui combine la fonction initiale minimiser et les fonctions contraintes, chacune proportionnelle une nouvelle variable, appele multiplicateur de Lagrange. Dans notre cas, nous avons choisi d'appeler ces multiplicateurs i. Dans notre cas, puisque les contraintes sont positives, les multiplicateurs de Lagrange doivent tre tous positifs aussi.
(18) o, n est le nombre d'exemples. Maintenant, nous pouvons essayer de trouver les valeurs de w, w0, qui minimisent L. On fait alors lhypothse que le minimum global est atteint quand les drives partielles de L par rapport chacune de ses variables sont nulles. Si nous diffrencions L par rapport au vecteur des poids w, nous obtenons une expression simple qui, quand elle est fixe 0, nous donne la valeur w* comme une combinaison linaire des points xi (les exemples), des tiquettes yi et des multiplicateurs de Lagrange i. On peut noter ici que ce rsultat est trs important, pusiquil nous informe que le vecteur de poids final qui dfinit la normale l'hyperplan de sparation SVM peut s'crire comme la somme pondre des points d'apprentissage. Les poids sont prcisment les multiplicateurs de Lagrange. En diffrentiant par rapport w0, on obtient une nouvelle contrainte selon laquelle la somme des multiplicateurs de Lagrange (chacun multipli par ltiquette du point correspondant) est gal 0. Dans la plupart des cas, nous pouvons juste considrer que w0 est nul et tout fait ngliger cette contrainte. En substituant les rsultats obtenus par lannulation des drives partielles de L dans lquation (18), on peut exprimer la minimisation de L dans sa forme duale (principe de Dualit de Wolfe), ainsi nous obtenons la maximisation donne par lexpression suivante en terme des i et des exemples xi d'apprentissage.
- 37 -
(19) On remarquera que dans cette expression les points de donnes (ou exemples) napparaissent que comme produits scalaires avec d'autres points de donnes, ainsi tout ce dont nous avons besoin de connatre sur les donnes est l'ensemble des n2 valeurs scalaires rsultants de ces produits scalaires. Ces n valeurs sont souvent stockes dans une matrice : la matrice de Gram. Une observation importante sur les valeurs optimales des i est que seuls les points de donnes sur l'hyperplan de sparation auront des valeurs non-nulles pour les i. Donc seuls les points avec une distance minimum l'hyperplan de sparation, appels vecteurs de support (Figure 39) , sont essentiels pour dfinir l'quation de lhyperplan sparateur. Avec les valeurs optimales de w0 et des i en main, et la connaissance de la dfinition de w, nous avons maintenant un classifieur que nous pouvons utiliser sur des points inconnus. On rappelle, une fois de plus que l'unique chose dont nous avons besoin sont les produits scalaires du point inconnu avec les points exemples connus. Par la programmation quadratique, la solution de ce problme peut etre trouve :
s h(u ) = sign(i = y x u + b) 1 i i i
(20)
o, ns est le nombre de points de support, u est un point inconnu classifier.
4.3
Les fonctions noyaux
Les mthodes noyaux renforcent les algorithmes de classification par apprentissage, comme les SVMs ( Support Vector Machines ou Sparateurs Vaste Marge ) que nous utiliserons ici, en dplaant les calculs de similarit dans un espace vectoriel o la classification peut tre linaire. Ces fonctions permettent de dfinir des similarits entre des objets plus complexes et mme non vectoriels, tels quhistogrammes ou ensembles d'histogrammes, graphes, etc. En effet, dans le cas o lon veut reprsenter linformation sous une forme complexe, les donnes ne peuvent pas tre spares linairement. Au lieu de chercher un hyperplan dans l'espace des entres, on passe dans un espace de reprsentation intermdiaire (feature space) de grande dimension o les donnes peuvent tre spares linairement par un hyperplan. Le passage dans lespace de reprsentation des caractristiques se fait par le biais dune injection : (21) On doit donc rsoudre maintenant :
(22) avec la solution :

s h(u ) = sign(i = * y ( xi ) (u ) + b) 1 i i
(23)
Le problme et sa solution ne dpendent que des produits scalaires ( xi ) ( x' ) . Plutt

- 38 -
que de choisir la transformation non-linaire appele fonction noyau. k ( x, x ' ) = ( x i ) ( x ' )
, on choisit une fonction (24)
Elle reprsente un produit scalaire dans l'espace de reprsentation intermdiaire. Elle traduit donc la rpartition des exemples dans cet espace. Lorsque k est bien choisie, on n'a pas besoin de calculer la reprsentation des exemples dans cet espace pour calculer cette fonction. Le noyau matrialise une notion de proximit adapte au problme. Voici quelques exemples de fonctions noyaux : Linaire : k ( x , x ' ) = x x '
d d Polynomial : k ( x, x ' ) = ( x x ' ) ou k ( x , x ' ) = ( c + x x ' )
Gaussien : k ( x , x ' ) = e
x x ' / 2
2
Laplacien : k ( x , x ' ) = e
x x' /
Le noyau gaussien peut tre tendu comme k ( x , x ' ) = e distance, par exemple distance 2 .
d ( x x ') 2 / 2
, o d(x-x) est une
Le noyau peut tre compos de plusieurs noyaux pour obtenir un noyau plus robuste. par exemple :
k ( x, x ' ) = i k i ( x, x ' )
(25)
4.4
Mthodes noyaux pour discriminer les tubes spatio-temporels
Dans le chapitre 3, nous avons des vecteurs (le plus souvent sous forme dhistogrammes) de caractristiques extraits des tubes spatio-temporels. Une premire reprsentation des donnes du tube c'est--dire une premire signature est donne par le sac compos de tous les attributs extraits du tube. Notre but est de trouver des mesures de similaritafin de comparer ces signatures structures. Jusqu prsent, dans le domaine de la reconnaissance de visages, un grand nombre de travaux se sont intresss rcemment au calcul de vecteurs partir des sacs avant leur comparaison, ou au calcul de vecteurs partir de la probabilit de la distribution de vecteurs dans les sacs [Sivic 2005]. Les mthodes actuelles sont bases sur la simplification de la reprsentation un unique vecteur (par moyennage ou post-traitement) pour une caractriser un objet vido. Si de telles approches peuvent simplifier le problme, elles rduisent galement considrablement linformation visuelle acquise. Au lieu de calculer un vecteur signature, nous nous concentrons sur l'ensemble des caratcteristiques dun tube spatio-temporel.
4.5
Parmi les caractristiques que nous avons extraites, certaines sont sensibles la variation dillumination, dautres sont sensibles la pose. Par exemple, les vecteurs de la couleur HS sont sensibles la luminance non cent pour cent blanche, mais insensibles la
- 39 -
pose, les vecteurs de texture sont sensibles la pose, mais insensibles la luminance. Nous pouvons envisager de chercher des fonctions noyaux qui sont sensibles certaines conditions et dautres fonctions noyaux qui sont sensibles aux autres conditions. Une combinaison de ces fonctions noyaux pourra nous permettre dobtenir un rsultat plus idel. De plus, nous ne nous rduirons pas une reprsentation un unique vecteur signature, nous nous considrerons l'ensemble des caratcteristiques visuelles extraites dun tube spatio-temporel. Nos fonctions noyaux doivent donc dfinir des mesures de similarit entre ensembles de vecteurs, partir des tubes spatio-temporels. Ces questions reprsentent la phase 3 de mon stage et vont tre abordes dans le mois qui vient.
- 40 -
Conclusion gnrale
Nous avons effectu une premire partie de travail de ce stage, la dtection de visages et lextraction de caractristiques visuelles. Nous avons commenc tudier les distances de similarit entre les caractristiques que nous avons utilises. Nous allons, dans la suite du stage, poursuivre lanalyse de nouvelles caractristiques, comme les points dintrt SIFT, tout en tudiant des fonctions noyaux pertinentes pour notre problme par limplmentation de la classification de nos donnes avec un classifieur SVM. Dans notre travail de dtection, nous avons utilis une mthode base sur lalgorithme AdaBoost avec trois cascades de classifieurs (visage de face, de profil gauche et de profil droit) pour dtecter les visages dacteurs dans les squences vido. Cet algorithme est rapide et robuste pour dtecter les visages de diffrentes expressions et diffrentes luminosits. La combinaison de trois cascades nous permet dobtenir un taux de bonnes dtections plus important. Une amlioration peut tre apporte en enrichissant la base d'images de diffrentes positions et rotations pour entraner plusieurs cascades de diffrentes poses. Dans notre travail dextraction, nous avons extrait des caractristiques de la couleur de lespace HS et des caractristiques de la texture base sur les ondelettes de Gabor. Une valuation sur ces caractristiques nous montre quune seule caractristique ne peut pas tre capable de distinguer les visages des acteurs. La solution est de combiner plusieurs caractristiques. Pour la reprsentation pertinente de la signature dun visage, le descripteur SIFT, qui permet dextraire des caractristiques invariantes lchelle et la rotation dobjet, est appliqu pour dtecter des points dintrt de visages et pour extraire des caractristiques autour de ces points. Cependant, les rgions saillantes (yeux, bouche, nez, etc.) ne sont pas encore prcisment localises. Un suivi sur les points dintrt pourrait aussi favoriser linterprtation dun tube de visages. Les fonctions noyaux seront tudies pour la mesure de la similarit entre ensembles de vecteurs caratcteristiques partir des tubes spatio-temporels. Nous pouvons envisager de chercher des fonctions noyaux qui sont sensibles certaines conditions et dautres fonctions noyaux qui sont sensibles dautres conditions. Une combinaison de ces fonctions noyaux pourra nous permettre dobtenir un rsultat plus robuste et plus pertinent.
- 41 -
Bibliographie
[Arandjelovic 2005] O. Arandjelovic, A. Zisserman, Automatic Face Recognition for Film Character Retrieval in Feature-Length Films, Proc. of IEEE CIVR (2005) 860- 867. [Bay 2006] H. Bay, T. Tuytelaars, and L. Van Gool, "SURF: Speeded Up Robust Features", European Conference on Computer Vision, Lecture notes in computer science, vol. 3951, pp. 404-417, 2006. [Casiraghi 2003] Elena Casiraghi, Raffaella Lanzarotti, Giuseppe Lipori, A face detection system based on color and support vector machines, Springer Berlin / Heidelberg, Volume 2859, 2003 pages 113-120 [Chen 2004] Chen, J. Shan, S. Yang, P. Yan, S. Chen, X. Gao, W., Novel Face Detection Method Based on Gabor Features, Springer Berlin / Heidelberg, 2004, ISSU 3338, pages 90-99 [Cmara Chvez 2006] Cmara Chvez, G., Cord, M., Philipp-Foliguet, S., Precioso, F., de A. Arajo, Arnaldo (2006). Robust Scene Cut Detection by Supervised Learning. Submitted to EUSIPCO 2006. [Dmitry 2005] Dmitry O. Gorodnichy Video-based framework for face recognition in video. Second Workshop on Face Processing in Video (FPiV'05) in Proceedings of Second Canadian Conference on Computer and Robot Vision (CRV'05), pp. 330-338, Victoria, BC, Canada, 9-11 May, 2005. ISBN 0-7695-2319-6. NRC 48216.] [Daugman 1993] G. Daugman, High confidence visual recognition of persons by a test of statistical independence, IEEE Trans. Pattern Anal. Mach. Intell., vol. 15, no. 11, pp. 11481161, Nov. 1993. [Dalal 2005] N. Dalal, B. Triggs, Histograms of Oriented Gradients for Human Detection, Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR) 2005, Vol. 1, pp. 886-893. [Freund 1996] Y. Freund, R.E. Schapire, Experiments with a New Boosting Algorithm, In Proc. 13th Int. Conf. on Machine Learning, pp. 148.-156, 1996. [Freund 1995] Y. Freund, Boosting a weak learning algorithm by majority, Information and Computation, 121(2):256285, 1995. [Fournier 2001] Fournier, J., Cord, M. & Philipp-Foliguet, S. (2001). RETIN: A content-based image indexing and retrieval system, Pattern Analysis and Applications Journal (PAA), vol.4 (2/3), pp.153-173, 2001 [Gurin-Dugu & Palagi 1996] A. Gurin-Dugu, P. M. Palagi, Implantations de filtres de Gabor par pyramide d'images passe-bas, Traitement du Signal 1996 - Volume 13 - n 1 [Grtner 2003] Grtner, T. (2003). A survey of kernels for structured data. In SIGKDD Explorations, volume 5, 2003. [Guo 2001] G. Guo, S. Z. Li, and C. Kapluk. Face recognition by support vector machines.
- 42 -
Image and Vision Computing, 19(910):631--638, 2001. [Hsu 2001] R.L. Hsu, M. Abdel-Mottaleb, and A. K. Jain, Face detection in color images, In Proceedings of the IEEE International Conference on Image Processing, pages 10461049, 2001. [Kashima 2003] Kashima, H., Tsuda, K. and Inokuchi, A. (2004). Marginalized kernels between labeled graphs. In 20th International Conference on Machine Learning, pages 321328. AAAI Press, 2003. [Ke 2004] Y. Ke and R. Sukthankar. Pca-sift: A more distinctive representation for local image descriptors. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2004. [Kondor 2003] R. Kondor and T. Jebara. A kernel between sets of vectors. In International Conference on Machine Learning (ICML), 2003 [Lienhart & Maydt 2002] R. Lienhart, J. Maydt, An Extended Set of Haar-like Features for Rapid Object Detection, IEEE ICIP 2002, Vol. 1, pp. 900-903, Sep. 2002. [Lienhart et al. 2002] R. Lienhart, A. Kuranov, V. Pisarevsky, Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection, MRL Technical Report, May 2002. [Liu 2002] C. Liu, H. Wechsler, Gabor Feature Based Classification Using the Enhanced Fisher Linear Discriminant Model for Face Recognition, IEEE Trans. Image Processing, vol. 11, no. 4, pp. 467-476, 2002. [Lowe 1999] Lowe, D.G. 1999. Object recognition from local scale-invariant features. In International Conference on Computer Vision, Corfu, Greece, pp. 1150-1157. [Lowe 2004] D. Lowe. Distinctive Image Features from Scale-Invariant Keypoints. Accepted for publication in the International Journal of Computer Vision, 2004. [Morizet 2006] Nicolas Morizet, Thomas Ea, Florence Rossant, Frdric Amiel et Amara Amara, Revue des algorithmes PCA, LDA et EBGM utiliss en reconnaissance 2D du visage pour la biomtrie, Tutoriel Reconnaissance d'images, MajecStic 2006 (MAnifestation des Jeunes Chercheurs STIC) . [Osuna1997] E. Osuna, R. Freund, and F. Girosi. Training support vector machines: an application to face detection. In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 130--136, 1997. [Precioso 2005] Precioso, F., Barlaud., M., Blu, T., Unser, M. (2005). Robust Real-Time Segmentation of Images and Videos Using a Smoothing-Spline Snake Based Algorithm. IEEE Trans on Image Processing, Vol 14 N7 July 2005 [Philipp-Foliguet 2006] S. Philipp-Foliguet and J. Gony, FReBIR : Fuzzy Region-Based Image Retrieval, IPMU, Paris, juillet 2006 [Precioso 2004] Precioso F., Contours actifs paramtriques pour la segmentation dimages et vidos, Thse Frdric Precioso 2004
- 43 -
[Rakotomamonjy 2005] Rakotomamonjy, A., Canu, S. (2005), Frames, Reproducing Kernels, Learning and Regularization, Journal of Machine Learning Research, Vol 6, pp 1485-1515. [Shan 2004] S. Shan, Study on some Key Issues in Face Recognition, PhD thesis, 2004. [Saxe 1996] D. Saxe and R. Foulds, Toward Robust Skin Identification in Video Images, Proc. Second International Conference, Automatic Face and Gesture Recognition, pp. 379-384, 1996. [Shawe-Taylor 2004] Shawe-Taylor, J. Cristianini N. (2004), Kernel Methods for Pattern Analysis, Cambrigde University Press [Suard 2005] Suard, F. Rakotomamonjy A. Bensrhair, (2005) A. Pedestrian Detection using stereovision and graph kernels. IEEE Intelligent Vehicles Symposium [Sivic 2005] J. Sivic, M. Everingham, and A. Zisserman, Person spotting: video shot retrieval for face sets. Proc. of IEEE CIVR (2005) 226-236. [Turk 1991] M. Turk and A. Pentland, Eigenfaces for Recognition, J. Cognitive Neuroscience, vol. 3, no. 1, pp. 71-86, 1991. [Viola 2001] P. Viola, M. Jones, Rapid Object Detection using a Boosted Cascade of Simple Features, Conference On Computer Vision And Pattern Recognition 2001. [Viola 2003] P. Viola, M. Jones, Fast Multi-view Face Detection, IEEE Conference on Computer Vision and Pattern Recognition, 2003. [Viola 2004] P. Viola, M. Jones, Robust Real-Time Face Detection, International Journal of Computer Vision 57(2), 137154, 2004. [Viola 2005] P. Viola, M. Jones, D. Snow, Detecting Pedestrians Using Patterns of Motion and Appearance, International Journal of Computer Vision 63(2), 153161, 2005 [Wiskott, 1997] Wiskott L., Fellous J.M., Krger N., Von Der Malsburg C., Face Recognition by Elastic Bunch Graph Matching, IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(7) :775-779, 1997. [Yang 2002] Yang M H, Kriegman D, Ahuja N. Detecting faces in images: A survey. IEEE Trans Pattern Analysis and Machine Intelligence, 2002, 24(1):34-58. [Zhang 2005] W. Zhang, S. Shan, W. Gao, X. Chen, and H. Zhang, Local Gabor binary pattern histogram sequence (LGBPHS): A novel non-statistical model for face representation and recognition, in Proc. 10th IEEE Int. Conf. Computer Vision, 2005, pp. 786791. [Zhang 2007] B. Zhang, S. Shan, X. Chen, W. Gao, Histogram of Gabor Phase Patterns (HGPP): A Novel Object Representation Approach for Face Recognition, IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 16, NO. 1, JANUARY 2007. [Zhu 2006] Zhu Q., Avidan S., Yeh M-C, Cheng K-W, Fast Human Detection Using a Cascade of Histograms of Oriented Gradients, IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR) 2006, Volume 2, pp. 1491-1498.
- 44 -
Annexe 1:
Organigramme de lalgorithme AdaBoost
begin
Choisir un classifieur faible
Donner des exemples (x1, y1), . . . , (xn , yn ) P: yi = 1; N: yi = 0
Normaliser les poids wi
Initialiser poids des exemples P: w1,i = 1/2m ; N: w1,i = 1/2l
valuer lerreur de chaque classifieur
For t=1,2,,T Choisir le classifieur ht qui possdes lerreur minimale
Obtenir un classifieur fort
Next T Mis jour les poids correct: Classifieur fort
incorrect: o
end
- 45 -
Annexe 2:
Organigramme de lalgorithme dapprentissage par une cascade dAdaBoost
begin
Dfinir max f /tapes, min d /tapes, global Ftarget

Donner des exemples (x1, y1), . . . , (xn , yn ) P: yi = 1; N: yi = 0
Obtenir un classifieur fort de ie tape
Fi > f * Fi-1 ?
obtenir une cascade de classifieurs forts
Initialiser taux globaux F0 = 1 ; D0 = 1
classifieur faible
AdaBoost pour choisir le classifieur
Fi > Ftarget ? Mis jour le seuil pour que Di > d * Di-1 Diminuer lensemble dexemples ngatifs prochain classifieur prochaine tape
end
- 46 -

Apprentissage Et Recherche Par Le Contenu Visuel

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apprentissage Et Recherche Par Le Contenu Visuel

Transféré par

Droits d'auteur :

Formats disponibles

Apprentissage et Recherche par le Contenu Visuel de Catgories Smantiques d'Objets Vido

Encadr par: Frdric PRECIOSO

Partitionnement de la vido en plan-squence

Dtection, segmentation, suivi dobjet et extraction d'attributs

Machines noyaux pour lapprentissage et la recherche par le contenu

Trois tapes de la recherche de catgories dobjets vido

Etat dart Challenges

Vecteur tube spatio-temporel

Segmentation et suivi des visages Dtection des visages

Classification des acteurs

Reconnaissance des acteurs

Schma gnral de stage

Un des rsultats de Viola & Jones 2001

Rsultats de Viola & Jones 2003

Un des rsultats de Viola, Jones & Snow 2005

AdaBoost Descripteurs de Haar

Figure 7 : Descripteurs de Haar dans une fentre : 2-,3-,4-rectangles dtecteurs.

Un exemple est donn sur la Figure 8.

Dfinition dun descripteur de Haar dans une fentre

Exemples des descripteurs de Haar dans une fentre 24x24

Figure 10 : Image Intgrale

Figure 11 : Calcul de la somme du rectangle D avec l'image intgrale

Classifieur faible et classifieur fort

d'intensit entre les yeux et la zone au dessus du nez.

Figure 12 : Deux descripteurs de Haar les plus discriminants

Figure 13 : Cascade de classifieurs forts

Figure 14 : Exemple dune cascade pour la dtectant un visage

Figure 15 : Dtection de visages par AdaBoost

Figure 16 : Squences vido de 160x120 de la base IIT-NRC

Figure 17 : Dtection des yeux par AdaBoost

Extraction de caractristiques de la couleur Espace de couleur HSV

Figure 18 : Espace de couleur HSV

if V!=0, 0 otherwise V=R V=G V=B

Extraction de caractristiques de la texture

Figure 20 : Filtre de Gabor (a) rel (b) imaginaire

Figure 21 : Filtre de Gabor (a) rel (b) module

Figure 22 : Transformation de Gabor (a) module (b) phase

Histogramme de Gabor Phase Patterns (HGPP)

Figure 23 : Quadrant-bit codage de Gabor phase

Figure 24 : Patterns GGPP (a) rel (b) imaginaire

Figure 25 : Codage de LGPP

Figure 26 : Patterns LGPP (a) rel (b) imaginaire

Figure 27 : (a) 8x8 sous-rgions de GGPP (b) schma gnral de HGPP

Histogramme de Gabor complexe

Figure 28 : Descripteurs de Gabor (a) rel (b) imaginaire

Extraction de caractristiques des points dintrt par SIFT

Figure 29 : Images Gaussiennes groupes par octaves

Figure 30 : Diffrences de gaussiennes

Figure 31 : Recherche des extrema

Figure 32 : Vecteur de descripteur des points dintrt

En effet, le voisinage du point dintrt dont la taille dpend de lchelle subit un

Figure 34 : Dtection des points dintrt par SIFT en diffrentes images

image (a) (b) (c) (d)

PI(x) 54.52 26.98 76.72

PI(y) 73.08 36.26 26.95

128 composants des descripteurs SIFT

Similarit sur les caractristiques couleur et texture

10240 vecteurs de Gabor complexe

La distance 2 est calcule par lquation suivante:

Distances des vecteurs de couleur et de texture

(a) Distances des visages de mme tube

Figure 36 : Les couples des visages de mme tube comparer

(b) Distances des visages de 2 tubes

Figure 37 : Les couples des visages de 2 tubes comparer