Vous êtes sur la page 1sur 30

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE LENSEIGNEMENT SUPERIEURE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABDELHAMID IBN BADIS MOSTAGANEM Facult

de Maths et Informatique Dpartement MI

Module :

Indexation Multi mdia

Prsent par : Henni Karim Abdelkader

Plan du cours
Introduction
Les

utilisateurs et leurs besoins Indexation Image numrique. Structures de donnes planes dimages. 1. Matrices.

2. 3.

1. 2. 1.

2.

Chanes. Cartes gnralises. Structures de donnes hirarchiques Arbre quaternaire (quad tree). Arbre R (R tree). Approches dindexation Approche globale. Approche spatiale

1. introduction

volution de la technologie des ordinateurs et des rseaux = production dimportants volumes dinformations naissance du multimdia Un document multi mdia est un document numrique qui permet de combiner de diffrents types de donnes (texte, image, audio, vido) lintrieur dun mme document. Passage de bases de donnes textuelles (celles qui stockent des textes) aux base de donnes multimdia (celles qui stockent des donnes multimdia dfinies en haut). La base de donnes qui contient uniquement des images est appele base de donnes dimages ou base dimages. La base de donnes qui contient uniquement des vidos est appele base de donnes vido ou base de vidos.

Les utilisateurs et leurs besoins : Les contextes applicatifs :


Grand

public PC familial multimdia Appareil photo numrique Magntoscope numrique Stockage de linformation Plus prenne que les bandes magntiques Accs linformation plus facile Exemple INA : 240 000 h de vidos numrises en 2006, 800 000 h en 2015. volution des rseaux de communication Internet. Tlvision numrique.
5

Besoins des utilisateurs


Dtecter et reconnatre des composantes dimages (visages, vhicules, ) Avoir un aperu du contenu de la base dimages Le secteur de la tlvision qui sintresse acclrer la recherche dans les archives de tlvision. Les tlspectateurs ont besoin davoir une ide gnrale sur la vido sans avoir la visualiser entirement (cest dire avoir un rsum de la vido). Dans le domaine de la tlsurveillance les utilisateurs ont besoin de dtecter et de faire le suivi des objets dans des squences vido filmes. Le grand public dsire retrouver un plan spcifique contenant une image X dun film ou dun journal tlvis.

Indexation et recherche dimages par le contenu


Pour rechercher une image dans une base de plusieurs milliers dimages cela prendra beaucoup de temps Pour acclrer le processus le concept dindexation est alors employ. Quest ce quun index ? En bases de donnes : lindex dune base est une structure de donnes (multidimensionnelle) permettant de structurer la base pour un accs efficace aux donnes. Indexation textuelle : donner une description textuelle de limage (google pour son moteur de recherche dimages ou de vidos se base sur ce type dindexation). Limitations : temps et le jugement de la description textuelle et limitations lies la langue. Prsenter le contenu dune image avec cette mthode demande beaucoup de temps. une intervention humaine pour dcrire de tels ensembles semble donc impossible. 7

La recherche dimages tente aujourdhui dextraire les informations directement des images et dune manire automatique

Ce type de travaux est couvert par le terme indexation dimages base sur le contenu (ou CBIR pour Content Based Image Retrieval)

Structures de donnes
Des structures de donnes utilises en indexation dimages existent :

Structures de donnes planes dimages Matrices Chanes Structures de donnes topologiques Graphes Cartes gnralises Structures de donnes hirarchiques Arbre quaternaire (quadtree) Arbre quaternaire gnrique (AQG) Arbre R Arbre R gnrique

Matrice
Limage numrique est limage dont la surface est divis en lments de tailles fixes appels pixels, ayant chacun comme caractristiques un niveau de gri ou de couleurs. La numrisation dune image est la conversion de celle-ci de son tat analogique (distribution continue dintensits lumineuses dans un plan xoy) en une image numrique reprsente par une matrice bidimensionnelle de valeurs numriques f(x,y) o : X, y : coordonnes cartsiennes dun point de limage. F(x, y) : niveau de gri ou couleur en ce point. Un pixel peut avoir deux tats (1 bit), c'est--dire tre reprsent en noir ou en blanc ; ce type dimage est appel images binaires. Dans les applications graphiques, un pixel peut avoir plus de 16 millions de nuances de couleur (24 bits _ 8 bits pour chacune des trois couleurs primaires : RVB) avec une rsolution suprieure 10000 pixels.

10

Exemple :

Nous avons un rectangle de 6 x 5 pixels qui sont dfinis chacun par 3 couleurs. Nous avons "balay" ce carr ligne par ligne. Cela nous a donn la matrice de pixels suivante:

11

Approches dindexation

Approches globales

Cette approche considre limage dans son ensemble et la caractrise en utilisant des statistiques calcules sur limage entire (description globale). Dans le cadre dune recherche par lexemple, la dmarche est gnralement la suivante (voir figure 3). Phase prliminaire : calculer les descripteurs de chaque image de la base de donnes ; Phase en ligne : calculer les descripteurs de limage requte ; Phase de recherche : rechercher les images proches (images similaires) de limage requte dans lespace du (des) descripteur(s) utilis(s), cette recherche se base sur le calcul de distances (mtriques) de similarit entre les signatures dimages.

12

13

Aspect couleur
La couleur est srement le critre le plus important psychovisuellement parlant dans la vision dune image. Le premier regard port sur une image permet dapprhender trs rapidement sa couleur dominante et ses diffrentes teintes.
Lhistogramme

des couleurs permet davoir une information globale mais grossire sur la prsence des couleurs dans les images ; une image en couleur est une matrice dont chaque lment est un triplet (r, g, b) de valeurs entre 0 et 255, un triplet qui code les quantits de rouge, de vert et de bleu en chaque point.

14

Un

histogramme est une fonction de [0,255] dans N qui fait correspondre tout triplet (r, g, b) le nombre de pixels ayant ce triplet pour valeur. Dautre part, lhistogramme prsente linconvnient de perdre toute information spatiale sur les couleurs et ne rendre compte que de leurs distributions globales dans limage. La figure 4 prsente deux images de contenus visuels trs diffrents alors que leurs histogrammes sont trs similaires.
15

Histogramme couleur

Avantage : Robustes certaines transformations gomtriques de limage Limitations : Contenu visuel diffrent mais histogrammes similaires

16

Aspect forme
terme de forme, galement appel contours (ou shape), est plus souvent utilis pour caractriser les objets contenus dans une image plutt que limage elle mme. Il sagit dune caractristique significative dans de nombreuses applications, comme limagerie mdicale. La forme dun objet dans une image est dcrite par plusieurs caractristiques telles que la rgion, le primtre, ou les axes dorientation.
Le
Comme

signature numrique pour cet aspect, on peut citer : Descripteurs de Fourier Moments de Zernike Reprsentation CSS (Curative Scale Space)
17

Aspect texture
La texture, la diffrence de la couleur, nest pas un attribut de pixel mais une caractristique de rgion dimage. La segmentation permet de trouver les rgions dune image dont la texture est homogne. Comme signature numrique pour cet aspect, on peut citer : Fractales Transformes de Fourier. Transformes en Ondelettes. Morphologie Mathmatique. Filtre de Gabor. Remarque : Lensemble des caractristiques lies ces trois aspects est appel caractristiques visuelles.

18

Limitation des approches globales : Les approches globales mais ne permettent pas deffectuer des recherches fines au sein des images, notamment de rechercher des objets. Ainsi, pour pallier cette limitation, des techniques dites spatiales ont t mises en place depuis le dbut des annes 1990. Approche spatiale Dans ce type dapproches, limage est considre comme un ensemble dobjets et non plus comme une entit unique. Une fois limage segmente en plusieurs rgions, ces dernires peuvent tre caractrises de la mme manire que les images des approches globales. De cette faon, des dtails plus fins peuvent tre retrouvs au sein des images car les statistiques sont localises.

19

Ensuite dans le cadre dune recherche par lexemple, la dmarche est gnralement la suivante (voir figure 5). Phase prliminaire : segmentation des images de la base de donnes et calcul des descripteurs pour chaque rgion pour obtenir les reprsentations des images ; Phase en ligne : segmentation de limage requte et calcul des descripteurs des rgions pour obtenir la reprsentation de limage. Les rgions utiliser pour la recherche peuvent aussi tre slectionnes ; Phase de recherche : rechercher les images proches de limage requte en comparant les descriptions.

20

21

Indexation de vidos
Indexer des vidos consiste reprendre aux mieux les caractristiques essentielles de ces vidos dans un volume minimal afin de rechercher lexacte rplique de la vido requte ou un ensemble de squences similaires la requte.

La recherche de vidos base sur le contenu peut tre classe en trois catgories :

Recherche base sur les attributs visuels Recherche base sur les mots cls ou texte libre Recherche base sur les objets dintrts et leurs relations
22

Dans le cadre de lindexation de vidos par le contenu, la dmarche est la suivante :


Dcoupage

en images Segmentation en plans Slection de limage clef

23

Partie dindexation de vido :

1.

2. 3. 4.

Dcoupage en images : il sagit dans cette tape de dcouper une vido en une srie dimages individuelles, ces images nous permettront de dfinir par la suite des plans dimages. Application dun descripteur visuel des images (dfini prcdemment). Calculer une mesure de similarit correspondante au descripteur appliqu dans ltape prcdente. Segmentation temporelle : plusieurs techniques ont t proposes pour segmenter une vido en plusieurs units de base appeles "plans, nous pouvons citer: Diffrence pixel pixel Diffrence dhistogrammes Diffrence de mouvement Diffrence de blocs
24

Slection de limage clef: nous devons extraire dans cette tape les caractristiques visuelles de chaque plan, ces caractristiques sont dfinies dans une ou plusieurs images appeles "images clefs. Limage clef de notre approche est la premire image de chaque plan car ce dernier contient les images similaires cette image. Les images clefs sont les images les plus riches en informations par rapport aux autres images, lensemble de ces images forme ce que lon appelle "rsum vido".
5.

25

Recherche dans les base de vidos


Les bases de vidos ne sont aujourdhui qu leur dbut, nous pouvons par consquent imaginer quelques dfinissions de recherche dans les vidos selon les domaines dapplication :

La recherche de lexacte rplique de la vido introduite par lutilisateur dans la base de vidos. Rechercher des vidos proches de la vido requte. Dtection des objets particuliers (visages, vhicules, btimentsetc.) dans les bases de vido. Rechercher dans la base une vido contenant lexacte rplique dune image requte ou bien un ensemble dimages similaires limage requte.

26

Schma de fonctionnement de notre systme dindexation de vidos par le contenu


27

5. Exemple dapplication :

1re tape : dcoupage en images

Images individuelles de notre vido requte


28


Plan 0 Plan 1 Plan 2 Plan 3 Plan 4 Plan 5 Plan 6 Plan 7 Plan 8 Plan 9 Plan 10

Segmentation en plans

Les diffrents plans de notre vido requte


29

Slection

de limage clef

Rsum vido de notre vido requte


30