Académique Documents
Professionnel Documents
Culture Documents
MPEG7
MEZIANE wiame/ BATTOU youssef
22/12/2009
1 Introduction : ...................................................................................................... 3
2 Le standard MPEG7 ........................................................................................... 4
2.1 Objectifs.......................................................................................................... 4
2.2 Description du standard MPEG7 ............................................................ 5
3 Fonctionnalités majeurs de MPEG7 ............................................................. 6
4 Description technique détaillée de la technologie MPEG7 .................. 7
4.1 Hiérarchie ...................................................................................................... 8
4.2 Description du contenu, aspect structurel ......................................... 8
5 Application : l’outil IDXVIDEO .................................................................... 14
5.1 Présentation de l’outil ............................................................................ 14
6 Utilisation de l’outil........................................................................................ 17
6.1 Indexation .................................................................................................. 17
6.2 La recherche .............................................................................................. 19
7 Conclusion ......................................................................................................... 20
1 Introduction :
Aujourd’hui les méthodologies d’indexation par le contenu visent à proposer des solutions
alternatives pour l’indexation des documents multimédias. Le principe consiste à associer aux
contenus des métadonnées non plus textuelles, mais liées intrinsèquement au contenu
audiovisuel lui même.
Cela est possible puisque les représentations mathématiques permettent la description de
manière automatique (ou semi-automatique) et discriminante du flux audiovisuel. Ce sont des
caractéristiques perceptuelles associées classiquement aux attributs visuels comme la forme, la
couleur, la texture ou encore le mouvement, qui rendent cette indexation possible. Le principe
de la recherche de contenus dans une base de données change alors de façon fondamentale.
L’utilisateur présente à l’entrée de son moteur de recherche non plus des mots-clés mais un
exemple (e.g. une image/vidéo ou une partie d’une image/vidéo), ou une ébauche (e.g. un dessin
réalisé à la main). Les mesures de similarités associées aux descripteurs images permettent
alors de réaliser des requêtes automatiques et de retrouver des images similaires.
Le domaine de l’indexation d’images par le contenu n’a cessé de connaître une effervescence
spectaculaire depuis le milieu des années 1990, comme en témoignent l’impressionnant volume
de méthodes et techniques proposées dans la vaste littérature scientifique consacrée à ce sujet.
Dans ce cadre, une étape marquante a été la sortie officielle au début des années 2000 de la
norme ISO MPEG-7. Officiellement appelée Multimedia Content Description Interface, la norme
MPEG-7 propose un large éventail de technologies de description de documents multimédias,
intégrant des approches aussi bien textuelles que par le contenu.
En particulier, la spécification ISO MPEG-7 propose aujourd’hui un riche ensemble de
descripteurs visuels et de schémas de description, exprimés dans un langage de description de
données fondé sur une approche XML schéma.
2 Le standard MPEG7
2.1 Objectifs
MPEG a commencé à mettre au point un nouvel outil de travail pour répondre au problème
décrit précédemment. Ce nouveau membre de la famille MPEG, appelé "Multimédia Content
Description Interface "MPEG-7" étendra les capacités de recherche limitées d'aujourd'hui pour
inclure d'autres types d'informations. En d'autres termes, MPEG-7 va spécifier une description
standard de différents types d'informations multimédia. Cette description devra être associée au
contenu lui-même pour permettre la recherche rapide et efficace des informations qui
intéressent l'utilisateur.
Ces "matériaux" incluent; images, graphiques, audio, vidéo et de l'information sur comment ces
éléments sont combinés dans une présentation multimédia (scénario). La description peut être
attachée à n'importe quel matériau multimédia, quel que soit le format de la représentation.
Même si la description de MPEG-7 ne dépend pas de la représentation du matériau, le standard
s'appuie en un certain sens sur le standard MPEG-4 qui fourni quand à lui les moyens de coder
des matériaux audiovisuel.
Contrairement aux précédentes versions du MPEG, MPEG-7 n'est pas un format de compression.
Ou en tout cas, pas seulement. Destiné au multimédia au sens large du terme, il vise à encoder
toute forme de données audiovisuelles, du texte à la vidéo, du modèle 3D aux présentations
interactives. Mais surtout, le standard propose de compléter les données par leur description.
MPEG-7 c'est, en résumé, "des bits à propos des bits". Autrement dit, un ensemble de données
supplémentaires décrivant le contenu, son auteur, sa structure, ou même les éléments
sémantiques qu'il représente. Le principe est à la fois ambitieux et novateur et on imagine bien
la puissance d'un tel standard, notamment en matière de recherche sur le Web. C'est d'ailleurs
ce qui semble motiver ses concepteurs: "La principale ambition de MPEG-7 est de rendre les
informations multimédias aussi faciles à trouver sur le Web que le texte l'est aujourd'hui." Par
exemple, on pourrait imaginer un moteur qui parcourt le Web à la recherche d'une phrase
musicale précise: tapez quelques notes de musique au clavier, et vous obtiendrez tous les
morceaux comportant les mêmes notes. Même chose avec les images, il sera possible d'identifier
les fichiers comprenant un objet d'une couleur donnée, même s'il ne s'agit que d'une partie de
l'image. Du reste, l'intérêt n'est pas négligeable en matière d'intégrité des données, et donc de
respect des droits d'auteur. Mais, bien qu'intellectuellement plaisant, MPEG-7 soulève quelques
interrogations.
D'abord, le poids final des fichiers encodés avec ce format, dont on peut supposer qu'il sera, par
essence, plus important que celui de la description des données en elle-même. Ensuite la base
existante, si l'on considère les milliards d'informations numériques(fichiers image, audio et
vidéo) déjà encodées à d'autres formats, on peut s'inquiéter de la vitesse à laquelle se répandrait
un nouveau standard.
C’est dans ce contexte que le Moving Picture Experts Group (MPEG) a développé MPEG-7,
devenu standard ISO/IEC 15398 à l’automne 2001. Cette norme, formellement appelée
Multimedia Content Description Interface, a été élaborée collectivement par des centres de
recherche universitaires et des joueurs majeurs de l’industrie, dont IBM, Sony et Siemens. À la
différence de ses frères MPEG-1, MPEG-2 et MPEG-4, qui standardisent l’encodage même des
documents audiovisuels, MPEG-7 régit la description de ceux-ci et non pas l'encodage. La
navigation, la recherche et le filtrage peuvent donc s’opérer sur ces descriptions plutôt que sur
les fichiers sources, ce qui évite de devoir décompresser ces derniers et de les traiter à chaque
requête.
Une description MPEG-7 est un fichier de métadonnées détaillant différents aspects du contenu
et de la gestion d’un document audiovisuel. Par exemple, en ce qui concerne le contenu, on
pourra retrouver, dans le fichier de description, des informations sur les caractéristiques de bas
niveau (couleurs, textures, mouvement, contenu fréquentiel, mélodie, etc.) ou des concepts
sémantiques de plus haut niveau (objets, événements, interactions entre les objets, lieux de
l’action, etc.).
Les outils MPEG-7 permettent de décomposer un document audiovisuel en différents segments
spatiaux, temporels ou spatiotemporels, offrant ainsi plusieurs niveaux de description. On
pourra, par exemple, diviser un extrait vidéo en séquences et associer une description à chacune
d’elles, ou encore décrire différentes parties d’une seule image.
Les relations entre les divers segments peuvent également être exprimées. L’information
relative à la gestion des contenus multimédias est aussi assurée par un vaste ensemble d’outils.
Outre les renseignements pertinents aux applications d’archivage, tels que les détails de création
du document audiovisuel (titre, réalisateur, date de création, etc.), ses paramètres d’utilisation
(heures de diffusion, prix, droits d’auteur, etc.). Et son format d’encodage, MPEG-7 permet des
descriptions plus spécialisées. Par exemple, un contenu peut être décrit en différents niveaux
hiérarchiques ou séquentiels, afin de créer des résumés audiovisuels plus ou moins détaillés.
Grâce à ce type de représentation, un usager pourrait demander à un système de ne lui
présenter que les hauts faits d’un match sportif, comme les buts marqués. Il est aussi possible
de décrire diverses variations d’un document audiovisuel ou encore d’élaborer des modèles
statistiques de l’information. De surcroît, pour permettre d’adapter la diffusion aux habitudes de
chaque usager, les préférences de celui-ci et l’historique d’utilisation du contenu peuvent être
consignés dans la description.
Cependant, malgré sa grande richesse, MPEG-7 ne standardise que le format de description de
toutes ces informations. Il ne spécifie pas comment obtenir ces caractéristiques
automatiquement à partir des documents multimédias, ni comment utiliser les descriptions
produites. Ceci laisse pleine latitude à l’industrie pour développer des applications novatrices
dont l’interopérabilité est assurée par la représentation standard des contenus qu’offre MPEG-7.
3 Fonctionnalités majeurs de MPEG7
Les informations qui apparaîtront dans un document MPEG-7 seront de 5 natures différentes,
résumées dans le tableau suivant :
Toute description MPEG-7, étant basée sur le langage XML, est constituée d'objets imbriqués.
Cette imbrication se fait selon un certain schéma descripteur, lui-même établi à partir d'un
langage de définition de descriptions.
• Les descripteurs (D) : Ce sont des présentations de caractéristiques des éléments. Ils
définissent la syntaxe et les sémantiques de chaque représentation de ces caractéristiques.
• Les schémas descripteurs (SD, ou DS dans un document en anglais) : Ils spécifient la structure
et les sémantiques des relations entre leurs composantes, qui peuvent être soit des descripteurs
soit des schémas descripteurs.
• Les outils et les systèmes qui permettent de générer les descripteurs et les schémas
descripteurs du standard MPEG-7, qui permettent de les gérer, les manipuler...
• Valeur d'un descripteur : instance d'un descripteur pour un ensemble de données Rq: les
valeurs sont combinées avec les schémas de descriptions pour former une description
Les objets imbriqués formant une description MPEG-7 peuvent aussi bien être des descripteurs
que des schémas descripteurs (Figure ci-dessous) eux-mêmes à l'origine d'autres descripteurs).
Le diagramme suivant traduit cette hiérarchie tout en nous rappelant que le langage de
définition des descriptions permet une totale extensibilité du standard.
L'élément principal de cette partie de la description est le segment SD. Il adresse la description
des aspects physiques et logiques d’un contenu audio-visuel. Les segments SD peuvent être
utilisés pour former des arbres de segment. La norme MPEG-7 spécifie aussi un SD graphique
qui autorise la représentation de relations complexes entre segments. Il est utilisé pour décrire
des rapports spatio-temporels, entre segments qui ne sont pas décrits par les arborescences.
Un segment représente une section d'un élément d’un contenu audio-visuel. Le segment SD est
une classe abstraite (dans le sens de programmation orienté objet).
Il a neuf sous-classes majeures: segment multimédia, région audiovisuelle, segment audiovisuel,
segment audio, région immobile 2D, région immobile 3D, région en mouvement, segment vidéo
et segment d'encrage. Par conséquent, il peut avoir des propriétés spatiales et temporelles.
Un segment temporel peut être un ensemble d'échantillons dans une séquence sonore,
représentée par un segment audio, un ensemble d’images dans une séquence de la vidéo,
représenté par un segment vidéo ou une combinaison d'information sonore et visuelle décrites
par un segment audiovisuel.
Un segment spatial peut être une région dans une image ou une image dans une séquence vidéo,
représentée par une région immobile pour de la 2D et une région immobile 3D pour de la 3D. Un
segment spatio-temporel peut correspondre à une région en mouvement dans une séquence
vidéo, représentée par une région en mouvement ou une combinaison plus complexe de contenu
visuel et sonore représentées par exemple par une région audiovisuelle.
Finalement, le segment le plus générique est le segment Multimédia qui décrit une composition
de segments qui forment une présentation multimédia. Le segment SD est abstrait : il est utilisé
pour définir les choses communes de ses sous-classes. Tout segment peut être décrit par les
différents types d’information suivant :
• usage,
• médiatique,
• annotation textuelle.
Le SD du segment peut être utilisé pour décrire des segments qui ne sont pas nécessairement
connectés, mais composés de plusieurs composants non connectés. La connectivité fait
référence ici aux domaines spatiaux et temporels. Un segment temporel (Segment Vidéo,
Segment Sonore et Segment Audiovisuel) est dit connecté temporellement si c'est une séquence
vidéo continue ou échantillon sonore. Un segment spatial (Région immobile) est dit connecté
spatialement si c'est un groupe de pixels connectés. Un segment spatio-temporel (Région En
mouvement) est dit connecté spatialement et temporellement si le segment temporel est
temporellement connecté et si chacune de ses instances temporelles dans les images est
connectée spatialement.
La figure ci-dessus illustre plusieurs exemples de segments temporels ou spatiaux et leur
connectivité.
En a) et b) est illustré un segment temporel et un segment spatial composés d'un seul
composant connecté. En c) et d) est illustré un segment temporel et un segment spatial composé
de trois composants connectés.
Cette figure quant à elle présente deux exemples de régions en mouvement, connectées et non
connectées. Dans ce dernier cas, le segment n'est pas connecté parce qu’il manque plusieurs
composants connectés spatialement dans quelques-unes des images.
Notez que, dans tous les cas, les Descripteurs et Ensemble de données attachés au segment sont
globaux à l'union des composants connectés qui construisent le segment.
Le SD du Segment est récursif, c.à.d. qu’il peut être divisé en sous segments, et donc peut former
une hiérarchie (arbre). L’arbre résultant du segment est utilisé pour décrire la source
médiatique, le temporelle et / ou structure spatiale du contenu audiovisuel. Par exemple, un
programme vidéo peut être segmenté en plusieurs niveaux de scènes ; une table des matières
peut donc être basée sur cette structure. Des stratégies semblables peuvent être utilisées pour
les segments spatiaux et spatio-temporels.
Un segment peut aussi être décomposé en plusieurs sources médiatiques tel que plusieurs pistes
sonores ou points de vue de plusieurs caméras. La décomposition hiérarchique est utile pour
concevoir des stratégies de recherche effectives (recherche globale à recherche locale). Il permet
aussi à la description d'être adaptable: un segment peut être décrit par son ensemble direct de
Descripteurs et Ensemble de données, mais il peut aussi être décrit par l'union des Descripteurs
et Ensemble des données qui sont relatives ses sous segments. A noter qu'un segment peut être
divisé en sous segments de types différents, par exemple un segment vidéo peut être décomposé
en régions en mouvement qui sont elles-mêmes décomposées en régions immobiles.
Comme cela est le cas pour un espace spatio-temporel, la décomposition est décrite par un
ensemble d'attributs qui définissent le type de sous division: temporel, spatial ou
spatiotemporel.
De plus, les divisions spatiales et temporelles peuvent laisser des intervalles et des
chevauchements entre les sous segments. Plusieurs exemples de décompositions sont décrits
pour les segments temporels sur la Figure précédente. En .a) et b) sont décrit deux exemples de
décompositions sans intervalles ni chevauchements (partition dans le sens mathématique).
Dans les deux cas l'union des segments enfants correspond exactement à l'extension temporelle
du segment parent, même si le segment parent est lui-même non connecté (voir l'exemple b).
En c) est montré un exemple de décomposition avec intervalles mais sans chevauchements.
Finalement, en d) est illustré un cas plus complexe où le segment parent est composé de deux
composants connectés et sa décomposition crée trois segments enfants: le premier est lui-même
composé de deux composants connectés, les deux segments enfants restant sont composés d'un
composant connecté unique. La décomposition autorise des intervalles et des chevauchements.
Comme décrit ci-dessus, tout segment peut être décrit par les informations de création, d'usage,
médiatique et d’annotation textuelle. Par ailleurs, les caractéristiques spécifiques selon le type
du segment sont aussi possibles. Ces caractéristiques spécifiques sont rapportées dans le
Tableau 1. La plupart des Descripteurs qui correspondent à ces caractéristiques peuvent être
extraits du contenu original automatiquement. Les instances de décomposition impliquées dans
le SD du Segment peuvent être envisagées comme un problème de segmentation hiérarchique
dont les entités élémentaires (région, segment vidéo) ont à être défini et structuré par rapport à
leurs relations dans un arbre.
Un exemple de description de l'image est illustré dans la Figure suivante. L'image originale est
décrite comme une Région Immobile, SR1, qui est décrite par création (titre, créateur),
information d'usage (copyright), information médiatique (format de fichier) aussi bien que
d'une annotation textuelle (résumé du contenu de l'image), un histogramme de couleur et un
descripteur de la texture. Cette région initiale peut être décomposée en régions individuelles.
Pour chaque étapes de la décomposition, nous indiquons si les Intervalles et Chevauchements
sont permis. L'arbre du segment est encore composé de 8 régions (à noter que SR8 est un
segment unique fait de deux composants connectés). Pour chaque région, la Figure montre le
type de caractéristique qui est répertorié. On note qu’il n'est pas nécessaire de répéter dans la
hiérarchie de l'arbre la création, l’information d'usage, et l’information médiatique, puisque le
segment enfant est supposé hériter des valeurs du segment parent.
La description du contenu de la structure n'est pas contrainte à être reliée aux arbres. Bien que,
les structures hiérarchiques telles que les arbres sont adéquates pour un accès efficace, à une
description adaptable et simple, ils impliquent des contraintes qui peuvent les rendre peu
approprié pour certaines applications. Dans de tels cas, le Segment de Relation doit être utilisé.
La structure du graphique est définie par un ensemble de nœuds, chacun correspondant à un
segment et à un ensemble d’arrêtes, chacun correspondant à une relations entre deux nœuds.
5 Application : l’outil IDXVIDEO
Le but de cet outil d’indexation et de recherche vidéo basé sur la norme MPEG-7 n’est pas
d’implémenter la norme dans son intégralité, mais plutôt de permettre aux chercheurs d’annoter
de manière simple et efficace leur ensemble de corpus multimédias permettant ainsi une
recherche ultérieure plus aisée.
L’étape d’indexation permet de décomposer les médias en segments temporels sous forme
hiérarchique, puis de les annoter textuellement en utilisant les formats « Free Text annotations»,
« Keyword annotations » et «Structured annotations » du type de données « Text Annotation »
de la norme MPEG-7.
<TextAnnotation>
<FreeTextAnnotation>PDG</FreeTextAnnotation>
</TextAnnotation>
<TextAnnotation>
<StructuredAnnotation>
<Who>
<Name>PDG</Name>
</Who>
<WhatObject>
<Name></Name>
</WhatObject>
<WhatAction>
<Name>parle</Name>
</WhatAction>
<Where>
<Name>bureau</Name>
</Where>
<When>
<Name></Name>
</When>
<Why>
<Name></Name>
</Why>
<How>
<Name></Name>
</How>
</StructuredAnnotation>
</TextAnnotation>
<TextAnnotation>
<KeywordAnnotation>
<Keyword>assis, chaise, bureau</Keyword>
</KeywordAnnotation>
</TextAnnotation>
Fig. 1 – Exemple d’annotation d’une séquence vidéo utilisant les différents formats disponibles
du type de données «Text Annotation » de la norme MPEG-7.
Comme le prévoit la norme, les sous-segments résultant de cette décomposition peuvent se
chevaucher et leur union ne couvre pas nécessairement la totalité de la durée du segment
parent, laissant ainsi apparaître si besoin des espaces (« gaps ») dans la structure.
La philosophie de l’outil est d’être disponible en ligne au travers d’un navigateur Web pour
l’ensemble des chercheurs souhaitant l’utiliser, chaque utilisateur étant au préalable identifié
sous forme de « Login / Password». Il n’est donc pas lié à un système d’exploitation particulier et
fonctionne sous Windows et Mac OS 9 & X.
Les médias à indexer, quant à eux, restent en local sur le disque du poste de travail ou sur un
disque dédié externe (type « Firewire IEEE 1394 » ou « USB « 2.0 ») : chaque utilisateur
constitue donc sa base de documents multimédias par le biais de référence.
L’outil est développé en langage PHP qui génère des pages HTML dynamiques. La partie
«navigation vidéo» de l’outil est réalisée sous forme d’applet Shockwave (technologie
Macromedia Director). L’indexation et les annotations textuelles sont quant à elles stockées dans
une base de données MySQL sur un serveur de l’unité.
La totalité de l’indexation est exportable à tout moment sous forme de fichier XML MPEG-7 et
exploitable ensuite par un module de recherche Online ou Offline, permettant ainsi de réaliser
des applications Web ou CD/DVD-ROM liés aux corpus.
6 Utilisation de l’outil
6.1 Indexation
L’indexation se fait segment par segment. Le niveau hiérarchique de chaque segment est établi
manuellement. Le module de visionnage vidéo fournit une aide en ce qui concerne la saisie des
Time codes de début et de fin de segment qui peuvent être transférés automatiquement par
simple clic vers les champs texte de la page Web d’indexation (Frame / TC ‘begin’ et Frame / TC
‘end’). Ce module permet également de visionner la vidéo (Lecture/Arrêt), de s’y positionner à
un point donné (Début vidéo, Fin vidéo, Début séquence, fin séquence, Go to TC) ou encore de s’y
déplacer avec plus ou moins de précision (i--/i++, ss--/ss++, mm--/mm++, hh--/hh++).
Lors de l’insertion ou de la suppression d’un segment, des contrôles d’intégrité de la structure
temporelle sont effectués afin de vérifier qu’un « segment fils » est bien contenu dans les limites
temporelles de son « segment père », ou encore, d’éviter qu’un segment ne devienne orphelin
par suppression de son « segment père ».
Les champs d’annotation textuelle correspondent aux formats suivants :
6.2 La recherche
Elle permet d’accéder instantanément à un segment donné après avoir saisi un mot-clef de
l’indexation. Si plusieurs segments répondent au même critère de recherche, les différents
segments peuvent être visualisés successivement. L’outil de recherche actuel n’est ici présent
que pour vérifier l’indexation du média : dans l’exemple ci-dessous, la recherche est une simple
recherche plein texte utilisant un arbre DOM XML classique.
Le moteur de recherche est adaptable au gré du chercheur suivant l’application (Web ou
CD/DVD-ROM) : il peut donc au besoin tirer partie de la structure des annotations (ex. : je
cherche une séquence dont le <Who><Name> est X ?).
Un point pour le moins très intéressant reste que cet outil est apprécié pour sa facilité d’accès en
comparaison à des logiciels certes plus complets mais plus difficiles à appréhender.
7 Conclusion
Le domaine de la vidéo à la demande est en plein essor et apporte son lot de changements
concernant la manière dont nous devons concevoir les documents multimédia. La multiplication
des types de contenus présents sur Internet, aussi bien en ce qui concerne le fond que la forme,
nous oblige à donner de plus en plus d’importance aux métadonnées pour que nous puissions
retrouver un document de manière plus précise et suivant plus de critères que pour de simples
documents textuels. C’est pourquoi travailler avec MPEG-7 dès aujourd’hui permet de nous
préparer à ce qui sera inévitable demain : la mise en avant de la sémantique.
La norme MPEG-7 est trop complexe pour être simplement exposée, dans sa totalité, en si peu de
temps. Nous nous sommes concentrés sur l’aspect structurel du MPEG-7 en prenant pour
exemples des séquences vidéo sans pour autant en traiter tous les aspects (gestion des repères,
des couleurs, etc...).