Vous êtes sur la page 1sur 20

ECOLE MOHAMMADIA DES INGENIEURS OPTION : TELECOM

MPEG7
MEZIANE wiame/ BATTOU youssef
22/12/2009

Encadré par le professeur Z.GUENNOUN


Table des matières

1 Introduction : ...................................................................................................... 3
2 Le standard MPEG7 ........................................................................................... 4
2.1 Objectifs.......................................................................................................... 4
2.2 Description du standard MPEG7 ............................................................ 5
3 Fonctionnalités majeurs de MPEG7 ............................................................. 6
4 Description technique détaillée de la technologie MPEG7 .................. 7
4.1 Hiérarchie ...................................................................................................... 8
4.2 Description du contenu, aspect structurel ......................................... 8
5 Application : l’outil IDXVIDEO .................................................................... 14
5.1 Présentation de l’outil ............................................................................ 14
6 Utilisation de l’outil........................................................................................ 17
6.1 Indexation .................................................................................................. 17
6.2 La recherche .............................................................................................. 19
7 Conclusion ......................................................................................................... 20
1 Introduction :

Aujourd’hui les méthodologies d’indexation par le contenu visent à proposer des solutions
alternatives pour l’indexation des documents multimédias. Le principe consiste à associer aux
contenus des métadonnées non plus textuelles, mais liées intrinsèquement au contenu
audiovisuel lui même.
Cela est possible puisque les représentations mathématiques permettent la description de
manière automatique (ou semi-automatique) et discriminante du flux audiovisuel. Ce sont des
caractéristiques perceptuelles associées classiquement aux attributs visuels comme la forme, la
couleur, la texture ou encore le mouvement, qui rendent cette indexation possible. Le principe
de la recherche de contenus dans une base de données change alors de façon fondamentale.
L’utilisateur présente à l’entrée de son moteur de recherche non plus des mots-clés mais un
exemple (e.g. une image/vidéo ou une partie d’une image/vidéo), ou une ébauche (e.g. un dessin
réalisé à la main). Les mesures de similarités associées aux descripteurs images permettent
alors de réaliser des requêtes automatiques et de retrouver des images similaires.
Le domaine de l’indexation d’images par le contenu n’a cessé de connaître une effervescence
spectaculaire depuis le milieu des années 1990, comme en témoignent l’impressionnant volume
de méthodes et techniques proposées dans la vaste littérature scientifique consacrée à ce sujet.

Dans ce cadre, une étape marquante a été la sortie officielle au début des années 2000 de la
norme ISO MPEG-7. Officiellement appelée Multimedia Content Description Interface, la norme
MPEG-7 propose un large éventail de technologies de description de documents multimédias,
intégrant des approches aussi bien textuelles que par le contenu.
En particulier, la spécification ISO MPEG-7 propose aujourd’hui un riche ensemble de
descripteurs visuels et de schémas de description, exprimés dans un langage de description de
données fondé sur une approche XML schéma.
2 Le standard MPEG7
2.1 Objectifs

MPEG a commencé à mettre au point un nouvel outil de travail pour répondre au problème
décrit précédemment. Ce nouveau membre de la famille MPEG, appelé "Multimédia Content
Description Interface "MPEG-7" étendra les capacités de recherche limitées d'aujourd'hui pour
inclure d'autres types d'informations. En d'autres termes, MPEG-7 va spécifier une description
standard de différents types d'informations multimédia. Cette description devra être associée au
contenu lui-même pour permettre la recherche rapide et efficace des informations qui
intéressent l'utilisateur.

Ces "matériaux" incluent; images, graphiques, audio, vidéo et de l'information sur comment ces
éléments sont combinés dans une présentation multimédia (scénario). La description peut être
attachée à n'importe quel matériau multimédia, quel que soit le format de la représentation.
Même si la description de MPEG-7 ne dépend pas de la représentation du matériau, le standard
s'appuie en un certain sens sur le standard MPEG-4 qui fourni quand à lui les moyens de coder
des matériaux audiovisuel.

La description standardisée des différents types d'information peut résider en un certain


nombre de niveaux sémantiques. Pour prendre l'exemple d'un matériau visuel, un niveau
d'abstraction bas pourrait être la description de la forme, taille, texture, couleur et composition.
Les plus hauts niveaux donneraient des informations sémantiques comme; "il s'agit d'une scène
avec une voiture rouge à gauche et un oiseau qui vole(dans le ciel)", codées sous une forme
efficace. Des niveaux intermédiaires pourraient aussi exister.

En plus de la description du contenu, il peut être également nécessaire d'inclure d'autres


informations, comme Le format (par exemple le type de compression utilisée) ou la taille. Cette
information aide à déterminer si le matériau peut être lu par l'utilisateur. On peut aussi penser
aux conditions d'accès aux matériaux, qui pourrait inclure des informations concernant le
copyright et le prix, ou des liens vers d'autres matériaux intéressant.

Contrairement aux précédentes versions du MPEG, MPEG-7 n'est pas un format de compression.
Ou en tout cas, pas seulement. Destiné au multimédia au sens large du terme, il vise à encoder
toute forme de données audiovisuelles, du texte à la vidéo, du modèle 3D aux présentations
interactives. Mais surtout, le standard propose de compléter les données par leur description.
MPEG-7 c'est, en résumé, "des bits à propos des bits". Autrement dit, un ensemble de données
supplémentaires décrivant le contenu, son auteur, sa structure, ou même les éléments
sémantiques qu'il représente. Le principe est à la fois ambitieux et novateur et on imagine bien
la puissance d'un tel standard, notamment en matière de recherche sur le Web. C'est d'ailleurs
ce qui semble motiver ses concepteurs: "La principale ambition de MPEG-7 est de rendre les
informations multimédias aussi faciles à trouver sur le Web que le texte l'est aujourd'hui." Par
exemple, on pourrait imaginer un moteur qui parcourt le Web à la recherche d'une phrase
musicale précise: tapez quelques notes de musique au clavier, et vous obtiendrez tous les
morceaux comportant les mêmes notes. Même chose avec les images, il sera possible d'identifier
les fichiers comprenant un objet d'une couleur donnée, même s'il ne s'agit que d'une partie de
l'image. Du reste, l'intérêt n'est pas négligeable en matière d'intégrité des données, et donc de
respect des droits d'auteur. Mais, bien qu'intellectuellement plaisant, MPEG-7 soulève quelques
interrogations.
D'abord, le poids final des fichiers encodés avec ce format, dont on peut supposer qu'il sera, par
essence, plus important que celui de la description des données en elle-même. Ensuite la base
existante, si l'on considère les milliards d'informations numériques(fichiers image, audio et
vidéo) déjà encodées à d'autres formats, on peut s'inquiéter de la vitesse à laquelle se répandrait
un nouveau standard.

2.2 Description du standard MPEG7

C’est dans ce contexte que le Moving Picture Experts Group (MPEG) a développé MPEG-7,
devenu standard ISO/IEC 15398 à l’automne 2001. Cette norme, formellement appelée
Multimedia Content Description Interface, a été élaborée collectivement par des centres de
recherche universitaires et des joueurs majeurs de l’industrie, dont IBM, Sony et Siemens. À la
différence de ses frères MPEG-1, MPEG-2 et MPEG-4, qui standardisent l’encodage même des
documents audiovisuels, MPEG-7 régit la description de ceux-ci et non pas l'encodage. La
navigation, la recherche et le filtrage peuvent donc s’opérer sur ces descriptions plutôt que sur
les fichiers sources, ce qui évite de devoir décompresser ces derniers et de les traiter à chaque
requête.
Une description MPEG-7 est un fichier de métadonnées détaillant différents aspects du contenu
et de la gestion d’un document audiovisuel. Par exemple, en ce qui concerne le contenu, on
pourra retrouver, dans le fichier de description, des informations sur les caractéristiques de bas
niveau (couleurs, textures, mouvement, contenu fréquentiel, mélodie, etc.) ou des concepts
sémantiques de plus haut niveau (objets, événements, interactions entre les objets, lieux de
l’action, etc.).
Les outils MPEG-7 permettent de décomposer un document audiovisuel en différents segments
spatiaux, temporels ou spatiotemporels, offrant ainsi plusieurs niveaux de description. On
pourra, par exemple, diviser un extrait vidéo en séquences et associer une description à chacune
d’elles, ou encore décrire différentes parties d’une seule image.
Les relations entre les divers segments peuvent également être exprimées. L’information
relative à la gestion des contenus multimédias est aussi assurée par un vaste ensemble d’outils.
Outre les renseignements pertinents aux applications d’archivage, tels que les détails de création
du document audiovisuel (titre, réalisateur, date de création, etc.), ses paramètres d’utilisation
(heures de diffusion, prix, droits d’auteur, etc.). Et son format d’encodage, MPEG-7 permet des
descriptions plus spécialisées. Par exemple, un contenu peut être décrit en différents niveaux
hiérarchiques ou séquentiels, afin de créer des résumés audiovisuels plus ou moins détaillés.
Grâce à ce type de représentation, un usager pourrait demander à un système de ne lui
présenter que les hauts faits d’un match sportif, comme les buts marqués. Il est aussi possible
de décrire diverses variations d’un document audiovisuel ou encore d’élaborer des modèles
statistiques de l’information. De surcroît, pour permettre d’adapter la diffusion aux habitudes de
chaque usager, les préférences de celui-ci et l’historique d’utilisation du contenu peuvent être
consignés dans la description.
Cependant, malgré sa grande richesse, MPEG-7 ne standardise que le format de description de
toutes ces informations. Il ne spécifie pas comment obtenir ces caractéristiques
automatiquement à partir des documents multimédias, ni comment utiliser les descriptions
produites. Ceci laisse pleine latitude à l’industrie pour développer des applications novatrices
dont l’interopérabilité est assurée par la représentation standard des contenus qu’offre MPEG-7.
3 Fonctionnalités majeurs de MPEG7

Les informations qui apparaîtront dans un document MPEG-7 seront de 5 natures différentes,
résumées dans le tableau suivant :

Ensembles des Fonctionnalité


Eléments
Création et Des méta-informations qui décrivent la création et la production du
production contenu, elles décrivent le titre, le créateur, le but de la création.
Des méta-informations reliées à l'utilisation du contenu : Elles
Utilisation comportent les droits d'accès, des informations financières, des
droits de publication. Ces informations peuvent faire l'objet de
changement durant la durée de vie du contenu audio-visuel.
Ces informations décrivent les caractéristiques de stockage :
Média
Format, éléments pour identifier le média...
Des descriptions d'un point de vue contenu : Ces informations
décrivent les segments qui peuvent représenter des composantes
Aspects spatiales, temporelles ou spatio-temporelles du contenu audio-
structurels visuel. Chaque segment peut être décrit par les caractéristiques
suivantes (la couleur, la texture, la forme, la motion, d'autres
caractéristiques audio...) et quelques informations sémantiques
élémentaires.
Des descriptions du contenu audio-visuel d'un point de vue
Aspect conceptuel. Ces informations ne sont pas indiquées dans les
Conceptuels documents techniques du standard MPEG, car elles sont en cours de
standardisation.

Le MPEG-7 ne vise pas à définir simplement un nouveau standard de « métadonnées » associées


aux documents audiovisuels, mais au contraire à mettre en place une structure d’indexation de
ces documents fortement basée sur leur contenu visuel ou sonore, tout en intégrant
harmonieusement l’ensemble des données textuelles éventuellement disponibles citées
précédemment (titres, auteurs, réalisateur, durée, genre, etc …). Ainsi, il sera possible avec le
MPEG-7 de rechercher ou sélectionner des documents ou des programmes audiovisuels selon
différentes modalités : le genre, les acteurs, le public visé, …
Mais aussi : par interrogation vocale, par similarité visuelle, par la présence de personnages ou
d’objets particuliers, par la mélodie, etc …
Concrètement, MPEG-7 spécifiera un ensemble de descripteurs de base, qui pourront être
utilisés pour décrire différentes caractéristiques des contenus, notamment visuels ou sonores,
tels qu’histogramme de couleurs, phonèmes ou encore contours mélodiques. Ces descripteurs
seront ensuite organisés en schémas de description, sortes de macro-descripteurs combinant
des descripteurs élémentaires.
4 Description technique détaillée de la technologie MPEG7

Toute description MPEG-7, étant basée sur le langage XML, est constituée d'objets imbriqués.
Cette imbrication se fait selon un certain schéma descripteur, lui-même établi à partir d'un
langage de définition de descriptions.

• Les descripteurs (D) : Ce sont des présentations de caractéristiques des éléments. Ils
définissent la syntaxe et les sémantiques de chaque représentation de ces caractéristiques.

• Les schémas descripteurs (SD, ou DS dans un document en anglais) : Ils spécifient la structure
et les sémantiques des relations entre leurs composantes, qui peuvent être soit des descripteurs
soit des schémas descripteurs.

• Un langage de définition des descriptions (LDD, ou DDL dans un document en anglais): Il


permet la création de nouveaux descripteurs ou schémas descripteurs. Il permet également
d'étendre et de modifier les descripteurs et les schémas descripteurs existants.

• Les outils et les systèmes qui permettent de générer les descripteurs et les schémas
descripteurs du standard MPEG-7, qui permettent de les gérer, les manipuler...

• Valeur d'un descripteur : instance d'un descripteur pour un ensemble de données Rq: les
valeurs sont combinées avec les schémas de descriptions pour former une description

• Description : consiste en un SD et en un ensemble de valeurs de descripteurs décrivant la


donnée.

On résume ce qu’on vient de dire dans le schéma suivant :


4.1 Hiérarchie

Les objets imbriqués formant une description MPEG-7 peuvent aussi bien être des descripteurs
que des schémas descripteurs (Figure ci-dessous) eux-mêmes à l'origine d'autres descripteurs).
Le diagramme suivant traduit cette hiérarchie tout en nous rappelant que le langage de
définition des descriptions permet une totale extensibilité du standard.

4.2 Description du contenu, aspect structurel

L'élément principal de cette partie de la description est le segment SD. Il adresse la description
des aspects physiques et logiques d’un contenu audio-visuel. Les segments SD peuvent être
utilisés pour former des arbres de segment. La norme MPEG-7 spécifie aussi un SD graphique
qui autorise la représentation de relations complexes entre segments. Il est utilisé pour décrire
des rapports spatio-temporels, entre segments qui ne sont pas décrits par les arborescences.

Un segment représente une section d'un élément d’un contenu audio-visuel. Le segment SD est
une classe abstraite (dans le sens de programmation orienté objet).
Il a neuf sous-classes majeures: segment multimédia, région audiovisuelle, segment audiovisuel,
segment audio, région immobile 2D, région immobile 3D, région en mouvement, segment vidéo
et segment d'encrage. Par conséquent, il peut avoir des propriétés spatiales et temporelles.
Un segment temporel peut être un ensemble d'échantillons dans une séquence sonore,
représentée par un segment audio, un ensemble d’images dans une séquence de la vidéo,
représenté par un segment vidéo ou une combinaison d'information sonore et visuelle décrites
par un segment audiovisuel.
Un segment spatial peut être une région dans une image ou une image dans une séquence vidéo,
représentée par une région immobile pour de la 2D et une région immobile 3D pour de la 3D. Un
segment spatio-temporel peut correspondre à une région en mouvement dans une séquence
vidéo, représentée par une région en mouvement ou une combinaison plus complexe de contenu
visuel et sonore représentées par exemple par une région audiovisuelle.

Finalement, le segment le plus générique est le segment Multimédia qui décrit une composition
de segments qui forment une présentation multimédia. Le segment SD est abstrait : il est utilisé
pour définir les choses communes de ses sous-classes. Tout segment peut être décrit par les
différents types d’information suivant :

• usage,
• médiatique,
• annotation textuelle.

Le segment SD décrit le résultat d'un découpage spatial, temporel, ou spatio-temporel du


contenu audiovisuel. Le segment SD peut décrire une décomposition récursive ou hiérarchique
du contenu audiovisuel en segments qui forment un arbre de segments. Le segment de relation
décrit des rapports spatio-temporels supplémentaires parmi les segments.
Le segment SD forme le type de base des différents types de segments spécialisés : les segments
audio, vidéo, audio-visuels, régions en mouvement, et régions immobiles. En conséquence, un
segment peut avoir des propriétés spatiales et/ou temporelles. Par exemple, Le segment audio
peut décrire un segment audio temporel qui correspond à une période temporelle d'une
séquence sonore. Le segment vidéo peut décrire un ensemble d’images d'une séquence de la
vidéo. Le segment audiovisuel peut décrire une combinaison d'information sonore et visuelle
telle qu'une vidéo avec une piste son synchronisée. Les régions immobiles peuvent décrire un
segment spatial ou une région d'une image ou un image dans une vidéo.
Finalement, les régions en mouvement peuvent décrire un segment spatio-temporel ou région
en mouvement d'une séquence vidéo.
Il existe aussi un ensemble de segments spécialisés pour des types spécifiques de contenu
audiovisuels. Par exemple, la Mosaïque est un type spécialisé de région immobile.
Le SD du segment contient des éléments et des attributs qui sont commun aux différents types
de segment. Parmi les informations communes se trouvent les informations de création, usage,
emplacement médiatique, et annotation du texte.

Le SD du segment peut être utilisé pour décrire des segments qui ne sont pas nécessairement
connectés, mais composés de plusieurs composants non connectés. La connectivité fait
référence ici aux domaines spatiaux et temporels. Un segment temporel (Segment Vidéo,
Segment Sonore et Segment Audiovisuel) est dit connecté temporellement si c'est une séquence
vidéo continue ou échantillon sonore. Un segment spatial (Région immobile) est dit connecté
spatialement si c'est un groupe de pixels connectés. Un segment spatio-temporel (Région En
mouvement) est dit connecté spatialement et temporellement si le segment temporel est
temporellement connecté et si chacune de ses instances temporelles dans les images est
connectée spatialement.
La figure ci-dessus illustre plusieurs exemples de segments temporels ou spatiaux et leur
connectivité.
En a) et b) est illustré un segment temporel et un segment spatial composés d'un seul
composant connecté. En c) et d) est illustré un segment temporel et un segment spatial composé
de trois composants connectés.

Cette figure quant à elle présente deux exemples de régions en mouvement, connectées et non
connectées. Dans ce dernier cas, le segment n'est pas connecté parce qu’il manque plusieurs
composants connectés spatialement dans quelques-unes des images.
Notez que, dans tous les cas, les Descripteurs et Ensemble de données attachés au segment sont
globaux à l'union des composants connectés qui construisent le segment.
Le SD du Segment est récursif, c.à.d. qu’il peut être divisé en sous segments, et donc peut former
une hiérarchie (arbre). L’arbre résultant du segment est utilisé pour décrire la source
médiatique, le temporelle et / ou structure spatiale du contenu audiovisuel. Par exemple, un
programme vidéo peut être segmenté en plusieurs niveaux de scènes ; une table des matières
peut donc être basée sur cette structure. Des stratégies semblables peuvent être utilisées pour
les segments spatiaux et spatio-temporels.
Un segment peut aussi être décomposé en plusieurs sources médiatiques tel que plusieurs pistes
sonores ou points de vue de plusieurs caméras. La décomposition hiérarchique est utile pour
concevoir des stratégies de recherche effectives (recherche globale à recherche locale). Il permet
aussi à la description d'être adaptable: un segment peut être décrit par son ensemble direct de
Descripteurs et Ensemble de données, mais il peut aussi être décrit par l'union des Descripteurs
et Ensemble des données qui sont relatives ses sous segments. A noter qu'un segment peut être
divisé en sous segments de types différents, par exemple un segment vidéo peut être décomposé
en régions en mouvement qui sont elles-mêmes décomposées en régions immobiles.
Comme cela est le cas pour un espace spatio-temporel, la décomposition est décrite par un
ensemble d'attributs qui définissent le type de sous division: temporel, spatial ou
spatiotemporel.

De plus, les divisions spatiales et temporelles peuvent laisser des intervalles et des
chevauchements entre les sous segments. Plusieurs exemples de décompositions sont décrits
pour les segments temporels sur la Figure précédente. En .a) et b) sont décrit deux exemples de
décompositions sans intervalles ni chevauchements (partition dans le sens mathématique).
Dans les deux cas l'union des segments enfants correspond exactement à l'extension temporelle
du segment parent, même si le segment parent est lui-même non connecté (voir l'exemple b).
En c) est montré un exemple de décomposition avec intervalles mais sans chevauchements.

Finalement, en d) est illustré un cas plus complexe où le segment parent est composé de deux
composants connectés et sa décomposition crée trois segments enfants: le premier est lui-même
composé de deux composants connectés, les deux segments enfants restant sont composés d'un
composant connecté unique. La décomposition autorise des intervalles et des chevauchements.
Comme décrit ci-dessus, tout segment peut être décrit par les informations de création, d'usage,
médiatique et d’annotation textuelle. Par ailleurs, les caractéristiques spécifiques selon le type
du segment sont aussi possibles. Ces caractéristiques spécifiques sont rapportées dans le
Tableau 1. La plupart des Descripteurs qui correspondent à ces caractéristiques peuvent être
extraits du contenu original automatiquement. Les instances de décomposition impliquées dans
le SD du Segment peuvent être envisagées comme un problème de segmentation hiérarchique
dont les entités élémentaires (région, segment vidéo) ont à être défini et structuré par rapport à
leurs relations dans un arbre.

Un exemple de description de l'image est illustré dans la Figure suivante. L'image originale est
décrite comme une Région Immobile, SR1, qui est décrite par création (titre, créateur),
information d'usage (copyright), information médiatique (format de fichier) aussi bien que
d'une annotation textuelle (résumé du contenu de l'image), un histogramme de couleur et un
descripteur de la texture. Cette région initiale peut être décomposée en régions individuelles.
Pour chaque étapes de la décomposition, nous indiquons si les Intervalles et Chevauchements
sont permis. L'arbre du segment est encore composé de 8 régions (à noter que SR8 est un
segment unique fait de deux composants connectés). Pour chaque région, la Figure montre le
type de caractéristique qui est répertorié. On note qu’il n'est pas nécessaire de répéter dans la
hiérarchie de l'arbre la création, l’information d'usage, et l’information médiatique, puisque le
segment enfant est supposé hériter des valeurs du segment parent.
La description du contenu de la structure n'est pas contrainte à être reliée aux arbres. Bien que,
les structures hiérarchiques telles que les arbres sont adéquates pour un accès efficace, à une
description adaptable et simple, ils impliquent des contraintes qui peuvent les rendre peu
approprié pour certaines applications. Dans de tels cas, le Segment de Relation doit être utilisé.
La structure du graphique est définie par un ensemble de nœuds, chacun correspondant à un
segment et à un ensemble d’arrêtes, chacun correspondant à une relations entre deux nœuds.
5 Application : l’outil IDXVIDEO

5.1 Présentation de l’outil

Le but de cet outil d’indexation et de recherche vidéo basé sur la norme MPEG-7 n’est pas
d’implémenter la norme dans son intégralité, mais plutôt de permettre aux chercheurs d’annoter
de manière simple et efficace leur ensemble de corpus multimédias permettant ainsi une
recherche ultérieure plus aisée.
L’étape d’indexation permet de décomposer les médias en segments temporels sous forme
hiérarchique, puis de les annoter textuellement en utilisant les formats « Free Text annotations»,
« Keyword annotations » et «Structured annotations » du type de données « Text Annotation »
de la norme MPEG-7.

<TextAnnotation>
<FreeTextAnnotation>PDG</FreeTextAnnotation>
</TextAnnotation>
<TextAnnotation>
<StructuredAnnotation>
<Who>
<Name>PDG</Name>
</Who>
<WhatObject>
<Name></Name>
</WhatObject>
<WhatAction>
<Name>parle</Name>
</WhatAction>
<Where>
<Name>bureau</Name>
</Where>
<When>
<Name></Name>
</When>
<Why>
<Name></Name>
</Why>
<How>
<Name></Name>
</How>
</StructuredAnnotation>
</TextAnnotation>
<TextAnnotation>
<KeywordAnnotation>
<Keyword>assis, chaise, bureau</Keyword>
</KeywordAnnotation>
</TextAnnotation>

Fig. 1 – Exemple d’annotation d’une séquence vidéo utilisant les différents formats disponibles
du type de données «Text Annotation » de la norme MPEG-7.
Comme le prévoit la norme, les sous-segments résultant de cette décomposition peuvent se
chevaucher et leur union ne couvre pas nécessairement la totalité de la durée du segment
parent, laissant ainsi apparaître si besoin des espaces (« gaps ») dans la structure.

La philosophie de l’outil est d’être disponible en ligne au travers d’un navigateur Web pour
l’ensemble des chercheurs souhaitant l’utiliser, chaque utilisateur étant au préalable identifié
sous forme de « Login / Password». Il n’est donc pas lié à un système d’exploitation particulier et
fonctionne sous Windows et Mac OS 9 & X.

Les médias à indexer, quant à eux, restent en local sur le disque du poste de travail ou sur un
disque dédié externe (type « Firewire IEEE 1394 » ou « USB « 2.0 ») : chaque utilisateur
constitue donc sa base de documents multimédias par le biais de référence.
L’outil est développé en langage PHP qui génère des pages HTML dynamiques. La partie
«navigation vidéo» de l’outil est réalisée sous forme d’applet Shockwave (technologie
Macromedia Director). L’indexation et les annotations textuelles sont quant à elles stockées dans
une base de données MySQL sur un serveur de l’unité.
La totalité de l’indexation est exportable à tout moment sous forme de fichier XML MPEG-7 et
exploitable ensuite par un module de recherche Online ou Offline, permettant ainsi de réaliser
des applications Web ou CD/DVD-ROM liés aux corpus.
6 Utilisation de l’outil
6.1 Indexation
L’indexation se fait segment par segment. Le niveau hiérarchique de chaque segment est établi
manuellement. Le module de visionnage vidéo fournit une aide en ce qui concerne la saisie des
Time codes de début et de fin de segment qui peuvent être transférés automatiquement par
simple clic vers les champs texte de la page Web d’indexation (Frame / TC ‘begin’ et Frame / TC
‘end’). Ce module permet également de visionner la vidéo (Lecture/Arrêt), de s’y positionner à
un point donné (Début vidéo, Fin vidéo, Début séquence, fin séquence, Go to TC) ou encore de s’y
déplacer avec plus ou moins de précision (i--/i++, ss--/ss++, mm--/mm++, hh--/hh++).
Lors de l’insertion ou de la suppression d’un segment, des contrôles d’intégrité de la structure
temporelle sont effectués afin de vérifier qu’un « segment fils » est bien contenu dans les limites
temporelles de son « segment père », ou encore, d’éviter qu’un segment ne devienne orphelin
par suppression de son « segment père ».
Les champs d’annotation textuelle correspondent aux formats suivants :

• « headline » et « commentary » : Free Text annotations;

• « who », « what_object », « what_action », « where », « when », « why » et « how » : Structured


annotations;

• « keywords » : Keyword annotations.


L’utilisateur visualise l’indexation au fur et à mesure de son avancée par le biais de l’arbre
hiérarchique qui est pour le moment textuel (« frame begin », « frame end », « TC begin », « TC
end » et « headline ») mais qui a pour vocation de devenir graphique.

6.2 La recherche
Elle permet d’accéder instantanément à un segment donné après avoir saisi un mot-clef de
l’indexation. Si plusieurs segments répondent au même critère de recherche, les différents
segments peuvent être visualisés successivement. L’outil de recherche actuel n’est ici présent
que pour vérifier l’indexation du média : dans l’exemple ci-dessous, la recherche est une simple
recherche plein texte utilisant un arbre DOM XML classique.
Le moteur de recherche est adaptable au gré du chercheur suivant l’application (Web ou
CD/DVD-ROM) : il peut donc au besoin tirer partie de la structure des annotations (ex. : je
cherche une séquence dont le <Who><Name> est X ?).

Un point pour le moins très intéressant reste que cet outil est apprécié pour sa facilité d’accès en
comparaison à des logiciels certes plus complets mais plus difficiles à appréhender.
7 Conclusion

Le domaine de la vidéo à la demande est en plein essor et apporte son lot de changements
concernant la manière dont nous devons concevoir les documents multimédia. La multiplication
des types de contenus présents sur Internet, aussi bien en ce qui concerne le fond que la forme,
nous oblige à donner de plus en plus d’importance aux métadonnées pour que nous puissions
retrouver un document de manière plus précise et suivant plus de critères que pour de simples
documents textuels. C’est pourquoi travailler avec MPEG-7 dès aujourd’hui permet de nous
préparer à ce qui sera inévitable demain : la mise en avant de la sémantique.

La norme MPEG-7 est trop complexe pour être simplement exposée, dans sa totalité, en si peu de
temps. Nous nous sommes concentrés sur l’aspect structurel du MPEG-7 en prenant pour
exemples des séquences vidéo sans pour autant en traiter tous les aspects (gestion des repères,
des couleurs, etc...).

Vous aimerez peut-être aussi