Indexation de La Vidéo Par Le Contenu Et Besoin en Architectures Matérielles Dédiées

SETIT 2009
5th International Conference: Sciences of Electronic,

Technologies of Information and Telecommunications
March 22-26, 2009 – TUNISIA
Indexation De La Vidéo Par Le Contenu Et Besoin En

Architectures Matérielles Dédiées
Abdessalem BEN ABDELALI*, Mohamed Nidhal KRIFA*, Lamjed TOUIL*,
Abdellatif MTIBAA* et Elbay BOURENNANE**
*Laboratoire d’EµE, groupe CSR, Faculté des sciences de Monastir, Tunisie
Abdessalem.benabdelali@enim.rnu.tn
kmnidhal@yahoo.fr
lamjedtl@yahoo.fr
Abdellatif.mtibaa@enim.rnu.tn
** LE2I, Université de Bourgogne Dijon, France
ebourenn@u-bourgogne.fr
Résumé: Dans ce papier nous avons proposé une étude du domaine de l’indexation de la vidéo par le contenu dans le
but d’examiner l’impact des nouvelles exigences dans ce domaine sur le choix des méthodes de conception et des
solutions technologiques pouvant être utilisées pour la mise en œuvre d’architectures matérielles dédiées pour ce type
d’application. Il s’agit d’une étude de ce domaine à travers les caractéristiques et les besoins des nouvelles applications
possibles et des techniques mises en œuvre pour l’indexation de la vidéo par le contenu. Dans ce cadre un modèle
générique d’un système d’analyse du contenu audio visuel a été proposé. Il exprime l’interaction et les combinaisons
possibles des techniques existantes pour différents types d’application et en tenant compte des principales
caractéristiques des systèmes d’indexation actuels. Des exemples d’applications de ces systèmes ont étés aussi présentés
tout en mettant l’accent sur leurs exigences. Une discussion des besoins spécifiques des systèmes d’indexation actuels et
la nécessité de faire recours aux nouvelles technologies des systèmes embarqués a été proposée à la fin de ce papier.
Mots clés: Indexation par le contenu, vidéo, applications temps réel, architectures matérielles dédiées.
développées pour faciliter l’accès aux documents

audio-visuels sont d’une importance majeure pour le
INTRODUCTION grand public comme pour les utilisateurs
Ce travail s’inscrit dans le cadre de l’étude de la professionnels. Vu l’importance de ce sujet une norme
conception d’architectures matérielles dédiées et de appelée MPEG7 a été élaborée, elle s’adresse aux
l’exploitation des nouvelles technologies des systèmes problèmes de gestion et d’exploitation du contenu
embarqués pour les applications multimédia récentes. multimédia. Elle admet comme objectif de fournir un
Dans ce papier nous proposons une étude du domaine cadre d’outils normalisés pouvant être utilisés pour
de l’indexation de la vidéo par le contenu dans le but décrire et contrôler efficacement le contenu
de montrer l’impact des nouvelles exigences dans ce multimédia.
domaine sur le choix des solutions technologiques et
des méthodes de conception pouvant être exploitées Malgré la grande activité au niveau de
pour la mise en œuvre de systèmes électroniques pour développement d’algorithmes et de techniques
l’analyse du contenu AV. d’indexation et de recherche automatique des
informations audiovisuelles, un manque de travaux
L’indexation de la vidéo par le contenu constitue un concernant la conception de systèmes embarqués et les
exemple d’application multimédia récent et d’une possibilités d’exploitation des nouvelles technologies
grande importance actuelle. En fait, devant la pour ce domaine d’application est à signaler. Ceci est
production croissante et la quantité énorme des dû principalement au fait que les travaux de recherche
données AV, l’accès à l’information désirée est devenu dans ce domaine sont essentiellement orientés vers le
de plus en plus difficile. Dans ce cadre des efforts très développement de techniques permettant
significatifs ont été consacrés au développement l’automatisation de l’indexation et de la recherche des
d’outils et de techniques permettant une gestion plus informations audiovisuelles. Ce domaine a été aussi
efficace de ce type de données. Les techniques restreint à la gestion des bases de données AV sans
-1-
SETIT2009
contraintes particulières. visuel n’est généralement plus interprété de la même

façon par des personnes différentes et les résultats
Actuellement les techniques de l’indexation
d’indexation peuvent ne pas être satisfaisants.
automatique sont devenues de plus en plus nombreuses
et couvrent plus de domaines d’applications sous des La difficulté d’extraction automatique des
contraintes de plus en plus exigeantes. De ce fait, la informations sémantiques de la vidéo rend
complexité est de plus de plus ressentie et forme l’automatisation de la phase d’indexation une tâche de
actuellement un grand souci pour les applications à grande complexité. Des multiples problèmes
aspect temps réel ou même non temps réel à cause de sont posés : choix des techniques d’analyse du contenu
la lourdeur et le nombre de techniques mises en œuvre audiovisuel, gestion de ces différentes techniques,
ainsi que la nature des documents vidéo qui présente nature des indexes à associer aux documents vidéo
généralement une quantité énorme d’informations. selon les requêtes possibles de l’utilisateur qui peut
Mais le plus important reste le cadre des nouvelles être un être humain ou une machine, comment extraire
applications de l’indexation de la vidéo et les nouvelles l’information désirée par des méthodes automatiques,
possibilités fournies à l’utilisateur pour un accès plus etc. Ceci rend le domaine de l’indexation automatique
performant aux informations audiovisuelles. Ceci par le contenu très actif avec des contributions venant à
implique la mise en œuvre de systèmes plus complexes la fois de la communauté analyse d’images et de vidéo
basés sur des modèles de description du contenu et également de la communauté informatique et base
avancés et qui peuvent être exploités dans des de données.
applications plus exigeantes. Dans ce papier nous
L’indexation automatique de la vidéo par le contenu
essayons de mettre l’accent sur ces aspects dans le but
se base sur l’extraction automatique des méta-données
de montrer la possibilité d’exploitation des nouvelles
descriptives à partir du contenu physique (bas niveau)
technologies et des moyens de conception de systèmes
de la vidéo. Ces méta-données (ou méta-information)
embarqués en faveur de ce domaine d’application.
sont extraites des documents audiovisuels par des
Le reste de ce papier sera organisé en cinq outils d’analyse du contenu.
paragraphes. Dans le premier paragraphe nous
L’extraction automatique des méta-données
rappelons la problématique de l’indexation
descriptives se base sur l’analyse des caractéristiques
automatique de la vidéo par le contenu. Dans le
perceptuelles de bas niveau. Dans ce cadre la
deuxième paragraphe nous donnons un petit aperçu sur
problématique majeure est l’exploitation de ces
les différentes générations des systèmes d’indexation et
caractéristiques pouvant être extraites
de recherche de la vidéo par le contenu. Dans le
automatiquement pour la génération de descriptions
troisième paragraphe nous exposons les techniques et
utiles qui peuvent être exploitées par l’utilisateur pour
les structures des systèmes d’analyse de contenu AV
accéder aux informations qui l’intéressent. Ce principe
tout en insistant sur les nouvelles tendances des
est illustré par la Figure 1. Cette figure représente un
systèmes d’analyse du contenu AV actuels. Dans le
système d’indexation qui fournit, à partir des méta-
quatrième paragraphe nous nous intéressons aux
données extraites automatiquement, des informations
applications des systèmes d’indexation de la vidéo par
(indices spatiotemporels) exploitables par l’utilisateur
le contenu et les nouvelles contraintes dans ce
au travers des modèles de représentation adéquats.
domaine. Une discussion des besoins en nouvelles
technologies des systèmes embarqués est proposée
dans le cinquième paragraphe. Extraction automatique
des méta-données
1. Problématiques de l’automatisation de Parole Visage OCR texte Localisation Événements

d’indexation de la vidéo
L’automatisation de la phase d’indexation pose des
problèmes très divers liés à la possibilité de confier une Modèles Interface
utilisateur
tâche souvent effectuée par l’être humain à une
machine. En fait, l'homme est capable de distinguer et Figure 1. Analyse du contenu vidéo et extraction d’indices
d'interpréter les différents aspects visuels (régions spatiotemporels
d'une image, couleurs, etc.), les relations entre les
actions (dans un film par exemple), la signification des
aspects visuels et leur relation avec le contexte des 2. Les systèmes d’indexation actuels et le
actions (exemple : des couleurs et un décor qui font gap sémantique
peur), la classification des documents vidéo selon Nous pouvons distinguer trois générations de
différents critères (type du document : journal, film systèmes d’indexation et de recherche de la vidéo par
triste, film de fiction, documentaire sur les animaux, le contenu [CAL 04].
etc.). Ceci se fait grâce à la possibilité de combiner les
différentes informations acquises par le système de Dans la première génération les attributs des
visions et le système auditif et la grande puissance données visuelles sont extraits de façon manuelle.
d’analyse et d’interprétation chez l’homme. Mais le Nous obtenons des descriptions de haut niveau des
problème majeur de l’indexation manuelle reste le coût images avec une modélisation conceptuelle du contenu
très élevé et surtout la subjectivité. En fait, le contenu visuel. Ces représentations permettent l’identification
-2-
SETIT2009
d’entités significatives dans une image ou dans une L’avantage des approches utilisées dans la
vidéo (un objet, une personne, etc.), des parties des deuxième génération des systèmes d’indexation est
objets (yeux dans une visage, bateau dans un lac, etc.) l’automatisation complète de la phase d’indexation et
ou de la scène représentées et les concepts qui leur la description du contenu par des caractéristiques
sont associés (un paysage, une tempête, etc.). Des visuelles. Cependant, le problème majeur avec ces
schémas de représentation comme les modèles systèmes est le gap sémantique entre les concepts de
relationnels et les modèles orientés objets sont utilisés. haut niveau chez l’utilisateur et les caractéristiques de
La recherche d’information pour ce type d’indexation bas niveau qui lui sont actuellement fournies pour
se fait de façon textuelle. Cependant, comme nous formuler ces requêtes et effectuer les recherches
l’avons déjà signalé, l’indexation manuelle présente un d’information. Dans la majorité des cas pratiques, la
coût très élevé et souffre de la subjectivité des similarité des propriétés perceptuelles n’est pas d’une
descriptions vu que les annotateurs sont des personnes grande utilité si elle n’est pas combinée avec une
différentes de celles qui envoient les requêtes. De plus similarité des informations de haut niveau. En effet, un
la quantité énorme de documents vidéo disponible des échecs majeurs de systèmes d’indexation actuels
chaque jour et la nature des applications actuelles est ce gap sémantique. Il réfère à la discontinuité entre
rendent l’indexation manuelle impossible. les caractéristiques et les descriptions du contenu qui
sont actuellement extraites automatiquement et la
Les systèmes de la deuxième génération se
richesse de sémantiques pouvant être exploités pour
focalisent sur l’automatisation complète de la phase
effectuer la recherche de données. Il peut être aussi
d’indexation. Ils s’adressent aux caractéristiques
définie comme étant le manque de coïncidence entre
perceptuelles comme la couleur, la texture, la forme,
l’information qui peut être extraite à partir d’une
les relations spatiales, etc. Les descripteurs du contenu
donnée visuelles et l’interprétation de cette même
sont extraits automatiquement au travers des mesures
donné pour un utilisateur dans une situation
objectives du contenu visuel. Ces systèmes exploitent
spécifique.
les techniques de traitement d’images et de
reconnaissance de forme qui fournissent des solutions La tendance actuelle est vers une troisième
pour modéliser et extraire les primitifs visuels. Ces génération de systèmes d’indexation automatique avec
techniques font donc partie intégrante des architectures plus d’informations sémantique sur le contenu
des systèmes d’indexation de la deuxième génération. audiovisuel. Les personnages, leurs rôles, les actions et
Ces derniers supportent la recherche par le contenu leurs relations logiques, etc. sont des informations
basée sur la combinaison des différentes qu’on cherche à extraire automatiquement sans ou avec
caractéristiques extraites. L’identification d’images un minimum d’intervention manuelle afin de permettre
recherchées consiste à exploiter des caractéristiques ou une indexation sémantique plus objective. L’indexation
des descripteurs du contenu (exemple : l’histogramme de la vidéo ne peut être efficace que si elle supporte
de couleur) pour comparer des objets visuels en des descriptions à un haut niveau d’abstraction. En fait,
mesurant les distances entre ces descripteurs. La la mémoire humaine est plus concernée par la structure
requête se fait donc par l’exemple. Quand l’utilisateur narrative du contenu que les simples éléments
envoie sa requête, celle-ci sera transformée en perceptuels d’une vidéo. Les spectateurs ne
quelques descripteurs de bas niveau et le moteur de s’intéressent pas à la segmentation en plan ou au
recherche doit trouver l’information la plus similaire à montage vidéo. Par contre ils aperçoivent le rythme des
partir d’une base de méta-donnés déjà existante. séquences (qui est inclus par le montage), les scènes
(qui sont obtenues à partir des plans), l’histoire (qui
A la différence des images fixes, la vidéo porte des
inclut les personnages et leurs rôles, les actions et leurs
messages instructifs au travers des multiples plans de
relations logiques, etc.), ainsi que les sentiments (qui
communication. Ceux-ci incluent la façon par laquelle
dépendent de la combinaison des objets perceptuels
les images d’une séquence vidéo sont liées ensemble
comme la couleur, les objets, la musique, etc. et de la
en utilisant des effets de montages (CUTs, fondus, etc.)
signification de la scène).
et les informations de haut niveau (les personnages, le
contenu de l’histoire et le message transmis par Réduire le gap sémantique présente le principal défi
l’éditeur, etc.). Le texte, ainsi que les autres données des nouveaux travaux de recherche dans le domaine
sensorielles tels que les sons et les paroles peuvent d’indexation de la vidéo par le contenu. Les nouveaux
aussi être exploités pour extraire des informations paradigme issus de cette problématique incluent la
utiles. Les travaux de recherche pour la deuxième modélisation sémantique de la vidéo, le paradigme de
génération des systèmes d’indexation se sont focalisés recherche interactive, l’interaction émotionnel et
plus particulièrement sur l’extraction automatique de la émotif, la recherche de la vidéo basée sur la perception
structure des vidéos. Ceci se fait à travers la détection humaine, l’interaction homme machine, les stratégies
des effets de transition qui permettent la décomposition d’apprentissage et de réaction de pertinence et les
des séquences vidéo et l’extraction des images clés. Le résumés intelligents. Dans la littérature plusieurs
contenu perceptuel de ces images clés est modélisé afin travaux ont abordé le problème de l’indexation
de faciliter l’accès aux segments vidéo représenté par sémantique de la vidéo [HAM 99][SMI 00][ZHA
ces images. Dans ce cas le problème de recherche de la 01][DIM 03][ENS 03][NAP 03][CHA 05]. Ces travaux
vidéo par le contenu est réduit au problème d’accès par s’adressent principalement à la réduction du gap
le contenu aux images fixes structurées. sémantique au travers des méthodes d’annotation et de
description automatique de haut niveau.
-3-
SETIT2009
La réduction du gap sémantique nécessite des œuvre (techniques de segmentation spatiotemporelle,

analyses plus complexes des caractéristiques de bas techniques de suivie d’objets, techniques de
niveau. L’exploitation efficace de ces caractéristiques classification, techniques de sélection d’images clés
peut se faire au travers des schémas d’indexation plus pour le résumé vidéo, etc.).
complexes en se basant sur des approches et des
Plusieurs techniques et outils d’analyse du contenu
techniques de l’intelligence artificielle. La question
AV ont été développés. Ces outils se basent sur des
essentielle qui se pose ici concerne la représentation
techniques des différents domaines suivants :
adéquate des vidéos et des connaissances pour ce type
de système. Les modèles de représentation des - Traitement d’image et de signal pour l’analyse des
concepts sémantiques [NAP 03] représentent le coeur composantes image et son.
d’une indexation intelligente. - Technologies de langage pour le texte et la parole.
Dans une chaîne typique d’indexation et de - Classification et reconnaissance (reconnaissance de
recherche d’information les médias d’entrée sous formes et de visages, etc.)
forme numérique sont traités par les modules - Techniques intelligentes (flou, neurone, etc.) pour
d’extraction des caractéristiques pour générer des l’analyse et l’interprétation des informations issues
descripteurs de bas niveau. Le système doit exploiter des autres techniques.
ces descripteurs selon des représentations adaptatives Les techniques d’analyse du contenu AV peuvent
pouvant assurer une communication conceptuelle et être classées selon différents critères possibles. Elles
sémantique avec l’utilisateur. Ceci soulève plusieurs peuvent être par exemple classées selon leur niveau
problèmes dont l’extraction d’indices visuels d’abstraction (bas niveau, moyen niveau ou haut
discriminants, l’indexation multidimensionnelle, la niveau). Pour une indexation de bas et de moyen
modélisation du contenu audiovisuel et de l’utilisateur, niveau les techniques suivantes peuvent être définies :
la catégorisation, etc. La recherche d’information par le
contenu tende à apporter une contribution originale à - Description de bas niveau : il s’agit de description du
ces problèmes intrinsèquement difficiles [NOZ 03]. contenu perceptuel (couleurs, textures, formes,
mouvement, etc.).
- Structuration hiérarchique du contenu vidéo et
3. Techniques et systèmes d’analyse de segmentation spatiotemporelle
contenu AV A un niveau d’abstraction plus élevé les techniques
suivantes sont définies. Elles permettent un accès aux
3.1. Outils d’analyse du contenu AV informations AV par le contenu sémantique (action,
Les techniques d’analyse du contenu AV sont temps, lieu, etc.).
définies relativement aux indices spatiotemporels et
- Résumé vidéo.
aux informations devant être extraites selon les besoins
en terme d’accès aux données multimédia. Dans ce - Segmentation en scènes (Macro segmentation).
cadre plusieurs tâches peuvent être définies. Parmi ces - Détection d’événements.
tâche nous pouvons citer l’analyse et l’extraction - Classification et catégorisation.
d'objets vidéo sémantiques [CAV 04], la recherche et la - Etc.
classification d'images clés, l’identification et la
reconnaissance automatique, par exemple, des spots Dans [BAI 05] la classification suivante a été
publicitaires [SAN 99] [MAO 92], la classification adoptée :
d'images en intérieures/ extérieures [SZU 98] [BOU – Outils d’analyse du contenu visuel. Ils concernent les
06], la reconnaissance et la classification des outils d’analyse des caractéristiques visuelles de bas
programmes TV [REA 02][CHU 02] [GLA 05][BER niveau (couleur, texture, forme et mouvement), les
01], etc. Des exemples de tâches d’analyse du contenu techniques de segmentation spatiale, temporelle et
AV sont proposés, à chaque édition, pour l’évaluation spatiotemporelle, les techniques de reconnaissances
dans le cadre de la conférence spécialisée TRECVID des caractères et les techniques de détection et de
[TRE 06]. reconnaissance de visages.
Les techniques d’analyse du contenu AV présentent – Outils d’analyse du contenu pour l’audio et la parole.
Ces outils font appel à des techniques d’analyse des
des outils d’extraction et de reconstitution
caractéristiques audio de bas niveau et à des
d’information qui ont pour objectif de produire et de
techniques de reconnaissance automatiques de la
reconstituer un ensemble d’informations à partir de parole (ASR).
l’analyse de la vidéo sous sa forme brute (signal
numérique). L’information extraite ou reconstituée peut – Outils d’analyse du contenu sémantique. Ces outils
être structurelle liée à l’organisation et la structure du se base principalement sur l’association de plusieurs
outils d’analyse du contenu AV. L’analyse du contenu
contenu et/ou sémantique qui s’intéresse aux situations
sémantique concerne la segmentation en scène
et aux concepts exprimés par les images et les sons.
(macro segmentation), la classification des plans et
L’extraction de la structure intrinsèque de la vidéo ainsi des scènes, la détection d’événements, le résumé
que des entités élémentaires de base d’un document vidéo, etc.
vidéo (segments : plans, scènes, objets, etc.) et la
caractérisation de leurs aspects visuels présentent des Chacune des techniques citées fait appel à une large
tâches de base à assurer par les techniques mises en panoplie de méthodes et d’approches proposées dans la
-4-
SETIT2009
littérature. Dans [BAI 05] une présentation objective et montre bien la complexité de ce type de systèmes.
de ces méthodes est proposée avec une bibliographie
très riche.
4. Applications des systèmes d’indexation
3.2. Structure des systèmes d’analyse du contenu AV de la vidéo par le contenu et nouvelles
contraintes
La structure des systèmes d’analyse du contenu AV
dépend principalement de l’application visée et des La connaissance des domaines et des types
informations nécessaires pour assurer l’accès désiré d’applications est de grande importance pour la
aux informations AV dans le cadre de cette application définition de la phase d’indexation. En fait, le choix et
(accès par informations sémantiques ou par la conception d’un système d’indexation sont guidés
informations visuelles de bas niveau, navigation par les besoins et les concepts du domaine de
structurée, etc.). Ces systèmes se basent sur une l'application visée. De plus les contraintes à respecter
combinaison structurée de différentes techniques pour lors de la mise en œuvre du système d’indexation sont
assurer des services particuliers. Devant la diversité définies par l’environnement de l’application. Dans ce
des approches proposées le choix des techniques à paragraphe nous passons en revue les principaux
exploiter n’est plus une tâche évidente. En fait il domaines et types d’application de l’indexation de la
n’existe pas des critères clairs permettant d’indiquer vidéo par le contenu tout en insistant sur les nouvelles
dans quelle situation et pourquoi utiliser une telle ou applications dans ce domaine et leurs besoins
telle technique. Dans ce cadre les informations d’ordre spécifiques. Ces besoins sont, d’une part exprimés en
général suivantes peuvent être prises en compte : terme de nécessité au niveau de la qualité du service et
des fonctionnalités fournies et d’autre part ils sont liés
- Certaines des techniques existantes sont dépendantes à l’environnement de l’application (temps réel,
de l’application visée et du contexte d’utilisation. puissance de calcul, etc.).
Dans ce cadre des informations contextuelles doivent
être fournies pour assurer convenablement le De part son caractère multimédia et sa richesse du
processus d’analyse. L’information extraite reste contenu qui le rend d’une grande facilité
fonctionnelle pour la solution d’un problème d’appréhension, la vidéo se multiplie à toutes les
déterminé dans un contexte donné. échelles et apparaît comme un média essentiel d’une
- Les techniques utilisées sont substantiellement basées société de l’information. Faciliter la manipulation de
sur des analyses statistiques d’un ensemble de l’information vidéo correspond à un fort besoin dans
caractéristiques de bas niveaux extraits directement les diverses industries de production, d’archivage ou de
du contenu AV. L’ensemble des caractéristiques distribution du contenu vidéo. En fait, l’indexation de
sélectionnées dépend de la tâche particulière à la vidéo par le contenu présente actuellement une
résoudre et plus particulièrement de la pertinence technologie clé pour plusieurs domaines d’application
jugée pour les observateurs humains dans un tels que l’internet, l’exploration des bibliothèques
problème particulier. multimédia distribuées et cinémathèques numériques
D’autres critères liés à la qualité du service, au en réseau, les applications scientifiques, le filtrage dans
temps d’exécution, au coût, etc. peuvent être aussi un flux de données audiovisuelles, la télévision
considérés. interactive et les applications de sécurité.
L’association de plusieurs techniques à différents De façon générale, nous distinguons trois
niveaux d’indexation, la multi modalité et la multi principaux types d’accès aux informations
fonctionnalité sont parmi les caractéristiques les plus audiovisuelles : Navigation, recherche et filtrage et
importantes des systèmes actuels d’analyse du contenu deux types d’applications : applications "push" et
AV. Ceci est lié à la diversité du contenu (types de applications "pull". Les applications "push" sont
document manipulé, les modalités considérées, etc.), à relatives à l’accès par navigation ou par recherche
la diversité des types d’accès désirés, à la diversité du comme par exemple les moteurs de recherche pour
contexte des applications considérées, etc. Devant internet ou les bases de données. Pour les applications
l’absence de procédures universelles, la combinaison "Pull" nous pouvons citer, par exemple, la diffusion et
de plusieurs techniques même pour une même tâche le filtrage du contenu dans le cadre de la télévision
peut être adoptée pour assurer des meilleurs résultats. interactive.
De même l’exploitation de plusieurs descripteurs pour Les systèmes d’indexation sont actuellement
une même caractéristique (couleur, texture, etc.) est
utilisés dans plusieurs types d’applications : les
souvent adoptée. Ceci permet une meilleure applications de stockage et de recherche, l’accès
caractérisation de cette entité visuelle pour une multimédia universel, la sélection du média en
meilleure description de l’objet vidéo considéré.
diffusion, la TV personnalisée, la télésurveillance et les
Dans la figure 2 nous présentons une structure applications de sécurité, etc. Les applications les plus
générique d’un système d’analyse du contenu AV. Elle innovantes concernent les filtres de média personnels,
exprime les interactions possibles entre les différents les navigateurs vidéo intelligents, les fonctionnalités de
outils d’analyse du contenu de différents niveaux gestion des informations vidéo pour la télévision
d’abstraction et pour différentes modalités d’un interactive, etc. Dans ce cadre plusieurs nouveaux
document vidéo. Cette structure reflète l’aspect d’un services peuvent être fournis à l’utilisateur : possibilité
système d’analyse du contenu AV de future génération de sélection automatique des chaînes TV et radio
-5-
SETIT2009
Figure 2. Modèle d’interaction possible entre des différents outils d’indexation
-6-
SETIT2009
selon le type de programme désiré, possibilité de des caméras de surveillance. Des nouvelles
navigation rapide dans des centaines de documents fonctionnalités sont intégrées dans les systèmes de
stockées provisoirement, accès dans une grande base télésurveillances pour les rendre plus intelligents et
de films à une séquence bien particulière, filtrage, etc. plus efficaces. Ceci concerne l’analyse des séquences
Des travaux qui visent à émerger ces applications dans vidéo acquises et la génération de descriptions de haut
des environnements tels que les serveurs multimédia niveau du contenu selon le besoin de l’application. Les
personnels et les appareils multimédia portables [CHA serveurs d’informations proposés dans [BOY 04] par
03] trouvent leurs intérêts. exemple offrent, en plus des fonctions de surveillance
classiques, la possibilité d’interaction avec les
Plusieurs nouveaux scénarios d’application des
applications des clients. Ils peuvent être configurés
systèmes d’indexation de la vidéo par le contenu sont
dynamiquement pour différentes fonctions plus
envisagés, par la suite nous présentons quelques
avancées autre que la simple description du contenu
exemples. Dans [DEN 05][STE 05b] une application
vidéo pour la surveillance. Le concept de base de ces
de l’indexation de la vidéo pour l’assistance de
serveurs a été introduit en comparaison avec le
conducteurs de voitures est proposée. Dans cette
principe de la caméra MPEG-7 [EBR 01]. Cette
application une voiture est considérée sur l’autoroute
dernière permet de fournir directement des
et dans un tunnel. Sur l’autoroute les lignes, les
descriptions du contenu vidéo en format XML
obstacles, la distance entre véhicules ainsi que les
pouvant être diffusées sur le réseau. Elle intègre des
autres utilisateurs de la route comme les voitures, les
fonctions d’analyse du contenu vidéo qui s’effectuent
vélos, les motos, les piétons et les animaux doivent
en temps réel lors de l’acquisition.
être distinguées. Pour un tunnel on commence par
identifier sont entrées, puis des algorithmes tenant La Figure 3 [FAB 04] et la Figure 4 [LEF 02b]
compte des conditions à l’intérieure de ces tunnels représentent deux autres exemples de scénario
sont appliqués pour l’identification des obstacles. Le d’application de l’indexation de la vidéo par le
changement des algorithmes appliqués à l’extérieur et contenu : Filtrage d’un flux vidéo et transmission
à l’intérieur des tunnels se fait de façon dynamique. intelligente des émissions sportives en direct.
Dans [ANA 06] une analyse de la structure de
systèmes de gestion de trafique et de surveillance
d’autoroutes est proposée. Ces systèmes sont basés sur
la combinaison de réseaux de capteurs d’images,
d’algorithmes de traitement d’images de bas niveau et Canal de transmission
Mesure de
similarité basée sur
des schémas de description MPEG-7 de haut niveau. les descripteurs
Les algorithmes de bas niveau sont utilisés pour MPEG-7
Source du stream vidéo
l’identification des véhicules ainsi que l’extraction de Station de réception
caractéristiques visuels et la détection de leur Figure 3. Filtrage d’un flux vidéo en ligne
changement dans le but de les exploiter pour la
détection des événements. Acquisition Détection
vidéo d’un but
Les travaux présentés dans [KIM 03][LEE 03]
s’intéressent à l’intégration de fonctions d’analyse de
contenu AV dans les PVR (Personal Video Recoder).
Dans [KIM 03] une méthode de détection de Transmission
aux abonnés
changement de scène pour les PVR est proposée.
L’objectif de ce travail est d’offrir à l’utilisateur un
ensemble de fonctionnalités tels que la navigation et
l’avancement et le saut rapide dans les vidéos
enregistrées. Dans [LEE 03] un outil de résumé Figure 4. Transmission intelligente des documents sportifs
automatique est introduit pour les PVR. Cet outil se en direct
base sur l’extraction de descripteurs visuel de bas La mise en œuvre des techniques d’analyse du
niveau MPEG-7 pour générer des indexes pour le contenu AV dans le cadre de ces applications pose des
résumé. Les indexes obtenus permettent de générer nouvelles contraintes liées principalement à la
non seulement un aperçue de la vidéo mais ils puissance de calcul, au temps réel, à la flexibilité du
permettent aussi un accès non linaire au contenu. De système et aussi à la consommation. Un intérêt
plus ces indexes supportent la recherche par similarité remarquable est de plus en plus consacré à la
des plans vidéos. contrainte temps réel à travers un grand nombre de
Dans [PER 02][BOY 04][STE 05a][PAT 99] les travaux dans la littérature [YAM 06] [STE 05a] [PER
techniques d’indexation de la vidéo par le contenu 02] [YOO 04] [KAS 03] [DEN 05] [STE 05b] [WOZ
sont exploitées pour les applications de 04] [LEF 01] [LEF 02a] [KAP 06] [SRI 03] [SAV 03]
télésurveillance. L’objectif principal d’utilisation des [BAE 03] [EOM 05] [CHA 04]. Vu l’importance de ce
techniques d’indexation de la vidéo pour ce type critère, depuis 2004, les informations sur la
d’applications est la détection des événements performance en terme de temps de calcul des
importants de façon automatique afin de gérer la algorithmes de détections de changement de plan sont
grande quantité des données vidéo actuellement issues collectées dans TRECVID [TRE 06]. Les traitements
-7-
SETIT2009
effectués en temps réel concernent par exemple concepteur doit définir le modèle de contenu en
l’identification des séquences vidéo, la génération respectent les besoins de l’application et le modèle de
temps réel des vidéos annotées pour la surveillance, l’utilisateur. Des connaissances sur les documents, des
l’indexation temps réel pour les programmes TV connaissances sur les concepts du domaine de
diffusés en direct (live), l’identification temps réel des l'application et des connaissances sur les utilisateurs
événements importants, etc. Selon la manière de prise sont exploitées. Dans cette étape le concepteur précise
en compte de la contrainte temps réel nous pouvons le type d’indexes et de la description du contenu qui
distinguer deux classes de travaux : celles qui correspondent aux besoins en terme d’accès aux
s’intéressent aux algorithmes et leurs modes information AV (type d’accès : navigation, recherche
d’application et celles qui s’intéressent aux techniques par objet ou par événement, etc.). Ceci permet au
d’implémentation de ces algorithmes. Dans le premier concepteur de définir le modèle du système d’analyse
cas nous pouvons citer par exemple l’application des du contenu AV à adopter ainsi que les techniques à
techniques d’analyse du contenu AV sur des images de utiliser et leurs interactions. L’étape suivante consiste
faible résolution [LEF 02a] ou l’extraction des à faire le choix des solutions (algorithmes et
descripteurs dans le domaine compressé [EOM approches) permettant la mise en œuvre concret du
05][BAE 03]. Dans le deuxième cas, les travaux système et des techniques choisies (exemple :
proposés concernent principalement l’utilisation combinaison de plusieurs descripteurs de couleurs et
d’accélérateurs matériels pour l’extraction des de texture ou de mouvement pour la détection de
descripteurs du contenu AV [SAV 03] [WOZ 04] changement de plan et la sélection d’images clés). Le
[YAM 06]. choix de ces algorithmes dépend de type de document
vidéo et de la qualité de service désirée.
5. Besoins en architectures matérielles Application
Besoins de
dédiées Æ Utilisateur
Æ Type du document l’application
Modèle du contenu
audiovisuel
Donnée
Image
Audio
Texte
À partir de l’étude de l’état de l’art de l’indexation
Informations à extraire
automatique de la vidéo par le contenu nous pouvons Exemples de Techniques
tirer les conclusions et les interprétations suivantes : Model générique
d’indexation bas, moyen et
haut niveau:
Æ Multi modalité Modèle du système Æ Techniques de segmentation
Æ Niveaux d’indexation d’analyse du contenu AV en plan, en objet
Dans le cadre de la problématique de Æ Niveau de segmentation ÆTechniques à mettre en ouvre Æ Macro segmentation
Æ etc ;
l’automatisation de l’indexation de la vidéo par le Æ Structure du system (interaction
entre les différentes techniques)
Æ Détection d’événement
Æ Résumé automatique
contenu, des modèles conceptuels et des méthodes Æ Reconnaissance de visages
Æ etc.
d’indexation basées sur des approches avancées ont Techniques à utiliser
été proposés. En fait, les systèmes d’indexation de la Exemple d’algorithmes :
Æ Algo de traitement d’images
vidéo de troisième génération ont pour objectif de Æ Histogramme de couleurs
Choix des outils (algorithmes)
Æ Filtres de détection de contour
fournir des possibilités d’accès plus faciles et plus Æ Réseau de neurones Æ Mise en oeuvre des techniques
Æ Algo de Traitement de signal d’analyse du contenu AV
intelligents aux informations audiovisuelles au travers Etc.
des méthodes d’analyse automatique du contenu Structure finale du système
Image
Audio
Texte
vidéo. Ces systèmes offrent une multitude de d’analyse du contenu AV
nouvelles fonctionnalités et de service de haut niveau. Donnée

Les concepts importants telles que la segmentation Système d’analyse du contenu AV
hiérarchique du contenu, la multi-modalité et Æ Tests et validation fonctionnelle
Æ Mise en œuvre et expérimentation
l’indexation multi-niveaux sont exploités. Les
systèmes proposés se basent sur une exploitation plus
Figure 5. Démarche de conception d’un système d’analyse
complexe des opérations d’analyse de bas niveau et
du contenu AV
sur la combinaison d’un nombre important de
La structure d’un système d’analyse du contenu
techniques et d’algorithmes en étroite interaction. De
AV et les algorithmes mis en œuvre dépendent donc
ce fait, les systèmes d’analyse du contenu sont
fortement de type de contenu manipulé et du cadre de
devenus beaucoup plus complexes comme nous
l’application. Dans ce contexte, une grande majorité
l’avons montré à travers le modèle proposé dans la
des systèmes proposés sont dédiés pour des domaines
figure 2.
restreints et des types de documents bien particuliers
Tenant compte de la diversité des modèles et des (exemple : surveillance, sport particulier, film, etc.).
méthodes de résolution du problème d’indexation Les approches utilisées dans ces systèmes sont
automatique de la vidéo, la structure d’un système spécifiques à une application donnée et elles sont
d’analyse du contenu AV peut avoir plusieurs difficilement généralisables. Dans le cadre de
configurations possibles. De plus, la grande diversité systèmes génériques devant supporter plusieurs types
des algorithmes pouvant être exploités complique de documents vidéo comme par exemple le cas de la
davantage la tâche du concepteur qui doit assurer un TV numérique, les choses deviennent beaucoup plus
meilleurs choix des techniques à mettre en œuvre. Ces complexes. En fait, devant l’absence d’outils
techniques sont définies relativement aux besoins de génériques le concepteur se trouve obligé d’adopter
l’application et aux types de documents analysés. plusieurs techniques à utiliser selon le cas. Ceci
L’organigramme proposé dans la figure 5 permet de augmente davantage la complexité du système qui doit
résumer la démarche à suivre pour la conception d’un assurer à la fois une grande puissance de calcul et une
système d’analyse du contenu AV. En premier lieu le grande flexibilité afin de pouvoir adapter facilement la
-8-
SETIT2009
structure de système selon le contexte de l’application. exploitation plus efficace des descripteurs de bas
niveau pour réduire le gap sémantique. Ils offrent une
Si nous ajoutons à ces considérations de
multitude de nouvelles fonctionnalités et de service de
complexité la nature des environnements des
haut niveau en exploitant des concepts importants
nouvelles applications de l’indexation de la vidéo avec
telles que la segmentation hiérarchique du contenu, la
plus des besoins en terme de temps réel, de flexibilité
multi modalité et l’indexation multi-niveaux.
(adaptation dynamique selon les besoins de
Cependant, les systèmes obtenus deviennent beaucoup
l’application), de consommation et de portabilité (des
plus complexes et nécessitent une plus grande
applications mobiles et les PVR), le choix de la
puissance de calcul.
technologie de système électronique permettant de
supporter ces contraintes est fortement posé. Ceci pose Une analyse de l’état de l’art des applications
aussi des questions méthodologiques liées à cette actuelles des systèmes d’indexation a été aussi
diversité de techniques et d’environnements proposée dans ce papier. Cette analyse montre
d’application : spécification, rapidité de validation, l’existence d’une multitude de nouveaux champs
analyse de l’espace de solution, choix de configuration d’application des techniques d’indexation notamment
matérielle adéquate, supporter la complexité de ces pour la télévision interactive, les PVR, les applications
systèmes, temps de mise sur le marché, etc. de sécurité, etc. Ces applications présentent des
nouvelles contraintes plus critiques (puissance et
L’accélération matérielle des techniques d’analyse
temps de calcul, flexibilité, etc.) devant être prise en
du contenu AV et l’exploitation des nouvelles
compte lors de la mise en œuvre des systèmes
technologies de systèmes embarqués pour l’indexation
d’analyse du contenu AV.
automatique de la vidéo par le contenu deviennent une
nécessité. Ceci afin de permettre de supporter la Cette étude nous a permis de montrer l’intérêt et la
complexité des systèmes d’analyse du contenu AV et nécessité de faire recours aux nouvelles technologies
les contraintes des nouvelles applications dans ce de systèmes embarqués. Ceci est afin de pouvoir
domaine. Dans ce cadre la technologie reconfigurable supporter la complexité des systèmes actuels et de
peut être de grand intérêt surtout pour des applications répondre aux besoins des nouveaux environnements
comme la TV interactive et les PVR où les contraintes d’application. Une discussion de ce problème a été
de temps et de puissance de calcul sont fortement proposée dans le cinquième paragraphe.
posées à côté des exigences en terme de flexibilité et
de limitation de ressources. Les systèmes à base
d’architectures reconfigurables permettent une
REFERENCES
adaptation de la structure du système d’analyse du [ANA06] C. ANAGNOSTOPOULOS, T.
contenu AV selon le besoin tout en assurant une forte ALEXANDROPOULOS, V. LOUMOS et E.
puissance de calcul. L’adaptation de la structure de KAYAFAS, "Intelligent traffic management through
systèmes d’analyse de contenu AV concerne le MPEG-7 vehicle flow surveillance", jva, pp. 202-207,
changement d’algorithmes appliqués selon le contexte IEEE John Vincent Atanasoff 2006 International
(exemple : type de documents) et la qualité de service Symposium on Modern Computing (JVA'06), 2006.
ainsi que le changement de fonctionnalité et du service [BAE 03] B. BAE, SUN WOO YANG et YONG
fourni. MAN RO, "Fast MPEG-7 visual descriptor extraction
using DCT coefficient", TENCON 2003. Conference
6. Conclusion on Convergent Technologies for Asia-Pacific Region,
pages: 1136- 1139 Vol.3, 15-17 Oct. 2003.
Le travail présenté dans ce papier constitue une
contribution à l’étude de l’indexation automatique de [BAI 05] W. BAILER, F. HÖLLER , A. MESSINA,
la vidéo par le contenu en vue de la conception de D. AIROLA, P. SCHALLAUER et M.
système embarqué dédié à ce type d’application HAUSENBLAS, "State of the Art of Content Analysis
multimédia. Après une discussion de la problématique Tools for Video, Audio and Speech", Report, FP6-IST-
d’automatisation de l’indexation nous avons présenté 507336 PrestoSpace Deliverable D15.3 MDS3,
les trois générations des systèmes d’indexation, depuis 10/03/2005.
les systèmes classiques basés sur l’intervention
manuelle jusqu’aux systèmes actuels. De même nous [BER 01] M. BERTINI, A. DEL BIMBO et P. PALA,
"Content-Based Indexing and Retrieval of TV News",
avons discuté la problématique majeure de
l’indexation automatique de la vidéo par le contenu Pattern Recognition Letters 22 pp. 503-516, 2001.
qui est le gap sémantique entre le besoin conceptuel de [BOU 06] L. BOUSSAID, "Etude et implantation de
l’utilisateur et les descripteurs perceptuels de bas descripteurs de contenu AV pour les applications
niveau qui peuvent être extraits automatiquement. multimedia temps reel", thèse de doctorat, Ecole
Dans ce papier nous avons aussi proposé un aperçu nationale d’ingénieurs de Sfax, 2006.
des techniques et des outils d’analyse du contenu AV
pour l’indexation de la vidéo ainsi que les structures [BOY 04] J. E. BOYD, M. SAYLES, L. OLSEN et P.
possibles de systèmes d’analyse du contenu et TARJAN, "Content Description Servers for
l’interaction entre les différentes techniques qui le Networked Video Surveillance", International
constituent. Ces systèmes se caractérisent par la Conference on Information Technology: Coding and
combinaison d’une multitude de techniques et une Computing (ITCC'04) Volume 2, p. 798, 2004.
-9-
SETIT2009
[CAL 04] J. CALIĆ, "Highly Efficient Low-Level 2004-09-24.

Feature Extraction For Video Representation And
[GLA 05] R. GLASBERG, A. SAMOUR, K.
Retrieveal", thèse, Department of Electronic
ELAZOUZI et T. SIKORA, "Cartoon-Recognition
Engineering, Queen Mary, University of London.
Using Video & Audio Descriptors", 13th European
[CAV 04] A. CAVALLARO et T. EBRAHIMI, Signal Processing Conference, Antalya – Turquie,
"Interaction between High-Level and Low-Level Septembre 2005.
Image Analysis for Semantic Video Object
[HAM 99] A. HAMPAPUR, "Semantic Video
Extraction", EURASIP Journal on Applied Signal
Indexing: Approach and Issues", SIGMOD Rec,
Processing, Volume (2004), Issue 6, pp. 786-797,
volume 28, issue 1, pages: 32-39, 1999.
2004.
[KAS 03] E. KASUTANI et A. YAMADA: "An
[CHA 03] H.W. CHANG, "A Study on Content-Based
Adaptive Feature Comparison Method for Real-time
Video Retrieval", travail dirigé par Dr. Ling-Hwei
Video Identification", IEEE Proc. of International
Chen, Institute of Computer and Information Science,
Conference on Image Processing (ICIP 2003), vol.II,
National Chiao Tung University.
pp. 5-8, September 2003.
http://debut.cis.nctu.edu.tw/pages/Demo/CBVR/paper
[KAP 06] R. KAPELA, A. RYBARCZYK, P.
_E.pdf
SNIATALA et R. RUDNICKI, "Hardware Realization
[CHA 04] J.Y. CHANG, H.C. FANG, Y.W. HUANG et Of The MPEG-7 Edge Histogram Descriptor", Mixed
L.G. CHEN, "Architecture of MPEG-7 color structure Design of Integrated Circuits and System, MIXDES
description generator for realtime video applications", 2006. Page(s): 675- 678, 22-24 June 2006.
Internatinal conference on Image Processing (ICIP),
[KIM 03] J.R. KIM, S. SUH et S. SULL, "Fast scene
2004.
change detection for personal video recorder", ICCE
[CHA 05] M. CHARHAD, "Modèles de Documents 2003 IEEE International Conference, Consumer
Vidéo basés sur le Formalisme des Graphes Electronics, 2003, page(s): 236- 237,17-19 June 2003,
Conceptuels pour l’Indexation et la Recherche par le ISBN: 0-7803-7721-4.
Contenu Sémantique", Thèse de doctorat, université
[LEE 03] J.H. LEE, MEMBER, G.G. LEE et W.Y.
Joseph Fourier, novembre 2005.
KIM, "Automatic Video Summarizing Tool using
[CHUHong02] H. CHU HONG, "A Study of Content- MPEG-7 Descriptors for personal Video Recorder",
Based Video Classification, Indexing and Retrieval", IEEE Transactions on Consumer Electronics, Vol. 49,
Master of Philosophy, first-term research paper, Hong No. 3, AUGUST 2003.
Kong S.A.R., Novembre 2002.
[LEF 01] S. LEFEVRE, J. HOLLER et N. VINCENT,
[DEN 05] R. DENCHEV et W. STECHELE, "An "Segmentation temporelle de séquences d’images en
Experimentation Environment for MPEG-7 based couleurs compressées et non compressées en temps
Driver Assistance", Eurocon 2005, Belgrade, réel", Congrès francophone ORASIS de Vision par
November 22-24, 2005. Ordinateur. Cahors (France). p. 329–338. 2001.
[DIM 03] N. DIMITROVA, "Multimedia content [LEF 02a] S LEFEVRE, J. HOLLER et N. VINCENT,
analysis: The next wave", International conference on "A Review of Real-time Segmentation of
Image and Video Retrieval, Lecture Note in Computer Uncompressed Video Sequences for Content-Based
Science, vol. 2728, Springer (2003) 8-17. Search and Retrieval", Real Time Imaging. Septembre
2002.
[EBR 01] T. EBRAHIMI, Y. ABDELJAOUED, R.M.
FIGUERAS I VENTURA et O. DIVORRA ESCODA, [LEF 02b] S. LEFEVRE, "Détection d'Evènements
"MPEG-7 camera", International Conference on dans une Séquence Vidéo", Thèse en Informatique,
Image Processing, page(s): 600-603 vol.3, Ecole Doctorale : Santé, Sciences et Technologies,
Thessaloniki, Greece, 2001. Décembre 2002.
[ENS 03] P. ENSER et C. SANDOM, "Towards a [MAO 92] J. MAO et A.K. JAIN, "Texture
comprehensive survey of the semantic gap in visual Classification and Segmentation using Multiresolution
image retrieval", International conference on Image Simultaneous Autoregressive Models", Pattern
and Video Retrieval, Lecture Note in Computer Recognition, 25(2):pp.173-188, 1992.
Science, vol. 2728, Springer (2003) 8-17.
[NAP 03] M. NAPHADE et J. SMITH, "A hybrid
[EOM 05] M. EOM et Y. CHOE, "Fast Extraction of framework for detecting the semantics of concepts and
Edge Histogram in DCT Domain based on MPEG7", context", International conference on Image and Video
TRANSACTIONS ON ENGINEERING, Retrieval, Lecture Note in Computer Science, vol.
COMPUTING AND TECHNOLOGY V.9 2728, Springer (2003) 8-17.
NOVEMBER 2005 ISSN 1305-5313.
[NOZ 03] B. NOZHA et J. FREDERIC, "Recherche
[FAB 04] F. FALCHI, C. GENNARO et P. SAVINO, d'information par le contenu visuel", Editorial,
"Efficient Video Filtering of MPEG-7 Streams", Technique et science informatiques RSTI, série TSI,
Technical Report, Id: 2004-TR-38, CNR - Istituto di Vol.22 N° 9/2003. Hermes Science Publications.
Scienza e Tecnologie de l'Informazione 'A. Faedo'g,
- 10 -
SETIT2009
[PAT 99] P. PATRICK, D. DAMIEN, C. ANDREA et R.KIM et S.SULL, "Real-Time Video Indexing
B. MICHEL, "High Level Description of Video System for Live Digital Broadcast TV Programs",
Surveillance Sequences", ECMAST 99, May 99, Lecture notes in computer science , ISSU 3115, pages
Madrid , 1999. 261-269, 2004.
[PER 02] A. J. PERROTT, A. T. LINDSAY et A. P. [WOZ 04] B. WOZ et A. SAVAKIS, "A VHDL
PARKES, "Real-time multimedia tagging and content- MPEG-7 shape descriptor extractor", ACM/SIGDA
based retrieval for CCTV surveillance systems", 12th international symposium on Field programmable
proceedings-spie the international society for optical gate arrays, Monterey, California, USA, p. 246 – 246,
engineering, 2002, issu 4862, pages 40-49. February 22 - 24, 2004.
[REA 02] S. REAAIJMAKERS, J. DEN HARTOG et [ZHA 01] D. ZHANG et G. LU, "Segmentation of
J. BAAN, "Multimodal Topic Segmentation and moving objects in image sequence: A review", Circuit,
Classification on News Video", IEEE International Systems and Signal Processing, 20(2), 143-189, 2001.
Conference on Multimedia and Expo 2002,
Proceedings, Volume 2, pp. 33-36, 2002.
[SAN 99] J.M. SANCHEZ et X. BINEFA, "Automatic
Digital TV Commercial Recognition", Proc. VIII
National Symposium on Pattern Recognition and
Image Analysis (SNRFAI'99), Vol 1, pp.313-320,
Bilbao-Spain, Mars 1999.
[SAV 03] A. SAVAKIS, P. SNIATALA et R.
RUDNICKI, "Real-time Video Annotation using
MPEG-7 Motion Activity Descriptors", Mixed Design
of Integrated Circuits and System, MIXDES 2003.
[SMI 00] J.R. SMITH et A.B. BENITEZ, "Conceptual
Modeling of Audio-Visual Content", IEEE
international conference on Multimedia and Expo,
ICME 2000.
[SRITsrip03] T. SRIPAN, M. EL-SHARKAWY et M.
RIZKALLA, "Fast multiplierless approximation of the
DCT for MPEG-7 color layout descriptor", the 46th
IEEE International Midwest Symposium on Circuits
and Systems, 27-30 Dec. 2003 Pages: 708 - 713 Vol. 2.
[STE 05a] O. STEIGER, T. EBRAHIMI et A.
CAVALLARO, "Real-time generation of annotated
video for surveillance", Proceedings of IEE workshop
on image analysis for multimedia interactive services,
WIAMIS 2005.
[STE 05b] W.STECHELE et S.HERRMANN,
"Reconfigurable Hardware Acceleration for Video-
based Driver Assistance", Workshop on Hardware for
Visual Computing, Tübingen. April 29, 2005.
[SZU 98] M. SZUMMER et R. W. PICARD, "Indoor-
Outdoor Image Classification", Proceedings of the
International Workshop on Content-Based Access of
Image and Video Databases, "CAIVD'98",
Washington-USA, 1998.
[TRE 06] Guidelines for the TRECVID 2006
Evaluation,
http://www-lpir.nist.gov/projects/tv2006/tv2006.html
[YAM 06] K. YAMAOKA, T. MORIMOTO, H.
ADACHI et T. KOIDE, "Image segmentation and
pattern matching based FPGA/ASIC implementation
architecture of real-time object tracking", Proceedings
of the 2006 conference on Asia South Pacific design
automation, pp. 176 – 181, ISBN:0-7803-9451-8,
Yokohama, Japan, 2006.
[YOO 04] J.-C.YOON, H. KIM, S. S.CHUN, J.-
- 11 -

Indexation de La Vidéo Par Le Contenu Et Besoin en Architectures Matérielles Dédiées

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Indexation de La Vidéo Par Le Contenu Et Besoin en Architectures Matérielles Dédiées

Transféré par

Droits d'auteur :

Formats disponibles

SETIT 2009

5th International Conference: Sciences of Electronic,

Indexation De La Vidéo Par Le Contenu Et Besoin En

développées pour faciliter l’accès aux documents

contraintes particulières. visuel n’est généralement plus interprété de la même

1. Problématiques de l’automatisation de Parole Visage OCR texte Localisation Événements

La réduction du gap sémantique nécessite des œuvre (techniques de segmentation spatiotemporelle,

Figure 2. Modèle d’interaction possible entre des différents outils d’indexation

vidéo. Ces systèmes offrent une multitude de d’analyse du contenu AV

nouvelles fonctionnalités et de service de haut niveau. Donnée

[CAL 04] J. CALIĆ, "Highly Efficient Low-Level 2004-09-24.

Vous aimerez peut-être aussi