Académique Documents
Professionnel Documents
Culture Documents
Résumé: Dans ce papier nous avons proposé une étude du domaine de l’indexation de la vidéo par le contenu dans le
but d’examiner l’impact des nouvelles exigences dans ce domaine sur le choix des méthodes de conception et des
solutions technologiques pouvant être utilisées pour la mise en œuvre d’architectures matérielles dédiées pour ce type
d’application. Il s’agit d’une étude de ce domaine à travers les caractéristiques et les besoins des nouvelles applications
possibles et des techniques mises en œuvre pour l’indexation de la vidéo par le contenu. Dans ce cadre un modèle
générique d’un système d’analyse du contenu audio visuel a été proposé. Il exprime l’interaction et les combinaisons
possibles des techniques existantes pour différents types d’application et en tenant compte des principales
caractéristiques des systèmes d’indexation actuels. Des exemples d’applications de ces systèmes ont étés aussi présentés
tout en mettant l’accent sur leurs exigences. Une discussion des besoins spécifiques des systèmes d’indexation actuels et
la nécessité de faire recours aux nouvelles technologies des systèmes embarqués a été proposée à la fin de ce papier.
Mots clés: Indexation par le contenu, vidéo, applications temps réel, architectures matérielles dédiées.
-1-
SETIT2009
-2-
SETIT2009
d’entités significatives dans une image ou dans une L’avantage des approches utilisées dans la
vidéo (un objet, une personne, etc.), des parties des deuxième génération des systèmes d’indexation est
objets (yeux dans une visage, bateau dans un lac, etc.) l’automatisation complète de la phase d’indexation et
ou de la scène représentées et les concepts qui leur la description du contenu par des caractéristiques
sont associés (un paysage, une tempête, etc.). Des visuelles. Cependant, le problème majeur avec ces
schémas de représentation comme les modèles systèmes est le gap sémantique entre les concepts de
relationnels et les modèles orientés objets sont utilisés. haut niveau chez l’utilisateur et les caractéristiques de
La recherche d’information pour ce type d’indexation bas niveau qui lui sont actuellement fournies pour
se fait de façon textuelle. Cependant, comme nous formuler ces requêtes et effectuer les recherches
l’avons déjà signalé, l’indexation manuelle présente un d’information. Dans la majorité des cas pratiques, la
coût très élevé et souffre de la subjectivité des similarité des propriétés perceptuelles n’est pas d’une
descriptions vu que les annotateurs sont des personnes grande utilité si elle n’est pas combinée avec une
différentes de celles qui envoient les requêtes. De plus similarité des informations de haut niveau. En effet, un
la quantité énorme de documents vidéo disponible des échecs majeurs de systèmes d’indexation actuels
chaque jour et la nature des applications actuelles est ce gap sémantique. Il réfère à la discontinuité entre
rendent l’indexation manuelle impossible. les caractéristiques et les descriptions du contenu qui
sont actuellement extraites automatiquement et la
Les systèmes de la deuxième génération se
richesse de sémantiques pouvant être exploités pour
focalisent sur l’automatisation complète de la phase
effectuer la recherche de données. Il peut être aussi
d’indexation. Ils s’adressent aux caractéristiques
définie comme étant le manque de coïncidence entre
perceptuelles comme la couleur, la texture, la forme,
l’information qui peut être extraite à partir d’une
les relations spatiales, etc. Les descripteurs du contenu
donnée visuelles et l’interprétation de cette même
sont extraits automatiquement au travers des mesures
donné pour un utilisateur dans une situation
objectives du contenu visuel. Ces systèmes exploitent
spécifique.
les techniques de traitement d’images et de
reconnaissance de forme qui fournissent des solutions La tendance actuelle est vers une troisième
pour modéliser et extraire les primitifs visuels. Ces génération de systèmes d’indexation automatique avec
techniques font donc partie intégrante des architectures plus d’informations sémantique sur le contenu
des systèmes d’indexation de la deuxième génération. audiovisuel. Les personnages, leurs rôles, les actions et
Ces derniers supportent la recherche par le contenu leurs relations logiques, etc. sont des informations
basée sur la combinaison des différentes qu’on cherche à extraire automatiquement sans ou avec
caractéristiques extraites. L’identification d’images un minimum d’intervention manuelle afin de permettre
recherchées consiste à exploiter des caractéristiques ou une indexation sémantique plus objective. L’indexation
des descripteurs du contenu (exemple : l’histogramme de la vidéo ne peut être efficace que si elle supporte
de couleur) pour comparer des objets visuels en des descriptions à un haut niveau d’abstraction. En fait,
mesurant les distances entre ces descripteurs. La la mémoire humaine est plus concernée par la structure
requête se fait donc par l’exemple. Quand l’utilisateur narrative du contenu que les simples éléments
envoie sa requête, celle-ci sera transformée en perceptuels d’une vidéo. Les spectateurs ne
quelques descripteurs de bas niveau et le moteur de s’intéressent pas à la segmentation en plan ou au
recherche doit trouver l’information la plus similaire à montage vidéo. Par contre ils aperçoivent le rythme des
partir d’une base de méta-donnés déjà existante. séquences (qui est inclus par le montage), les scènes
(qui sont obtenues à partir des plans), l’histoire (qui
A la différence des images fixes, la vidéo porte des
inclut les personnages et leurs rôles, les actions et leurs
messages instructifs au travers des multiples plans de
relations logiques, etc.), ainsi que les sentiments (qui
communication. Ceux-ci incluent la façon par laquelle
dépendent de la combinaison des objets perceptuels
les images d’une séquence vidéo sont liées ensemble
comme la couleur, les objets, la musique, etc. et de la
en utilisant des effets de montages (CUTs, fondus, etc.)
signification de la scène).
et les informations de haut niveau (les personnages, le
contenu de l’histoire et le message transmis par Réduire le gap sémantique présente le principal défi
l’éditeur, etc.). Le texte, ainsi que les autres données des nouveaux travaux de recherche dans le domaine
sensorielles tels que les sons et les paroles peuvent d’indexation de la vidéo par le contenu. Les nouveaux
aussi être exploités pour extraire des informations paradigme issus de cette problématique incluent la
utiles. Les travaux de recherche pour la deuxième modélisation sémantique de la vidéo, le paradigme de
génération des systèmes d’indexation se sont focalisés recherche interactive, l’interaction émotionnel et
plus particulièrement sur l’extraction automatique de la émotif, la recherche de la vidéo basée sur la perception
structure des vidéos. Ceci se fait à travers la détection humaine, l’interaction homme machine, les stratégies
des effets de transition qui permettent la décomposition d’apprentissage et de réaction de pertinence et les
des séquences vidéo et l’extraction des images clés. Le résumés intelligents. Dans la littérature plusieurs
contenu perceptuel de ces images clés est modélisé afin travaux ont abordé le problème de l’indexation
de faciliter l’accès aux segments vidéo représenté par sémantique de la vidéo [HAM 99][SMI 00][ZHA
ces images. Dans ce cas le problème de recherche de la 01][DIM 03][ENS 03][NAP 03][CHA 05]. Ces travaux
vidéo par le contenu est réduit au problème d’accès par s’adressent principalement à la réduction du gap
le contenu aux images fixes structurées. sémantique au travers des méthodes d’annotation et de
description automatique de haut niveau.
-3-
SETIT2009
-4-
SETIT2009
littérature. Dans [BAI 05] une présentation objective et montre bien la complexité de ce type de systèmes.
de ces méthodes est proposée avec une bibliographie
très riche.
4. Applications des systèmes d’indexation
3.2. Structure des systèmes d’analyse du contenu AV de la vidéo par le contenu et nouvelles
contraintes
La structure des systèmes d’analyse du contenu AV
dépend principalement de l’application visée et des La connaissance des domaines et des types
informations nécessaires pour assurer l’accès désiré d’applications est de grande importance pour la
aux informations AV dans le cadre de cette application définition de la phase d’indexation. En fait, le choix et
(accès par informations sémantiques ou par la conception d’un système d’indexation sont guidés
informations visuelles de bas niveau, navigation par les besoins et les concepts du domaine de
structurée, etc.). Ces systèmes se basent sur une l'application visée. De plus les contraintes à respecter
combinaison structurée de différentes techniques pour lors de la mise en œuvre du système d’indexation sont
assurer des services particuliers. Devant la diversité définies par l’environnement de l’application. Dans ce
des approches proposées le choix des techniques à paragraphe nous passons en revue les principaux
exploiter n’est plus une tâche évidente. En fait il domaines et types d’application de l’indexation de la
n’existe pas des critères clairs permettant d’indiquer vidéo par le contenu tout en insistant sur les nouvelles
dans quelle situation et pourquoi utiliser une telle ou applications dans ce domaine et leurs besoins
telle technique. Dans ce cadre les informations d’ordre spécifiques. Ces besoins sont, d’une part exprimés en
général suivantes peuvent être prises en compte : terme de nécessité au niveau de la qualité du service et
des fonctionnalités fournies et d’autre part ils sont liés
- Certaines des techniques existantes sont dépendantes à l’environnement de l’application (temps réel,
de l’application visée et du contexte d’utilisation. puissance de calcul, etc.).
Dans ce cadre des informations contextuelles doivent
être fournies pour assurer convenablement le De part son caractère multimédia et sa richesse du
processus d’analyse. L’information extraite reste contenu qui le rend d’une grande facilité
fonctionnelle pour la solution d’un problème d’appréhension, la vidéo se multiplie à toutes les
déterminé dans un contexte donné. échelles et apparaît comme un média essentiel d’une
- Les techniques utilisées sont substantiellement basées société de l’information. Faciliter la manipulation de
sur des analyses statistiques d’un ensemble de l’information vidéo correspond à un fort besoin dans
caractéristiques de bas niveaux extraits directement les diverses industries de production, d’archivage ou de
du contenu AV. L’ensemble des caractéristiques distribution du contenu vidéo. En fait, l’indexation de
sélectionnées dépend de la tâche particulière à la vidéo par le contenu présente actuellement une
résoudre et plus particulièrement de la pertinence technologie clé pour plusieurs domaines d’application
jugée pour les observateurs humains dans un tels que l’internet, l’exploration des bibliothèques
problème particulier. multimédia distribuées et cinémathèques numériques
D’autres critères liés à la qualité du service, au en réseau, les applications scientifiques, le filtrage dans
temps d’exécution, au coût, etc. peuvent être aussi un flux de données audiovisuelles, la télévision
considérés. interactive et les applications de sécurité.
L’association de plusieurs techniques à différents De façon générale, nous distinguons trois
niveaux d’indexation, la multi modalité et la multi principaux types d’accès aux informations
fonctionnalité sont parmi les caractéristiques les plus audiovisuelles : Navigation, recherche et filtrage et
importantes des systèmes actuels d’analyse du contenu deux types d’applications : applications "push" et
AV. Ceci est lié à la diversité du contenu (types de applications "pull". Les applications "push" sont
document manipulé, les modalités considérées, etc.), à relatives à l’accès par navigation ou par recherche
la diversité des types d’accès désirés, à la diversité du comme par exemple les moteurs de recherche pour
contexte des applications considérées, etc. Devant internet ou les bases de données. Pour les applications
l’absence de procédures universelles, la combinaison "Pull" nous pouvons citer, par exemple, la diffusion et
de plusieurs techniques même pour une même tâche le filtrage du contenu dans le cadre de la télévision
peut être adoptée pour assurer des meilleurs résultats. interactive.
De même l’exploitation de plusieurs descripteurs pour Les systèmes d’indexation sont actuellement
une même caractéristique (couleur, texture, etc.) est
utilisés dans plusieurs types d’applications : les
souvent adoptée. Ceci permet une meilleure applications de stockage et de recherche, l’accès
caractérisation de cette entité visuelle pour une multimédia universel, la sélection du média en
meilleure description de l’objet vidéo considéré.
diffusion, la TV personnalisée, la télésurveillance et les
Dans la figure 2 nous présentons une structure applications de sécurité, etc. Les applications les plus
générique d’un système d’analyse du contenu AV. Elle innovantes concernent les filtres de média personnels,
exprime les interactions possibles entre les différents les navigateurs vidéo intelligents, les fonctionnalités de
outils d’analyse du contenu de différents niveaux gestion des informations vidéo pour la télévision
d’abstraction et pour différentes modalités d’un interactive, etc. Dans ce cadre plusieurs nouveaux
document vidéo. Cette structure reflète l’aspect d’un services peuvent être fournis à l’utilisateur : possibilité
système d’analyse du contenu AV de future génération de sélection automatique des chaînes TV et radio
-5-
SETIT2009
-6-
SETIT2009
selon le type de programme désiré, possibilité de des caméras de surveillance. Des nouvelles
navigation rapide dans des centaines de documents fonctionnalités sont intégrées dans les systèmes de
stockées provisoirement, accès dans une grande base télésurveillances pour les rendre plus intelligents et
de films à une séquence bien particulière, filtrage, etc. plus efficaces. Ceci concerne l’analyse des séquences
Des travaux qui visent à émerger ces applications dans vidéo acquises et la génération de descriptions de haut
des environnements tels que les serveurs multimédia niveau du contenu selon le besoin de l’application. Les
personnels et les appareils multimédia portables [CHA serveurs d’informations proposés dans [BOY 04] par
03] trouvent leurs intérêts. exemple offrent, en plus des fonctions de surveillance
classiques, la possibilité d’interaction avec les
Plusieurs nouveaux scénarios d’application des
applications des clients. Ils peuvent être configurés
systèmes d’indexation de la vidéo par le contenu sont
dynamiquement pour différentes fonctions plus
envisagés, par la suite nous présentons quelques
avancées autre que la simple description du contenu
exemples. Dans [DEN 05][STE 05b] une application
vidéo pour la surveillance. Le concept de base de ces
de l’indexation de la vidéo pour l’assistance de
serveurs a été introduit en comparaison avec le
conducteurs de voitures est proposée. Dans cette
principe de la caméra MPEG-7 [EBR 01]. Cette
application une voiture est considérée sur l’autoroute
dernière permet de fournir directement des
et dans un tunnel. Sur l’autoroute les lignes, les
descriptions du contenu vidéo en format XML
obstacles, la distance entre véhicules ainsi que les
pouvant être diffusées sur le réseau. Elle intègre des
autres utilisateurs de la route comme les voitures, les
fonctions d’analyse du contenu vidéo qui s’effectuent
vélos, les motos, les piétons et les animaux doivent
en temps réel lors de l’acquisition.
être distinguées. Pour un tunnel on commence par
identifier sont entrées, puis des algorithmes tenant La Figure 3 [FAB 04] et la Figure 4 [LEF 02b]
compte des conditions à l’intérieure de ces tunnels représentent deux autres exemples de scénario
sont appliqués pour l’identification des obstacles. Le d’application de l’indexation de la vidéo par le
changement des algorithmes appliqués à l’extérieur et contenu : Filtrage d’un flux vidéo et transmission
à l’intérieur des tunnels se fait de façon dynamique. intelligente des émissions sportives en direct.
Dans [ANA 06] une analyse de la structure de
systèmes de gestion de trafique et de surveillance
d’autoroutes est proposée. Ces systèmes sont basés sur
la combinaison de réseaux de capteurs d’images,
d’algorithmes de traitement d’images de bas niveau et Canal de transmission
Mesure de
similarité basée sur
des schémas de description MPEG-7 de haut niveau. les descripteurs
Les algorithmes de bas niveau sont utilisés pour MPEG-7
Source du stream vidéo
l’identification des véhicules ainsi que l’extraction de Station de réception
caractéristiques visuels et la détection de leur Figure 3. Filtrage d’un flux vidéo en ligne
changement dans le but de les exploiter pour la
détection des événements. Acquisition Détection
vidéo d’un but
Les travaux présentés dans [KIM 03][LEE 03]
s’intéressent à l’intégration de fonctions d’analyse de
contenu AV dans les PVR (Personal Video Recoder).
Dans [KIM 03] une méthode de détection de Transmission
aux abonnés
changement de scène pour les PVR est proposée.
L’objectif de ce travail est d’offrir à l’utilisateur un
ensemble de fonctionnalités tels que la navigation et
l’avancement et le saut rapide dans les vidéos
enregistrées. Dans [LEE 03] un outil de résumé Figure 4. Transmission intelligente des documents sportifs
automatique est introduit pour les PVR. Cet outil se en direct
base sur l’extraction de descripteurs visuel de bas La mise en œuvre des techniques d’analyse du
niveau MPEG-7 pour générer des indexes pour le contenu AV dans le cadre de ces applications pose des
résumé. Les indexes obtenus permettent de générer nouvelles contraintes liées principalement à la
non seulement un aperçue de la vidéo mais ils puissance de calcul, au temps réel, à la flexibilité du
permettent aussi un accès non linaire au contenu. De système et aussi à la consommation. Un intérêt
plus ces indexes supportent la recherche par similarité remarquable est de plus en plus consacré à la
des plans vidéos. contrainte temps réel à travers un grand nombre de
Dans [PER 02][BOY 04][STE 05a][PAT 99] les travaux dans la littérature [YAM 06] [STE 05a] [PER
techniques d’indexation de la vidéo par le contenu 02] [YOO 04] [KAS 03] [DEN 05] [STE 05b] [WOZ
sont exploitées pour les applications de 04] [LEF 01] [LEF 02a] [KAP 06] [SRI 03] [SAV 03]
télésurveillance. L’objectif principal d’utilisation des [BAE 03] [EOM 05] [CHA 04]. Vu l’importance de ce
techniques d’indexation de la vidéo pour ce type critère, depuis 2004, les informations sur la
d’applications est la détection des événements performance en terme de temps de calcul des
importants de façon automatique afin de gérer la algorithmes de détections de changement de plan sont
grande quantité des données vidéo actuellement issues collectées dans TRECVID [TRE 06]. Les traitements
-7-
SETIT2009
effectués en temps réel concernent par exemple concepteur doit définir le modèle de contenu en
l’identification des séquences vidéo, la génération respectent les besoins de l’application et le modèle de
temps réel des vidéos annotées pour la surveillance, l’utilisateur. Des connaissances sur les documents, des
l’indexation temps réel pour les programmes TV connaissances sur les concepts du domaine de
diffusés en direct (live), l’identification temps réel des l'application et des connaissances sur les utilisateurs
événements importants, etc. Selon la manière de prise sont exploitées. Dans cette étape le concepteur précise
en compte de la contrainte temps réel nous pouvons le type d’indexes et de la description du contenu qui
distinguer deux classes de travaux : celles qui correspondent aux besoins en terme d’accès aux
s’intéressent aux algorithmes et leurs modes information AV (type d’accès : navigation, recherche
d’application et celles qui s’intéressent aux techniques par objet ou par événement, etc.). Ceci permet au
d’implémentation de ces algorithmes. Dans le premier concepteur de définir le modèle du système d’analyse
cas nous pouvons citer par exemple l’application des du contenu AV à adopter ainsi que les techniques à
techniques d’analyse du contenu AV sur des images de utiliser et leurs interactions. L’étape suivante consiste
faible résolution [LEF 02a] ou l’extraction des à faire le choix des solutions (algorithmes et
descripteurs dans le domaine compressé [EOM approches) permettant la mise en œuvre concret du
05][BAE 03]. Dans le deuxième cas, les travaux système et des techniques choisies (exemple :
proposés concernent principalement l’utilisation combinaison de plusieurs descripteurs de couleurs et
d’accélérateurs matériels pour l’extraction des de texture ou de mouvement pour la détection de
descripteurs du contenu AV [SAV 03] [WOZ 04] changement de plan et la sélection d’images clés). Le
[YAM 06]. choix de ces algorithmes dépend de type de document
vidéo et de la qualité de service désirée.
5. Besoins en architectures matérielles Application
Besoins de
dédiées Æ Utilisateur
Æ Type du document l’application
Modèle du contenu
audiovisuel
Donnée
Image
Audio
Texte
À partir de l’étude de l’état de l’art de l’indexation
Informations à extraire
automatique de la vidéo par le contenu nous pouvons Exemples de Techniques
tirer les conclusions et les interprétations suivantes : Model générique
d’indexation bas, moyen et
haut niveau:
Æ Multi modalité Modèle du système Æ Techniques de segmentation
Æ Niveaux d’indexation d’analyse du contenu AV en plan, en objet
Dans le cadre de la problématique de Æ Niveau de segmentation ÆTechniques à mettre en ouvre Æ Macro segmentation
Æ etc ;
l’automatisation de l’indexation de la vidéo par le Æ Structure du system (interaction
entre les différentes techniques)
Æ Détection d’événement
Æ Résumé automatique
contenu, des modèles conceptuels et des méthodes Æ Reconnaissance de visages
Æ etc.
d’indexation basées sur des approches avancées ont Techniques à utiliser
été proposés. En fait, les systèmes d’indexation de la Exemple d’algorithmes :
Æ Algo de traitement d’images
vidéo de troisième génération ont pour objectif de Æ Histogramme de couleurs
Choix des outils (algorithmes)
Æ Filtres de détection de contour
fournir des possibilités d’accès plus faciles et plus Æ Réseau de neurones Æ Mise en oeuvre des techniques
Æ Algo de Traitement de signal d’analyse du contenu AV
intelligents aux informations audiovisuelles au travers Etc.
des méthodes d’analyse automatique du contenu Structure finale du système
Image
Audio
Texte
-8-
SETIT2009
structure de système selon le contexte de l’application. exploitation plus efficace des descripteurs de bas
niveau pour réduire le gap sémantique. Ils offrent une
Si nous ajoutons à ces considérations de
multitude de nouvelles fonctionnalités et de service de
complexité la nature des environnements des
haut niveau en exploitant des concepts importants
nouvelles applications de l’indexation de la vidéo avec
telles que la segmentation hiérarchique du contenu, la
plus des besoins en terme de temps réel, de flexibilité
multi modalité et l’indexation multi-niveaux.
(adaptation dynamique selon les besoins de
Cependant, les systèmes obtenus deviennent beaucoup
l’application), de consommation et de portabilité (des
plus complexes et nécessitent une plus grande
applications mobiles et les PVR), le choix de la
puissance de calcul.
technologie de système électronique permettant de
supporter ces contraintes est fortement posé. Ceci pose Une analyse de l’état de l’art des applications
aussi des questions méthodologiques liées à cette actuelles des systèmes d’indexation a été aussi
diversité de techniques et d’environnements proposée dans ce papier. Cette analyse montre
d’application : spécification, rapidité de validation, l’existence d’une multitude de nouveaux champs
analyse de l’espace de solution, choix de configuration d’application des techniques d’indexation notamment
matérielle adéquate, supporter la complexité de ces pour la télévision interactive, les PVR, les applications
systèmes, temps de mise sur le marché, etc. de sécurité, etc. Ces applications présentent des
nouvelles contraintes plus critiques (puissance et
L’accélération matérielle des techniques d’analyse
temps de calcul, flexibilité, etc.) devant être prise en
du contenu AV et l’exploitation des nouvelles
compte lors de la mise en œuvre des systèmes
technologies de systèmes embarqués pour l’indexation
d’analyse du contenu AV.
automatique de la vidéo par le contenu deviennent une
nécessité. Ceci afin de permettre de supporter la Cette étude nous a permis de montrer l’intérêt et la
complexité des systèmes d’analyse du contenu AV et nécessité de faire recours aux nouvelles technologies
les contraintes des nouvelles applications dans ce de systèmes embarqués. Ceci est afin de pouvoir
domaine. Dans ce cadre la technologie reconfigurable supporter la complexité des systèmes actuels et de
peut être de grand intérêt surtout pour des applications répondre aux besoins des nouveaux environnements
comme la TV interactive et les PVR où les contraintes d’application. Une discussion de ce problème a été
de temps et de puissance de calcul sont fortement proposée dans le cinquième paragraphe.
posées à côté des exigences en terme de flexibilité et
de limitation de ressources. Les systèmes à base
d’architectures reconfigurables permettent une
REFERENCES
adaptation de la structure du système d’analyse du [ANA06] C. ANAGNOSTOPOULOS, T.
contenu AV selon le besoin tout en assurant une forte ALEXANDROPOULOS, V. LOUMOS et E.
puissance de calcul. L’adaptation de la structure de KAYAFAS, "Intelligent traffic management through
systèmes d’analyse de contenu AV concerne le MPEG-7 vehicle flow surveillance", jva, pp. 202-207,
changement d’algorithmes appliqués selon le contexte IEEE John Vincent Atanasoff 2006 International
(exemple : type de documents) et la qualité de service Symposium on Modern Computing (JVA'06), 2006.
ainsi que le changement de fonctionnalité et du service [BAE 03] B. BAE, SUN WOO YANG et YONG
fourni. MAN RO, "Fast MPEG-7 visual descriptor extraction
using DCT coefficient", TENCON 2003. Conference
6. Conclusion on Convergent Technologies for Asia-Pacific Region,
pages: 1136- 1139 Vol.3, 15-17 Oct. 2003.
Le travail présenté dans ce papier constitue une
contribution à l’étude de l’indexation automatique de [BAI 05] W. BAILER, F. HÖLLER , A. MESSINA,
la vidéo par le contenu en vue de la conception de D. AIROLA, P. SCHALLAUER et M.
système embarqué dédié à ce type d’application HAUSENBLAS, "State of the Art of Content Analysis
multimédia. Après une discussion de la problématique Tools for Video, Audio and Speech", Report, FP6-IST-
d’automatisation de l’indexation nous avons présenté 507336 PrestoSpace Deliverable D15.3 MDS3,
les trois générations des systèmes d’indexation, depuis 10/03/2005.
les systèmes classiques basés sur l’intervention
manuelle jusqu’aux systèmes actuels. De même nous [BER 01] M. BERTINI, A. DEL BIMBO et P. PALA,
"Content-Based Indexing and Retrieval of TV News",
avons discuté la problématique majeure de
l’indexation automatique de la vidéo par le contenu Pattern Recognition Letters 22 pp. 503-516, 2001.
qui est le gap sémantique entre le besoin conceptuel de [BOU 06] L. BOUSSAID, "Etude et implantation de
l’utilisateur et les descripteurs perceptuels de bas descripteurs de contenu AV pour les applications
niveau qui peuvent être extraits automatiquement. multimedia temps reel", thèse de doctorat, Ecole
Dans ce papier nous avons aussi proposé un aperçu nationale d’ingénieurs de Sfax, 2006.
des techniques et des outils d’analyse du contenu AV
pour l’indexation de la vidéo ainsi que les structures [BOY 04] J. E. BOYD, M. SAYLES, L. OLSEN et P.
possibles de systèmes d’analyse du contenu et TARJAN, "Content Description Servers for
l’interaction entre les différentes techniques qui le Networked Video Surveillance", International
constituent. Ces systèmes se caractérisent par la Conference on Information Technology: Coding and
combinaison d’une multitude de techniques et une Computing (ITCC'04) Volume 2, p. 798, 2004.
-9-
SETIT2009
- 10 -
SETIT2009
[PAT 99] P. PATRICK, D. DAMIEN, C. ANDREA et R.KIM et S.SULL, "Real-Time Video Indexing
B. MICHEL, "High Level Description of Video System for Live Digital Broadcast TV Programs",
Surveillance Sequences", ECMAST 99, May 99, Lecture notes in computer science , ISSU 3115, pages
Madrid , 1999. 261-269, 2004.
[PER 02] A. J. PERROTT, A. T. LINDSAY et A. P. [WOZ 04] B. WOZ et A. SAVAKIS, "A VHDL
PARKES, "Real-time multimedia tagging and content- MPEG-7 shape descriptor extractor", ACM/SIGDA
based retrieval for CCTV surveillance systems", 12th international symposium on Field programmable
proceedings-spie the international society for optical gate arrays, Monterey, California, USA, p. 246 – 246,
engineering, 2002, issu 4862, pages 40-49. February 22 - 24, 2004.
[REA 02] S. REAAIJMAKERS, J. DEN HARTOG et [ZHA 01] D. ZHANG et G. LU, "Segmentation of
J. BAAN, "Multimodal Topic Segmentation and moving objects in image sequence: A review", Circuit,
Classification on News Video", IEEE International Systems and Signal Processing, 20(2), 143-189, 2001.
Conference on Multimedia and Expo 2002,
Proceedings, Volume 2, pp. 33-36, 2002.
[SAN 99] J.M. SANCHEZ et X. BINEFA, "Automatic
Digital TV Commercial Recognition", Proc. VIII
National Symposium on Pattern Recognition and
Image Analysis (SNRFAI'99), Vol 1, pp.313-320,
Bilbao-Spain, Mars 1999.
[SAV 03] A. SAVAKIS, P. SNIATALA et R.
RUDNICKI, "Real-time Video Annotation using
MPEG-7 Motion Activity Descriptors", Mixed Design
of Integrated Circuits and System, MIXDES 2003.
[SMI 00] J.R. SMITH et A.B. BENITEZ, "Conceptual
Modeling of Audio-Visual Content", IEEE
international conference on Multimedia and Expo,
ICME 2000.
[SRITsrip03] T. SRIPAN, M. EL-SHARKAWY et M.
RIZKALLA, "Fast multiplierless approximation of the
DCT for MPEG-7 color layout descriptor", the 46th
IEEE International Midwest Symposium on Circuits
and Systems, 27-30 Dec. 2003 Pages: 708 - 713 Vol. 2.
[STE 05a] O. STEIGER, T. EBRAHIMI et A.
CAVALLARO, "Real-time generation of annotated
video for surveillance", Proceedings of IEE workshop
on image analysis for multimedia interactive services,
WIAMIS 2005.
[STE 05b] W.STECHELE et S.HERRMANN,
"Reconfigurable Hardware Acceleration for Video-
based Driver Assistance", Workshop on Hardware for
Visual Computing, Tübingen. April 29, 2005.
[SZU 98] M. SZUMMER et R. W. PICARD, "Indoor-
Outdoor Image Classification", Proceedings of the
International Workshop on Content-Based Access of
Image and Video Databases, "CAIVD'98",
Washington-USA, 1998.
[TRE 06] Guidelines for the TRECVID 2006
Evaluation,
http://www-lpir.nist.gov/projects/tv2006/tv2006.html
[YAM 06] K. YAMAOKA, T. MORIMOTO, H.
ADACHI et T. KOIDE, "Image segmentation and
pattern matching based FPGA/ASIC implementation
architecture of real-time object tracking", Proceedings
of the 2006 conference on Asia South Pacific design
automation, pp. 176 – 181, ISBN:0-7803-9451-8,
Yokohama, Japan, 2006.
[YOO 04] J.-C.YOON, H. KIM, S. S.CHUN, J.-
- 11 -