Vous êtes sur la page 1sur 7

1

Analyse des Documents Multimédia


Georges Quénot
Équipe Modélisation et Recherche d’Information Multimédia
Cours Mastère 2 Recherche
Laboratoire d Informatique de Grenoble
Décembre 2007
2
Analyse des Documents Multimédia
1. Bases mathématiques et notion nécessaires en traitement
du signal.
2. Analyse automatique des signaux audio et de parole :
a. Le signal de parole : analyse, unités pertinentes et variabilité,
b. Modélisation stochastique d objets sonores,
c. La reconnaissance automatique de la parole,
d. La transcription enrichie de documents.
3. Analyse d images :
a. Descripteurs : couleurs, textures, formes, points d intérêts,
b. Indexation par concepts,
4. Analyse de vidéos :
a. Séquences d images : mouvement, segmentation, suivi
b. Fusion multimodale : indexation sémantique à partir de l image, de
l audio et du texte.
3
Fusion multimodale
1. Validation croisée,
2. Éléments à fusionner,
3. Fusion précoce et tardive,
4. Normalisation et pondération,
5. Fusion de noyaux,
6. Utilisation du contexte sémantique,
7. Exemples sur TRECVID.
4
Validation croisée
5
Validation croisée
• Problème : les programmes d’apprentissage supervisés
dépendent (parfois de façon cruciale) de paramètres (C
pour les SVM en général et pour les noyaux RBF en
particulier, par exemple),
• Ajustement des paramètres : aussi un problème
d’apprentissage, aussi traité par apprentissage
supervisé à partir d’exemples étiquetés,
• Principe de base : choisir les paramètres qui donnent la
meilleure performance mais :
– On ne doit pas faire cela en utilisant le couple (ensemble
d’entraînement, ensemble de test) utilisé pour l’évaluation :
erreur méthodologique, résultats biaisés.
– On ne peut pas non plus utiliser le même ensemble pour
l’entraînement et l’ajustement des paramètres :
sur-apprentissage.
6
Validation croisée
• Choisir les paramètres qui donnent la meilleure
performance en utilisant uniquement l’ensemble
d’entraînement,
• Découper l’ensemble d’entraînement en deux parties :
– Ensemble de développement,
– Ensemble de validation.
• Inconvénients :
– Moins d’échantillons pour l’entraînement,
– Moins d’échantillons pour l’ajustement des paramètres,
– Comment choisir la taille de chaque sous-ensemble ?
• Première solution : faire moitié-moitié et moyenner les
résultats sur deux expériences en permutant les deux
sous-ensembles.
7
Validation croisée « à N plis » (N-fold)
• Découper l’ensemble d’apprentissage en N parties de
taille comparables,
• Pour chaque partie :
– Faire l’apprentissage sur le complément (réunion de toutes
les autres parties) et la classification sur la partie courante,
– Mesurer la performance ainsi obtenue.
• Pour l’ensemble des parties :
– Faire la moyenne des performances de chaque partie,
– Itérer et optimiser la performance globale en faisant varier les
paramètres à ajuster.
• Techniques générales de minimisation globale d’une
fonction à plusieurs paramètres,
• Réglage fin sans intérêt.
8
Validation croisée « à N plis » (N-fold)
• Avantages :
– Tous les échantillons disponibles sont pris en compte pour la
classification,
– Presque tous les échantillons disponibles sont pris en compte
pour l’apprentissage (si N >> 1),
– Aucun couplage entre les échantillons utilisés pour
l’apprentissage et ceux utilisés pour la classification
pas de sur-apprentissage (en principe).
• Inconvénient :
– Temps de calcul fortement multiplié si N >> 1.
• Peut être intégré dans un système automatique :
– Plus qu’un seul paramètres à définir : N.
– La valeur de N a peu d’influence en pratique dès que N _ 3,
– Valeurs couramment utilisées : 3, 4 ou 5.
9
Éléments à fusionner
10
Éléments à fusionner
• Tous les descripteurs visuels déjà étudiés :
– Au niveau pixel,
– Au niveau bloc ou région,
– Au niveau de l’image
– Couleur, texture, mouvement, …
– Bas niveau et niveau intermédiaire (catégories
sémantiques simples).
• Descripteurs textuels :
– « vecteurs de termes », catégories,
• Autres descripteurs audio :
– Bas niveau : coefficients MFCC, …
– Niveau intermédiaires : catégories (musique, …).
11
Descripteurs textuels
• Le texte peut venir de la transcription audio (vidéo) ou
du texte environnant (méta-données, images du web);
• Bas niveau : vecteurs de termes :
– Sélection du vocabulaire par concept,
– Termes les plus fréquents relevés dans le voisinage du
concept dans le corpus de développement,
– Suppression des « mots outils »,
– Lemmatisation éventuelle,
– Recherche des entités nommées.
• Moyen niveau : catégories sémantiques :
– Apprentissage à partir de corpus externes (collection Reuters
RCV1 par exemple).
– Similaire aux catégories visuelles locales.
12
Fusion précoce et tardive
13
Multimodal classification
• Multimodality in a broad sense: considers sub-modalities
(e.g. color, texture or motion) as modalities.
• Representation of each modality by a feature vector (or
structure) using a specific extraction tool (e.g. 3D
histogram, Gabor transform).
• Classification (concept detection) by modality using
classifiers trained by supervised learning.
• Fusion problem: get a unique classification which is
a synthesis of the per-modality classifications.
• Additional difficulty: unbalanced (sub-)modalities:
– Differences in quality in per modality classification,
– Differences in the dimensionality of feature vectors,
– Up to several orders of magnitude.
14
Fusion précoce et tardive
• Fusion tardive :
– Autant de classifieurs que de vecteurs de
descripteurs,
– Un score par modalité,
– Fusion des scores : fonction explicite ou classifieur
supplémentaire.
• Fusion précoce :
– Concaténation des vecteurs de descripteurs,
– Un classifieur unique travaille à partir du vecteur
résultant.
• Combinaisons de fusions précoces et tardives
possibles si plus de deux modalités.
15
Fusion tardive
• Un score par modalité,
• Fusion des scores : fonction explicite ou classifieur
supplémentaire.
Feature
Extractor
Feature
Extractor
Feature
Extractor
Classifier
Media Classifier Score
Classifier
Fusion
Descriptors Scores
16
Fusion précoce
• Concaténation des vecteurs de descripteurs,
• Un classifieur unique travaille à partir du vecteur
résultant.
Feature
Extractor
Feature
Extractor
Feature
Extractor
Media Classifier Score
17
Fusion précoce ou tardive
• Fusion tardive :
– Classifieurs simples,
– Possibilités d’utiliser des classifieurs, des noyaux et
des distances adaptées aux différentes modalités,
– Il faut faire une fusion finale; si réalisée avec un
second niveau de classifieur, il faut l’entraîner
également problème de sur-apprentissage et de
validation croisée,
• Fusion précoce :
– Plus simple globalement mais problèmes de
normalisation,
– Meilleure prise en compte des corrélations entre
composantes des descripteurs,
– Calculs plus coûteux.
18
Systèmes de classification à
plusieurs niveaux : validation croisée
• Problème :
– Sur-apprentissage entre le premier et le second
étage, similaire au problème d’ajustement des
paramètres.
• Solution :
– Ensembles d’échantillons différents pour
l’entraînement du premier et second niveau,
– Découper l’ensemble d’entraînement en trois (ou
quatre) parties s’il faut en plus régler les paramètres
des classifieurs,
– Validation croisée « à N plis » généralisable mais
coûteuse.
19
Fusion en général
• Gain si les descripteurs pris séparément
conduisent à des performances comparables,
– Effet plus important si les descripteurs capturent
des facettes de nature différente (par exemple
couleur et texture).
• Peu de gain voire perte par rapport au meilleur
si les descripteurs pris séparément conduisent
à des performances très différentes (le plus
mauvais fait chuter le meilleur),
– Exception possible si les descripteurs capturent des
facettes de nature différente.
20
Normalisation et pondération
21
Normalisation
• Problème :
– Dynamique des composantes variables dans un
descripteur ou entre descripteurs les
composantes à forte dynamique « écrasent » les
composantes à faible dynamique information
perdue ou masquée
• Solution :
– Normaliser les composantes individuellement :
ramener la dynamique à une même plage pour
toutes,
– Normalisation par minimum et maximum,
– Normalisation en moyenne et en écart-type.
22
Normalisation
• Problème :
– Nombre de composantes variable entre
descripteurs les descripteurs à grand nombre de
composantes « écrasent » les descripteurs à petit
nombre de composantes information perdue ou
masquée,
• Solution :
– Normaliser les normes des vecteurs descripteurs :
ramener la dynamique à une même plage pour
toutes,
– Double normalisation (par composante puis par
descripteur).
23
Pondération
• Problème :
– Certains descripteurs donnent de meilleurs résultats
que d’autres,
– Le poids optimal de chaque descripteur croît avec la
performance de celui-ci.
• Solution :
– Appliquer la pondération après une normalisation
par composante et/ou par descripteur,
24
Fusion de noyaux
25
Kernel based Classifiers
• Kernel based classification, Support Vector Machines
(SVM, [Vapnik])
• Decision function:
• K(x,y) = <x,y> linear separation
• Kernel trick: K(x,y) = <_(x),_(y)> non-linear separation
• _ does not need to be explicit
• K(xi,xj) needs to be positive definite (Mercer condition)
• Algebraic solution in the context of supervised learning
26
Many possible kernels
• Inner product
• Polynomials of inner product
• Radial Basis Functions (RBF):
– Euclidian distance
– Specific media distance: EMD, String matching, ...
• Custom Kernels
K(x,z) =
27
Early fusion with kernel based classifiers
L/C : Learn/Classify
28
Late fusion with kernel based classifiers
29
Kernel fusion with kernel based classifiers
[Lanckriet et al.]
30
Kernel fusion
• Applicable to kernel-based classification (e.g. SVMs).
• Kc(x,y) = f(Km(xm,ym)(1_m_M))
• If K and K’ are kernels: _.K, K_, K+K’ and K.K’ are kernels
(with _ > 0).
• Early fusion with RBF is equivalent to a product of kernels:
31
Algorithm for creating combined Kernels
1. Construct each unimodal kernels Km,
2. Perform cross-validation on each Km to fix their
parameters,
3. Build the combined Kernel using the f combining function
on the optimal Km,
4. Perform cross-validation to optimize the parameters of f.
(Could be improved.)
32
Utilisation du contexte sémantique
33
Multinet [Naphade]
34
Contexte sémantique
• Les concepts ne sont pas indépendants,
• Relations logiques :
– Un chien est un animal.
• Relations statistiques :
–Quand il y a une montagne, il y a souvent du ciel.
• Relations en général asymétriques,
• Modélisation par :
– Règles : a priori ou apprises,
– Réseaux Bayésiens : a priori ou apprentissage,
– Classifieurs : apprentissage.
• Apprentissage : validation croisée encore.
35
Exemples sur TRECVID
36
Example on TRECVID [Ayache 2006]
• Local low level visual features (on 20 x 13 half
overlapping patches of 32 x 32 pixels):
– 9 color moments: RGB means variances and co-variances
– 24 Gabor coefficients (3 scales x 8 orientations)
– 2 patch coordinates
• Global low level visual features:
– 64 color histogram components (4 x 4 x 4 RGB)
– 40 Gabor coefficients (5 scales x 8 orientations)
• Low level text features: Boolean vectors of words
• Intermediate level visual features or concepts:
– 15 local visual classes (studio setting, human skin, greenery …)
• Intermediate level textual features or concepts:
– 103 global topics (Reuters categories) extracted from text
37
Tested fusion schemes (TRECVID runs)
• Per modality
• Early fusion
• Late fusion
• Kernel fusion by product
• Kernel fusion by sum
• Kernel fusion by optimized weighted sum:
• Normalized early fusion (double rescaling: per
component then per feature)
• Contextual late fusion (uses scores of other concepts)
38
Color - texture fusion (TRECVID 2005)
39
Local - global fusion (TRECVID 2005)
40
Image - text fusion (TRECVID 2006)
(Inferred Average Precision)