RISem 1

Recherche multimédia et
indexation sémantique
Stephane Ayache ESIL – MIRA 3ème année

–  Modèle d’Indexation et de
Recherche d’Informations
– 
– 
Descripteurs d’images
Relevance Feedback
Plan
–  Evaluation es SRI
•  Introduction •  Apprentissage / Classification

–  Motivations –  K-NN
–  Quelques domaines d’applications –  SVM
–  Architecture des systèmes –  Annotation
d’indexation multimédia
Signal (descripteurs) •  Systèmes de classification d’images
Sémantique (concepts) –  Niveau local
–  Les concepts –  Niveau global
–  Le fossé sémantique –  Architecture « Pipeline »
–  Fusion
•  Indexation sémantique –  de descripteurs
–  Indexation par le contexte –  de classifieurs
–  Indexation par le contenu –  L’approche « Visual Keywords »
•  Approches spécifiques :
Détection de visage •  Evaluation
•  Approches « génériques » –  Principes généraux (Rappel)
–  Quelques campagnes d’évaluation
–  Métriques
–  Conclusions
Motivations
•  Très gros volumes d’images (et de vidéos), en quantités
toujours croissantes
•  Besoins d’accéder, de classer, de trier, …
•  Suppléer à un manque d’information textuelle

 Créer l’information textuelle à partir de l’image brute !
•  Analyse sémantique d’images par le contenu

–  Indexation (bas niveau / haut niveau)
–  Recherche (via quel accès?)
Applications et besoins
•  Gestion de grands corpus documentaires
–  Archives (photographes, presse, musées)
 Indexation par mot-clés (ou concepts)
•  Gestion de photographies personnelles

  Indexation par catégories
•  Surveillance
  Reconnaissance d’actions/personnes
•  …
Indexation et recherche
d’information multimédia
par le contenu
Bill Clinton
Extraction de
caractéristiques Expression de
signal
la requête

Index

Correspondance

5
Indexation et recherche
d’information multimédia
par le contenu
Bill Clinton
Extraction de
caractéristiques
Expression de
signal
la requête

Index
Index « Bill Clinton »
Signal
Sémantique
Correspondance

Apprentissage supervisé
6
Qu’est-ce qu’un concept ?
•  Difficile à définir précisément
•  Le sens peut dépendre du contexte
•  Concept versus mot ? versus terme ?
•  Hypothèse :
–  Les concepts sont supposés exister et être bien définis,
–  Un (ou plusieurs) agent(s) humain(s) défini(ssen)t une « vérité
terrain »,
–  Le système d’indexation doit s’efforcer de produire un résultat
aussi conforme que possible.
•  Sémantique (conceptuel ou symbolique) versus signal
(numérique) : le « fossé sémantique ».
Concepts et modalités (vidéo)
Sujets /
Personnes Scènes Objets
Histoires
Ville Voiture
Sport
Image Visage Plage Avion
Publicité
Montagne Visage
Applaudissement Explosion
Musique
Audio Locuteur Vagues Hélicoptère
Silence
Klaxons Téléphone
Politique
Texte Lieu
Nom Sport
(ASR / OCR) Date
Economie
Le « fossé sémantique »
Désigne le manque de concordance entre les

informations que les machines peuvent extraire
depuis les documents numériques, et les
interprétations que les humains en font.
9
Architecture des systèmes
d’indexation multimédia
[Smeulders, Worring] [Smith, Naphade] [Snoek, Worring]
0101

Concept 1

0111
Concept 2

Concept i

basking 0.12

President Clinton 1101
clinton 0.20

is basking in news 0.06
Président Clinton

some good news president 0.10
Apprentissage / Classification Concept N

Signal
Sémantique

Fossé sémantique

10
Multimodalité : le document vidéo
President Clinton is basking in some good news …
•  Plusieurs sources d’informations

–  Hétérogénéité : signal, sémantique, quantité …
–  Synchronisées ?
•  Document structuré
–  Niveaux d’abstraction : plans, histoires … (bas/haut niveaux)
11
Indexation sémantique
Indexation sémantique
•  Apporte une description textuelle et exploitable par des
agents humains, de l’image.
•  Indexation manuelle lourde et coûteuse

–  Pas réaliste…
•  Indexation automatique pas toujours fiable

 Difficultés :
•  Connaissances apriori (externes) pas toujours disponibles
•  Gap sémantique !
•  Interprétation multiples et subjectives…
•  La nature des traitements peu dépendre de l’application
•  Généricité ?
Chamrousse ? Soleil ?
Ski ?
Ciel ?
Beau temps ?
Montagne ? Vacances ?
Skieurs ?
Neige ?
…… ?
KANG ©
Indexation par le contexte
Dans certains cas, les images ne sont pas seules …
  Les documents structurés

•  Manuels d’utilisation
•  Rapports, journaux…
•  Web !
L’image est indexée par

son texte environnant
dans le document structuré.
[…] Figure 1 describes the architecture […]

Indexation par le contexte
•  Avantages
–  Rapide
–  Transparent pour l’utilisateur
–  Permet de traiter beaucoup d’images ! (Celles du web)
•  Inconvénients
–  Très sensible à la qualité du contexte
–  Pas d’utilisation du contenu des images
Indexation par le contenu
Nombreux travaux de recherche depuis ces quinze
dernières années.
–  Des avancées mais il reste beaucoup à faire !
–  Plusieurs domaines d’applications sont « favorisés » :

•  Images médicales  Aide au diagnostic, …
•  Images satellitaires  Météorologie, …
–  Dans les images généralistes, certains concepts ont fait l’objet

de plus de travaux :
•  Scènes : intérieur / extérieur
•  Objets : détection / reconnaissance de visages
 Approches spécifiques / génériques
Analyse spécifique
Détection de visages
dans les images
•  Interfaces Hommes / Machines
•  But : Indiquer la présence (ou non) d’un ou plusieurs visages et les localiser
•  Un système idéal doit être robuste aux variations

–  Luminosité
–  Orientation, pose, occlusions
–  Expressions du visage
–  Variétés des visages : lunettes, cheveux, …
Détection de visages :
quelques méthodes (1)
•  1: Caractéristiques invariantes du visage
–  Couleur
 “Comparative Performance of Different Chrominance Spaces for Color
Segmentation and Detection of Human Faces in Complex Scene
Images”
(Jean-Christophe Terrillon and Shigeru Akamatsu, 1999)
•  1: Caractéristiques invariantes du visage
–  Yeux, sourcils, nez, bouche
 “Face detection in color images”
(Rein-Lien Hsu, Mohamed Abdel-Mottaleb, and Anil K. Jain, 2002)
•  2: Approches par apprentissage
–  Modéliser les 2 classes : Visages / Non visages
 "Example-Based Learning for View-Based Human Face Detection"
(Kah-Kay Sung and Tomaso Poggio, 1998)
•  2: Approches par apprentissage
–  Modéliser les 2 classes : Visages / Non visages
 "Example-Based Learning for View-Based Human Face Detection"
(Kah-Kay Sung and Tomaso Poggio, 1998)
•  Un apprentissage de bonne qualité donne de la robustesse au système

–  Les caractéristiques d’entrée doivent être normalisées,
–  Les exemples doivent couvrir la variabilité des visages visés,
–  Plus les exemples sont variés, plus ils doivent être nombreux !
Approches
spécifiques vs génériques
•  Spécifique : Cibler la détection d’un concept en
particulier
–  Performance
–  Domaines d’application ciblés
–  Nécessite des heuristiques
•  Générique : Même système pour tous les concepts

–  Passage à l’échelle
–  Typiquement via un apprentissage
–  Performance moindre…
•  Vers des approches hybrides

–  Axe de recherche en cours !
–  Système générique instanciable (automatiquement)
Apprentissage
et
Classification
Apprentissage
•  Apprentissage par machine : apprentissage à
partir de données.
–  Descripteurs ou pixels ?
–  Normalisation !!
•  Apprentissage non supervisé (« unsupervised learning »)
–  Sans intervention humaine,
–  Données simples,
–  Détermination automatique de classes (« clustering »).
•  Apprentissage supervisé (« supervised learning »)
–  Avec intervention humaine (annotation),
–  Données étiquetées (ou annotées),
–  Classification (classes prédéfinies),
–  Régression (valeurs continues).
Supervised learning
•  A machine learning technique for creating a function from training
data.
•  The training data consist of pairs of input objects (typically vectors)
and desired outputs: (X, y).
•  The output of the function can be a continuous value (regression)
or a class label (classification) of the input object.
•  The task of the supervised learner is to predict the value of the
function for any valid input object after having seen a number of
training examples (i.e. pairs of input and target output).
•  To achieve this, the learner has to generalize from the presented
data to unseen situations in a “reasonable” way.
•  The parallel task in human and animal psychology is often referred
to as concept learning (in the case of classification).
•  Most commonly, supervised learning generates a global model
that helps mapping input objects to desired outputs.
(http://en.wikipedia.org/wiki/Supervised_learning)
Supervised learning
•  Target function: f : X → Y
x → y = f(x)
–  x : input object (typically vector)
–  y : desired output (continuous value or class label)
–  X : set of valid input objects
–  Y : set of possible output values
•  Training data: S = (xi,yi)(1 ≤ i ≤ I)

–  I : number of training samples
•  Learning algorithm: L : (X×Y)* → YX

S → f = L(S)
•  Regression or classification system:

y = [L(S)](x) = g(S,x)
Model based supervised learning
•  Two functions, “train” and “predict”, cooperating
via a Model
•  General regression or classification system:

y = [L(S)](x) = g(S,x)
•  Building of a model (train):

M = T(S)
•  Prediction using a model (predict):

y = [L(S)](x) = g(S,x) = P(M,x) = P(T(S),x)
Supervised learning
Classification problem
Training samples Train

S = (xi,yi)(1 ≤ i ≤ I)
Model M = T(S) = T((xi,yi)(1 ≤ i ≤ I))
Testing samples Predict Predicted classes
x y = P(M,x) = P(T(S),x)
Classification methods
•  Gaussian Mixture Models

•  Hidden Markov Models
•  Decision trees
•  Genetic algorithms
•  Artificial neural networks
•  K-nearest neighbor
•  Linear discriminant analysis
•  Support vector machines
•  And many more.
k nearest neighbors (k-NN)
•  No model : M = T(S) = S
•  Compute the distances from the unknown sample x to all the
training samples xi,
•  Select the k closest xi,

•  Compute the class of x from the classes of the
closest xi’s:
- k = 1 : the class of x is the class of the closest xi,
- k is odd and there are only two classes : majority vote.
•  k-NN is a non linear classifier and can easily model classes with very irregular
shapes,
•  1-NN is a simple and quite often excellent classifier, it is often chosen as a
baseline for comparison across systems,
•  3-NN is more robust against isolated outliers,
•  May be slow for classification because of the need to compute the distances
with all the training samples,
•  May be used for indexing (off line) or for search (on line, “similarity search”).
Computation of distance
for k-NN
•  Based on the chosen feature representation of
image samples.
•  Euclidian distance, angle between vectors, …

•  Comparison between a query vector to all the vectors in the database
(no pre-selection),
–  No known method faster that a full linear scan …
•  Possibility to reduce the number of dimensions by Principal

Component Analysis (PCA).
Support Vector Machines (SVM)
•  Linear classifier (with maximum margin)
•  The “kernel trick” allows non linear classification also with

maximum margin and minimum empirical risk
α
Linear Classifiers
x f y
f(x,w,b) = sign(w x + b)
denotes +1 w x + b>0
denotes -1
How would you

classify this data?
w x + b<0
α
Linear Classifiers
x f y
denotes +1
denotes -1
How would you

classify this data?
α
Linear Classifiers
x f y
denotes +1
denotes -1
How would you

classify this data?
α
Linear Classifiers
x f y
denotes +1
denotes -1
Any of these
would be fine..
..but which is
best?
α
Linear Classifiers
x f y
denotes +1
denotes -1
How would you

classify this data?
Misclassified
to +1 class
α
Maximum Margin
x f y
1.  Maximizing the margin is a good
intuition f(x,w,b) = sign(w x + b)
denotes +1 2.  Implies that only support vectors are
denotes -1 important; other The
training examples
maximum
are ignorable.
margin linear
3.  Empirically it works very veryiswell.
classifier the
linear classifier
Support Vectors with the maximum
are those
datapoints that margin.
the margin
This is the
pushes up
against simplest kind of
SVM (Called Linear
SVM)
Linear SVMs: Overview
•  The classifier is a separating hyperplane.

•  Most “important” training points are support vectors; they
define the hyperplane.
•  Quadratic optimization algorithms can identify which training
points xi are support vectors with non-zero Lagrangian
multipliers αi.
•  Both in the dual formulation of the problem and in the solution
training points appear only inside dot products:
Find α1…αN such that

Q(α) =Σαi - ½ΣΣαiαjyiyjxiTxj is maximized and
(1) Σαiyi = 0
(2) 0 ≤ αi ≤ C for all αi f(x) = ΣαiyixiTxj + b
Non-linear SVMs
•  Datasets that are linearly separable with some noise
work out great:
0 x
•  But what are we going to do if the dataset is just too

hard? 0 x
•  How about… mapping

x2 data to a higher-dimensional
space:
0 x
The “Kernel Trick”
•  The linear classifier relies on dot product between vectors K(xi,xj)=xiTxj
•  If every data point is mapped into high-dimensional space via some
transformation Φ: x → φ(x), the dot product becomes:
K(xi,xj)= φ(xi) Tφ(xj)
•  A kernel function is a function that corresponds to an inner product in an
expanded feature space.
•  Mercer’s theorem:
Every semi-positive definite symmetric function is a kernel
•  Semi-positive definite symmetric functions correspond to a semi-positive
definite symmetric Gram matrix:
If K and K' are two Kernels,
K(x1,x1) K(x1,x2) K(x1,x3) … K(x1,xN)
K(x2,x1) K(x2,x2) K(x2,x3) K(x2,xN) K x K' is a Kernel

K=
… … … … … Kα is a Kernel
αK is a Kernel
K(xN,x1) K(xN,x2) K(xN,x3) … K(xN,xN)
K + K' is a Kernel
Examples of Kernel Functions
•  Linear: K(xi,xj)= xi Txj
•  Polynomial of power p: K(xi,xj)= (1+ xi Txj)p
•  Gaussian (radial-basis function network):
•  Sigmoid: K(xi,xj)= tanh(β0xi Txj + β1)

Nonlinear SVM - Overview
•  SVM locates a separating hyperplane in the

feature space and classify points in that space
•  It does not need to represent the space

explicitly, simply by defining a kernel function
•  The kernel function plays the role of the dot

product in the feature space.
Properties of SVM
•  Flexibility in choosing a similarity function
•  Easily dealing with large data sets

- only support vectors are used to specify the separating hyperplane
•  Ability to handle large feature spaces

- complexity does not depend on the dimensionality of the feature
space, but on the number of training vectors.
•  Sensitive to noise
- a relatively small number of mislabeled examples can dramatically
decrease the performance
libsvm
•  open source code for use SVM as a tool !
•  Very easy to use 
•  svm-scale params training_file > training_file.scaled

•  svm-train params training_file.scaled model
•  svm-scale params test_file > test_file.scaled
•  svm-predict test_file.scaled model test_file.predict
Annotation pour l’apprentissage
supervisé
•  Etape cruciale pour l’obtention d’un modèle fiable !
•  Souvent fait de manière collaborative (TRECVID)
Oiseau ?
•  Annotation au niveau local
–  Coûteux …
–  Utile !
–  Comment le faire ?
•  Annotation au niveau global

–  Plus rapide mais moins précis …
Systèmes de classification
d’images
Systèmes de classification d’images
•  Classification au niveau local :
–  Au niveau d’un pixel
–  Par bloc
–  Par région
•  Classification au niveau global :

–  Absence ou présence d’un concept
–  Probabilité de présence d’un concept
–  Pas de recherche de localisation
•  Systèmes à plusieurs niveaux : pipeline…
•  Extraction de descripteurs
•  Normalisation
•  Apprentissage
•  Reconnaissance
Classification au niveau pixel
•  Basé sur des descripteurs « très local »
–  Couleur
–  Texture (composition fréquentielle dans le voisinage)
–  Gradients et assimilés (combinaisons de dérivées spatiales d’ordres
variés)
•  Recherche d’un petit nombre de classes ayant un sens

aux niveaux sémantique et signal : ciel, verdure, eau,
bâtiment, nuages, route/chemin, peau humaine, …
•  Souvent utilisé comme « niveau intermédiaire » pour la

reconnaissance aux étapes suivantes (blocs ou image
complète) :
–  Vecteur représentant les pourcentages ou probabilités de présence
des différentes classes au niveau de la zone considérée,
–  Utile et efficace même avec de mauvaises performances locales
Classification au niveau
bloc ou région
•  Descripteurs classiques :
–  Couleur : moments, histogrammes, corrélogrammes,
–  Texture : transformées de Gabor, …
–  Histogrammes des directions de gradient, …
•  Moins classique : statistiques sur les classes
reconnues sur les pixels
•  Recherche d’un petit nombre (~15) de classes ayant

un sens aux niveaux sémantique et signal
•  Souvent utilisé comme « niveau intermédiaire » pour

la reconnaissance sur l’ image complète
–  Peu utilisé pour la reconnaissance directe
Classification au niveau image
•  Descripteurs « complets » :
–  Couleur : moments, histogrammes, corrélogrammes,
–  Texture : transformées de Gabor, …
–  Histogrammes des directions de gradient
–  Formes (contours)
–  Points d’intérêt
–  Statistiques sur les classes reconnues au niveau du pixel, des
régions et/ou des blocs
–  Détection de visages
•  Recherche d’un nombre important de classes :

de 10 (TRECVID 2003) à 850 (Ontologie
LSCOM)
Classification au niveau image
Architecture pipeline (IBM, CMU, MediaMill, LIG, …)
Color
Local Global
Final classification
classifier classifier
Texture Fusion Fusion Fusion
Local Global
Gradient
Local Global
…
feature local global final decision

extraction classification classification
Fusion
de descripteurs et/ou classifieurs
•  Consiste à combiner des informations hétérogènes issues de
plusieurs sources afin d’améliorer la prise de décision.
•  Peut être opéré à plusieurs étapes du système de classification :

–  Fusion précoce : Combine les caractéristiques unimodales avant
l’apprentissage
–  Fusion tardive : Combine les scores de classification issus de chaque
modalité (éventuellement par un second niveau de classifieur)
Décision

Décision

Fusion précoce
Fusion tardive

Combinaison des schémas de fusion
•  Fusion précoce / tardive
•  Combinaison des schémas de fusions

–  Ex: (A early B) late C
(A late B) early C
L’approche “Visual Keywords”
•  Etiqueter des régions puis les considérer comme des
termes d’indexation
•  Indexation sur des blocs
•  Étiquetage par SVM et softmax (esvm_i(X)/∑k esvm_k(X)).
. Sky
. Mountain
.Water
 “Visual keywords: From text IR to multimedia IR”.

(Lim, J.H., 2000)
L’approche “Visual Keywords”
People: Face, Figure, Crowd, Skin
•  Termes Sky: Clear, Cloudy, Blue
Ground: Floor, Sand, Grass
Water: Pool, Pond, Water
Foliage: Green, Floral, Branch
Mountain: Far, Rocky
•  Regroupement Building: Old, City, Far

Interior: Wall, Wooden, China, Fabric, Light
pondéré avec poids ω
•  Correspondance entre requête (image x) et une

image y : distance “city-block”
Etiquetage avec contexte
pour l’indexation par le contenu
•  Constat : les humains utilisent le contexte pour

reconnaître les objets dans des photographies
 “A comparison between human and machine labelling of image regions”

(A. Clark, T. Trscianko, N. Campbell, B. Thomas, 2000)
Etiquetage avec contexte
pour l’indexation par le contenu
•  Étiquetage avec contexte [Mulhem 2002]
–  Utiliser le contexte "statistique" des photographies
personnelles pour l’étiquetage.
–  “ciel entre deux eaux et en bas de l’image peu probable”
–  “ciel en haut de l’image très probable”
–  2 étapes :
Image segmentée
ciel 0.49, eau 0.44
0.84 0.44
ciel 0.59, eau 0.57
0.59 0.72
Utilisation de la position absolue et de la surface relative
apprise pour chaque étiquette
Évaluation
Métriques : Rappel et
Précision
Non pertinents Non retournés
Pertinents Retournés
Non pertinents
et non retournés
Pertinents mais Non pertinents

non retournés mais retournés
Faux négatifs Faux positifs
Pertinents
et retournés
Corrects
NR NP
R P
Métriques : Rappel et Précision
•  Comparaison qualitative entre des systèmes
Métriques : Rappel et
Précision
Retournés et Pertinents Corrects
Rappel = =
Pertinents Pertinents
= Proportion de retournés dans les pertinents
 Métrique duale « Silence »
Retournés et Pertinents Corrects

Précision = =
Retournés Retournés
= Proportion de pertinents dans les retournés
 Métrique duale « Bruit »
Courbe « Rappel x Précision »
•  Le système a retourné une liste ordonnées d’images correspondant au
concept (ou à la requête)
•  La Précision est une courbe décroissante en fonction du Rappel
•  Prise en compte de l’ordre des documents retournés
Courbe « Rappel x Précision »
•  Précision moyenne (Mean Average Precision ou

MAP) : aire sous la courbe (trec_eval)
Mesures « globales »
MAP : précision moyenne
2 x Corrects
F-mesure =
Retournés + Pertinents
P@10 : précision sur les 10 premiers documents
P@100 : précision sur les 100 premiers documents
Faux positifs + Faux négatifs

Taux d’erreur =
Pertinents
« Pooling »
•  Impossibilité pratique de faire juger tous les
documents par rapport à toutes les requêtes !
•  Jugement a posteriori sur une petite partie du

corpus seulement,
•  Fusion des N premiers éléments de la liste de

l’ensemble des systèmes testés (N = 100 à 1000
typiquement),
•  Jugement de ceux-ci seulement, les documents

non jugés sont considérés comme non
pertinents,
Évaluation : principes
généraux
•  Adéquation entre les pertinences système et utilisateur
•  Un problème bien posé ou « tâche » :

–  Un corpus (train/test)
–  Une « vérité terrain » (consensus d’experts)
–  Une métrique
–  Un protocole
•  Annotations / jugements
–  Apprentissage + Vérité terrain
•  TRECVID 2006 (+2005)

–  Environ 300 heures de vidéo
–  Environ 300 000 images
–  Moitié pour l’apprentissage
Évaluation : principes généraux
•  Qu’est ce qu’on évalue ?
–  L’ergonomie du système de recherche
–  La rapidité du système
–  La pertinence du système (satisfaction de l’utilisateur)
–  La qualité de l’indexation
•  Les descripteurs
•  Le système de classification
–  La qualité des annotations
•  Les algorithmes de fusion
•  Besoin d’un système de référence ! (Baseline)

Tâches : Indexation et
Recherche
•  Indexation :
–  Séparer un ensemble entre positifs et négatifs
–  Classes prédéfinies à reconnaître
–  Apprentissage classique à partir d’exemples
•  Recherche :
–  Trouver les documents répondant à une requête
–  Classes non prédéfinies
–  La requête peut être vue comme un exemple (ou des
exemples)
–  Apprentissage de niveau plus élevé (le système apprend ses
paramètres optimaux à partir de collections de développement
par exemple).
Campagnes d’évaluation
NIST / DARPA / …
•  Reconnaissance de visages
–  FERET Database : 15000 visages annotés (2-5 classes)
•  Reconnaissance de caractères
–  Handprinted Characters Database : 815000 caractères annotés
(62 classes)
•  Indexation et Recherche dans les documents

vidéos
–  TRECVID/LSCOM : 65000 images (441 classes)
•  …
Programme TECHNO-VISION
•  ARGOS : émissions TV et vidéosurveillance [
http://www.irit.fr/argos]
•  EPEIRES : documents techniques (symboles) [
http://www.epeires.org]
•  ETISEO : vidéosurveillance [http://www.silogic.fr/etiseo/]
•  EVALECHOCARD : imagerie médicale (échocardiogrammes)
•  IMAGEVAL : indexation d'images [http://www.imageval.org/]
•  IV2: biométrie (iris et visages) [
http://lsc.univ-evry.fr/techno/iv2/PageWeb-IV2.html]
•  MESSIDOR : imagerie médicale (ophtalmologie rétinienne) [
http://messidor.crihan.fr/]
•  RIMES : documents manuscrits [http://www.int-evry.fr/rimes/]
•  ROBIN : reconnaissance d’objets et classification d’images [
http://robin.inrialpes.fr]
•  TOPVISION : imagerie sous-marine
IMAGEVAL : indexation d'images
[http://www.imageval.org/]
•  5 tâches évaluées :
I : Reconnaissance d'images,
II : Recherche combinée texte / images,
III : Détection de zones de texte,
IV : Détection d'objets,
V : Extraction de sémantique.
IMAGEVAL : indexation d'images
Tâche d’extraction de sémantiques
•  Les bases :
–  Une base d’apprentissage (7500 images),
–  Une base pour le test à blanc (3000 images),
–  Une base pour le test officiel (30000 images).
•  Liste des classes sémantiques :
–  Nature :
- Photographie couleur,
- Photographie Noir&Blanc,
- Photographie Noir&Blanc colorisée,
- Reproduction artistique (peinture, dessin).
–  Scènes :
- Scène d’intérieur (indoor),
- Scène d’extérieur (outdoor),
- Scène de jour,
- Scène de nuit,
- Scène urbaine,
- Scène naturelle.
•  Métrique : Mean Average Precision (MAP,
trec_eval).
LSCOM
Large Scale Concept Ontology for Multimedia
•  LSCOM: 850 concepts:

–  Ce qui est faisable (développeurs)
–  Ce qui est souhaité (utilisateurs)
–  Ce qui fait sens pour les humains (psychologues)
•  LSCOM-lite: 39 concepts (TRECVID)

•  Annotation de 441 concepts sur ~65K séquences de la collection
d’apprentissage de TRECVID 2005.
•  28665000 annotations !!!
→  Environ 16000 heures
→  10 personnes à plein temps pendant un an
(2 secondes / annotation)
20 LSCOM-lite features evaluated in the TRECVID
2006 concept detection task
sports animal
weather computer TV screen
office US flag
meeting airplane
desert car
mountain truck
waterscape/waterfront people marching
corporate leader explosion fire
police security maps
military personnel charts
Évaluation : conclusion
•  Importance des expérimentations en indexation
multimédia
•  Comparaison des méthodes entre elles !
•  Mesure des (importants) progrès accomplis sur
les cinq dernières années,
–  Orientation et accélération du développement des
recherches dans le domaine,
•  Fédération des travaux d'un grand nombre
d'équipes
–  Echange de composants ou d'éléments d'annotation ou
d'indexation,
Évaluation : conclusion
•  Quelques limitations à connaître :

–  Beaucoup le voit comme une compétition 
–  Tâches parfois artificielles ou peu réalistes,
–  Orientations parfois contraignantes,
–  Sur-adaptation des systèmes : peu réaliste, comparaisons
biaisées,
–  Résultats à prendre avec précaution : sur-adaptation, statistique
souvent insuffisante, spécificité des données, bugs, …

RISem 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

RISem 1

Transféré par

Droits d'auteur :

Formats disponibles

Recherche multimédia et

Stephane Ayache ESIL – MIRA 3ème année

• Introduction • Apprentissage / Classification

• Besoins d’accéder, de classer, de trier, …

• Suppléer à un manque d’information textuelle

• Analyse sémantique d’images par le contenu

• Gestion de photographies personnelles

Désigne le manque de concordance entre les

President Clinton is basking in some good news …

• Plusieurs sources d’informations

• Indexation manuelle lourde et coûteuse

• Indexation automatique pas toujours fiable

 Les documents structurés

L’image est indexée par

[…] Figure 1 describes the architecture […]

– Des avancées mais il reste beaucoup à faire !

– Plusieurs domaines d’applications sont « favorisés » :

– Dans les images généralistes, certains concepts ont fait l’objet

• Un système idéal doit être robuste aux variations

• Un apprentissage de bonne qualité donne de la robustesse au système

– Les exemples doivent couvrir la variabilité des visages visés,

• Générique : Même système pour tous les concepts

• Vers des approches hybrides

• Training data: S = (xi,yi)(1 ≤ i ≤ I)

• Learning algorithm: L : (X×Y)* → YX

• Regression or classification system:

• General regression or classification system:

• Building of a model (train):

• Prediction using a model (predict):

Training samples Train

Testing samples Predict Predicted classes

• Gaussian Mixture Models

• Select the k closest xi,

• Euclidian distance, angle between vectors, …

• Possibility to reduce the number of dimensions by Principal

• The “kernel trick” allows non linear classification also with

How would you

How would you

How would you

How would you

• The classifier is a separating hyperplane.

Find α1…αN such that

• But what are we going to do if the dataset is just too

• How about… mapping

K(x2,x1) K(x2,x2) K(x2,x3) K(x2,xN) K x K' is a Kernel

• Polynomial of power p: K(xi,xj)= (1+ xi Txj)p

• Gaussian (radial-basis function network):

• Sigmoid: K(xi,xj)= tanh(β0xi Txj + β1)

• SVM locates a separating hyperplane in the

• It does not need to represent the space

• The kernel function plays the role of the dot

• Easily dealing with large data sets

• Ability to handle large feature spaces

• svm-scale params training_file > training_file.scaled

• Souvent fait de manière collaborative (TRECVID)

• Annotation au niveau global

• Classification au niveau global :

• Systèmes à plusieurs niveaux : pipeline…

• Recherche d’un petit nombre de classes ayant un sens

• Souvent utilisé comme « niveau intermédiaire » pour la

• Recherche d’un petit nombre (~15) de classes ayant

• Souvent utilisé comme « niveau intermédiaire » pour

• Recherche d’un nombre important de classes :

•  Introduction •  Apprentissage / Classification

•  Besoins d’accéder, de classer, de trier, …

•  Suppléer à un manque d’information textuelle

•  Analyse sémantique d’images par le contenu

•  Gestion de photographies personnelles

•  Plusieurs sources d’informations

•  Indexation manuelle lourde et coûteuse

•  Indexation automatique pas toujours fiable

  Les documents structurés

–  Des avancées mais il reste beaucoup à faire !

–  Plusieurs domaines d’applications sont « favorisés » :

–  Dans les images généralistes, certains concepts ont fait l’objet

•  Un système idéal doit être robuste aux variations

•  Un apprentissage de bonne qualité donne de la robustesse au système

–  Les exemples doivent couvrir la variabilité des visages visés,

•  Générique : Même système pour tous les concepts

•  Vers des approches hybrides

•  Training data: S = (xi,yi)(1 ≤ i ≤ I)

•  Learning algorithm: L : (X×Y)* → YX

•  Regression or classification system:

•  General regression or classification system:

•  Building of a model (train):

•  Prediction using a model (predict):

•  Gaussian Mixture Models

•  Select the k closest xi,

•  Euclidian distance, angle between vectors, …

•  Possibility to reduce the number of dimensions by Principal

•  The “kernel trick” allows non linear classification also with

•  The classifier is a separating hyperplane.

•  But what are we going to do if the dataset is just too

•  How about… mapping

•  Polynomial of power p: K(xi,xj)= (1+ xi Txj)p

•  Gaussian (radial-basis function network):

•  Sigmoid: K(xi,xj)= tanh(β0xi Txj + β1)

•  SVM locates a separating hyperplane in the

•  It does not need to represent the space

•  The kernel function plays the role of the dot

•  Easily dealing with large data sets

•  Ability to handle large feature spaces

•  svm-scale params training_file > training_file.scaled

•  Souvent fait de manière collaborative (TRECVID)

•  Annotation au niveau global

•  Classification au niveau global :

•  Systèmes à plusieurs niveaux : pipeline…

•  Recherche d’un petit nombre de classes ayant un sens

•  Souvent utilisé comme « niveau intermédiaire » pour la

•  Recherche d’un petit nombre (~15) de classes ayant

•  Souvent utilisé comme « niveau intermédiaire » pour

•  Recherche d’un nombre important de classes :

•  Peut être opéré à plusieurs étapes du système de classification :

•  Fusion précoce / tardive

•  Combinaison des schémas de fusions

•  Regroupement Building: Old, City, Far

•  Correspondance entre requête (image x) et une

•  Constat : les humains utilisent le contexte pour

•  Précision moyenne (Mean Average Precision ou

•  Jugement a posteriori sur une petite partie du

•  Fusion des N premiers éléments de la liste de

•  Jugement de ceux-ci seulement, les documents

•  Un problème bien posé ou « tâche » :

•  TRECVID 2006 (+2005)

•  Besoin d’un système de référence ! (Baseline)

•  Indexation et Recherche dans les documents

•  LSCOM: 850 concepts:

•  LSCOM-lite: 39 concepts (TRECVID)

•  Quelques limitations à connaître :