Académique Documents
Professionnel Documents
Culture Documents
RISem 1
RISem 1
indexation sémantique
–
–
Descripteurs d’images
Relevance Feedback
Plan
– Evaluation es SRI
• Surveillance
Reconnaissance d’actions/personnes
• …
Indexation et recherche
d’information multimédia
par le contenu
Bill Clinton
Extraction de
caractéristiques Expression de
signal
la requête
Index
Correspondance
5
Indexation et recherche
d’information multimédia
par le contenu
Bill Clinton
Extraction de
caractéristiques
Expression de
signal
la requête
Index
Index « Bill Clinton »
Signal
Sémantique
Correspondance
Apprentissage supervisé
6
Qu’est-ce qu’un concept ?
• Difficile à définir précisément
• Le sens peut dépendre du contexte
• Concept versus mot ? versus terme ?
• Hypothèse :
– Les concepts sont supposés exister et être bien définis,
– Un (ou plusieurs) agent(s) humain(s) défini(ssen)t une « vérité
terrain »,
– Le système d’indexation doit s’efforcer de produire un résultat
aussi conforme que possible.
• Sémantique (conceptuel ou symbolique) versus signal
(numérique) : le « fossé sémantique ».
Concepts et modalités (vidéo)
Sujets /
Personnes Scènes Objets
Histoires
Ville Voiture
Sport
Image Visage Plage Avion
Publicité
Montagne Visage
Applaudissement Explosion
Musique
Audio Locuteur Vagues Hélicoptère
Silence
Klaxons Téléphone
Politique
Texte Lieu
Nom Sport
(ASR / OCR) Date
Economie
Le « fossé sémantique »
9
Architecture des systèmes
d’indexation multimédia
[Smeulders, Worring] [Smith, Naphade] [Snoek, Worring]
0101
Concept 1
0111
Concept 2
Concept i
basking 0.12
President Clinton 1101
clinton 0.20
is basking in news 0.06
Président Clinton
some good news president 0.10
Apprentissage / Classification Concept N
Signal
Sémantique
Fossé sémantique
10
Multimodalité : le document vidéo
• Document structuré
– Niveaux d’abstraction : plans, histoires … (bas/haut niveaux)
11
Indexation sémantique
Indexation sémantique
• Apporte une description textuelle et exploitable par des
agents humains, de l’image.
Ski ?
Ciel ?
Beau temps ?
Montagne ? Vacances ?
Skieurs ?
Neige ?
…… ?
KANG ©
Indexation par le contexte
Dans certains cas, les images ne sont pas seules …
• Inconvénients
– Très sensible à la qualité du contexte
– Pas d’utilisation du contenu des images
Indexation par le contenu
Nombreux travaux de recherche depuis ces quinze
dernières années.
• But : Indiquer la présence (ou non) d’un ou plusieurs visages et les localiser
– Plus les exemples sont variés, plus ils doivent être nombreux !
Approches
spécifiques vs génériques
• Spécifique : Cibler la détection d’un concept en
particulier
– Performance
– Domaines d’application ciblés
– Nécessite des heuristiques
(http://en.wikipedia.org/wiki/Supervised_learning)
Supervised learning
• Target function: f : X → Y
x → y = f(x)
– x : input object (typically vector)
– y : desired output (continuous value or class label)
– X : set of valid input objects
– Y : set of possible output values
x y = P(M,x) = P(T(S),x)
Classification methods
• k-NN is a non linear classifier and can easily model classes with very irregular
shapes,
• 1-NN is a simple and quite often excellent classifier, it is often chosen as a
baseline for comparison across systems,
• 3-NN is more robust against isolated outliers,
• May be slow for classification because of the need to compute the distances
with all the training samples,
• May be used for indexing (off line) or for search (on line, “similarity search”).
Computation of distance
for k-NN
• Based on the chosen feature representation of
image samples.
w x + b<0
α
Linear Classifiers
x f y
f(x,w,b) = sign(w x + b)
denotes +1
denotes -1
Any of these
would be fine..
..but which is
best?
α
Linear Classifiers
x f y
f(x,w,b) = sign(w x + b)
denotes +1
denotes -1
Misclassified
to +1 class
α
Maximum Margin
x f y
1. Maximizing the margin is a good
intuition f(x,w,b) = sign(w x + b)
denotes +1 2. Implies that only support vectors are
denotes -1 important; other The
training examples
maximum
are ignorable.
margin linear
3. Empirically it works very veryiswell.
classifier the
linear classifier
Support Vectors with the maximum
are those
datapoints that margin.
the margin
This is the
pushes up
against simplest kind of
SVM (Called Linear
SVM)
Linear SVMs: Overview
0 x
The “Kernel Trick”
• The linear classifier relies on dot product between vectors K(xi,xj)=xiTxj
• If every data point is mapped into high-dimensional space via some
transformation Φ: x → φ(x), the dot product becomes:
K(xi,xj)= φ(xi) Tφ(xj)
• A kernel function is a function that corresponds to an inner product in an
expanded feature space.
• Mercer’s theorem:
Every semi-positive definite symmetric function is a kernel
• Semi-positive definite symmetric functions correspond to a semi-positive
definite symmetric Gram matrix:
If K and K' are two Kernels,
K(x1,x1) K(x1,x2) K(x1,x3) … K(x1,xN)
• Sensitive to noise
- a relatively small number of mislabeled examples can dramatically
decrease the performance
libsvm
• open source code for use SVM as a tool !
• Very easy to use
Oiseau ?
• Annotation au niveau local
– Coûteux …
– Utile !
– Comment le faire ?
• Extraction de descripteurs
• Normalisation
• Apprentissage
• Reconnaissance
Classification au niveau pixel
• Basé sur des descripteurs « très local »
– Couleur
– Texture (composition fréquentielle dans le voisinage)
– Gradients et assimilés (combinaisons de dérivées spatiales d’ordres
variés)
Color
Local Global
Final classification
classifier classifier
Texture Fusion Fusion Fusion
Local Global
classifier classifier
Gradient
Local Global
classifier classifier
…
Décision
Fusion précoce
Fusion tardive
Combinaison des schémas de fusion
. Sky
. Mountain
.Water
Image segmentée
ciel 0.49, eau 0.44
0.84 0.44
ciel 0.59, eau 0.57
0.59 0.72
Utilisation de la position absolue et de la surface relative
apprise pour chaque étiquette
Évaluation
Métriques : Rappel et
Précision
Non pertinents Non retournés
Pertinents Retournés
Non pertinents
et non retournés
2 x Corrects
F-mesure =
Retournés + Pertinents
• Annotations / jugements
– Apprentissage + Vérité terrain
• Recherche :
– Trouver les documents répondant à une requête
– Classes non prédéfinies
– La requête peut être vue comme un exemple (ou des
exemples)
– Apprentissage de niveau plus élevé (le système apprend ses
paramètres optimaux à partir de collections de développement
par exemple).
Campagnes d’évaluation
NIST / DARPA / …
• Reconnaissance de visages
– FERET Database : 15000 visages annotés (2-5 classes)
• Reconnaissance de caractères
– Handprinted Characters Database : 815000 caractères annotés
(62 classes)
• 5 tâches évaluées :
I : Reconnaissance d'images,
II : Recherche combinée texte / images,
III : Détection de zones de texte,
IV : Détection d'objets,
V : Extraction de sémantique.
IMAGEVAL : indexation d'images
Tâche d’extraction de sémantiques
• Les bases :
– Une base d’apprentissage (7500 images),
– Une base pour le test à blanc (3000 images),
– Une base pour le test officiel (30000 images).
• Liste des classes sémantiques :
– Nature :
- Photographie couleur,
- Photographie Noir&Blanc,
- Photographie Noir&Blanc colorisée,
- Reproduction artistique (peinture, dessin).
– Scènes :
- Scène d’intérieur (indoor),
- Scène d’extérieur (outdoor),
- Scène de jour,
- Scène de nuit,
- Scène urbaine,
- Scène naturelle.
• Métrique : Mean Average Precision (MAP,
trec_eval).
LSCOM
Large Scale Concept Ontology for Multimedia
sports animal
weather computer TV screen
office US flag
meeting airplane
desert car
mountain truck
waterscape/waterfront people marching
corporate leader explosion fire
police security maps
military personnel charts
Évaluation : conclusion
• Importance des expérimentations en indexation
multimédia
• Comparaison des méthodes entre elles !
• Mesure des (importants) progrès accomplis sur
les cinq dernières années,
– Orientation et accélération du développement des
recherches dans le domaine,
• Fédération des travaux d'un grand nombre
d'équipes
– Echange de composants ou d'éléments d'annotation ou
d'indexation,
Évaluation : conclusion