Académique Documents
Professionnel Documents
Culture Documents
I - Introduction
ENSIMAG
2009
Herv Jgou & Matthijs Douze
Bases de donnes multimedia
Deux intervenants:
Introduction
Espaces de reprsentations
Mesures de similarit
valuation
Description globale
Description locale
Techniques dindexation
Indexation Vido
Indexation Audio
Base de donnes
Une base de donnes est un
ensemble structur et organis
permettant le stockage de grandes
quantits d'informations afin d'en
faciliter l'exploitation (ajout, mise
jour, recherche de donnes).
Wikipedia
Multimdia
Qui utilise plusieurs moyens de diffusion
Qui concerne plusieurs mdia
Diffus par plusieurs mdia
Adj: Qui utilise ou concerne plusieurs mdias
Media: Tout support de diffusion de linformation
constituant la fois un moyen dexpression et
un intermdiaire transmettant un message
lattention dun groupe
Multimdia
Le mot multimdia est apparu vers la fin des
annes 1980, lorsque les CD-ROM se
sont dvelopps. Il dsignait alors les
applications qui, grce la mmoire du
CD et aux capacits de l'ordinateur,
pouvaient gnrer, utiliser ou piloter
diffrents mdias simultanment []
Aujourd'hui on utilise le mot multimdia pour
dsigner toute application utilisant ou
servant travailler sur au moins un
mdia spcifique. []
Par ailleurs, en recherche en informatique,
on nomme multimdia l'tude des mdias
non textuels, principalement les images,
les vido et les sons.
Note : Wikipedia est une encyclopdie libre. La qualit
des informations prsentes est gnralement bonne,
mais le contenu ne provient pas systmatiquement
dexpert et ne prsente pas de garantie.
Wikipedia
Multimdia : dfinition de travail
Texte
Son
Image
Vidos
Nombre dunits
Stockage
News/Films la demande
Commerce electronique
Informations mdicales
Architecture/Design
Protection du copyright
Go-localisation
Enqutes policires
Militaire
Exprimentations scientifiques
Enseignement
Applications industrielles
Dans les cours suivants :
focus sur la partie recherche et
indexation dans de grandes bases
dimages et de vidos
Bases de donnes multimdia
II Gestion des bases de donnes multimdia
Base de donnes multimdia
Information Exif
Points cls :
Les objets passifs se contentent dexister dans la base. Ils ne peuvent tre
retrouver quau moyen dattributs (pas dutilisation de lobjet pour la
requte).
Une MMDB contenant des objets passifs de satisfait pas les besoins des
utilisateurs : besoin de recherche dinformation sur le contenu des objets,
non pas sur leurs attributs.
Une annotation textuelle sera toujours trop restrictive, mme si elle prend
en compte la fois des informations syntaxiques et symboliques.
Inconvnients
Musique
1. pas de tag prvu dans le format originel CD
2. Mais utilisation dun identifiant unique par CD (CDID)
Images
1. annotation Exif, IPTC
2. http://labelme.csail.mit.edu (MIT)
ID3 Tags
128 octets
Manque de souplesse
Le format supporte
Interrogation de la base
Ncessite de dcrire le contenu avec des index portant sur les mdias
Virage 93
Photobook MIT93
Cette mesure est utilise comme une mesure de similarit entre formes (en
considrant lensemble des recalages possibles).
Autres distances
Distance du X
2
pour comparer deux distributions
Distances composes
d ( x , y )=
i , x
i
0y
i
0
( x
i
y
i
)
2
x
i
+y
i
Quasi-distance
La notion de distance nest pas toujours adapte, car elle impose des
axiomes trs forts qui ne servent pas directement lobjectif recherch
Une quasi-distance q est une application qui vrifie les proprits (P2) et
(P3) et la proprit suivante
(P1) q(x,x) = 0
Une quasi-distance peut tre nulle entre des objets diffrents. Minimiser
une quasi-distance permet de retrouver une proprit particulire dun objet.
Mesure de similarit et dissimilarit
Divergence de Kullback-Leibler
dfinition au tableau
interprtation en compression
Mesures objectives usuelles pour limage
mesure de similarit
Crop+mise lchelle
Compression JPEG5
Bruit Gaussien
PSNR = 19.82 dB
Crop+mise lchelle
PSNR = 15.63 dB
Compression JPEG5
PSNR = 25.84 dB
Bruit Gaussien
Crop+mise lchelle
Compression JPEG5
Avoir disposition
une vrit terrain (ground truth) pour chaque couple (requte, lment
de la base) qui rpond la question : est-ce que llment de la base est
pertinent pour la requte considre ?
Remarques
Soit un ensemble E E, et x : x E et x E
x : la requte
Prcision/rappel (suite)
Ces deux notions sont couvertes par les mesures de prcision et de rappel
Prcision/rappel (suite)
Remarques :
c
i
s
i
o
n
rappel
p
r
c
i
s
i
o
n
Quel est le meilleur :
le vert ou le bleu ?
rappel
p
r
c
i
s
i
o
n
1
1
Equal Error Rate Average precision
precision
=recall
Exercice : systme de recherche dobjets
m
e
Pertinent (p) non pertinent (n)
Pertinent (p)
Non pertinent (n)
Vrai positif (vp)
q(x,y)=0 r(x,y)=0
Faux ngatif (fn)
q(x,y)=0 r(x,y)=1
Faux positif (fp)
q(x,y)=1 r(x,y)=0
Vrai ngatif (vn)
q(x,y)=1 r(x,y)=1
Area under Curve (AUC)
Chapitre 8
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
Mesures et protocole dvaluation : conclusion
elle doit tre adapte ce que lon compare (ex: loi de probabilit)
Difficults
Indices visuels
notre chelle, les signaux que nous dsirons acqurir sont continus
Lchantillonnage
La quantification
Lchantillonnage
support 3D (scanner, )
Exemple au tableau
Quantification uniforme
au tableau
Quantification uniforme
k-means (Lloyds)
au tableau
Exercice :
appliquer le k-means aux points (0,0) (2,0) (0,1) (3,4) (4,2) (5,0), k=2
chantillonage : Rgulier
Quantification :
YCbCr, Y'CbCr
Difficults
Indices visuels
Quantification
?
Reconnaissance de visage : identification dune personne
Vido cliquable
Structuration de la vido
Contenu reconnatre
Tche effectuer
Difficults
Indices visuels
rotation image
Difficults
changement dchelle
Difficults
Changement de luminosit
Difficults
Changement de luminosit
Difficults
Changement de luminosit
Difficults
Changement de luminosit
Objets 3D
Difficults
Changement de luminosit
Objets 3D
Difficults
Indices visuels
couleur
forme
texture
rgions
Robocup 2006...
Indice visuel : couleur (suite)
Problmes
Invariance ?
distance de Hausdorff
Difficults
Lhumain reconnat facilement les textures, mais difficile dfinir (et donc
reprsenter): transition micro/macro, textures irrgulires
Difficults
Indices visuels
Caractristiques
Swain, 1991
Ensemble de descripteurs
locaux de limage
Calcul de signatures
locales : Descripteur
Bases de donnes
de signatures
locales
Requte avec les signatures
De limage dans la base de
signatures : Appariemment
Fusion
Score pour un sous-ensemble
des images de la base
Description locale : plan
Descripteurs locaux
Appariement de points
Extraction de rgions dintrt : enjeux
Transformations gomtriques
translation
rotation
Transformations photomtriques
8 ensembles de 6 images
transformation 2D fournie
(vrit terrain)
Harris
Harris-Affine
Hessian-Affine
rptables de limage
Harris
analyse locale
Invariance la rotation
lellipse tourne
Dtecteur de Harris-Laplace
Complexit en O(w
2
)
Multi-chelle en pratique:
pyramide d'images
Transformations affines
Sauf discontinuit
localisation : Harris
Descripteurs locaux
Appariement de points
Et une fois quon a dfini lellipse ?
Mais ce stade, ces zones ne peuvent pas tre compares entre elles
invariant
discriminant
compact
Descripteurs basiques
Descripteur CS-LBP
Calcul simple
Invariants diffrentiels : interprtation
Invariants diffrentiels : invariance la rotation
[Koen 87]
|
I
xx
I
x
I
x
+2I
xy
I
x
I
y
+I
yy
I
x
I
x
( I
x
I
x
+I
y
I
y
)
3/ 2
I
xx
I
yy
( I
x
I
x
+I
y
I
y
)
1/ 2
I
xx
I
xx
+2 I
xy
I
xy
+I
yy
I
yy
I
x
I
x
+I
y
I
y
Invariants diffrentiels (fin)
Remarque: changement dchelle I
2
(x)= I
1
(s x) drives lies par
r
k
e
i 0 l
I ( r , 0)dr d 0
m
kl
-m
kl
e
i l o
Descripteurs moments couleurs invariants affines
region
x
p
y
q
R
a
( x , y)G
b
( x , y) B
c
( x , y) dx dy
SIFT (Scale invariant feature transform) [Lowe 04]
Description au tableau
Comparaison de descripteurs
On se donne des paires dimages pour lesquelles on connat les points qui
doivent tre apparis
Descripteurs locaux
Appariement de points
Appariemment de points
Remarque: ambiguit
Diffrentes stratgies:
Contraintes de voisinages
RANSAC
LO-RANSAC
Transforme de Hough
Problme : appariemments entre deux images
Vrification des contraintes de voisinage
Motivation :
Ide
P=(x,y,z,w)
Schma au tableau
DEFINITION : pipoles
Algorithme au tableau
similaire RANSAC
calcul de la transformation
Ex: copyright
=
|
a b
c d
|
X
Y
+
|
t
X
t
Y
|
X '
Y '
=s
|
cos(0 ) sin(0 )
sin(0) cos (0)
|
X
Y
+
|
t
X
t
Y
|
X '
Y '
=
|
cos (0 ) sin(0 )
sin (0) cos (0)
|
X
Y
+
|
t
X
t
Y
|
X '
Y '
=
|
X
Y
+
|
t
X
t
Y
|
X '
Y '
=
1
h
31
X +h
32
Y +h
33
(
|
h
11
h
12
h
21
h
22
|
X
Y
+
|
h
13
h
23
)
LO-RANSAC
Avantages
efficace
Inconvnient
Principe :
Ensemble de descripteurs
locaux de limage
Calcul de signatures
locales : Descripteur
Bases de donnes
de signatures
locales
Requte avec les signatures
De limage dans la base de
signatures : Appariement
Fusion
Score pour un sous-ensemble
des images de la base
Description locale des images : rsum et commentaires
tapes
algorithme de vote
Commentaires:
Recherche
vecteurs de caractristiques
de haute dimension
extraction de
descripteurs
ajout ou
requte
structure
dindexation
Plan
Prliminaires
Indexation mono-dimensionnelle
Indexation multi-dimensionnelle
Perspectives
Notations
base de n vecteurs : Y= { y
i
d
}
i=1..n
vecteur requte : q in
d
on note N(q) Y les voisins de q
les vecteurs similaires
(q) = { y
i
Y : d(y
i
,q) < } N
k
(q) = k-arg-min
i
d(y
i
,q)
k=2
Remarque : le voisinage au sens des k-ppv nest pas symtrique
X= { x
i
d
}
i=1..n
on peut avoir x
j
N
k
(x
i
) et x
j
N
k
(x
i
)
ncessite le
calcul de lensemble des distances d(q,y
i
)
O(nd)
Pour N
k
(q), il faut de plus trouver effectuer lopration k-arg-min
i
d(q,y
i
)
proprit : si n
i
est un noeud fils de n
j
, alors v(n
i
) < v(n
j
)
Remarque : il admet une reprsentation linaire simple: n
i
a pour pre n
i/2
10
9 5
6 2 3 1
4
n
1
10
n
2
9
n
3
5
n
4
6
n
5
2
n
6
3
n
7
1
n
8
4
Max-heap : oprations lmentaires
llment insr remonte : inversion avec son parent sil est plus grand
mise jour :
Pour i=1..n,
sinon
heap_pop
heap_push
un nouveau n
ime
lement doit tre plus grand que le noeud racine
Prliminaires
Indexation mono-dimensionnelle
Indexation multi-dimensionnelle
Perspectives
Indexation mono-dimensionnelle
Hashing
B+ tree
Fichier invers
Estimation de la performance
Impact du cache
Principe:
i
r
i
x
i
) mod P) mod m
Hashing (2)
Peu adapt aux requtes comparatives (type intervalle, donc SAM) du type
SELECT taille FROM PERSON WHERE taille > 1.70 and taille < 1.90
dans ce cas, complexit en O(n)
Paramtres :
en temps logarithmique
vers feuille
suivante
30 35
NULL: pas
encore rempli
hirarchie
de nuds
internes
chainage vers intervalle
suivant y
i
>52
optimisation de la
requte sur intervalle
25<y
i
<52
B+ tree : insertion
si il y a la place, stop
Sinon, la division doit tre faite rcursivement sur les noeuds parents
Remarque:
Insertion de 30
on cherche la feuille
Insertion de 120
on cherche la feuille
redistribution
il y a de la place, arrt
9
9
28 50 115 153 175 200
2
3
30
28 30 50 115 120 175 200
1
153
9
9
1
5
3
B+ tree : suppression (par souci dexhaustivit)
Suppression de lentre
en cas dchec (pas assez dentre sur les noeuds adjacents), fusion.
recherche de L correspondant a
Complexit
(q)|)
mais les noeuds internes sont aussi utiliss pour stocker des
enregistrements
Cette structure liste des lments qui ont une valeur donne pour un attribut
Modle vectoriel
Exemple
espace de reprsentation:
6
f=(1/4,0,1/4,0,0,1/2)
t
Complexit : O(nC),
Un index doit tre cr pour tous les champs qui peuvent apparatre
dans les clauses WHERE
Prliminaires
Indexation mono-dimensionnelle
Indexation multi-dimensionnelle
prliminaires
R-tree
KD-tree
la maldiction de la dimension
Perspectives
Prliminaires
pr-dfini
comme pour le hachage)
Organiser partir des donnes
Selon la mthode:
recouvrement autoris
ou non
Sur lutilisation de cellules
trouver les cellules non vides les plus proches dun descripteur requte
est relativement efficace
lingalit triangulaire
Exemple dutilisation de cellules englobantes
On peut rejeter C
1
sans analyser son contenu
Exemple
q
Dmin(q,C
3
)
Dmax(q,C
4
)
On ne peut rejeter C
3
ces distances sont moins lches que celles dtermines par les bornes
des cellules.
arbre quilibr
hirarchie de rectangle
feuille : (vector)*
R-Tree
(x1,y1;x2,y2) ; (x3,y3;x4,y4)
(x5,y5;x6,y6) ; (x7,y7;x8,y8)
; (xV,yV) ; (xJ,yJ) ; ; (xR,yR) ;
Un rectangle sur un niveau englobe les rectangles
des noeuds fils
(x
1
,y
1
)
(x
2
,y
2
)
R-Tree (suite)
(x1,y1;x2,y2) ; (x3,y3;x4,y4)
(x5,y5;x6,y6) ; (x7,y7;x8,y8)
; (xV,yV) ; (xJ,yJ) ;
La recherche procde en descendant larbre en
utilisant les coordonnes des rectangles
Mais la requte peut tomber dans plusieurs
rgions la fois (B+tree)
; (xR,yR) ;
(xq, yq)
R-Tree : insertion
arbre de recherche
Variations
vanishing variance
le plus proche voisin et le point le plus loign sont des distances qui
sont presque identiques
Consquence
d=100 1.26 10
30
cellules >> n
les vecteurs sont trs proches des surfaces de sparation avec une trs
grande probabilit
le plus proche voisin dun point appartient une cellule diffrente avec
une grande probabilit
Tout les vecteurs sont prs des frontires
LSH (1999)
Explication au tableau
Euclidean Locality Sensitive Hashing (E2LSH)
1) Projection sur m directions alatoires
2) Construction de fonctions de hashage:
concatenation de k index h
i
par fonction
de hash
3) Pour chaque g
j
, calcul de deux valeurs
de hash
- fonctions de hash universelles: u
1
(.), u
2
(.)
- stockage de lidentifiant id du vecteur
dans une table de hashage
(1,0)
(2,0)
(3,0)
(0,0)
(3,1)
(2,1)
(1,1)
(0,1)
(0,-1)
(1,-1)
(2,-1)
bi
0
1
1
1
1
2
2
2
w
O
a
1
h
i
( x)=
x.a
i
b
i
w
g
j
( x)=( h
j1
, ... , h
jk
)
Rduisons la!
4 tapes (off-line)
Limitations
Indexation mono-dimensionnelle
La maldiction de la dimension
Indexation multi-dimensionnelle
Perspectives
Bases de donnes multimdia
VII Video-Google
ENSIMAG
2009
Herv Jgou & Matthijs Douze
Video-Google
LA rfrence :
Josef Sivic and Andrew Zisserman
Video Google: A Text Retrieval Approach to Object Matching in Videos
International Conference on Computer Vision, 2003 (ICCV2003)
Bag-of-words
Extracteurs
MSER
Imagette (patch)
y
x
Video-Google : filtrage spatial et temporel
Filtrage spatial
Une fois le clustering dfini (une fois pour toutes), un document est
reprsent par un histogramme de ses mots visuels
objectif : donner plus dimportance aux mots visuels rares qu ceux qui
sont frquents
utilisation de stoplists
Stoplists
complexit de la recherche en
fichier invers en O(d s
2
)
Variante 1 : mthode hirarchique de Nister et Stewnius
Voir au tableau
Principales ides :
Spcificit du problme
Filtrage temporel
Dtecteur spatio-temporels
Aggrgation temporelle
MPEG7
Quelques perspectives
Spcificit du problme (dbut)
Avantage?
Spcificit du problme (fin)
asymtrie de la requte
Spcificit du problme
Filtrage temporel
Dtecteur spatio-temporels
Aggrgation temporelle
MPEG7
Quelques perspectives
Filtrage temporel
indexation 2D usuelle
Mthode
Comme pour les images, une slection automatique dchelle est possible
via une selection des maxima de loprateur de Laplace (tendu 3
dimensions)
Cette mthode donne le mme status laxe temporel et aux axes spatiaux
(sauf de drivation)
H=det Mk trace
3
M=\
1
\
2
\
3
k (\
1
+\
2
+\
3
)
3
Aggrgation temporelle (1)
Modles possibles :
simple (dcalage temporel uniquement): t
q
= t
b
+ 6t
incluant des variations globale de vitesse (slow-motion): t
q
=a* t
b
+ 6t
complexe avec une table de dcalage: t
q
= t
b
+ shift [t
q
]
RANSAC
transforme de Hough
Modles possibles :
Problmes
Modle imparfait, mais pour lequel on peut obtenir une bonne estimation
Vrification spatio-temporelle (3)
Algorithme au tableau
Hypothses :
Mthode
Xavier Naturel, Patrick Gros. A Fast Shot Matching Strategy for detecting
duplicate sequences in a television stream. CVDB'05.
Plan
Spcificit du problme
Filtrage temporel
Dtecteur spatio-temporels
Aggrgation temporelle
MPEG7
Quelques perspectives
MPEG7
dfinit des descripteurs pour les diffrents indices visuels prsents dans
une vido
Spcificit du problme
Filtrage temporel
Dtecteur spatio-temporels
Aggrgation temporelle
MPEG7
Quelques perspectives
Problmes dintrt et perspectives
En conclusion
Expansion de requtes
Classification
Retour de pertinence
Exemple:
Expansion de requtes
Classification
Retour de pertinence
On veut reconnatre
positif/ngatif
labels
rseaux neuronaux
Classification: descripteurs
Dtecteurs :
Descripteurs :
couleurs
Apprentissage
Classification
Domaine en dveloppement
peu dinvariance
Expansion de requtes
Classification
Retour de pertinence
O: objet (poids U)
P: primitive (poids V)
R: reprsentations (poids w)
Principe de linteraction
initialiser les poids U, V et W
boucler
calcul des distances entre Q et tous les objets de la base
classer les rponses et ne garder que N plus pertinentes
interaction: lutilisateur value la pertinence des rponses
mise jour de U, V et W en accord avec ces rponses
Expansion de requtes
Classification
Retour de pertinence
LSI
lespace des sens sera lespace rduit des k premiers vecteurs propres
espace vectoriel smantique