Vous êtes sur la page 1sur 104

Laboratoire Bordelais

de Recherche
en Informatique
Indexation des images et de la vidéo

Jenny Benois-Pineau
LABRI UMR 5800 Université Bordeaux
1/Bordeaux2/IPB-ENSEIRB-Matmeca

06/04/2012
Laboratoire Bordelais
de Recherche
en Informatique
Indexation des images et de la vidéo
1. Description du contenu des images
Descripteurs globaux
Descripteurs locaux
Quantification : Notion de BOF et BOVW
Mesures de similarité et distances
Prise en compte du contexte spatial : SPMK, GraphWords

2. Extensions spatio-temporelles
Comparaisons des séquences vidéo
Mouvement : descripteur particulier
Estimation
Segmentation en plages du mouvement homogène.

06/04/2012
Laboratoire Bordelais
de Recherche
1. Description du contenu des images
en Informatique

Objectifs :
-recherche des images par similarité dans des bases
de données
- reconnaissance des scènes, des objets
- classification non supérivisée /groupement des
images similaires dans une BD ou des images une
une vidéo
- classification supervisée
Formulation générale du problème de recherche par
similarité :

06/04/2012
Laboratoire Bordelais
de Recherche
en Informatique

06/04/2012
Laboratoire Bordelais
de Recherche
Evaluation des performances
en Informatique

TP, FP, TN, FN


Rappel(R) :
R= TP/(TP+FN)= TP/(Ngt)
Précision(P) :
P=TP/(TP+FP)= TP/(Nd)
F-mesure normalisée (F) :
F=2/(1/R +1/P)
MAP : Mean average precision – mesure tenant compte du rang
Précision à n :
Soit TP à la position n, P(n) – combien de TP sur n premiers/n
∑ ,
Average Precision:

MAP= ∑ ( )
06/04/2012
Laboratoire Bordelais
de Recherche
Descripteurs globaux
en Informatique

M. J. Swain and D. H. Ballard. Color indexing. International Journal of Computer Vision,


7(1):11–32, 1991.

MPEG7: ISO/IEC 15938-3:2002 Information technology -- Multimedia content description


interface -- Part 3: Visual

Descripteurs globaux du contenu des images en


termes de couleur et contrastes couleur, texture,
contours..

06/04/2012
Laboratoire Bordelais
de Recherche
Descripteurs globaux : couleur
en Informatique

Histogramme couleur (S&B)

M. J. Swain and D. H. Ballard. Color indexing. International Journal of Computer Vision,


7(1):11–32, 1991.
Invariance : translation, rotation, et faibles changements de l’angle de
vue
06/04/2012
Mesures de similarité et distances su rels
Laboratoire Bordelais
de Recherche
histogrammes(1)
en Informatique

Intersection des histogrammes

Coefficient et distance de Battacharyia

06/04/2012
Mesures de similarité et distances sur les
Laboratoire Bordelais
de Recherche
histogrammes(2)
en Informatique

Distance :
( ! " # $ " )%
, = ∑ Tapez une équation ici.
! " & $ "
Cette distance permet de réduire l’effet des classes de forte population.
Encore S&B montrent que leur mesure de similarité
des histogrammes peut être exprimée via la norme L1:
1-5 , = ∑9
" 7 − 7 , T=Card(I)
6

Distances entre les histogrammes: normes L1 et L2


dans l’espace :9
Plus généralement *
6
; , = − ∑ −
*O. Pele and M. Werman. The quadratic-chi histogram distance family. In ECCV, 2010.
06/04/2012
Mesures de similarité et distances sur les
Laboratoire Bordelais
de Recherche
histogrammes(3)
en Informatique

Σ est appelée la matrice de similarité des


classes.
Si Σ est la matrice inverse de covariance,
La distance est celle de Mahalanobis.
Dans le cas de
Σ = =, nous avons L2
D’autres distances sont appliquées : « Earth –
mover distance » etc.

06/04/2012
Laboratoire Bordelais
de Recherche
Descripteurs de la couleur en MPEG7 (2)
en Informatique

Dominant color descriptor : l ’ensemble des couleurs


dominantes dans la régions d ’intérêt ou dans l ’image
entière fournit une description compacte facile à indexer.
F = {{ci , pi , vi }, s}, (i = 1,2,..., N )

ci - ième couleur dominante


pi - pourcentage dans l ’image
vi
- variance couleur;
s
- mesure de cohérence spatiale
(nombre moyen normalisé des pixels
connexes de même couleur dans un
voisinage 3x3). = Histogramme de
couleurs

06/04/2012
Calcul du DCD – Split-LBG
{( )}
Laboratoire Bordelais

(n ) T ∞
de Recherche
en Informatique
A = a ,..., a
(1)
i i =1
Nombre de classes final fixé à priori K=2n
Méthode :
1. Initialisation : tirage aléatoire des centres
de M<K classes (M=2) D = {c1 ,..., cM }∈ A

2) « Split » de D : ci a (ci + ε , ci − ε )

3) LBG
a - affectation C ( a j ) = Arg min d ( a j , ck ), ck ∈ Di
k
1
b - calcul du nouveau centroïde de chaque classe : g k = ∑ al
N k al ∈Ck

c - calcul de la distorsion E = ∑∑ d (aik , ck )


k i
si E I < αE I −1 alors arrêter sinon (3)
4) Arrêt si K classes sinon retour en (2).
06/04/2012
Laboratoire Bordelais
de Recherche
Descripteur Color Layout
en Informatique

Color Layout Descriptor : représentation compacte de la distribution


spatiale des couleurs dans l’image, indépendante de la résolution.
Calcul :
- Partitionner image de taille MxN en 64 blocs (8x8).
-Calculer la valeur représentative (moyenne) par bloc
Calculer la DCT sur l’imagette des valeurs représentatives

CLD = (DYi , DCr j , DCb j ), (i = 1,..., m, j = 1,..., n )

Coefficients DCT de luminance

Coefficients DCT de chrominance rouge

Coefficients DCT de chrominance bleu

m = 6, n = 3 par exemple

06/04/2012
Laboratoire Bordelais
de Recherche
Calcul du descripteur
en Informatique

64(8x8) blocs

image Partitionement

Calcul des
couleurs
représentatives

Cr
Cb DCT
Coefficients Y

Zigzag Scan
CLD

06/04/2012
Laboratoire Bordelais
de Recherche
Exemples de CLD
en Informatique

06/04/2012
Laboratoire Bordelais
de Recherche
Descripteurs de texture/contours
en Informatique

Descripteur EDH – histogramme de contours

Permet de caractériser la direction des contours dans


des zones de l’image

06/04/2012
Laboratoire Bordelais
de Recherche
EDH(1)
en Informatique

Principe de calcul :
diviser l’image en 16 blocs;
détecter les contours dans chaque bloc;
et déterminer leur orientation parmi les 5 :
H,V,45°,135°,ND (non-directionnal);
pour chaque bloc calculer l’histogramme normalisé des
orientations des contours;
concaténer les histogrammes dans un vecteur à 16x5=80
dimensions.

06/04/2012
Laboratoire Bordelais
de Recherche
en Informatique

06/04/2012
de Recherche
en Informatique
EDH(2)
Laboratoire Bordelais

Exemple :les histogrammes moyennes et variance


pour un ensemble de 55 exemples

06/04/2012
Laboratoire Bordelais
de Recherche
Descripteurs locaux
en Informatique

Principe :
-a)Détecter des points, des régions « singuliers »
dans l’image et décrire la texture autour
-b) Décrire la texture en utilisant les descripteurs
de (a) en effectuant le découpage régulier
« description dense » ou irrégulier « description
par régions ».

06/04/2012
Laboratoire Bordelais
de Recherche
Descripteurs SIFT (D. Lowe 2004) -1
en Informatique

SIFT = scale invariant feature transform


Problème : détecter les points caractéristiques et proposer les
descripteurs invariants par rapport aux transformations affines du
plan – image et de la liminance.  x +y  2 2
− 
L( x, y, σ ) = G ( x, y, σ ) ∗ I ( x, y ) (1) 1  2σ 2 
G ( x, y , σ ) = e  
(2 )
2πσ 2
σ -est le paramètre d’échelle

Mokolajczyk (2002) a montré que les points les plus stables


sont obtenus comme extremums de σ 2∇ 2G o I
Laplacien de Gaussienne d’une image

DOG ( x, y, σ ) = D( x, y, σ ) = L( x, y, kσ ) − L( x, y, σ )

06/04/2012
Descripteurs SIFT (D. Lowe 2004) -2
Laboratoire Bordelais
de Recherche
en Informatique

DOG est une bonne approximation de σ2∇2G

Considérons k σ = σ + ∆ σ ⇒ ∆ σ = (k − 1 )σ

∂G
G ( x, y, kσ ) − G ( x, y, σ ) ≈ (k − 1)σ
Alors ∂σ (3)
∂G x2 + y 2
=
1
∂σ 2πσ 5
(
x + y − 2σ exp(−
2 2 2

2σ 2
) ) (4)
Par ailleurs

∂2G ∂2G 1 2 2  x2 + y2 
(
∇ G= 2 + 2 = 6 x + y −2σ exp− 2 
2

∂x ∂y 2πσ
2
) (5)
 2σ 

06/04/2012
Laboratoire Bordelais
de Recherche
Descripteurs SIFT (D. Lowe 2004) -3
en Informatique

De (4) et (5) :
∂G
σ ∇ 2G =
∂σ
(6)

Finalement de (3) et (6):

∂G ( x, y, σ )
G ( x, y, kσ ) − G ( x, y, σ ) ≈ (k − 1)σ = (k − 1)σ 2∇ 2G ( x, y, σ )
∂σ2
DOG déjà comporte la σ normalisation requise pour Laplacien

inv. à l’échelle. Le facteur (k-1) est constant pour toutes les

échelles et n’influence pas la localisation des extremums

06/04/2012
Laboratoire Bordelais
de Recherche
Calcul de la DOG
en Informatique

Convoluer I avec G
progressivement pour
produire L séparées par k σ ,2σ

dans l’espace - échelle


Une Octave σ,2σ est divisée
en s intervalles, 1
σ , 2 σ , 2 (2 σ ),..., 2 σ
1/ s 1/ s 1/ s
k = 2s
Echelles adjacentes

DOG:
D ( x, y, σ i ) = L( x, y, kσ i ) − L( x, y, σ i )

Sous-échantillonnage de
facteur 2
06/04/2012
Laboratoire Bordelais
de Recherche
Détection des extremums locaux
en Informatique

Un point est retenu si DOG est minimale ou maximale parmi 26


voisins
Choix du paramètre d’échelle σ ,2σ

valeur σ = 1,6
(Lowe[2004])

L’échelle s est affectée


au point

06/04/2012
Laboratoire Bordelais
de Recherche
Filtrage le long des contours (1)
en Informatique

Un faible pic de DOG (qui correspond au contour) aura une forte


courbure dans la direction orthogonale au contour et une fable
courbure dans la direction orthogonale.

 D xx D xy  Matrice Hessienne
H = 
 D yx D yy 

Les valeurs propres α,β de H sont proportionnelles aux courbures


principales de D au point considéré.

Soit α = rβ avec α - la valeur propre maximale ( r ≥1 )

α , β sont les racines du polynôme caractéristique det( H − λI ) , alors


αβ = Det (H ) α + β = Tr (H ),
06/04/2012
Laboratoire Bordelais
de Recherche
Filtrage le long des contours (2)
en Informatique

Finalement
Tr (H ) (α + β )2 (r + 1)
2 2
= =
Det (H ) αβ r

Exclusion du point si
Tr (H ) (Thr + 1 )
2 2
<
Det (H ) Thr

06/04/2012
Laboratoire Bordelais
de Recherche Résultats de la détection
en Informatique

Image1

06/04/2012
Laboratoire Bordelais
de Recherche
Résultats de la détection
en Informatique

Image10

06/04/2012
Laboratoire Bordelais
de Recherche
Affectation de l’orientation
en Informatique

Objectif : obtenir l’invariance du descripteur par rapport à la


rotation en compensant par rapport à l’orientation locale
For each sample of the image L(x,y) at a given scale compute :
Amplitude du gradient : m(x, y) = (L(x+1, y) −L(x−1, y))2 +(L(x, y +1) −L(x, y −1))2
((L(x, y +1) −L(x, y −1)) /(L(x+1, y) −L(x−1, y)))
Angle d’orientation : θ(x, y) = arctan
Histogramme d’orientations et calculé dans le
voisinage du point caractéristiques (36 orientations :
360/10). h(θ ) = h(θ ) +m(x, y)G(x, y, x , y 1,5σ ),i =1,..,36
i i 0 0 s

Points multiples : l’histogramme contient plusieurs modes

06/04/2012
Laboratoire Bordelais
de Recherche
Affectation de l’orientation(2)
en Informatique

Exemple de Lowe avec les


orientations locales.

06/04/2012
Laboratoire Bordelais
de Recherche
Descripteur local autour du point caractéristique (1)
en Informatique

Séléctionner une région – carré autour du point caractéristique ( 8x8 or 16x16


pixels);
Claculer l’amplitude du gradient et l’orientation en chaque point de la région,
pondérer l’amplitude avec une Gaussienne (cercle)
Diviser en blocs de taille 4x4 et calculer l’histogramme d’orientation pour
chaque bloc (8 orientations);

Pondérer chaque contribution dans un bin par l’amplitude lissée du gradient


Interpoler les histogrammes

06/04/2012
Descripteur local autour du point caractéristique (2)
Laboratoire Bordelais
de Recherche
en Informatique

Le descripteur X est un vecteur des histogrammes 4x4


concaténés dim(X)=4x4x8=128

« Tourner » le descripteur X par rapport à l’orientation du point


caractéristique pour obtenir l’invariance par rapport à la
rotation

Normaliser : X ← X / X
- invariance par rapport aux transformations affines de la
luminance

06/04/2012
Laboratoire Bordelais
de Recherche
SURF (speed-up robust features)(1)
en Informatique

Points caractéristiques : max de det de Hessian -


blobs

L-convolution de l’image avec la dérivée seconde d’une


Gaussienne

06/04/2012
SURF (speed-up robust features)(2) H.
Laboratoire Bordelais
de Recherche
Bay et al.
en Informatique

Image intégrale

C-B-D+A

Calcul rapide de convolution

06/04/2012
Laboratoire Bordelais
de Recherche
SURF (speed-up robust features)(3)
en Informatique

Augmentation de taille de filtre au lieu de


changement de l’image pour la détection à
différentes échelles
06/04/2012
Laboratoire Bordelais
de Recherche
Exemples de détection
en Informatique

06/04/2012
Laboratoire Bordelais
de Recherche
Régions de calcul du descripteur.
en Informatique

Calcul de l’orientation à la base des Ondelettes


de Haar

06/04/2012
Laboratoire Bordelais
de Recherche
Descripteur
en Informatique

06/04/2012
Laboratoire Bordelais
de Recherche
Quantification: BOF et BOVW
en Informatique

Notre problème 2 : comment comparer les images


représentées par leurs descripteurs locaux

BOF : représentation d’une image par un ensemble


des descripteurs d’origine
BOVW : quantification vectorielle des descripteurs et
représentation d’une image par signature-
histogramme des « mots » du dictionnaire.

06/04/2012
Laboratoire Bordelais
de Recherche
Approche BagofFeatures (BoF)
en Informatique

D’après Lazebnik (UNC/UIUC)


Comparaison des images
Laboratoire Bordelais
de Recherche
en Informatique

Score(i,j) d(Fk,i,Fl,j)
Laboratoire Bordelais
de Recherche
Recherche des images similaires
en Informatique

- Mesure de similarité entre les descripteurs


(SIFT : distance L1, histogrammes – distance L1, coeff
de Battacharyia, Ki-2,…, mesures assymetriques)

- Score : nombre de descripteurs similaires au sens de


la mesure de similarité choisie
Laboratoire Bordelais
de Recherche
Recherche des images similaires
en Informatique
Laboratoire Bordelais
de Recherche
Recherche des images similaires
en Informatique
Laboratoire Bordelais
de Recherche
Stratégie de vote(1)
en Informatique
Laboratoire Bordelais
de Recherche
Stratégie de vote(2)
en Informatique

K=7 : inconvenients? Non-symétrique


Laboratoire Bordelais
de Recherche
Stratégie de vote (3)
en Informatique
Laboratoire Bordelais
de Recherche
Stratégie de vote
en Informatique

Calcul de « bonnes » correspondances


uniquement en considérant toutes les
correspondances équivalentes.
Nécessité d’une similarité plus
« sémantique »
Difficultés de « passage en échelle » - une
grande quantité des appariements.
Laboratoire Bordelais
de Recherche
Approche par Bag of Words BoVW
en Informatique

• Approches inspirées par


– la recherche dans des bases de données textuelles
– (R. Baeza –Yates, B. Ribero-Neto, Modern
Information Retrieval, ACM Press, 1999)
– la quantification viselle (codage) ( Lindo Buso
Gray)

« Dictionnaires visuels »
J. Sivic and A. Zisserman, “Video google: a text retrieval approach to
object matching in videos,” ICCV’2003, vol. 2, pp. 1470-1477, 2003.
Laboratoire Bordelais
de Recherche
BoW(1)
en Informatique

« visage », »herbe », « bâtiment » ????

Lazebnik (UNC) conférence sur BoF, proposé par G.


Szurka en 2004
Laboratoire Bordelais
de Recherche
BoW(2)
en Informatique

1. Extraction des descripteurs des éléments


2. Construction de l’ensemble des descripteurs

+ +

Laboratoire Bordelais
de Recherche
BoW(3)
en Informatique
Laboratoire Bordelais
de Recherche
BoW(4)
en Informatique
Laboratoire Bordelais
de Recherche
BoW(5)
en Informatique
Choix des éléments de l’image
Laboratoire Bordelais
de Recherche
et des descripteurs(1)
en Informatique

Vogel & Schiele, 2003


Fei-Fei & Perona, 2005
Quenot et Ayache 2005,
Merialdo, Dumont 2008
Choix des éléments de l’image et des descripteurs
(2)
Laboratoire Bordelais
de Recherche
en Informatique

Sivic &
Zisserman
2005
Laboratoire Bordelais
de Recherche
BORW – Bag of Region-Words
en Informatique

Principe : les régions sont issues de la fusion des segmentations


régulière et irrégulière.

Descripteurs : histogramme HSV


Wang DB

R. Vieux et al. 2010


06/04/2012
Laboratoire Bordelais
de Recherche
en Informatique

06/04/2012
Laboratoire Bordelais
de Recherche
TF-IDF(1)
en Informatique
Laboratoire Bordelais
de Recherche
TF-IDF(2)
en Informatique
Laboratoire Bordelais
de Recherche
Méthodes de construction de dictionnaire
en Informatique

Algorithmes de groupement de données :


clustering(CNS)
Le plus fréquemment utilisé est l’algorithme des K-
moyennes
Illustration d’ambiguïté des
mots visuels

Problème de passage à l’échelle


Laboratoire Bordelais
de Recherche
Algorithme de K-moyennes(I)
en Informatique

J. MacQueen, “Some methods for classification and analysis of multivariate observations”, Proc. Of the Fifth Berkley Symposium
on Math. Stat. And Prob., pp. 281 – 296, 1967

Principe : CNS avec le nombre des classes connus a priori.


Paramètre : le nombre k de classes
entrée : un échantillon de M vecteurs-descritpeurs x1,... xM.
(1) Choisir k centres initiaux c1,... ck
(2). Pour chacun des M vecteurs, l'affecter à la classe i dont le
centre ci est le plus proche
(3). Si aucun élément ne change de classe alors arrêt.
(4). Calculer les nouveaux centres : pour tout i, ci est la
moyenne des éléments de la classe i
(5). Aller en 2

06/04/2012
Laboratoire Bordelais
de Recherche
Clustering incrémental
en Informatique

1. Choisir les vectuers initiaux pour former k centres


des clusters, ck, k = 1,…,K.
2. Sélectionner la donnée suivante x de l’ensemble de
données D
3. Calculer la distance de x à K centres des clusters.
4. Trouver le centre du cluster le plus proche
cwin = arg minkd(x, ck)
5. Si d(x, cwin) > Th alors l’échantillon x devient le
centre du nouveau cluster. Sinon bouger le centre
cwin dans la direction de x :
cnewwin = coldwin + e*(x -coldwin); 0<e<1
06/04/2012 E.Lughofer. “Extensions of vector quantization for incremental clustering”. Pattern
Recognition, 41 :9951011, 2008.
Laboratoire Bordelais
de Recherche
Classification hiérarchique agglomérative
en Informatique

Principes :
(1) A l’initialisation chaque vecteur descripteur dans l’échantillon de données
forme une classe.
(2) Tant que le nombre de classes est supérieur à k ( à la limite k=1)
Regrouper les classes les plus proches au sens d’une distance d

Distance entre les classes


lien minimal dmax(Ci ,C j )=maxd (x, y)
x∈Ci , y∈C j

lien maximal d min (Ci , C j ) = min d (x, y )


x∈Ci , y∈C j

distance moyenne l = ni p=n j

∑ ∑ d (x , y )
1
d moy (Ci , C j ) =
ni × n j
l p
l =1 p =1

d’après A. Laurent, LIRMM


06/04/2012
Laboratoire Bordelais
de Recherche
Dendrogramme
en Informatique

06/04/2012
d’après S. Benini, ICIP’2006
Prise en compte du contexte spatial:
Laboratoire Bordelais
de Recherche
SPMK
en Informatique

La description éparse ne tient pas compte de la distribution des


« features » dans le plan-image
SPMK

S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial


pyramid matching for recognizing natural scene categories. In Computer Vision and Pattern
Recognition, 2006 IEEE Computer Society Conference on, volume 2, pages 2169–2178. IEEE, 2006.
Laboratoire Bordelais
de Recherche
en Informatique

Similarité : Spatial Pyramid Match Kernel.


Considérons images X et Y
Considérons m=1,…,M classes dans le dictionnaire;
Considérons I – la mesure d’intersection des histogrammes,
Considérons l=0, …,L les partitions de l’image par des grilles emboitées
avec les cellules > N × > N ( pour simplifier H=L=N)

7 A BC , DC = EI F
BC , F
DC +∑A EG>H I BC , DC

I A B, D =∑JC 7 A BC , DC
Ceci revient à concatener les histogrammes pour tous les niveaux et
pour toutes les cellules avec la pondération.
Inconvénient : non-invariance par rapport aux transformations affines
du plan –image.
06/04/2012
Laboratoire Bordelais
de Recherche
GraphWords
en Informatique

Construction de graphes par triangulation de Delaunay sur des points


SURF

69
Laboratoire Bordelais
de Recherche
Problème de clustering des graphes
en Informatique

(1) Distance:
d(P,Q) = s(P, P)+s(Q, Q) - 2 s(P, Q) ∈ [0,1]
Nécessité de définir la similarité s
(2) Méthode de quantification/classification
HAG car impossible d’interpoler les graphes –
espace non-vectoriel
Modèle de classe : graphe médian

06/04/2012
Laboratoire Bordelais
de Recherche
Exemples
en Informatique

Base de données SIVAL (25 objets, 10


environnements, 6 positions par environnements)

06/04/2012
Laboratoire Bordelais
de Recherche
Évaluation de la méthode
en Informatique

Base de données SIVAL (25 objets, 10


environnements, 6 positions par environnements)

72
Laboratoire Bordelais
de Recherche
Évaluation de la méthode
en Informatique

Fusion (continu) toujours meilleure que graphes


(tirés) ou points SURF isolés (pointillés)
[Soumis à ACMMM’2011]

73
2. Extensions spatio-temporelles
Laboratoire Bordelais
de Recherche
Comparaisons des séquences vidéo(1)
en Informatique

(1) Key–framing

«Chancre » - CERIMES

KLM N , NO = P
Q! ,QR
Laboratoire Bordelais
de Recherche
Comparaisons des séquences vidéo(2)
en Informatique
Laboratoire Bordelais
de Recherche
en Informatique
Mouvement : descripteur particulier
Représentation du mouvement dans le plan - image
Modèles du mouvement
Méthodes d’estimation
Méthodes directes / Estimation par bloc
Méthodes paramétriques/Estimation robuste
Méthodes de la segmentation basées mouvement
Méthodes par comparaison du mouvement

06/04/2012
Représentation du mouvement dans le
Laboratoire Bordelais
plan - image
de Recherche
en Informatique

Une séquence vidéo est une image 2D du monde 3D


en mouvement
On ne perçoit le mouvement que grâce au
changement de la luminance / couleur

06/04/2012 Mouvement Apparent


Mouvement réel 2D vs mouvement
Laboratoire Bordelais
apparent
de Recherche
en Informatique

Mouvement réel 2D est la projection du mouvement


3D par le système optique de la caméra Z
Z Y
Y

X X

àt à t+1
Mouvement apparent _ “flot optique” est observé dans
le plan image 2D grâce au changements de la luminance
06/04/2012
Mouvement réel 2D vs mouvement
Laboratoire Bordelais
apparent (2)
de Recherche
en Informatique

Mouvement apparent est dans le cas général


différent du mouvement réel 2D
a)Insuffisance du
gradient spatial
MR - oui
MA - non

b)Changements
d’illumination extérieure
MR - non
MA - oui

Néanmoins!
Hypothèse: Mouvement Apparent=Mouvement reel 2D
06/04/2012
Caractérisation locale du mouvement
Laboratoire Bordelais
de Recherche
en Informatique

v
P’ d = (dx, dy )T
v Vecteur de déplacement
P d élémentaire
r
w = (dx / dt , dy / dt )T
t t+1 vecteur vitesse
Premier niveau de caractérisation du mouvement
consiste à calculer le flot optique W = {w}Ω ou D = {d }Ω
r r

“champ de déplacement”
06/04/2012
Modèles de mouvement
Laboratoire Bordelais
de Recherche
v
En développant d = (dx, dy )T en série de Taylor
en Informatique

autour de (x g , y g ) jusqu’au 1er ordre

r  dx   a0   a1 a2  x − x g 
d =  = +   (9)
 dy   b0   b1 b2  y − y g 

Ici M
∂dx ∂dx ∂dy ∂dy
a1 = a2 = b1 = b2 =
∂x ∂y ∂x ∂y

Θaff = (a0 , b0 , a1 , a2 , b1 , b2 )T Modèle afffine à 6-paramètres


06/04/2012
Modèles affines
Laboratoire Bordelais
Exprimant
( ) [ ]
de Recherche

1 1 1
M = (traceM )I + M − M + M + M T − (traceM )I
en Informatique
T
2 2 2 r
∂dx ∂dy
traceM = a1 + b2 = + = div(d )
∂x ∂y
1 1  ∂dy ∂dx  0 − 1
(M − M ) = 
T
− 
2 2  ∂x ∂y  1 0 

rot z (d )
r
 − b2 + a1 b1 + a2 
1
2
[
M + M − (traceM )I = 
T
]  b1 + a2 b2 − a1 

∂dx ∂dy ∂dy ∂dx


hyp1 = − hyp 2 = +
∂x ∂y ∂x ∂y
1  1 0  1  0 − 1 1 1 0  1 0 1
M = div  + rot   + hyp1  + hyp 2 
2 0 1 2 1 0  2
06/04/2012
 0 − 1 2 1 0
Hiérarchie des modèles affines
dx t x
 =t
dy y

dx = t x + k ( x − xg )
 y (
dy = t + k y − y
g )
 dx = x2 − x1 = t x + k (x1 − xg1 ) − θ (y1 − y g1 )
dy = y − y = t + θ
 2 1 y (x1 − xg1 ) + k (y1 − yg1 )
dx  a0   a1 a2  x − x g 
 =   +   

dy  b0   b1 b2  y − y g

dx  a0  1  div ⋅ ( x − x g ) − rot ⋅ ( y − y g ) + hyp1 ⋅ ( x − x g ) + hyp 2 ⋅ ( y − y g ) 


 =   +  div ⋅ ( y − y ) + rot ⋅ ( x − x ) − hyp1 ⋅ ( y − y ) + hyp 2( x − x ) 
dy  b0  2  g g g g 

dx  a0   a1 a2  x − xg   a3
  + 
( )
a4  x − xg 2   a5 
( )( )
 =   +   +   x − xg y − y g
dy  b0   b1 b2  y − y 
g   b3  (
b4  y − y g

2) 
  5
b
Méthodes d’estimation
Laboratoire Bordelais
de Recherche
en Informatique

Objectif : mesurer le mouvement apparent


Méthodes :- directes (estimation du flot
optique)
- indirectes (parametriques-
estimation du modèle global)
Modes : basé-pixel, basé-bloc, basé-région

06/04/2012
Laboratoire Bordelais
de Recherche
Estimation du mouvement(1)
en Informatique

Hypothèse principale : conservation de l’intensité


lumineuse d’un point le long du trajectoire
r
DFD( x, y, d ) = I ( x + dx, y + dy, t + dt ) − I ( x, y, t ) = 0 (12)
(x+dx, y+dy)

(x, y)

(dx, dy)

r
n’est jamais nulle à cause du bruit et de
DFD( x, y, d )
changement d’éclairage

06/04/2012
Estimation du mouvement(2)
Laboratoire Bordelais
de Recherche
en Informatique

Critères à minimiser: EQM, MAD

1 2
EQM = ∑ DFD ( x, y, d ( x, y )) min
Ω ( x, y )∈Ω

1
MAD = ∑ DFD ( x, y, d ( x, y )) min
Ω ( x, y )∈Ω

{ }
r
D ( x, y ) = d ( x, y ) = Arg min EQM ( D )
*
Estimation directe

r
d ( x, y, Θ )− > Θ* = Arg min EQM (Θ) Estimation paramétrique

06/04/2012
Estimation du mouvement(3)
Laboratoire Bordelais
de Recherche
en Informatique

Développant I ( x + dx, y + dy, t + dt ) en série de Taylor


autour de (x,y,t)
et supposant la linéarité de I(x,y,t) on a
∂I ∂I ∂I
I ( x + dx, y + dy, t + dt ) = I ( x, y, t ) + dx + dy + dt
∂x ∂y ∂t

∂I ∂I ∂I
dx + dy + dt = 0
∂x ∂y ∂t

∂I dx + ∂I dy +∂I =0 l’équation de contrainte


∂x dt ∂y dt ∂t
du mouvement apparent (ECMA)
06/04/2012
Estimation du mouvement(4)
Laboratoire Bordelais
de Recherche
en Informatique

Sous forme vectorielle


r
Comme w = (dx / dt , dy / dt )T alors
u v
r r
∇I ⋅ w = − I t ECMA
r r r r
Décomposons w=w +w⊥, w⊥ est parallèle au gradient
(
r r r
)
∇I ⋅ w +w⊥ =−It r
local
w est orthogonale
Estimation du mouvement est un problème mal posé.
r
Uniquement le flot optique normal w⊥ est observable
06/04/2012
Estimation par bloc
Laboratoire Bordelais
de Recherche
en Informatique

Objectif : obtenir le champ de déplacement


éparse
Le FO est supposé constant à l’intérieur d’un bloc

Le critère à rminimiser :
min ∑
r r
I(p,t)−I(p+d,t−dt)
ou
min
r r
∑ I ( (
r
p , t ) − I (
r r
p + d , t − dt )
)
2
r
p∈B d ∈F p∈B

It
06/04/2012 t-dt
I
Laboratoire Bordelais
de Recherche
Méthode de recherche exhaustive
en Informatique

Estimation « au pixel près »

B
F

It-dt It
rˆ r r r
r min ∑
d = Arg r
I(p,t)−I(p+d,t−dt)
d∈F p∈B
L’inconvénient majeur : coût opératoire
Les estimateurs basés-blocs sont utilisés pour tous les standards du codage vidéo
cf. UE « Codage Vidéo »
06/04/2012
Laboratoire Bordelais
de Recherche
en Informatique

06/04/2012
Laboratoire Bordelais
de Recherche
Méthodes de Flot Optique
en Informatique

Méthode de Horn et Schunk


  ∂u   ∂v   ∂v  
2 2 2 2
2   ∂u 
∫ (I xu + I y v + It )
2
E (u , v ) = + α   +   +   +   dxdy → min
  ∂x   ∂y   ∂x   ∂y  
G  
r ∂I
∇I ⋅ w (i ) + ∂I
r
∂I ∇I ⋅ w (i ) +
uˆ (i +1) = u (i ) − r
∂t
vˆ(i +1) = v (i ) −
∂I ∂t
∂x α 2 + ∇I 2
∂y α 2 + ∇I 2r

Méthodes de type “descente”


Méthode of Cafforio and Rocca

⋅ DFD p , d ⋅ ∇I p + d , t )
( ) (
r (i +1) r (i ) ε r (i ) r (i ) r (i ) r ( i )
=d −
( )
d
r (i ) r (i ) 2
∇I p + d , t + α 2

06/04/2012
Approches multi-résolution-multi-
Laboratoire Bordelais
de Recherche
en Informatique
échelle
1)Construction des pyramides Gaussiennes pour I t , I t +1
I t0 = I t Itl = ( g ∗ I tl −1) ↓

 k 2+l2 
g(k,l)= 1 exp− 2 
2πσ 2  2 σ 

2) Estimation des paramètres de mouvement


commençant par le niveau le plus élevé Θ L
3) Propagation
t lx−, y1 = ρ ⋅ t lx, y ρ -le facteur de sous-échantillonnage
div, rot l −1 = div, rot l
06/04/2012
Laboratoire Bordelais
de Recherche
Estimation robuste (1)
en Informatique

- On suppose le mouvement conforme au


modèle paramétrique Θ

On considère
- les mesures observées Yi
- les mesures conformes au modèle (
M Θ, ( x, y )i )
- les résidus ri = Yi − M (Θ, (x, y )i )

Principe minimiser un critère d’erreur de façon


que les valeurs aberrantes de résidus ri ne
perturbent l’estimation
06/04/2012
Laboratoire Bordelais
de Recherche
Estimation robuste (2)
en Informatique

Soit P (⋅) la loi discrète de distribution d’erreur


σ

dépendant du paramètre . θ
La vraisemblance du paramètre est définie
θ

( )
L θ Pσ = ∏ Pσ (r ) Pour toutes les valeurs disponibles de r
r

Le max-vraisemblance est trouvé en résolvant


( )
θˆ = arg max L θ Pσ
θ

Ceci est équivalent à minimiser

θˆ = arg min ∑ − log[Pσ ]


θ r

06/04/2012
Estimation robuste (3)
Laboratoire Bordelais
de Recherche
en Informatique

ρ (r , σ ) = − log[Pσ (r )] est appelé “estimateur” (*)


Supposons que r suit N (0,σ 2 ) (Estimateur
gaussien). (*) est l’estimateur aux moindres carrés
r2
ρ G (r , σ ) = 2

r2
∑ → min
2σ 2

r2
ρ L (r , σ ) = log(1 + 2 )
Estimateur de Lorentz 2σ
r2 /σ 2
Estimateur de Geman-McClur ρ GM (r , σ ) =
1+ r 2 /σ 2
D. Hasler, L. Sbaiaz, S. Susstrunk, M. Vetterli, « Outlier Modeling in Image Matching »,
IEEE TRans on PAMI, v. 25, n3, march 2003
06/04/2012
Laboratoire Bordelais
de Recherche
Estimation robuste (5)
en Informatique

1
∑ ρ (r ) = ∑ w r 2, r = Z − Z (Θ, ( x, y)) min
i i i i i i
i i2

∂ (∑ρ(r ))= ∂ (∑1 w r2), r =Y −M(Θ,(x, y)


∂θ j i i ∂θ j i 2 i i i i i

∂r ∂r
∑ψ(ri )∂θi =∑wi ri ∂θi =0 ici
i j i j
ψ (ri ) = ρ& (ri )
ψ ( ri )
wi =
ri

06/04/2012
Laboratoire Bordelais
Estimation robuste (3)
de Recherche
en Informatique

Estimateur de Tuckey

 r 6 2C 2 r 4 C 4 r 2
 − + , if r < C
6 4 2
ρ (r , C ) =  6
 C , othervise
 6

La dérivée

r (r 2 − C 2 )2 , if r < C
ψ (r , C ) = 
0, othervise

θˆ=argmin∑ρ(ri,C ),ri−le résidu


θ i
( T
)
−1 T
θˆ= H WH H WZ

06/04/2012
Laboratoire Bordelais
de Recherche
en Informatique

06/04/2012
Laboratoire Bordelais
de Recherche
Segmentation en plages homogènes
en Informatique

Problème : qualifier le mouvement de la caméra et


segmenter en micro-plans
1. Reformulation du modèle du mouvement affine
complet du 1er ordre
dx(x, y)=a1 +a2 x+a3 y

dy(x, y)=a4+a5 x+a6 y

(
Θ = a1 , a4 , div, rot , hyp1 , hyp2 )
T

( )
div=1 a2+a6 rot =1 a5 −a3
2 2
( ) (
hyp1 =1 a2−a6
2
) (
hyp2=1 a3 +a5
2
)

2. Estimation du modèle simplifié (4 paramètres)


PTZ Θ = (a , a , div, rot ) div = a = a , rot = −a = a
T
1 4 2 6 3 5

06/04/2012
Tests des hypothèses statistiques sur la
Laboratoire Bordelais
de Recherche
signification des paramètres du mouvement
en Informatique

H0 : le paramètre considéré ai est significatif


H1 : ai=0.
En supposant les distributions gaussiennes
des erreurs d’estimation
H0
N d  ln ∑ r 2 −ln ∑ r 2   < λA
2   i∈Sd i0   i∈Sd i1   >
H1

ril - erreurs résiduels par


rapport au modèle

06/04/2012
Laboratoire Bordelais
de Recherche
en Informatique

Deformation Translation Movement de la caméra

(0,0,0,0) (0,0) Caméra statique


(0,0,0,0) ≠(0,0) Panoramique ou translation latérale le
fond est parallèle au plan focal

(div,0,0,0) Zoom ou travelling in/out


(0,rot,0,0) Rotation relative to OA
(div,rot,0,0) Combination des deux précédents

(div,rot,hyp1,hyp2) Translation avec le fond non-parallèle


au plan focal

D’après P. Bouthemy, M. Gelgon

06/04/2012
Laboratoire Bordelais
de Recherche
La mise en œuvre sur FO MPEG2
en Informatique

Caméra
statique

06/04/2012
Laboratoire Bordelais
de Recherche
en Informatique

Questions?

06/04/2012

Vous aimerez peut-être aussi