Académique Documents
Professionnel Documents
Culture Documents
• 1950-1970 :
Images Rayons X
Amélioration d’images
• 1970-1980 :
Extraction automatique d’informations
Seuillage
Segmentation
Extraction de contours
Introduction
• 1980- :
Image 2D ⇒ Modèle 3D
Analyse du mouvement
Application : Robotique et guidage de véhicule
• Maintenant
Big data
Analyse et interprétation des images/vidéos en temps réel
Transfert vers l’industrie en cours
Motivations
Index
Comparaison
L valeurs possibles
M Noir = 0 ≤ l < L = Blanc
avec L=256, 1 pixel = 1 octet
• Représentation, descripteurs :
Couleur,
–
– Texture, -
– Points d’intérêts,
– Forme,
– Structure …
• Non linéaires :
– HSV : Hue, Saturation, Value,
– LAB : Luminance, Chrominances
⇒ Les distances euclidiennes entre couleurs
sont plus proches des différences perçues
par les humains
Histogrammes de couleur
l Opérateur de convolution
Filtrage : convolution
l Opérateur de convolution
- Parcourt de l’image en glissant une fenêtre : le noyau de convolution
l Exemple en 1D
[1 2 3 4 5 6 7]
[2 3 1] à 2 + 6 + 3 = 11
[1 2 3 4 5 6 7]
[2 3 1] à 4 + 9 + 4 = 14
[1 2 3 4 5 6 7]
[2 3 1] à 6 + 12 + 5 = 23
9 1 1 1
16 1 2 1
Opérateurs de Sobel
[Csurka et al. 2004] [Vogel & Schiele, 2003] [Vidal-Naquet & Ullman,
2002]
[Fei-Fei & Perona, 2005] [Fei-Fei & Perona, 2005]
[Sivic et al. 2005]
A set of points
Représentation par "sac de mots" (BoW)
l Plusieurs inspirations :
- Représentation de documents textuels [Salton, 1983]
- Perception de la texture → les textons [Julesz, 1981]
l L'ordre et la caractérisation spatiale importent peu
l Nécessite un dictionnaire (mots, textons, mots visuels)
Représentation par "sac de mots" (BoW)
R2
R3
- GMM
l Hard assignment
- Augmente la sparsité des représentations
- Génère de l'instabilité selon la taille du codebook
l Soft assignment
- Représentation dense, peu redondante
l Stratégie hybride
- ie : soft assignment sur les K plus proches voisins
BoW : Pooling
l Quelque soit la taille des sacs de mots, la représentation
sera de même taille
l Max Pooling
• Passage à l'échelle ?
– Millions d'images => milliards de SIFT.. (tirage aléatoire)
Dense/Sparse SIFT
Dense/Sparse SIFT
VQ Coding
codebook
Nonlinear SVM
Combining multiple descriptors
Multiple Feature Multiple Descriptors: VQ Coding and Spatial
Nonlinear SVM
Detectors SIFT, shape, color, … Pooling
⇒ [Olshausen and Field, 1997], [Engan et al., 1999], [Lewicki and Sejnowski, 2000],
[Aharon et al., 2006] , [Roth and Black, 2005], [Lee et al., 2007]
Sparse Coding
l Nombreuses applications
- Image denoising [Elad and Aharon, 2006]
Sparse Coding
l Nombreuses applications
- Image denoising [Elad and Aharon, 2006]
Sparse Coding
l Nombreuses applications
- Image restoration [Mairal, Sapiro, and Elad, 2008]
Sparse Coding
l Nombreuses applications
- Inpainting [Mairal, Elad, and Sapiro, 2008b]
Sparse Coding
l Nombreuses applications
- Digital zooming [Couzinie-Devy, 2010]
Sparse Coding
l Un patch de 14x14 pixels est représenté par 196
valeurs (souvent redondantes)
100
150
200 50
250
100
300
150
350
200
400
250 50
450
300 100
500
50 100 150 200 250 300 350 400 450
150 500
350
200
400
250
450
300
500
50 100 150 200
350 250 300 350 400 450 500
400
450
500
50 100 150 200 250 300 350 400 450 500
Exemple test
f5 f18 f29
Representé par: [0, 0, …, 0, 1.3, 0, …, 0, 0.9, 0, …, 0, 0.3, …]
Optimisation alternée:
- fixer les alphas, minimiser sur D
- fixer D, minimiser sur les alphas
jusqu'à "convergence"
Sparse coding : algorithme
l De nombreuses améliorations pour passer à l'échelle
- Avec non-linéarité
avec Dk un filtre 2D de taille s x s, x une image w x h et zk la réponse de la
convolution : une image (feature map) de taille (w + s − 1) × (h + s − 1)