Académique Documents
Professionnel Documents
Culture Documents
Intro PDF
Intro PDF
I Introduction et fondements J
Nicolas Thome
13 Septembre 2016
Plan
1 BIMA
2 Bref historique
3 Acquisition
4 Définitions
5 Applications
Déroulement du semestre
I Organisation
• Cours mardi 13h45-15h45 : Nicolas Thome (cours 1-2-3-4-5),
Matthieu Cord (cours 7-8-9), Dominique Béréziat (cours 6-8)
• TD/TME jeudi 13h45-18h : Nicolas Thome (séances 1-2-3-4-6-7),
Matthieu Cord (séances 9-10), Dominique Béréziat (séances 5-8)
I Polycopiés :
• supports de cours en ligne ;
• énoncés de TD/TME disponibles au local AEIP6.
I Évaluation : une note finale regroupant :
• une note de contrôles et sur machine : 40% ;
• un examen de fin de semestre : 60%.
Plan
1 BIMA
2 Bref historique
3 Acquisition
4 Définitions
5 Applications
Plan
1 BIMA
2 Bref historique
3 Acquisition
4 Définitions
5 Applications
Acquisition d’images
Le spectre électromagnétique
Le spectre visible
I Les images de la vie courante : Photos, images naturelles
Le spectre visible
Le spectre visible
I Les images de la vie courante : Photos, images naturelles
I Défis d’un point de vue Traitement Numérique des Images :
analyser le contenu des données
La vision humaine
L’œil humain
L’œil humain
I Deux types de photorécepteurs dans la rétine (répartition différente)
• Les cônes : réponse photométrique et chromatique, grâce à des
pigments absorbant le bleu, le vert ou le rouge
,→ base de la vision des couleurs trichromatiques.
• Les bâtonnets : responsables de la vision nocturne (vision
scotopique).
Les cônes
Rôle
I Responsables de la vision des couleurs
I 3 types de photo-pigments : 64% rouges, 32% verts et 2% bleus
• Les cônes bleus (ou short wavelength) : λ ≈ 420 nm
• Les cônes verts (ou medium wavelength) : λ ≈ 530 nm
• Les cônes rouges (ou long wavelength) : λ ≈ 660 nm
I Peu nombreux (6 à 7 millions), densité importante dans la fovea
I Vision haute résolution, vision diurne ou photopique
Les bâtonnets
Rôle
I Très nombreux et plus sensibles à la lumière que les cônes
I Sensibles aux très faibles éclairements, discrimination des
contrastes : vision photopique (diurne)
I Un seul type de pigment : ne peuvent distinguer les couleurs
I Très sensibles au mouvement
I Répartis hors de la fovea : responsables de la vision périphérique
Acquisition vs perception
Perception humaine
Illusions optiques
Illusion de mouvement
Illusion de Titchener
Plan
1 BIMA
2 Bref historique
3 Acquisition
4 Définitions
5 Applications
Vision discète
Vision surfacique
Définitions et notations
I Une image est représentée :
• par fonction continue f (x, y ), x, y ∈ R ;
• par une fonction numérique f (i, j) (ou f (n, m)), i, j ∈ N (n, m ∈ N)
et f ∈ N+ , après numérisation.
I Image analogique → image numérique : numérisation en deux
étapes :
1 échantillonnage spatial : discrétisation des coordonnées de l’image
réelle ;
2 quantification des luminances : discrétisation des intensités de
l’image réelle.
I Une image numérique est composée d’un ensemble fini d’éléments,
appelés picture element, ou pixels (voxels en 3D)
I Représentation matricielle :
• Représentation lexicographique de l’image, soit une matrice
f = [0, . . . , N − 1] × [0, . . . , M − 1]
• La largeur de l’image est donnée par la nombre de colonnes M de f ,
sa hauteur par le nombre de lignes N
• Le pixel au croisement de la ligne i et de la colonne j est désigné
par f (i, j)
I Représentation vectorielle :
• Les lignes de l’image sont juxtaposées de manière à former un
vecteur v = [0, . . . , M × N − 1]t
• Le pixel (i, j) correspond à la composante v [iM + j]
Voisinage de pixels
Connexité
I Notion fondamentale en traitement
d’images
• Topologie
• Algorithmes de suivi de contours,
croissance de région, ...
• Deux pixels voisins peuvent être agrégés
I Connexité d’ordre 4 : on considère les 4
voisins directs N, S, O et E du pixel
I Connexité d’ordre 8 : on considère les 8
voisins directs N, NE, NO, S, SE, SO, O
et E du pixel
I La connexité peut s’étendre aux voisins
indirects (i.e. pas de la première couronne)
Bases du traitement des images
43 / 102
BIMA Bref historique Acquisition Définitions Applications
L’importance de la numérisation
Espace RGB
R↔B R↔G
Extensions
I Base où les composantes sont décorrélées, par analyse statistique
(ACP, ACI)
I Espace couleur plus "perceptuels" : HSV, XYZ, YUV, Lab, etc
Bases du traitement des images
48 / 102
BIMA Bref historique Acquisition Définitions Applications
Espace HSV
Définition
R +G +B
V =
3
(
θ si B ≤ G
H=
2π − θ, sinon
!
(R−G )+(R−B)
θ = arccos q
2 (R−G )2 +(R−B)(G −B)
3min(R, G , B)
S =1−
R +G +B
Bases du traitement des images
49 / 102
BIMA Bref historique Acquisition Définitions Applications
Propriétés de l’image
Brillance
I Moyenne des niveaux de gris de l’image, ou intensité moyenne
N−1 M−1
1 XX
B= f (i, j)
NM
i=0 j=0
Propriétés de l’image
Contraste
I Définition 1 : variation maximale entre valeurs de niveaux de gris
min et max dans l’image :
Histogramme
Définition
I Fonction décrivant la répartition des niveaux de gris de l’image
I Fournit des informations propres à l’image, telles que :
• La distribution statistique des niveaux de gris
• Les bornes de répartition des niveaux de gris
I Mais aucune information spatiale !
I À chaque image f de taille N × M , on peut associer une
distribution H des valeurs contenues dans cette image par :
Histogramme normalisé
Définition
I Fonction Hn donnant la probabilité (en termes de fréquence
d’occurrence) qu’un pixel ait pour niveau de gris k
H(k)
Hn (k) =
N ×M
où N et M sont respectivement le nombre de colonnes et de lignes
de l’image
I Les valeurs de H sont normalisées
I Approximation discrète de la densité de probabilité (pdf) de la
variable aléatoire "niveau de gris d’un pixel"
Histogramme cumulé
Définition
I L’histogramme cumulé est donné par :
X
Hc (k) = H(i)
i≤k
Histogramme cumulé
Plan
1 BIMA
2 Bref historique
3 Acquisition
4 Définitions
5 Applications
Champs d’application
Classification images
Classification : quelle(s) catégorie(s) sémantique(s) dans l’image ?
Cas simples : ∼ résolu
I Objets géométriques "simples", centrés dans l’image & segmentés
I Base d’apprentissage annotée, extraction descripteurs ⇒ prédiction
de la classe
Classification images
PASCAL VOC
Classification images
Classification : quelle(s) catégorie(s) sémantique(s) présente(s)
dans l’image ?
Cas plus compliqués : principaux challenges
1 Variations : illumination, échelle, rotation, point de vue
2 Occultations, fond ("background clutter")
3 Variations intra-classe d’apparence visuelle
Classification images
Challenges
Classification images
Challenges
Classification images
Challenges
Classification images
Classification images
Recherche sémantique
I Descripteurs image : bas niveau (couleur, texture, forme, gradient)
I Concepts à prédire : haut niveau (objets, scènes, concepts abstraits)
I Principal défi : Combler le fossé sémantique
Requête :
Classification images
Recherche sémantique
I Retrouver des concepts abstraits, e.g. émotions, liberté, etc
Classification images
Recherche sémantique
I Des résultats récents : compétition ImageNet, conférence ECCV,
octobre2012
• Tâche de classification très large échelle : 1000 classes, 1 million
images entrainement
• Prédire la bonne classe : complexe
Classification images
Recherche sémantique
I Des résultats récents : compétition ImageNet, conférence ECCV,
octobre2012
• Réseaux de neurones convolutifs
• Gain très important par rapport aux méthodes traditionnelles
• Intérêt : combler le fossé sémantique en apprennant les
représentations internes à partir des données
Détection objets
Détection objets
Détection visages : succès
I Dans la plupart des appareils photo
Détection objets
Détection objets
Autres exemple : détection de texte
Segmentation objets/régions
Compréhension d’images
Le saint Graal
I Coupler classification globale, détection et segmentation
I Contexte : Détection/segmentation objet/région renforce -
détection autre objet/région
I Et le fond ?