Vous êtes sur la page 1sur 6

https://slideplayer.

fr/slide/11295958/

Le prétraitement d’image :

Le traitement d'image se concentre principalement sur la suppression des détails dans les images qui
ne contribueront pas au contenu d'information significatif de l'image. Cette étape joue également un
rôle important en rendant le processus robuste au bruit et aux variations spectrales. L'image peut
être convertie en échelle de gris et ensuite en une image binaire ou de bord. La conversion en échelle
de gris ou en échelle binaire dépend de la nature de l'image et des exigences de performance de
l'application.

La détection des zones d’intérêt :

Les zones d’intérêt d’une image sont les zones jugées ‘intéressantes’ pour l’analyse, c’est-à-dire
présentant des propriétés locales remarquables et identifiables dans différents points de vue de la
scène. Une scène dans une image est composée de bord, de coins et de régions d'intensité ou de
texture uniforme.

La répétabilité est une mesure de performance importante pour les points de correspondances entre
images. Il s'agit du pourcentage d'entités situées aux emplacements correspondants dans les deux
images contenant une scène dans différents points de vue.

¿ les points de correspondances


La répétabilité = ∗100 %
¿les point détectés

Parmi les composants ci-dessus, les coins sont les entités ponctuelles distinctes pouvant être utilisées
dans la comparaison. Un algorithme de détection de primitive tente d'indiquer les points d'angle qui
se trouvent à l'intersection des bords ou des contours d'une image. L'élimination des points de bord
pose un défi dans l’algorithme de détection de coin ou de point d'intérêt.

Caractéristique covariante de rotation basée sur les coins :

Les coins sont caractérisés comme des pixels dans une image qui présente de fortes variations
dans toutes les directions. Les détecteurs basés sur les coins tentent de mesurer la cornerness
d'un pixel dans une image. L'opérateur de point d'intérêt de Moravec (1980) calcule une
mesure de variance autour d'un pixel dans une fenêtre6. Le pixel est considéré comme une
caractéristique si la mesure de la variance est supérieure à un maximum local. La somme des
carrés des diférences de pixels dans chacune des quatre directions (horizontale, verticale,
diagonale majeure, diagonale mineure) est calculée. La valeur minimale parmi les quatre
directions est prise comme mesure de la variance. L'inconvénient du détecteur de coin
Moravec est qu'il traite des chutes de rotation d'au moins 45 degrés. La réponse est bruyante
en raison de sa fenêtre rectangulaire binaire. Harris a amélioré le coin de Moravec avec les
changements suivants: Harris a proposé l'utilisation d'extensions analytiques pour faire face
aux petites merdes de rotation. La fenêtre est circulaire et gaussienne. La mesure de la
variance est la courbure principale de la seconde matrice de moment du patch pondéré
gaussien de l'image entourant le pixel. Les valeurs propres de la seconde matrice de moment
sont les courbures principales et elles sont invariantes en rotation. Un pixel est choisi comme
caractéristique s'il a des valeurs élevées pour les deux courbures principales.
une approche morphologique plutôt qu'une approche diférentielle qui est sensible au bruit et
coûteuse en calcul. SUSAN classe un pixel comme un coin, sur la base des résultats de la comparaison
d'intensité avec son voisinage. FAST (Features from Accelerated Segment Test) est une
implémentation efficace du détecteur SUSAN. Il considère un voisinage circulaire d'un pixel et utilise
l'algorithme d'apprentissage automatique ID3 qui est la base de l'arbre de décision pour un pixel à
classer comme un coin8. hey ne produisent pas de caractéristiques répétables en présence de
variations d'échelle.

Détecteur de caractéristiques basé sur les taches

Une tache dans une image peut être considérée comme un groupe de pixels voisins dont les valeurs
d'intensité sont constantes ou varient dans une plage de valeurs et diffèrent de la région
environnante. Les détecteurs de points d'intérêt basés sur des taches peuvent également être
appelés détecteurs de points d'intérêt. Hessian est un détecteur de caractéristiques basé sur les blob
largement utilisé. Le détecteur de caractéristiques de Beaudet est basé sur la matrice de Hesse qui
détecte les points d'intérêt en fonction des blobs9. Le déterminant de la matrice de Hesse produit
une valeur plus élevée pour les régions blob. Les fonctionnalités robustes accélérées (SURF)
sélectionnent initialement les points clés de l'image à l'aide d'un seuil de Hesse.

Invariance d'échelle aux coins et aux taches

Le concept d'espace d'échelle est la clé pour mettre à l'échelle les entités d'invariance. Le concept
d'espace d'échelle dans la vision par ordinateur a été introduit par Lindeberg. La méthode de l'espace
d'échelle produit des images d'échelle différente à partir d'une image donnée au moyen d'un flou et
d'un sous-échantillonnage successifs. L'espace d'échelle ainsi généré est également appelé pyramide
d'images qui comprend des images d'échelles différentes dérivées d'une image de base11. Les
méthodes invariantes d'échelle trouvées dans la littérature impliquent la génération de la pyramide
d'images dans leur processus de détection. La méthode de génération de la pyramide varie en
fonction des exigences de vitesse et de précision. Laplace de Gaussian est l'une des méthodes de
base de génération de pyramide d'image. Scale Invariant Feature Transform (SIFT) utilise la différence
de gaussienne qui est une approximation de Laplace de la méthode gaussienne12. SURF génère la
pyramide d'images à l'aide d'un iltre de boîtes méthode qui est encore une autre approximation de
Laplace de Gaussian

Invariance affine aux caractéristiques locales


Tandis que les méthodes invariantes d'échelle appliquent une mise à l'échelle uniforme sur l'image,
toutes les méthodes invariantes appliquent une mise à l'échelle non uniforme. hus, comme
l'invariance d'échelle traite des caractéristiques isotropes d'une image, l'invariance aine traite des
caractéristiques anisotropes. Hessian-Aine et Harris-Aine sont les extensions invariantes aine des
détecteurs de points d'intérêt de Hessian et Harris respectivement.

Description de l'entité

Le descripteur d'entité est un vecteur associé à une entité ponctuelle d'une image qui sera utilisée
pour indiquer l'entité ponctuelle correspondante dans l'autre image. Le descripteur est construit sur
la base de la région locale entourant l'entité ponctuelle et certains descripteurs contiennent
également un composant de descripteur global.

Attribution d'orientation à une caractéristique

Les caractéristiques détectées sont représentées par les coordonnées spatiales dans les détecteurs
basés sur les coins et par les coordonnées spatiales et l'échelle dans le cas de détecteurs de
caractéristiques invariantes d'échelle. L'orientation est attribuée à une fonction basée sur le
voisinage, ce qui peut rendre la comparaison des descripteurs tolérante à la rotation.SIFT calcule
l'orientation en construisant un histogramme d'orientation où l'orientation pondérée gaussienne des
pixels dans un voisinage circulaire autour de l'entité est calculée en fonction des différences de pixels
et de l'échelle de l'entité. Les orientations ayant des valeurs de crête sont attribuées à la fonction.
Une seule caractéristique peut ainsi se voir attribuer plusieurs orientations augmentant le nombre de
caractéristiques. On constate que la propriété ci-dessus augmente la stabilité de l'appariement en
présence de bruit12.SURF indique l'orientation en faisant glisser un secteur d'angle (Π / 3) et de
rayon 6s où s est l'échelle associée à l'entité. L'angle du secteur auquel les points à l'intérieur du
secteur donnent la réponse maximale en ondelettes de Haar pendant le glissement est l'orientation
associée à l'élément ponctuel.

3.4 Correspondance des caractéristiques ponctuelles

En comparant les descripteurs des deux images, les caractéristiques correspondantes entre les
images sont établies. Les méthodes de comparaison et de classification d'une paire d'entités comme
entités correspondantes sont décrites ci-dessous
3.4.1 Méthodes basées sur la distance

Une mesure de distance telle que Euclidienne est calculée à partir des deux descripteurs appartenant
aux images à enregistrer. Dans une comparaison basée sur un seuil, si la distance tombe en dessous
d'un seuil, la paire est étiquetée comme paire de caractéristiques correspondante des images. Plus
d'une correspondance sera renvoyée pour une seule fonctionnalité, produisant ainsi des
correspondances ambiguës. L'inconvénient des correspondances multiples est surmonté par la
méthode symétrique du voisinage le plus proche qui renvoie la plus proche dans l'autre ensemble
comme entité correspondante. Il renvoie une seule fonction correspondante. sa méthode dépend
donc fortement des descripteurs et est donc moins robuste au bruit. Dans la méthode du rapport du
plus proche voisin, le rapport entre la distance de l'entité avec les première et seconde entités les
plus proches est calculé. Le plus proche voisin est choisi comme caractéristique correspondante
lorsque le rapport est au-delà d'un seuil. C'est la méthode largement utilisée qui est simple en termes
de calcul, renvoyant des résultats de correspondance raisonnables.

Correspondance régionale

La scène capturée par le véhicule aérien sans pilote doit indiquer sa région correspondante dans la
carte de référence pour la navigation. La région correspondant à la scène capturée doit être calculée
à partir de l'ensemble des caractéristiques correspondantes.Une approche simple pour identifier la
région correspondante de l'image captée dans la carte de référence est la suivante:

• Estimation de la fonction de transformation à partir de l'ensemble des caractéristiques


correspondantes

Recherche des points correspondants pour les points limites de l'image captée à l'aide de la
fonction de transformation estimée
.
20.3.5.1 Choix du modèle de transformation
TransformationAine Transformation Model, Homograph, Projective transformation models
sont quelques-unes des fonctions de transformation pour modéliser la distorsion entre les
images à enregistrer. il y a un échange entre la précision du modèle de transformation dans la
modélisation de la distorsion et la vitesse d'estimation de la fonction de transformation alors
que certains algorithmes impliquent des méthodologies de calculs à grande vitesse pour
estimer une fonction précise.
la fonction de transformation choisie doit être estimée à partir de l'ensemble des
caractéristiques correspondantes. Le consesus d'échantillons aléatoires de régression linéaire
(RANSAC), le consesus d'échantillon d'estimateur M (MSAC) sont quelques-unes des
méthodes largement utilisées pour l'estimation de la fonction de transformation.
La navigation de robots : Un robot a besoin de se déplacer et de se localiser dans son environnement.
Les obstacles et les positions dans l'environnement peuvent être obtenus à partir d'images grâce à
l'établissement de correspondances. Dans cette application particulière, les contraintes sur le robot,
ses mouvements et son environnement peuvent être prises en compte pour de meilleurs
performances.

La stéréovision : Le problème de la stéréovision consiste à estimer la position d'un point M de


l'espace connaissant celles de ses projections m1 et m2 sur deux images. On parle de stéréovision
binoculaire dans le cas de deux images, mais on peut également utiliser un nombre plus important
d'images. Cela passe par l'estimation de la géométrie reliant les deux images, l'homographie ou la
matrice fondamentale par exemple, et il est donc nécessaire d'établir des correspondances entre les
deux vues.

La reconnaissance d'objets : Etant donné une ou plusieurs images d'un objet (définissant le modèle),
déterminer si celui-ci est présent dans une nouvelle image (image test). Il faut pouvoir identifier des
primitives de l'objet dans l'image test. Plus on trouve de correspondants, plus la présence de l'objet
est probable, et plus il peut-être localiser avec précision.

L'indexation d'images ou de vidéos : L'indexation est un cas particulier de la reconnaissance d'objets


lorsqu'il y a plusieurs images, de l'ordre de quelques centaines ou milliers, et que l'objet recherché
est présent dans une petite portion de ces images. Le problème de la reconnaissance devient alors
celui de la recherche d'un objet particulier dans une base de données Dans le cas de séquence
d'images, on peut tirer avantage de la continuité temporelle de la vidéo pour identifier quelles sont
les images de la séquence qui contiennent l'objet.

Les méthodes locales se basent sur le voisinage des pixels à apparier pour établir leur degré de
corrélation. Pour des raisons de simplicité, les pixels à apparier sont limités aux pixels. Les attributs
1de chacun peuvent être interprétés en tant que scalaires, vecteurs, matrices ou tenseurs.

Les méthodes globales :

Les méthodes locales ne sont pas capables de lever les ambiguïtés d’appariement des pixels
appartenant à des régions de couleur homogène ou de texture répétitive. Ces ambiguïtés peuvent
être gérer par les méthodes globales.
A B

C D
A

Vous aimerez peut-être aussi