Vous êtes sur la page 1sur 15

La reconnaissance de formes

(Pattern Recognition)

II. Processus de reconnaissance de formes

Un pipeline de reconnaissance de formes en expliquant les étapes de ce


processus qui sont :
- étape de prétraitement,
- étape d’extraction de caractéristiques et
- étape de classification.

Remarque- Il n y a pas de système universel de reconnaissance de formes.

II.1. Le prétraitement :

C’est une étape importante, surtout quand il s’agit de formes détériorées.


Cette étape est souhaitable dans un système de reconnaissance de formes
dans une image afin améliorer ses performances.

Le rôle de cette étape est


- de segmenter le motif intéressant à partir de l'arrière-plan d'une image
donnée.
- d'appliquer un filtrage, un lissage et une normalisation du bruit pour corriger
l'image à partir de différentes erreurs, telles que de fortes variations de
direction et d'intensité de l'éclairage.
Le prétraitement d'image vise à réduire les variations et produire un ensemble
de données plus cohérent.

La segmentation d'images pourrait également être effectuée à cette étape; il


est généralement utilisé pour localiser des objets et des limites (lignes,
courbes, etc.) dans des images et c'est un moyen de changer la représentation
de l'image donnée en quelque chose de plus significatif et plus facile à
analyser.

Image originale bruitée Image débruitée


II.2. Extraction de caractéristiques ‘Feature extraction‘ :

L'extraction de caractéristiques est une étape cruciale dans la


reconnaissance de formes invariantes.
En général, de bonnes fonctionnalités doivent répondre aux exigences
suivantes.
Premièrement, la variance intra-classe doit être faible, ce qui signifie
que les entités dérivées de différents échantillons de la même classe
doivent être proches.
Deuxièmement, les séparations interclasses devraient être importantes,
c'est-à-dire que les caractéristiques dérivées d'échantillons de différentes
classes devraient différer considérablement.

En outre, un problème majeur associé à la reconnaissance de formes est le


problème de la dimensionnalité.
Il y a deux raisons pour expliquer pourquoi la dimension du vecteur de
caractéristiques ne peut pas être trop grande:

1. Premièrement, la complexité de calcul deviendrait trop grande;


2. Deuxièmement, une augmentation de la dimension entraînera à
terme une diminution de la performance.

Pour la réduction de la dimensionnalité de l'espace des fonctionnalités, deux


approches différentes existent :
La première approche consiste à supprimer certains éléments du vecteur de
caractéristiques et à conserver les éléments les plus représentatifs.

Dans la seconde approche, le vecteur de fonction d'origine est converti en un


nouveau par une transformation spéciale et les nouvelles fonctionnalités ont
des dimensions beaucoup plus faibles.

Afin de réduire la dimensionnalité élevée de l'ensemble d'entrée dans la


reconnaissance de formes, ces données d'entrée seront transformées en un
ensemble d'entités à représentation réduite, également appelé vecteur
d'entités. Ces informations extraites sont pertinentes des données d'entrée
afin d'exécuter la tâche souhaitée en utilisant cette représentation réduite au
lieu de l'entrée pleine taille.

Les caractéristiques extraites doivent être


- facilement calculées,
- robustes, invariantes en rotation et insensibles aux diverses distorsions
et variations des images.

Ensuite, le sous-ensemble de fonctionnalités optimales qui peut obtenir les


résultats les plus précis doit être sélectionné dans l'espace d'entrée.
De nombreuses méthodes d'extraction de caractéristiques existent dans la
littérature; certains d'entre eux sont traités dans cette section.
Extraction de caractéristiques : Quelques minuties sur une image d'empreinte digitale

Extraction de caractéristiques

1) Transformée de Fourier

La transformée de Fourier est à même d'analyser un signal pour son contenu


fréquentiel.

(propriété de translation) - Un décalage d'une fonction 1D ou 2D n'affecte pas


l'amplitude de ses coefficients de Fourier;

(propriété rotation) une rotation d'une fonction fera pivoter sa transformée de


Fourier avec le même angle.
Il est utilisé pour éliminer l'effet de décalage circulaire dans le domaine de
caractéristiques résultant en prenant l'amplitude spectrale des coefficients de
Fourier, puis un vecteur de caractéristique invariant en rotation pourrait être
extrait.

Représentation spatiale d’une image- Une image est une répartition


d'intensités lumineuses dans un plan, donc un signal à deux
dimensions. Elle peut être continue (représentée par une
fonction f(x,y)  continue) ou discrète, c'est alors un tableau ou une
matrice de nombres : c'est le cas en des images numériques traitées
par ordinateur.

Une image numérique est définie par une matrice rectangulaire dont
les éléments correspondent à la valeur de la couleur de chaque pixel.
Cette valeur représente l’intensité lumineuse des pixels des images
noir et blanc.

 Définition de la Transformée de Fourier (TF) - La notion de


transformée de Fourier à deux dimensions est une généralisation de
celle à une dimension.

Soit f(x,y) une fonction à deux variables représentant l'intensité d'une


image au point d'abscisse x et d'ordonnée y. La transformée de
Fourier de cette image permet de passer d'une représentation
spatiale à la représentation de l’image dans le domaine fréquentiel.
Elle est donnée par:

où F(u,v) est la transformée de fourrier de la matrice f(m,n). Les deux


variables u et v représentent les fréquences spatiales de l'image selon
les directions Ox et Oy respectivement.

 Or, l’image ayant un nombre de pixels fini, l’intensité lumineuse des


pixels est donc un signal à support borné. D’où l’utilisation de la TF
discrète donnée par :

 
D'après l'expression de la TF que F(u,v) est en général un nombre
complexe, même si f(m,n) est un nombre réel. F(u,v) possède donc
une amplitude et une phase. On peut choisir de représenter l'une ou
l'autre. Nous ne nous intéresserons qu'à l'amplitude.

Intérêt de la transformée de Fourier pour l’étude de textures

Le but de l’utilisation de  la transformée de Fourier dans ce travail est


de mettre en évidence les caractéristiques fréquentielles d'une
texture. Nous nous intéresserons uniquement au spectre de Fourier
(i.e le module de la transformée de Fourier) de l’image de texture,
sans nous soucier de la phase. En effet, le spectre permet de rendre
compte de la distribution énergétique de l’image, de respecter aussi
bien la périodicité que l’orientation des motifs de l’image de texture,
ce qui est particulièrement pratique dans l’étude des textures.

Interprétation de la transformée de Fourier en terme de hautes


fréquences et basses  fréquences

 Si on effectue sur la TF le changement de variables suivant

La valeur de  pour un couple   donne l'amplitude


d'une sinusoïde complexe de pulsation ωdans la direction θ.

 
 

Les basses fréquences et les hautes fréquences dans le plan de Fourier


 

Pour de nombreuses images, la moyenne (au sens des probabilités)


de l'amplitude est indépendante de la direction   et décroît
régulièrement en fonction de  . Si on diminue l'amplitude des
hautes fréquences (filtrage passe bas en fonction de  pour toutes
les valeurs de  ) l'image apparaît floue, les contours sont moins nets.
Si au contraire on augmente l'amplitude aux hautes fréquences on
rehausse les contours mais l'image parait plus bruitée (il y a un grain
plus important).

Le spectre de Fourier varie sensiblement d’une image à une autre.


Néanmoins, la plupart des spectres d’images présentent des
caractéristiques communes telles que la présence de droites, d’une
épaisseur plus ou moins importantes qui passent par l’origine.

2. Plus une droite est longue, plus elle porte des fréquences élevées.

3. La direction des droites indique les lignes de force de l'image


d'origine, qui lui sont perpendiculaires.

4. Si une droite est constituée de points ou stries alignés, cela


indique une certaine périodicité de l'image dans la direction
perpendiculaire.
            

Lignes perpendiculaires Transformée de Fourier d’une image de


lignes perpendiculaires

La transformée de Fourier permet l’exploration de la composition fréquentielle de


l’image, et de lui appliquer des opérateurs de filtrage.
En effet, lors de la transformation de Fourier, le signal est décomposé sur les signaux
de base qui cosinus, sinus ou l’exponentielle imaginaire qui forment une base
orthogonale permettant de supprimer les redondances d’informations. Cette
technique est utilisée par plusieurs chercheurs pour caractériser les images de
textures.

Ci dessous une image contenant une texture orientée selon les


diagonales. On voit sur son spectre une concentration d’énergie autour
des diagonales. Une  rotation de la texture se traduit donc pour une
rotation de la TF.

 
      
Spectre d’une texture orientée sur les diagonales

2) La transformée de radon
La transformée de radon (1917) est un mappage des coordonnées
rectangulaires cartésiennes (x, y) à une distance et à un angle, également
appelés coordonnées polaires. L'application de la transformée de Radon sur
une image f (x, y) pour un ensemble donné d'angles peut être considérée
comme le calcul de la projection de l'image le long des angles donnés. La
projection résultante est la somme des intensités des pixels dans chaque
direction. Cette transformation peut capturer efficacement les
caractéristiques directionnelles dans l'image du motif en projetant le motif sur
différentes tranches d'orientation. De plus, la transformée du radon peut être
effectuée dans le domaine de Fourier.

la transformation de Radon est au cœur de la Tomographie en Imagerie médicale.


Nous présenterons le côté mathématique de cette transformation.
Nous commençons par donner le la définition de cette transformation de Radon, ses
propriétés et ainsi ses relations avec les autres transformations comme la
transformation de Fourier et la transformation de Hough.
Ensuite, nous expliquerons comment la transformation de Radon est appliquée dans
les problèmes spécifiques de la projection en géométrie parallèle.

Définition 1 :
Soit f(x, y) une fonction continue et à support compact dans R2.
La transformation de Radon de f(x, y) est définie par les intégrales de curvilignes au
long d’une droite L :

Rf = L f(x, y) d l

dont la droite L ≡ L (θ, p) est établie par la formule p = x cosθ +y sinθ


∀p∈ R , θ ∈[0, 2π )
Voici une transformation du radon: exemples de projections pour 1, 45, 90,
135 et 180 degrés.

3) Les ondelettes de Gabor


C’est une transformation basée sur des ondelettes ; elle est utilisée pour
l'extraction de caractéristiques.
Cette transformation fournit la résolution optimisée dans le domaine
temporel et fréquentiel pour l'analyse temps-fréquence, ainsi que la base
optimale pour extraire les caractéristiques locales pour la reconnaissance des
formes.
Les ondelettes de Gabor ont été largement utilisées dans les applications de
reconnaissance d'objets.
Pour un ensemble d'ondelettes de Gabor passant par la sélection initiale des
paramètres, l’approche d'extraction de caractéristiques commune consiste à
construire un vecteur de caractéristiques en concaténant le produit interne
d'une image avec chaque ondelette.
Afin de se rapprocher d'une image, il s’agit de rechercher des ondelettes de
Gabor qui sont réglées pour discriminer un objet d'un autre. Des algorithmes
d'amplification pourraient être utilisés pour sélectionner uniquement les
ondelettes de Gabor pertinentes; ils ont pour objectif de sélectionner un
certain nombre de classifieurs faibles très simples, pour les combiner
linéairement en un seul classifieur fort.

4) Vecteur invariant flou


Lorsqu'un vecteur de caractéristique invariant est extrait, sa conversion en un
vecteur invariant flou pourrait augmenter la discrimination et réduire les
impacts du bruit basse fréquence. Le vecteur invariant flou est calculé à l'aide
de nombres flous. En général, le spectre de puissance d'un modèle d'entrée
calculé avec la transformation de Fourier a peu de fréquences principales, ce
qui permet de distinguer les modèles.
Dans un vecteur à invariance floue, chaque harmonique d'un modèle d'entrée
a une distribution similaire, une caractéristique qui donne une meilleure
discrimination que le vecteur invariant d'origine. De plus, lorsque des bruits
de basse fréquence sont ajoutés à l'animation, certaines harmoniques
affichent des valeurs supérieures ou inférieures à la plage normale dans le
spectre de puissance du motif. Avec une fonction d'appartenance floue, la
puissance de chaque harmonique pour un modèle d'entrée est mappée de
manière identique en nombres flous; ces valeurs sont mappées à 1 ou 0. Par
conséquent, les impacts du bruit basse fréquence seront réduits.

II.3. La classification

La classification consiste en la reconnaissance d’un objet ou d’un motif


(pattern) en utilisant certaines caractéristiques. C’est l’étape qui vise à
assigner chaque valeur d'entrée du vecteur de caractéristiques à l'une d'un
ensemble de classes donné.

Par exemple, pour trouver si une image donnée contient un visage ou non, le
problème sera un problème de classification face/non-face.

Les classes, ou catégories, sont des groupes de modèles ayant des valeurs de
caractéristiques similaires selon une métrique donnée.

La reconnaissance de formes est généralement classée en fonction du type


d'apprentissage utilisé pour générer la valeur de sortie à cette étape.
L'apprentissage supervisé suppose qu'un ensemble de données de formation
(ensemble de formation) a été fourni, composé d'un ensemble d'instances qui
ont été correctement étiquetées à la main avec la sortie correcte. Il génère un
modèle qui tente de répondre à deux objectifs parfois contradictoires:
performer au mieux sur les données de formation, et généraliser au mieux
aux nouvelles données. L'apprentissage non supervisé, par contre, suppose
des données d'apprentissage qui n'ont pas été étiquetées manuellement et
tente de trouver des modèles inhérents dans les données qui peuvent ensuite
être utilisés pour déterminer la valeur de sortie correcte pour les nouvelles
instances de données.
Classification vs clustering

Le clustering est utilisé vise à trouver des aspects communs entre objets.
La classification est une technique d'apprentissage supervisé. C'est-à-dire nous
connaissons les données d'entrée au préalable (étiquetées dans ce cas) et que nous
connaissons la sortie possible de l'algorithme. Il y a deux types de classifications :
classification binaire et classification multiclasses.
La classification binaire répond aux problèmes avec des réponses comme «oui» et
«non», par exemple, tandis que la multiclassification est appliquée pour les
problèmes où l'on trouve plus de deux classes, répondant à des réponses plus
ouvertes telles que " excellent "," bon ", " moyen " ou " médiocre ".

Le clustering (regroupement) est utilisé pour identifier les groupes d’objets qui
ont des aspects communs spécifiques.
La classification est utilisée lorsque vous avez besoin de connaître les objets
(formes, motifs, etc…) pour décider quelle classes à laquelle il peut
appartenir.

1) La théorie de la résonance adaptative (ART) basée sur la logique Floue

Les réseaux de neurones ART flou peuvent être utilisés comme classifieur
vectoriel non supervisé. La théorie de la résonance adaptative (ART) est
compatible avec le cerveau humain dans le traitement de l'information, elle a
la capacité d'apprendre et de mémoriser un grand nombre de nouveaux
concepts d'une manière qui n'entraîne pas nécessairement l'oubli des
concepts existants. ART est capable de classer les vecteurs d'entrée qui se
ressemblent en fonction des modèles stockés. En outre, il peut créer de
manière adaptative un nouveau correspondant à un modèle d'entrée, s'il n'est
similaire à aucune catégorie existante. ART1 était le premier modèle d'ART; il
peut apprendre de manière stable à catégoriser les modèles d'entrée binaire
présentés dans un ordre arbitraire. De plus, la théorie des ensembles flous
peut imiter largement et profondément le processus de pensée de l'être
humain. Ainsi, le modèle Fuzzy ART, qui incorpore des calculs de la théorie des
fuzzy sets au réseau neuronal ART1, est capable d'un apprentissage rapide et
stable des catégories de reconnaissance en réponse à des séquences
arbitraires de modèles d'entrée analogiques ou binaires. La vigilance est un
paramètre qui affecte la performance de Fuzzy ART qui est évaluée par le taux
de reconnaissance. Le paramètre de vigilance maximale permet à Fuzzy ART
de classer les modèles d'entrée dans le taux de reconnaissance le plus élevé.
Les effets combinés de Fuzzy ART et Fuzzy Invariant Vector (FIV) décrits
ci-dessus, donnent de la robustesse.

2) Réseaux de neurones

L'approche neuronale est inspirée des concepts biologiques, visant à


apprendre aux machines la reconnaissance des modèles.
C'est un outil de hautes performances en reconnaissance de formes, surtout
avec la naissance le deep learning.

Les réseaux neuronaux sont composés d'une série d'unités associées


différentes. Il s'agit de mapper un périphérique entre un ensemble d'entrée et
un ensemble de sortie. Puisque le problème de classification est un mappage
de l'espace des fonctionnalités vers un ensemble de classes de sortie, nous
pouvons formaliser le réseau neuronal, en particulier le réseau neuronal à
deux couches en tant que classifieur. Alors que le schéma habituel choisit un
meilleur réseau parmi l'ensemble des réseaux candidats, une meilleure
approche peut être réalisée en conservant plusieurs réseaux et en les
exécutant tous avec une stratégie de décision collective appropriée. Plusieurs
réseaux de neurones peuvent être combinés pour un taux de reconnaissance
plus élevé. L'idée de base des réseaux multiples est de développer N réseaux
de neurones formés indépendamment avec des caractéristiques pertinentes,
et de classer un modèle d'entrée donné en utilisant des méthodes de
combinaison pour décider de la classification collective.

Un algorithme génétique est une méthode hybride qui peut être utilisée pour
combiner des classifieurs de réseaux. Cela nous donne un véhicule efficace
pour déterminer les paramètres de poids optimaux qui sont multipliés par la
sortie du réseau en tant que coefficients. Il considère la différence de
performance de chaque réseau lors de la combinaison des réseaux. Le
neurone ayant la valeur maximale est sélectionné comme classe
correspondante. Deux approches générales pour combiner les multiples
réseaux de neurones, la technique de fusion où la classification d'une entrée
est en fait basée sur un ensemble de mesures en valeur réelle, ou la technique
de vote qui considère le résultat de chaque réseau comme un jugement
d'expert.
3) Les Champs Aléatoires de Markov (MRF : Markov Random Fields)

Les MRFs sont des modèles stochastiques inspirés des chaines de Markov.
Les MRFs sont de nature multidimensionnelle sont utilisés pour la
reconnaissance de formes ; en combinant des informations statistiques et
structurelles.
Les états sont utilisés pour modéliser les informations statistiques et les
relations entre les états sont utilisées pour représenter les informations
structurelles. Seul le meilleur ensemble d'états doit être considéré. La fonction
d'énergie de vraisemblance globale peut être réécrite avec deux parties, l'une
utilisée pour modéliser les informations structurelles décrites par les relations
entre les états et la seconde modélise les informations statistiques car il s'agit
d'une probabilité de sortie pour l'observation et l'état donnés. Le processus de
reconnaissance consiste à minimiser la fonction d'énergie de vraisemblance
qui est la somme des fonctions de clique. La conception des systèmes de
voisinage et des cliques est basée sur la connectivité et la distance, bien que
les systèmes de voisinage puissent être de toutes formes et tailles en théorie
où la connectivité consiste à représenter certains modèles par des points
caractéristiques, et de nombreux points caractéristiques ne sont pas
connectés directement avec d'autres. Par conséquent, le système de voisinage
constitué des sites situés à une certaine distance est adopté. Les systèmes de
voisinage de ce type conviennent particulièrement à la reconnaissance de
modèles ou à la récupération d'images par correspondance de points critiques
ou de points caractéristiques, car les points critiques ne sont pas connectés.

4) Les Support Vector Machine SVMs 

Le classifieur SVM (Support Vector Machine) est très efficace dans de


nombreuses applications.

L’avantage du SVM est sa capacité à traiter non seulement des données


linéairement séparables, mais également des données non linéairement
séparables à l'aide de fonctions du noyau.

La fonction de noyau peut mapper les exemples d'apprentissage dans l'espace


d'entrée dans un espace d'entités de sorte que les exemples d'apprentissage
mappés soient linéairement séparables.
Les noyaux SVM fréquemment utilisés sont: polynôme, fonction de base
radiale gaussienne, fonction de base radiale exponentielle, noyau d'ondelettes
spline, ondelette et autocorrélation.
Théoriquement, les fonctionnalités de n'importe quelle dimension peuvent
être introduites dans l’SVM pour la formation, mais en pratique, les
fonctionnalités de grande dimension ont un calcul et une mémoire qui coûtent
au processus de formation et de classification SVM, par conséquent,
l'extraction et la sélection d'entités sont une étape cruciale avant la
classification SVM.
5) Le système multi-classifieurs basé sur les SVMs

Le système multi-classifieurs basé sur SVM pour la reconnaissance de formes


vise à obtenir une précision de classification plus élevée que les classifieurs
individuels qui les composent. La combinaison de classifieurs est capable de
compléter les erreurs faites par les classifieurs individuels sur différentes
parties de l'espace d'entrée. La stratégie de combinaison est basée sur une
généralisation empilée et comprend une structure à deux niveaux: un niveau
de base, c'est un module de N types de classifieurs SVM entraînés par un
ensemble de fonctionnalités N, et un méta-niveau, c'est un module de
classifieur de décision basé sur SVM formé par un ensemble de
méta-fonctionnalités qui sont générées par un mécanisme de fusion de
données. L'idée principale de l'empilement est de combiner des classifieurs de
différents apprenants. Une fois les classifiers générés, ils doivent être
combinés. Pour la classification multi-classes, de nombreuses méthodes
peuvent être utilisées, l'une d'elles est la méthode un-contre-tout, elle peut
être utilisée comme SVM multi-classes, en d'autres termes, lorsque le nombre
de classes est N, cette méthode construit N Classifieurs SVM, chacun pour
classer une classe positive (+1) et N1 négative (1). Le SVM multi-classes
peut-être choisi comme apprenant de méta-niveau en raison de ses bonnes
performances de généralisation tout en évitant le sur-ajustement.

Tableau: Comparaison entre les méthodes de classification.

Méthode de classification Caractéristiques


ART flou - Capacité d'apprentissage rapide et stable des
catégories de reconnaissance en réponse à des
séquences arbitraires de modèles d'entrée
analogiques ou binaires - Forte résistance au bruit
- Besoin de trouver le niveau de vigilance optimal
-
Réseaux de neurones - Capacité à former des régions de décision
complexes - Points forts dans le pouvoir
discriminant - Capacité d'apprendre et de
représenter des connaissances implicites -
Capacité de combiner plusieurs réseaux
Champ aléatoire de - de nature multidimensionnelle - Les
Markov informations statistiques et structurelles sont
combinées
SVM - Gestion des données non linéairement
séparables - Possibilité de traiter efficacement un
très grand nombre de caractéristiques - Toute
solution locale est également un optimum global

Vous aimerez peut-être aussi