Vous êtes sur la page 1sur 15

Reconnaissance des Formes

Objectif de la RdF : Mémoire et Imagination

La RdF a pour but de concevoir de systèmes hard/soft capables de percevoir et d’interpréter des informations
captés dans le monde réel. La conception des systèmes automatiques ou semi-automatiques à l’image de
l’homme qui reconnaissent les formes qu’on leur présente est loin d’être résolus. L’homme est un système
biologique le plus parfait des systèmes de RdF. La reproduction des facultés humaines, des fonctions physiques
typiquement humaines sur machines nécessite une bonne représentation des modules de perception, d’analyse,
de représentation et d’interprétation. Quant à la compréhension automatique des informations, elle relève de
l’intelligence artificielle.

La mise en œuvre d’un processus RdF doté de cinq récepteurs biologiques, les yeux pour voir les images, les
oreilles pour écouter les sons, le nez pour sentir les odeurs, la bouche pour déguster la nourriture, les mains
pour toucher et le cerveau pour analyser et faire une synthèse. Avec la masse d’information qui ne cesse de
croître d’une manière exponentielle et le développement technologique, cette conception demeure en
permanence confronter à de nouvelles situations qui nécessitent un nouveau modèle de réflexion min-max basé
sur un raisonnement fluide qui se métamorphose et épouse la forme de l’objet et le fond de ses principes. Deux
questions fondamentales sont à résoudre : chercher l’outil le plus exacte qui permet de dessiner une copie
conforme ou bien l’outil approximatif qui retrace quelques faits de l’histoire de l’objet. Si l’histoire d’un train
de vie se résume en une naissance honorée de joies, et une disparition accompagnée de tristesses, alors
l’information portant sur l’objet entre le début et la fin n’a plus de sens si elle n’est pas motivée par des
fluctuations qui marquent notre mémoire ! Peu importe l’ordre des wagons dans un train, mémoire et
imagination font naître de l’histoire une histoire qui peut être exacte ou approximative.

Seridi Hamid

Schéma générale d’un processus de RdF : Les informations issues du monde réel (via le capteur) et fournies
au système de RdF sont généralement trop volumineuses et peu pertinentes. Le processus de RdF consiste à la
réduction progressive et sélective de l’information les étapes de traitement d’un processus de RdF:

Monde Réel

+ Perception : (saisie des données réelles en entrée ‘images 2D, 3D, parole,
texte…’ par des capteurs)
I
N Objet à identifier
F
O Analyse : (extraction des caractéristiques par transformation appliquées à la
R forme pour faciliter son interprétation)
M
A Représentation
T
Interprétation : Identification ou catégorisation d’un objet inconnu par
I
rapport à un objet conservé en mémoire par apprentissage pour sa
O
classification
N
Classe d’appartenance
‐ Intelligence Artificielle

Action

Reconnaissance des formes 1


Introduction : La reconnaissance de formes est un domaine de l’informatique destiné à l’étude et à la
conception de module de reconnaissance dans les systèmes qui visent à automatiser certaines tâches de
l’homme, tels que : la reconnaissance de l’écriture, de la parole, aide au diagnostique, surveillance, analyse et
traitement d’images satellitaires. A cause de la souplesse et la variété des modes d’interactions que nous sommes
capables d’utiliser (geste, écriture, parole,…etc.) et la rigidité de ceux classiquement offerts par les systèmes
informatiques. Une partie de la recherche actuelle vise à concevoir des applications mieux adaptées pour réduire
ce gap. Il s’agit de doter les systèmes informatisés de fonctionnalités permettant d’appréhender les informations
que l’homme manipule tous les jours. En général, la nature des informations à traiter est très riche. Elle peut
être : textes, images, paroles, sons, écriture, gestes,…etc. La façon de représenter et transmettre ces informations
varie selon les contextes : géographiques, sociaux, professionnels, applicatifs et personnels. Il suffit par exemple
de considérer la variété des styles d’écriture, que ce soit entre les différentes langues ou pour la même langue. De
plus, à cause de la sensibilité des capteurs et des médias utilisés pour acquérir et transmettre les informations,
celles qui sont finalement traitées différent très souvent des originales. Elles sont donc caractérisées par des
imprécisions soit intrinsèques aux phénomènes dont elles sont issues, soit liées à leurs modes de transmission.
Leur traitement nécessite donc la mise en œuvre de systèmes complexes d’analyse et de décision.

Reconnaissance d’écriture on ligne et hors ligne

Problématique : La problématique associée à un problème de RdF est à la fois, riche et complexe. Elle est
riche à cause de la multiplicité des problèmes à traiter et leurs variétés selon le contexte applicatif. Par exemple
en écriture : Les besoins vont de la reconnaissance des chiffres à la reconnaissance des mots en passant par la
reconnaissance de lettres, symboles, figures géométriques, gestes d’éditions,…etc. Ainsi, le nombre de classes
des formes à reconnaître varie selon le problème d’une dizaine pour les chiffres à plusieurs dizaines de milliers
pour le chinois, rendant la modélisation beaucoup plus délicate. Elle est complexe à cause du bruit qui se trouve
dans le signal représentant les formes à reconnaître. Ce dernier provient soit du capteur utilisé, soit des
conditions de capture. Aussi, il peut parvenir de l’objet à capter lui-même parce qu’il se trouve en état dégradé.
Outre, la problématique est complexe à cause de la quantité de données représentant la forme à traiter. Exemple :
Une image est représentée par une matrice 3D correspondant aux 3 couleurs essentielles "RVB" dont la taille
dépend de la résolution utilisée.

Formalisation : la RdF vise à concevoir des systèmes informatiques capables d’apercevoir et reconnaître des
formes à traiter. Cela revient à analyser la forme de l’objet afin de déterminer sa classe d’appartenance, ce qui
peut être appréhendé comme un problème de classification. Dans ce cas, il faut chercher un classifieur ou une
fonction de décision f qui permet d’associe à une entrée π décrite dans un espace Ω à une sortie y d’un
espace C. Dans de telles circonstances, trouver une fonction de décision, revient à identifier dans l’espace des
formes les régions associées à chaque catégorie y de C. Ces régions sont appelées régions de décision et la
frontière entre deux catégories est appelée frontière de décision.
f :Ω →C
∀π ∈ Ω, ∃y ∈ C : f (π ) = y

π∈Ω fM y∈ C

Schéma fonctionnel d’un classifieur

Reconnaissance des formes 2


Mise en œuvre d’un système RdF : elle est décrite selon trois étapes (conception, évaluation et exploitation) :

1. Etape de conception du classifieur : consiste à élaborer la modélisation M et à lui associer la fonction


de décision f. Cette étape peut être faite par un expert ou par un apprentissage automatique à partir d’un
ensemble de données : la base d’apprentissage.
2. Etape d’évaluation des performances : consiste à utiliser un ensemble de données, la base de test, pour
déterminer les capacités de généralisation du classifieur.
3. Etape d’exploitation : consiste à intégrer le système dans un cadre applicatif réel.

Apprentissage Automatique d’un Classifieur : Le mécanisme d’apprentissage a pour objectif d’extraire d’une
base d’apprentissage l’ensemble de connaissances nécessaires à la modélisation du problème et à les structurées.
Les données { π j / j = 1,…, N} de cette base, sont appelées suivant les auteurs et les contextes : observations,
échantillons, individus ou exemples. Quand elles ont été expertisées au préalable pour leur attribuer l’étiquette
d’une des classes du problème, cette information peut être utilisée lors de l’apprentissage, ce dernier est alors
qualifié de supervisé, dans le cas contraire, il est qualifié de non supervisé. Les différentes méthodes
d'apprentissage automatique sont classées en deux groupes: les méthodes d'apprentissage empirique (Empirical
Learning) et les méthodes d'apprentissage fondées sur l'explication (Explanation Based Learning).

1) Méthodes d'apprentissage empirique : Les méthodes d'apprentissage empirique sont fondées sur
l'acquisition de connaissances à partir d'exemples. On peut citer comme exemples les réseaux de neurones
artificiels et les arbres de décision. Ces méthodes se divisent entre les méthodes d'apprentissage par
analogie et les méthodes d'apprentissage par induction.

a) Apprentissage par analogie : Les approches fondées sur l'analogie essayent de faire le transfert des
connaissances sur une tâche bien connue vers une autre moins connue. Ainsi, il est possible d'apprendre
des nouveaux concepts ou de dériver de nouvelles solutions à partir de concepts et solutions similaires
connues.

• Le Raisonnement Fondé sur des Cas (CBR : Case Based Reasoning) : Il recouvre un
ensemble de méthodes de résolution de problèmes qui exploite les expériences passées, plutôt que les
connaissances générales d'un niveau supérieur, telles que les règles de production. Un système CBR est
capable d'utiliser la connaissance spécifique contenue dans son expérience passée pour résoudre les
nouveaux problèmes. Cette expérience est représentée normalement sous la forme de cas. Ces cas, qui
ont été corrigés et assignés par l'expert aux classes auxquelles ils appartiennent, constituent ainsi la
mémoire d'un système CBR. Quand un nouveau problème est présenté à un système CBR, il va se
rappeler des cas passés stockés dans sa mémoire, similaires au problème courant. Ensuite, le système
adapte la meilleure solution mémorisée et la transfère au problème actuel. Le cas nouveau, qui a été
traité par le système et reconnu, peut être à son tour mémorisé et donc ajouté comme une nouvelle
expérience du système. En général, un système de raisonnement fondé sur des cas contient les phases
suivantes :
1) Remémoration des cas les plus similaires par rapport au cas posé en question.
2) Réutilisation de la connaissance du (ou des) cas remémoré(s) pour la résolution du problème.
3) Révision de la solution donnée afin de la valider.
4) Mémorisation de cette nouvelle expérience, pour une utilisation future.

Les CBR sont des systèmes purement fondés sur les connaissances empiriques et ne permettent pas
l'utilisation de connaissances théoriques. Ils font appel à des algorithmes d'apprentissage dits paresseux
(lazy learning). Ces derniers diffèrent des autres algorithmes par le fait de retarder le traitement des
informations, c'est-à-dire qu'ils ont un faible coût calculatoire pendant la phase d'apprentissage et des
calculs plus intenses pendant la phase de test (reconnaissance, recall). Les systèmes CBR n'essaient pas
de traiter les exemples fournis, alors que les autres algorithmes d'apprentissage font une compilation des
exemples d'apprentissage et les remplacent par des abstractions concises.

b) Apprentissage par Induction : L'apprentissage par induction cherche à acquérir des règles générales
qui représentent les connaissances obtenues à partir d'exemples. Les règles ainsi obtenues peuvent être
formalisées d'une façon facilement interprétable (explicite) ou d'une façon implicite avec un codage qui
n'est pas toujours facile à interpréter. L'algorithme d'apprentissage par induction reçoit un ensemble
d'exemples d'apprentissage et doit produire des règles de classification, permettant de classer les
nouveaux exemples. Le processus d'apprentissage cherche à créer une représentation plus générale des
exemples, selon une méthode de généralisation de connaissances. L'algorithme d'apprentissage par
induction peut fonctionner de façon supervisée ou non-supervisée.

Reconnaissance des formes 3


• Apprentissage supervisé (supervised learning) : Les exemples d'apprentissage sont étiquetés afin
d'identifier la classe à laquelle ils appartiennent. Le but de l'algorithme de classification est de
classifier correctement les nouveaux exemples dans les classes définies dans la phase d'apprentissage.
Les méthodes d’apprentissage supervisé se construisent à partir de la base d’apprentissage, des
classifieurs, ou fonctions de classement. Une telle fonction permet, à partir de la description d’un
objet, de reconnaître un attribut particulier, la classe.

Description des
Apprentissage Fonction de
exemples étiquetés
classement
par leur classe supervisé

• Apprentissage non-supervisé (unsupervised learning, clustering, discovery): L'algorithme


d'apprentissage cherche à trouver des régularités dans une collection d'exemples, puisque dans ce type
d'apprentissage on ne connaît pas la classe à laquelle les exemples d'apprentissage appartiennent. Une
technique employée consiste à implémenter des algorithmes pour rapprocher les exemples les plus
similaires et éloigner ceux qui ont le moins de caractéristiques communes.

2) Méthodes d'apprentissage fondées sur l'explication : Les méthodes inductives ont besoin d'un nombre
significatif d'exemples pour pouvoir généraliser les connaissances (induire des règles ou des concepts). Ceci
restreint les possibilités d'application de ces méthodes, puisqu'on n'a pas toujours une base d'exemples assez
grande et complète sur le domaine traité. Les méthodes d'apprentissage fondées sur l'explication utilisent des
connaissances préexistantes et un raisonnement déductif pour augmenter l'information fournie par des
ensembles d'exemples.

Classification en reconnaissance de forme : Les approches en RdF peuvent être classées en deux catégories:
l’approche conventionnelle et l’approche fondée sur l’Intelligence Artificielle. Les techniques conventionnelles
relèvent de deux méthodologies : statistique et structurelle : l’approche statistique est une approche classique en
RdF qui se base sur l’étude statistique des mesures effectuées sur les formes à reconnaître tandis que l’approche
structurelle permet de prendre en considération l’information contextuelle et structurelle d’une forme. Les
techniques basées sur l’Intelligence Artificielle permettent de représenter et de prendre en compte diverses
sources de connaissances qui sont représentées par un formalisme bien spécifique. Un problème de RdF est
généralement décrit comme une chaîne de transformation mettant en relation trois espaces différents :
• L’espace de mesure
• L’espace de représentation
• L’espace de décision ou d’interprétation
Espace de mesure Espace de représentation Espace de décision

Codage ou
numérisation Extraction des Identification et
paramètres Classement

Prétraitement

Modélisation et
Apprentissage

Schéma général d'un système de Reconnaissance de Formes

L’espace de mesure : L’espace de mesure est une représentation du monde physique (réel), qui est un espace
analogique de dimensions infinies. Les objets y sont décrits de différentes façons avec une multitude de
propriétés difficiles à prendre en compte dans leur ensemble lors d’une reconnaissance. Il comprend deux
étapes :
ƒ L’étape de codage ou numérisation : elle consiste à transformer, par l’association d’un capteur, un
ensemble de données analogiques en données numériques manipulables par un ordinateur. Cette
transformation doit se faire de la manière la plus fidèle possible en conservant les propriétés
essentielles de l’objet physique.

Reconnaissance des formes 4


ƒ L’étape de prétraitement : les données brutes sont souvent bruitées, elles contiennent des
informations parasites et n’explicitent pas les informations utiles pour la reconnaissance. Le rôle de
cette étape est de préparer ces données à la phase de l’extraction de paramètres en éliminant le bruit
(souvent dû aux conditions d’acquisition) en corrigeant les erreurs, en normalisant et réduisant les
données.

L’espace de représentation : C’est la représentation par une description adéquate des informations provenant
de l’espace de mesure, il correspond à l’étape d’extraction des paramètres. Lors de cette étape, il y a un calcul
ou une détermination des propriétés caractéristiques de la forme notées : X1,..., Xi,..., Xp qui prennent leurs
valeurs respectivement dans R1,…, Ri,…, Rp où Ri est le domaine de l’attribut Xi. L’espace des représentations
est noté R qui représente Le produit cartésien R1×…×Ri×…×Rp.

Soit Π une population d’individus, d’objets ou d’exemples concernés par le problème de la RdF, la fonction qui
permet d’associer à chaque exemple sa représentation noté χ est définie comme suit :
χ: Π → R = R1 × ...× R i × ...× R p
π → χ (π) = (X1 (π),..., Xi (π),..., X p (π))

Où : Xi ( π ) représente la valeur prise par l’attribut Xi pour l’exemple π .

L’espace de décision ou d’interprétation : L’interprétation d’une représentation est l’étiquette, la classe, ou le


concept qui lui est associé. On parle généralement de classe. Les classes sont représentées par une variable notée
Y qui prend ses valeurs dans un ensemble C discret et de cardinal fini C. C est appelé l’espace d’interprétation.
Y : Π → C = {y 1 , y 2 ,..., y C }
π → Y (π )

L’objectif de la RdF est de déterminer une procédure de prévision ϕ qui permette d’expliquer et de prédire la
classe de tous les exemples de la population Π . Cette procédure, encore appelée identification, opérateur de RdF
ou fonction de classement, est une application de l’espace de représentation dans l’espace d’interprétation :
ϕ : R → C
χ(π) → y i

En pratique, il s’agit de construire ϕ , c’est à dire des opérateurs, des méthodes, qui à partir de π ∈Π
permettent de décider automatiquement à quel y ∈ C , l’élément p est affecté. La construction d’une fonction
de classement par apprentissage supervisé se décompose en deux phases : l’apprentissage et la reconnaissance.

Phase d’apprentissage : Cette phase consiste dans un premier temps à prélever de la population Π un
échantillon Ω dit d’apprentissage. Ω , encore appelé ensemble ou base d’apprentissage, est un ensemble fini
d’exemples dont la représentation et l’interprétation sont connues, il s’agit d’objets étiquetés, d’exemples
classés. L’étape suivante consiste à construire à partir de l’échantillon Ω , une fonction d’identification ϕ qui
classe correctement le plus possible d’éléments de Ω

Fonction de
Apprentissage
classement ϕ

Phase d’apprentissage.

Reconnaissance des formes 5


Phase de reconnaissance : La phase de reconnaissance ou de décision est celle du classement de nouveaux
objets, n’appartenant pas à l’ensemble d’apprentissage Ω .

Fonction de

classement ϕ

Phase de reconnaissance.

L’étape de test ou de validation permet d’évaluer la capacité de généralisation de l’opérateur de la RdF sur un
sous ensemble Ω ′ de l’espace Π , dit échantillon de test. Elle consiste à prélever dans Π un ensemble d’objets
Ω ′ n’ayant pas participé à l’apprentissage, puis à classer ces exemples à l’aide de l’opérateur ϕ et enfin à
évaluer le taux de bonnes classifications.

Méthodes de classification : La classification, qui consiste à assigner un objet à un groupe parmi un ensemble
de groupes prédéterminés, est d’une importance fondamentale dans de nombreux domaines scientifiques et
techniques. Sa grande importance a conduit chaque discipline à développer ses propres méthodes et sa propre
terminologie.

1) Méthodes statistiques : La statistique et l’analyse de données sont parmi les premières disciplines à s’être
intéressées aux problèmes de classification. Ces disciplines ont étudié et proposé de multiples méthodes de
classification, comme par exemple la régression, le modèle linéaire, l’analyse discriminante,… etc.
Cependant, certaines de ces techniques imposent des contraintes difficilement interprétables par l’utilisateur
qui n’est en général ni un spécialiste des mathématiques ni des statistiques. Par exemple, la régression
suppose un modèle linéaire sous-jacent, en analyse discriminante les méthodes paramétriques nécessitent
d’émettre des hypothèses sur les lois de probabilités des variables étudiées. De plus les solutions proposées
sont souvent exprimées sous forme d’équations, de combinaisons linéaires et sont par conséquent peu
compréhensibles pour un utilisateur quelconque.

1.1) Régression : L’objectif de la régression est de prédire une variable Y, dite variable expliquée ou critère, à
l’aide d’un ensemble de variables X1, ..., Xp dites variables explicatives ou prédicteurs. Toutes ces variables sont
quantitatives continues. De manière générale, on désire déterminer une fonction ϕ elle que ϕ (X1, ..., Xp) soit
aussi proche que possible de Y. Le modèle de régression le plus répandu et le plus important dans la pratique est
le modèle linéaire (dépendance linéaire entre Y et les variables explicatives). Dans le cas de la régression linéaire
simple, c’est à dire avec une unique variable explicative X (p=1), le modèle recherché est de la forme :

Y = α + βX , où α, β sont des paramètres à estimer

La régression linéaire multiple généralise la régression linéaire simple, et sa pratique reste assez délicate.
L’objectif d’un modèle de régression linéaire multiple est de trouver l’hyperplan qui ajuste au mieux le nuage de
points constitué par les valeurs des exemples pour toutes les variables (X1, ..., Xp et Y). Par conséquent le modèle
va chercher les coefficients de l’équation tels que le carré des écarts des points à l’hyperplan soit minimal. Les
méthodes de régression sont très utilisées en matière de prédiction, mais leur particularité est que toutes les
variables sont quantitatives continues. Une extension à des variables explicatives qualitatives est possible, mais
la variable expliquée Y reste quant à elle toujours quantitative. Dans le cadre d’un problème de Reconnaissance
de Formes, le nombre de classes est fini, ce qui correspond à une variable expliquée Y qualitative, cette situation
non prise en compte par la régression est traitée par l’analyse discriminante.

1.2) Analyse discriminante : L’analyse discriminante est une technique statistique qui vise à décrire, expliquer
et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...) d’un ensemble
d’observations (individus, exemples, ...) à partir d’une série de variables prédictives (descripteurs). Elle est une
extension du problème de la régression dans le cas où la variable à expliquer (Y) est quantitative. On distingue
classiquement deux aspects en analyse discriminante : l’analyse discriminante à but descriptif (appelée
Analyse Factorielle Discriminante) et l’analyse discriminante à but décisionnel.

Reconnaissance des formes 6


1.2.1) L’analyse discriminante à but descriptif : L’Analyse Factorielle Discriminante (AFD) a pour but de
trouver les axes factoriels qui discriminent au mieux les C classes de l’ensemble d’apprentissage, c’est à
dire tels que les projections (sur ces axes) des exemples d’une même classe soient les plus regroupés
possibles tandis que celles des exemples de classes différentes soient les plus éloignés possibles.
Lorsque le nombre d’attributs est élevé, supérieur à deux ou trois, il est difficile d’avoir une
représentation graphique simple des données. L’AFD cherche alors des variables synthétiques qui
permettent de représenter au mieux les données et la discrimination des exemples selon les classes.
Etant donné une distribution de N exemples selon C classes dans un espace de dimension p, l’espace de
représentation, l’AFD consiste à déterminer de nouvelles variables, dites variables discriminantes, qui
séparent le mieux possible en projection les C classes. Les variables discriminantes sont des
combinaisons linéaires des variables explicatives, c’est-à-dire des attributs initiaux. Pour la première
variable discriminante on cherche donc la meilleure combinaison U de la forme :
U = a 1 X 1 + a 2 X 2 + ... + a i X i + ... + a p X p

Avec :
U : la meilleure combinaison linéaire
Xi : les p variables explicatives centrées, i=1…p
ai : les coefficients de la combinaison
On note: gj le centre de gravité du nuage de points de classe yj, j=1…C

Chercher la meilleure combinaison linéaire, revient à chercher l’axe a le plus discriminant en projection : les C
centres de gravité de chaque classe doivent être aussi séparés que possible en projection sur cet axe a, tandis que
chaque sous-nuage (correspondant à chaque classe) doit se projeter de manière groupée autour de la projection
de son centre de gravité. En d’autres termes, l’inertie inter-classes doit être la plus grande possible, et l’inertie
intra-classes doit être minimale. Le critère retenu consiste à maximiser le rapport de l’inertie inter-classes sur
l’inertie intra-classes. Ce maximum est atteint si a est le vecteur propre de V −1 B associé à sa plus grande valeur
propre λ1 :

V −1 Ba = λ 1 a
1 t
V= E E=W+B
N

Avec :
E : la matrice N x p pour les N exemples des valeurs centrées des p attributs.
V : la matrice de variance ou d’inertie totale
N : le nombre d’exemples ou le cardinal de Ω
B : la matrice de variance ou d’inertie inter-classes
W : la matrice de variance ou d’inertie intra-classes
a : Le premier vecteur propre de V −1 B
λ1 : La première valeur propre de V −1 B

La Figure ci-dessous illustre le meilleur axe, l’axe a, pour un échantillon répartit selon deux classes et décrit par
deux attributs.

X2

Axe a

X1

Recherche du meilleur axe par l’AFD.

Reconnaissance des formes 7


Les coefficients de la meilleure combinaison linéaire U des attributs correspondent aux composantes du vecteur
propre a=(a1, ..., ap)
U = a 1 X 1 + a 2 X 2 + ... + a i X i + ... + a p X p

La projection des exemples sur le premier axe factoriel permet de visualiser la répartition des exemples selon
leur classe, cet axe permet de discriminer les exemples parfaitement.

Axe a

Projection des exemples sur le 1ier axe factoriel.

1.2.2) L’analyse discriminante à but décisionnel : Ayant trouvé la meilleure représentation de la séparation
en C classes des N exemples, on peut alors chercher à affecter un nouvel objet ou individu π à l’une
des classes. Cela nécessite de définir des règles d’affectation, ces règles peuvent être de deux sortes :
géométriques ou probabilistes.

• Les règles géométriques : Les règles géométriques d’affectation consistent à calculer les distances de
l’observation à classer π à chacun des C centres de gravité g1, ..., gj, …, gC. La classe attribuée à π
est celle de plus faible distance.
d(x, g k ) = min (d (x, g j )j = 1...C )

Avec : x : Vecteur représentatif de l’observation π constitué des valeurs des p attributs


gj : Centre de gravité des exemples de classe yj, dans un espace à p dimension.

La figure suivante illustre l’utilisation de la règle géométrique d’affectation dans le cas d’exemples répartis selon
deux classes et représentés par deux attributs.

X2 x
d(x,g1)<d(x,g2)

x est affecté à la classe


g1

g2

X1
Règle géométrique avec la distance euclidienne.

• Les règles probabilistes : Dans ce cas, la règle d’affectation dépend de la probabilité qu’un individu p
représenté par le vecteur X, provienne de la classe yj :
⎛y ⎞
P⎜ j ⎟
⎝ X⎠

L’observation X est affectée à la classe qui a la probabilité a posteriori maximale : c’est la règle de Bayes.

Reconnaissance des formes 8


1.3) Discrimination fonctionnelle : La discrimination fonctionnelle consiste à définir des fonctions permettant
de séparer partiellement ou totalement des classes représentées par les vecteurs attributs de leurs exemples.
La forme de la fonction de discrimination dépend de la forme des classes, et n’est pas toujours linéaire. La
figure ci dessous illustre une fonction de discrimination linéaire dans le cas de deux classes : séparation de
deux classes par une droite. La procédure consiste à chercher la droite d’équation w1.x1+w2.x2+w3=0 telle
que tous les points de la classe y1 soient d’un côté (W.X<0, avec W=(w1,w2,w3) et X=(x1,x2,1)) et tous les
points de la classe y2 soient de l’autre côté (W.X>0).
X2

X1

Un exemple de fonction discriminante linéaire.

Lorsque les classes ne sont pas linéairement séparables mais sont formées de sous-classes qui sont linéairement
séparables comme l’illustre la figure ci dessous, la solution consiste à traiter chaque sous classe comme une
classe distincte. La discrimination est alors dite linéaire par morceaux.

Discrimination linéaire par morceaux.

Lorsque les classes ne sont pas linéairement séparables, il est possible de définir des fonctions de discrimination
non linéaires, par exemple de forme polynomiale, exponentielle,...etc.

2) Méthode probabiliste

2.1) La théorie Bayésienne de la décision : La règle de bayes a été développée par le mathématicien
britannique Thomas Bayes. Elle consiste à associer à chaque nouvel individu à classer π la classe la plus
probable, la fonction de classement ϕ est alors définie par :
ϕ:R → C
yj
χ(π) → y j /∀ y ∈ C p( ) ≥ p( y )
X X

⎛y ⎞
P⎜ j ⎟ est une probabilité a posteriori. Cette règle est simple mais difficile à mettre en œuvre en pratique
⎝ X⎠
car les probabilités a posteriori sont généralement inconnues. Elles doivent être estimées. La probabilité
conditionnelle que l’individu π , représenté par X, provienne de la classe yj est donné par la formule de Bayes :
⎛ ⎞
P⎜ X ⎟P(y j )
⎛y ⎞ y
P⎜ j ⎟ = ⎝
j⎠

⎝ X⎠ P(X )

Reconnaissance des formes 9


Ce qui s’écrit :
⎛ ⎞
P⎜ X ⎟ P(y j )
⎛y ⎞ yj ⎠
P⎜ j ⎟ = C ⎝
⎝ X⎠ P⎛⎜ X ⎞⎟P (y i )
∑i =1 ⎝
yi ⎠

Le calcul exact des probabilités à posteriori est cependant un problème très complexe, et s’avère rarement
possible en pratique. Des modèles sous optimaux de classificateurs ont été développés sur la base d’autres
fonctions discriminantes que la probabilité à posteriori. Ces modèles sont les méthodes non paramétriques, qui
ne dépendent d’aucun paramètre particulier.

2.1.1) Méthodes non paramétriques

• Discrimination par boules : Cette méthode consiste à tracer autour du point X représentatif du nouvel
individu π à classer, une boule de rayon donné dans IRp. On compte ensuite le nombre kj d’exemples
de l’ensemble d’apprentissage de classe yj dans cette boule. On estime alors directement P(yj /X) par:
⎛y ⎞ kj
P⎜ j ⎟ = C
⎝ X⎠
∑ ki i =1

• Méthode des K plus proches voisins : Cover et Hart ont introduit la méthode des k plus proches
voisins (k-ppv) en 1967 et l’ont reliée aux techniques de décision fondées sur les probabilités. La règle
de décision des k-ppv consiste à examiner les k plus proches voisins, au sens d’une métrique à préciser,
du nouvel individu à classer π dans l’ensemble d’apprentissage Ω . On affecte à π la classe de la
majorité. La probabilité a posteriori s’obtient comme pour la discrimination par boules mais n’a pas
grand sens si k est faible. La méthode des plus proches voisins n’utilise que des distances et a
l’avantage sur les techniques paramétriques de n’avoir à faire aucune hypothèse a priori sur une
quelconque distribution de probabilité.

3) Classification par génération de règles : La classification par génération de règles consiste en général à
générer directement ou indirectement des règles de classification. Il s’agit de règles de production de la
forme :

Si [prémisse] Alors [conclusion]

L’interprétation de cette règle est si une situation satisfait la [Prémisse], alors on peut inférer la [conclusion].
Typiquement, la [Prémisse] encore appelée condition, est une conjonction de propositions. Elle prend la forme
d’une expression quelconque exprimée dans un certain langage formel. De manière générale, la conclusion est
une action, une décision ou une attribution de valeur à des variables, mais dans le cas de règles de classification,
la conclusion est de la forme « appartenance à une classe parmi les classes de C={y1,y2,...,yC} ». Michalski et
Chilausky sont parmi les premiers à avoir tenté de générer des règles SI-ALORS à partir de données.

3.1) Les arbres de décision : Les arbres de décision sont composés d'une structure hiérarchique en forme
d'arbre. Cette structure est construite grâce à des méthodes d'apprentissage par induction à partir d'exemples.
L'apprentissage est fait à partir d'une base d'exemples qui possèdent un certain nombre d'attributs significatifs.
Chaque exemple associe des valeurs particulières à chaque attribut, et comme cette méthode est une méthode
d'apprentissage supervisé, chaque exemple est associé à une classe particulière. Le principe de construction des
arbres est le suivant : on choisit un attribut parmi les attributs non sélectionnés, et on crée un nœud portant un
test sur cet attribut. Pour chaque classe d'équivalence ainsi induite, on opère le traitement suivant : si tous les
exemples de cette classe d'équivalence appartiennent à la même classe, alors on crée une feuille correspondante à
cette classe, reliée au test précédent par un arc étiqueté par la valeur de l'attribut correspondant ; si tous les
exemples de la classe d'équivalence considérée ne sont pas dans la même classe, alors on réitère ce processus en
enlevant l'attribut précédemment considéré des attributs à sélectionner. On peut avoir différents arbres résultant
de l'apprentissage d'une même base d'exemple. Le classement d’un nouvel individu est réalisé en le présentant

Reconnaissance des formes 10


séquentiellement aux nœuds de l’arbre. Il est d’abord présenté à la racine où un test est réalisé sur la valeur qu’il
possède pour l’attribut libellant ce nœud. Selon le résultat du test, l’individu suit l’arc libellé par ce résultat pour
atteindre soit un nouveau nœud où le processus de comparaison est réitéré, soit une feuille. Dans ce dernier cas,
la classification est terminée : le nouvel individu est affecté à la classe libellant cette feuille. Les systèmes
fondés sur les arbres de décision sont :

ƒ ID3 et CART : Ces systèmes sont assez semblables ; ils ont été développés par deux groupes de recherche
séparés et presque à la même époque. La principale différence entre ces deux systèmes réside dans le choix
de la mesure utilisée pour la sélection des attributs pendant la construction de l'arbre. Cette mesure est
généralement fondée sur la théorie de l'information de Shannon (entropie et gain d’information).
ƒ C4.5 : C'est un système dérivé de l'ID3, il présente des propositions pour traiter et améliorer la
discrétisation des variables quantitatives, la prise en compte des coûts associés au choix de chaque attribut,
la prise en compte par la fonction de sélection d'attributs, et l’explicitation de règles symboliques du type
SI-ALORS à partir des arbres de décision.
ƒ SIPINA : C’est un système de construction de graphes de décision. Il utilise une fonction particulière de
sélection d'attributs, implémente une méthode de discrétisation de variables continues, et permet aussi
l'explicitation de règles représentées dans les graphes de décision.

3.2) Méthode IPR (Incremental Produced Rule based method) : La méthode IPR est une méthode multi-
attributs ou polythétique. Elle présente l’avantage de sélectionner en blocs les attributs qui apparaissent dans les
prémisses des règles. Elle se base sur la notion géométrique de relation triangulaire. La construction des règles
consiste à transformer la description d’exemples de la base d’apprentissage en une relation binaire où chaque
attribut symbolique est représenté par des colonnes dont chacune représente une modalité de l’attribut, et chaque
attribut numérique est discrétisé et ses valeurs sont remplacées par les intervalles issus de cette discrétisation. La
relation binaire résultante regroupe un ensemble d’objets (les exemples) avec un ensemble de propriétés (les
attributs). Une règle est une association entre l’exemple d’objet de même classe et un ensemble de propriétés
vérifiées par tous ces objets. Les limites de la méthode IPR sont d’une part la complexité total rendant son
application a de grandes bases de données difficiles, et d’autre part la génération d’un nombre de règles très
élevé, ce qui rend les résultats difficilement interprétables. Ce nombre de règles crées dépend de la taille de la
base d’apprentissage.

3.3) Les Systèmes d’Inférence Floue (SIF) : Les systèmes d’inférences floue sont des méthodes de génération
de règles floues (Si-Alors) basées essentiellement sur la théorie floue. Les règles floues sont construites en
partageant l’espace des données numériques (espace des entrées) en partitions floues ; à chaque partition floue
on construit une règle floue qu’on lui associe. La prémisse de chaque règle floue est associée à une seule
conclusion, celle qui a le cœfficient maximal. Le nombre de règles floues générées et les performances du
classifieurs dépendent de la manière dont l’espace des entrées est partagé (partition simple ou avec superposition
de plusieurs partitions de tailles différentes). Pour optimiser la base de règles générées par les SIF, deux
méthodes ont été proposées : la première consiste à éliminer les règles inutiles, issues d’une partition multiple, en
utilisant les algorithmes génétiques ou l’algorithme de sélection de règles par oubli ; la deuxième consiste à
partager, régulièrement et progressivement (l’espace des entrés), les zones qui présentent une forte concentration
des points exemples.

Fiabilité et Notion de Rejet : Dans le cadre de la RdF, la fiabilité des réponses du système est souvent un
élément primordial dès que ce dernier passe à l’étape d’exploitation. Cette fiabilité du classifieur passe par la
mise en œuvre de mécanismes permettant de détecter des formes susceptibles de provoquer une erreur de
classification. Ces mécanismes se traduisent par l’ajout de nouveaux types de décisions à l’espace de sortie qui
sont employées par le classifieur lorsque celui-ci est incapable d’attribuer à l’entrée une étiquette de C
suffisamment pertinente. Deux cas de figure principaux sont à l’origine d’une telle situation:

1. La fonction de décision considère que plusieurs classes de l’espace de sortie peuvent être attribuées de
manière à peu près identique à une même entrée. Plutôt que de lui assigner une étiquette de façon arbitraire
parmi celles qui sont possibles. Le classifieur exprime son incapacité à traiter ce cas en prenant la décision
de ne pas classer la forme. Ce cas s’appelle : refus de classement, auquel la décision ω Ramb est associée
pour signifier qu’une ambiguïté est à l’origine de cette décision.
2. Aucune des classes de C ne correspond à la forme en entrée. Elle peut s’agir d’une forme d’un type
différent de celui pour lequel le classifieur a été conçu (une lettre pour un reconnaisseur de chiffres), ou
encore d’une forme du bon type, mais trop dégradée pour être identifiée. Ce cas s’appelle : rejet de forme
inconnue ou rejet de distance auquel le classifieur attribue une décision spécifique notée ω Rdist .

Reconnaissance des formes 11


Dans beaucoup d’approches de classification, ces deux notions sont regroupées sous le terme général de rejet
auquel est associée une classe ω R . Ce la s’explique soit parce qu’un seul des deux cas est traité, soit parce que
d’un point de vue applicatif la distinction entre les deux n’est pas primordiale. Le refus de classement traduit une
certaine forme de défaillance du classifieur : il refuse de classer une forme parce qu’il est incapable de
l’identifier, alors qu’il devrait le faire. Au contraire, le rejet de distance correspond à un comportement
parfaitement voulu : la capacité du système à identifier les éléments perturbateurs (bruit).

Evaluation des Performances d’un Classifieur : Nous décrivons les critères les plus souvent employés pour
évaluer la performance des systèmes de reconnaissance en phase de généralisation. L’objectif est d’obtenir une
estimation la plus fidèle possible du comportement du système dans des conditions réelles d’utilisation. Pour
cela, des critères classiques comme les taux de reconnaissance et d’erreur sont presque systématiquement
utilisés. Mais d’autres critères comme la fiabilité ou la complexité apportent aussi des informations utiles.

Taux de Reconnaissance et Taux d’Erreur : Les taux de reconnaissance et d’erreur permettent dévaluer la
qualité du classifieur f M par rapport au problème pour lequel il à été conçu. Ces taux sont évalués grâce à une
base de test, cette dernière contient des formes décrites dans le même espace de représentation E que celles
utilisées pour l’apprentissage. Elles sont aussi étiquetées par leur classe réelle d’appartenance afin de pouvoir
vérifier les réponses du classifieur. Pour que l’estimation du taux de reconnaissance soit la plus fiable possible, il
est primordial que le reconnaisseur n’ait jamais utilisé les échantillons de cette base pour faire son apprentissage.
De plus, cette base de test doit être suffisamment représentative du problème de classification.

En général, quand les échantillons étiquetés à disposition sont suffisamment nombreux, ils sont séparés en deux
parties disjointes en respectant les proportions par classes de la base initiale. Une partie sert pour former la base
d’apprentissage et l’autre pour former la base de test. Le découpage le plus courant est 2/3 pour la première et le
1/3 restant pour la seconde. Les performances en terme de taux de reconnaissance sont alors déterminées en
présentant au classifieur chacun des exemples π j de la base de test et en comparant la classe donnée en résultat
n +1
f M (π j ) = y à la vraie classe de π j , c’est-à-dire X j . En considérant que la base de test contient N
individus parmi lesquels N corrects sont biens classés par le système. Le taux de reconnaissance est définit par :
Ncorrects × 100
Treco = ………...................................... (1)
N

Le taux d’erreur Terr est définit à partir du nombre d’individus N err mal classés, c’est-à-dire les individus pour
Nerr × 100
lesquels f M (π j ) = y avec y ≠ X j
( n +1)
: Terr = …………………………………… (2)
N
La répartition des exemples bien et mal classés est représentée dan le tableau suivant :
Base de test : N exemples

N corrects N err

Répartition des exemples dans la base de test : cas général.

Parfois, il arrive que le nombre d’échantillons disponibles soit insuffisant pour faire à la fois une base
d’apprentissage et une autre de test. De plus, même si les taux de reconnaissance et d’erreur peuvent fournir une
estimation des capacités de généralisation du classifieur, ils ne permettent pas d’évaluer la stabilité de la méthode
d’apprentissage par rapport aux variations dans le contenu de la base d’apprentissage.

Le mécanisme de validation croisée permet de répondre aux deux problèmes précédents. Il consiste à diviser la
base contenant l’ensemble des échantillons en k sous-bases disjointes de taille équivalente. Si chaque sous-base
contient la même proportion d’échantillons de chaque classe que la base initiale, la validation croisée est dite
Stratifiée. K-étapes d’apprentissage/validation sont ensuite faites. A l’étape i, l’apprentissage est effectué sur
l’union des bases Bj (j≠ i) et le test sur Bi. Le taux de reconnaissance est alors égal à la moyenne des taux
obtenus à chaque étape. La stabilité de la méthode peut être évaluée en calculant l’écart type des taux de
reconnaissance sur ces k étapes.

Reconnaissance des formes 12


Si le classifieur gère le refus de classement, le taux de refus de classement lié aux ambiguïtés ( TRamb ) est défini
en fonction du nombre d’échantillons N Ramb de la base de test pour lesquels la décision ω Ramb est prise :
N Ramb *100
TRamb = ………………………………... (3)
N
Si le classifieur gère en outre le rejet de distance, plusieurs critères sont à évaluer afin de déterminer la validité
du rejet et son impact sur la classification, pour cela, la base de test S doit contenir en plus une base de rebut
composée de NR échantillons d’étiquette ωinc .

Deux types d’erreurs de rejet sont généralement distingués. Les erreurs de faux rejet correspondent aux N fr
individus de S rejetés (décision ω Rdist ) parmi les NS individus de S étiquetés dans C (NS + NR = N). Le taux de
faux rejet T fr correspondant est définit par :
N fr × 100
T fr = ……………………………………. (4)
NS

Les erreurs de fausses acceptations correspondent aux N fa individus de classe ωinc reconnus comme
appartenant à une des classes de C, alors qu’ils auraient dû être rejetés. Le taux de fausse acceptation T fa
correspondant est donné par :
N fa × 100
T fa = ……………………………………. (5)
NR

Le taux d’erreur total lié au rejet de distance Terr Re j est la combinaison de ces deux types d’erreurs :

( N fr + N fa ) × 100
Terr Re j = ……………………... (6)
N
Les erreurs restantes sont liées à une confusion du classifieur (il indique une fausse classe). Parmi les exemples
de S, s’il y a N errConf échantillons de ce type, le taux d’erreur de confusion TerrConf est définit par :
N errConf × 100
TerrConf = …………………………….. (7)
NS

Aussi, il est intéressant d’évaluer le taux de vrai rejet TRdist qui détermine l’aptitude du système à bien détecter
les formes de type inconnu. Il est défini à partir de N corrects Re but qui est le nombre d’échantillons ayant
l’étiquette ωinc et pour lesquels la décision prise par le classifieur est ω Rdist . TRdist vaut alors :
N × 100
TRdist = corrects Re but ………………………….. (8)
NR

En plus des critères précédents, le critère de fiabilité T fiab du classifieur est souvent utilisé lorsque celui-ci
implémente le rejet en général (refus de classement et/ou rejet de distance). Il est défini comme étant le taux de
reconnaissance sur les individus non rejetés, soit :
Ncorrectsω × 100
T fiab = …………………………. (9)
N − N Ramb − N Rdist

- N correctsω : est le nombre d’échantillons bien classés appartenant à ω i , i=1, …, S

Reconnaissance des formes 13


- N Rdist = N fr + N corrects Re but
: est le nombre d’échantillons pour lesquels le système prend la décision ω Rdist

- N Ramb = N Ramb ω + N Ramb Re but : est le nombre d’échantillons pour lesquels le système prend la décision ω Ramb
.

Base de test : N exemples

Base d’exemples (ω1 ,..., ω S ) Base de rebut (ω inc )

N S Exemples NR Exemples
N correctsω N errConf N Ranbω N fr N corrects Re but N Ramb Re but N fa

ωi ωi ω Ramb ω Rdist ω Rdist ω Ramb ωi

Répartition des exemples dans la base de test en fonction des décisions du classifieur : avec refus de
classement et rejet de distance.

Note : En fonction des cadres applicatifs, la terminologie et les critères utilisés peuvent varier. Ainsi, on trouve
assez souvent les termes de vrai négatif pour désigner N corrects Re but , de spécificité (specifity) pour TRdist , de vrai
positif pour N correctsω , de sensibilité (sensibility) pour ( N corrects ω × 100 ) / N S , de faux positif pour N fa et de
faux négatif pour N fr .
Aussi, on remarque que le lien avec le cas général peut s’établir par :

N corrects = N corrects ω + N corrects Re but ………………………………….. (10)

N err = N errConf + N fr + N fa ………………………………………… (11)

Matrice de confusion : La matrice de confusion représente la façon de distribution de l’erreur de classification


des exemples de test à travers les différentes classes. C’est une matrice carrée de dimension ( est le
nombre de classe). La composante de cette matrice indique le nombre d’exemples d’apprentissage dont leur
véritable classe est alors qu’ils sont assignés à la classe . L’estimé du taux de classification peut être calculé
comme la trace de la matrice de confusion divisée par le nombre total d’exemples.

Ensemble d’apprentissage et ensemble de test : pour un ensemble donné d’exemples, il est naturel d’opter à
l’emploi d’autant d’exemples pour un bon apprentissage du classificateur et également autant d’exemples pour
un bon test. Cependant, si nous employons toutes les données pour l’apprentissage et les mêmes données pour le
test, nous pourrons sur-apprendre (over-train) le classificateur de sorte qu'il apprend parfaitement les données
disponibles et échoue sur les nouvelles données. C'est pourquoi il est important d’avoir un ensemble séparé sur
lequel nous examinons le modèle obtenu. Les principales solutions permettant d’effectuer une meilleure
utilisation des exemples disponibles peuvent être récapitulées comme suit:

1. Resubstitution (R-method) : Cette méthode est basée sur l’utilisation de la base de données entière à la
fois pour l’apprentissage et pour le test.
2. hold-out (H-method) : La base de données est divisée en deux moitiés. Une partie est utilisée pour
l’apprentissage et l’autre pour le test.
3. Validation croisée (cross validation) : Cette méthode est appelée aussi méthode de rotation (rotation
method). Elle consiste à choisir un entier (de préférence facteur de ) et de diviser la base de données
en sous-ensembles de taille / . L’un des sous-ensembles est ensuite employé pour le test du

Reconnaissance des formes 14


classificateur entraîné en utilisant l’union des 1 sous-ensembles restants. Cette procédure est
répétée fois et les valeurs finales du taux et de l’erreur de classification seront donnés par la moyenne
des estimés.
4. Bootstrap : Cette méthode se base sur la génération aléatoire, à partir de l’ensemble entier, de
ensembles par remplacement. La moyenne des taux d’erreurs, réalisés sur ces ensembles, sera ensuite
déterminée.

Le problème de définir la meilleure manière d’organiser les expériences Apprentissage /Test se pose depuis
longtemps, et même avec les technologies de calcul modernes on n’arrive pas à s’en passer en raison de la
croissance permanente de la taille des données rassemblées. La vieille méthode hold-out est de nouveau
employée, d'abord parce que les autres méthodes pourront prendre trop du temps, et deuxièmement parce que la
quantité de données pourra être si excessive que l’utilisation de petites parties suffira pour l’apprentissage et le
test.
D’autre part et afin d’éviter le problème de sur-apprentissage, il est plus pratique d’utiliser trois ensembles au
lieu de deux. Un de ces ensembles est utilisé pour l’apprentissage, un pour la validation et le troisième pour le
test. Les exemples de l’ensemble de test sont toujours non vus pendant le processus d’apprentissage et
l’ensemble de validation est utilisé comme un pseudo-test. Le processus d’apprentissage se poursuit jusqu’à
l’amélioration des performances du classificateur sur l’ensemble de validation, il devra être cessé afin d'éviter le
problème de sur-apprentissage.

Autres Critères des Systèmes de Reconnaissance : En dehors des critères de performances et de fiabilité,
d’autres éléments sont parfois à prendre en considération, notamment pour la mise au point et l’exploitation du
système. Il s’agit d’une tâche complexe et de longue haleine. En effet, selon les approches de classification, il
existe généralement un certain nombre de paramètres (liés à l’architecture, à la fonction de décision et à la
méthode d’apprentissage) à régler pour obtenir des performances optimales. A moins de posséder des
connaissances à priori permettant de les obtenir directement ou de bénéficier des avantages d’une modélisation
modulaire ou interprétable. Il faut souvent procéder par des essais successifs, ce qui est long et fastidieux.
Pouvoir caractériser les capacités du processus d’apprentissage en termes de complexité algorithmique ou de
durée d’apprentissage est un élément qui revêt alors une importance certaine, bien qu’il faille les relativiser par
rapport aux avancées technologiques qui font sans cesse croître les puissances de calcul.
Lors de l’exploitation du système dans des conditions réelles d’utilisation, d’autres critères peuvent aussi devenir
très importants. Ainsi, s’il existe des contraintes sur la vitesse de traitement, le temps de reconnaissance devient
un critère important. Si l’on considère l’embarquement du système sur des machines aux ressources limitées
(tablette, PDA, téléphone portable), la taille mémoire du modèle ou d’une façon plus générale le nombre de
paramètres nécessaires à la modélisation est un critère de compacité important à prendre en compte.

Reconnaissance des formes 15

Vous aimerez peut-être aussi