Académique Documents
Professionnel Documents
Culture Documents
Département d’Informatique
Groupe de Recherche en Intelligence Artificielle GRIA/LRI
MASTER « RFIA » Reconnaissance des Formes et Intelligence Artificielle
Donc on peut dire que le but des méthodes de classification est de structurer
l’ensemble d’apprentissage en classe, ces classes vont correspondre à autant de
mode de fonctionnement.
3
Les techniques de classification
Les techniques de classification sont anciennes. C'est une étape d'abstraction et de
synthèse nécessaire dans toute les sciences. Avec l'avènement de l'informatique dans
les années 1960,
ces méthodes ont connu de nouveaux développements méthodologiques qui ont
donné lieu à des algorithmes de classification automatique.
Il s'agit d'organiser les éléments analysés en classes telles que les éléments d'une
même classe se ressemblent, et se ressemblent plus que 2 éléments de 2 classes
différentes. Il s'agit aussi d'associer à chaque classe un type généralisant les éléments
de la classe .Les méthodes de classification sont une composante des méthodes
d'analyse des données. Elles sont aussi une première étape de certaines méthodes de
reconnaissance de formes.
4
1) La classification supervisée
Dans la phase de classement, on fournit donc à la machine des exemples sous la forme
(Données, Classe). Cette méthode de raisonnement est appelée inductive car on induit
de la connaissance (le modèle) à partir des données d'entrée (les Documents) et des
sorties (leurs Catégories). Grâce à ce modèle, on peut alors déduire les classes de
nouvelles données.
5
Plusieurs méthodes de classification supervisée dans la littérature s’appuient
sur des techniques différentes en trouve parmi eux : K plus proches voisins,
les arbres de décisions, Naїve Bayes (ou encore Simple Bayes), Réseaux de
Neurones, ou bien la programmation génétique.
6
*) Classification Paramétrique
Classification dans laquelle il est tenu compte de la forme fonctionnelle de
la distribution conditionnelle de probabilité pour les modèles, les catégories
étant connues.
Les données observées sont supposées être des réalisations d'un
vecteur aléatoire X de loi inconnue P.
7
*) Méthodes de classification supervisée
K plus proches voisins (K-PPV)
8
Avantages
La méthode de K-PPV a l'avantage de la simplicité.
Inconvénients
1) Le défaut de cette méthode qu’elle nécessite beaucoup d'échantillons pour
être fiable, ce qui rend le processus de décision complexe.
2) Bien qu'il n'y ait pas besoin de temps pour estimer les paramètres, le
temps pour calculer les K voisins peut être prohibitif. cet algorithme a la
réputation d’être lent en phase de décision.
9
Arbre de décision
10
11
Avantages
1) La façon de raisonnement est facile à saisir par des praticiens ;elle
offre par conséquent la possibilité des éventuelle modification (mise
à jour) en ajoutant ou en supprimant des diagnostics.
Inconvénients
La complexité de l’arbre de décision pour un grand nombre de
paramètres et de diagnostics; ainsi que les frontières brusques entre
les classes.
12
Naїve Bayes (Simple Bayes)
Le Naïve Bayes est une méthode de classification basée sur ce que l'on appelle
théorème de Bayes et est particulièrement adaptée lorsque la dimensionnalité
des intrants est élevé. Ces méthodes sont qualifiées de "Naïve" ou "Simple" car
elles supposent l'indépendance des variables. Malgré de sa simplicité, Naïve
Bayes peut souvent surclasser plus sophistiquées
L'idée est d'utiliser des conditions de probabilité observées dans les données. On
calcule la probabilité de chaque classe parmi les exemples. Ce sont les "prior
probabilities".
13
L'algorithme Expectation-Maximisation (EM)
14
2) La classification semi supervisé
Dans ce cadre on enrichit un ensemble de données non étiquetées par
un certain nombre des exemples étiquetés.
15
Si l’on ajoute quelques points supervisés (dans Figure 2), on contraint
suffisamment le processus d’optimisation pour éviter un extremum
local très éloigné de l’optimum global pour autant que Les points
supervisés Soient pertinents.
16
17
3) La classification non supervisé
La classification non supervisée est appliquée si l’on dispose d’un ensemble
d’apprentissage non réparti en classes. On cherche par cette technique de
classification à regrouper les éléments de l’ensemble d’apprentissage dans
des partitions.
18
Classification hiérarchique
19
20
Classification Hiérarchique Ascendante (CHA)
Le Classification Hiérarchique Ascendante (ou "par agrégation") procède
par fusions successives de clusters déjà existants. A chaque étape, les
deux clusters qui vont fusionner sont ceux dont la "distance" est la plus
faible. La question est donc de trouver une bonne définition de ce que
l'on entend par la "distance" entre deux groups de points. Il existe de
nombreuses définitions d'une telle distance, la plus utilisée étant la
distance de Ward.
22
L’algorithme de DIANA (DIvide ANAlysis)
23
Classification par partitionnement
Cette deuxième famille part d’une partition initiale et la modifiée
progressivement en redistribuant les objets au sein des classes si cela
améliore un critère prédéfini (fonction objectif) mesurant la qualité d’une
partition .Nous nous intéressons particulièrement à ce genre de méthodes.
24
L’algorithme de K-means
Une des techniques de classification non supervisée (clustering) les plus
utilisées.
Etant donné un entier K, K-means partitionne les données en K groupes, ou
"clusters", ou "classes" ne se chevauchant pas. Ce résultat est obtenu en
positionnant K "prototypes", ou "centroïdes" dans les régions de l'espace les
plus peuplées. Chaque observation est alors affectée au prototype le plus
proche (règle dite "de la Distance Minimale"). Chaque classe contient donc
les observations qui sont plus proches d'un certain prototype que de tout
autre prototype (image inférieure de l'illustration ci-dessous).
25
26
Classification par K-means Classification par K-means
« phase initiale » « phase finale »
Avantages
- Sa simplicité conceptuelle.
- Sa rapidité et ses faibles exigences en taille mémoire
27
Inconvénients
- L'utilisateur doit choisir a priori la valeur de K, le nombre de classes. Ce
choix peut se faire par simple examen visuel dans le cas de données
bidimensionnelles, mais il n'en est pas de même pour des données de
dimension supérieure. Il n'existe en général pas d'indication claire sur le
nombre approprié de classes, et un "mauvais choix" pour la valeur de K
conduira alors à une typologie sans rapport avec la réalité.
- Pour une valeur donnée de K, les classes obtenues dépendent beaucoup
de la configuration initiale des prototypes, ce qui rend l'interprétation des
classes difficile.
- K-means est une technique objective, ce qui veut dire qu'elle minimise la
valeur d'un certain critère numérique. C'est donc une technique
d'optimisation. Comme c'est souvent le cas en optimisation, l'algorithme
K-means s'arrête lorsqu'il ne peut plus faire baisser la valeur du critère.
Cependant, il est tout à fait possible qu'une autre configuration des
prototypes conduise à des valeurs encore plus faibles du critère. Dans le
vocabulaire de l'optimisation, on dit que K-means atteint un minimum
local, mais ne peut pas garantir d'atteindre le minimum global du critère
(valeur la plus faible possible).
28
L’algorithme des fuzzy c-means (FCM)
29
30
Avantages
Du fait que l’algorithme FCM est parmi les algorithmes les plus appropriés
de La LF, il a dans ce cas pour principal mérite de pouvoir exprimer les
connaissances vagues et imprécises (cas des vecteurs acoustiques) en
introduisant la notion de gradualité dans l’appartenance d’un élément à un
ensemble. Par rapport à la logique booléenne, la LF d’une façon générale,
permet de mieux illustrer la notion de raisonnement approximatif qui est
naturellement induite par le cerveau humain et la prise en compte de
variables linguistiques de nature symbolique qui réalise une meilleure
correspondance par rapport aux informations généralement données par
les experts humains.
31
Considération pratique
Le corpus est constitué de 579 vecteurs acoustiques appartenant à 9 sons : 3
occurrences du chiffre "Un", 3 occurrences du chiffre "Deux", 3 occurrences du
chiffre "Trois" (les vecteurs ont été sélectionnés d’une façon aléatoire parmi la
gamme des vecteurs acoustiques représentative de chaque son prononcé). La
figure 1 détermine le corpus synthétique contenant ces trois. Comme montré
dans la figure 1, il n'y a aucune frontière claire entre les classes. La figure 2
schématise l’ensemble des classes avec leurs centres, où le symbole ""
désigne l’endroit des centres. La figure 3 détermine le résultat de la
classification par l’algorithme FCM, nous constatons que le corpus est classé
correctement par l'approche proposée. Pour des raisons de comparaison et
d’évaluation, nous avons appliqué l'algorithme k-means (c= 3) avec l’emploi
d’une distance euclidienne pour classer le même corpus. La classification
résultante est déterminée dans la figure 4. Nous avons constaté qu'il y a
beaucoup de vecteurs qui n’ont pas été convenablement classés par l'approche
k-means. En revanche, avec l’algorithme FCM, la classification du même corpus
est parfaite.
32
FIG 1 Ensemble de données synthétiques FIG 2 Estimation des centres de
avec un mélange de classes sphériques classes
et ellipsoïdales
33
FIG 3 Résultat de la classification par FIG 4 Résultat de la classification par
l'algorithme FCM l'algorithme k-means
34
L’algorithme des Nuées Dynamique
Les nuées dynamiques sont en fait une généralisation de l'algorithme des K-
means.
On cherche à constituer une partition en K classes des données d'entrée.
Chaque classe est représentée par son centre, également appelé noyau
constitué du petit sous-ensemble de la classe qui minimise le critère de
dissemblance.
Les deux fonctions de base sur lesquelles repose l'algorithme sont les
suivantes :
35
- La fonction de réallocation : Elle partitionne, c’est à dire qu'elle affecte
chaque individu du nuage E aux centres d'attractions que forment les
noyaux. Elle est définie par l'équation :
36