Vous êtes sur la page 1sur 36

Université Badji Mokhtar Annaba

Département d’Informatique
Groupe de Recherche en Intelligence Artificielle GRIA/LRI
MASTER « RFIA » Reconnaissance des Formes et Intelligence Artificielle

Module: Reconnaissance Automatique de la Parole - RAP

« Je parle, donc je suis ? »

Dirigé par: Dr. LAZLI L.


Introduction
L’objectif général de la classification est de pouvoir étiqueter des données en leur
associant une classe. L’apprentissage automatique se propose de construire
automatiquement une telle procédure de classification en se basant sur des
exemples, c’est-à-dire sur un ensemble limité de données disponibles. Si les classes
possibles sont connues et si les exemples sont fournis avec l’étiquette de leur classe,
on parle d’apprentissage supervisé.

Donc on peut dire que le but des méthodes de classification est de structurer
l’ensemble d’apprentissage en classe, ces classes vont correspondre à autant de
mode de fonctionnement.

On utilise donc un algorithme de clustering sur des données d’apprentissage pour


déterminer une partition de l’espace vectoriel considéré. Les descriptions de chaque
cluster sont alors stockées dans le dictionnaire. Pour coder une nouvelle suite de
vecteurs, on remplace chaque vecteur par le numéro du cluster auquel il appartient.
2
Distribution de probabilités, un échantillon de points associés,
et un découpage en nuages (clusters)

3
Les techniques de classification
Les techniques de classification sont anciennes. C'est une étape d'abstraction et de
synthèse nécessaire dans toute les sciences. Avec l'avènement de l'informatique dans
les années 1960,
ces méthodes ont connu de nouveaux développements méthodologiques qui ont
donné lieu à des algorithmes de classification automatique.

Il s'agit d'organiser les éléments analysés en classes telles que les éléments d'une
même classe se ressemblent, et se ressemblent plus que 2 éléments de 2 classes
différentes. Il s'agit aussi d'associer à chaque classe un type généralisant les éléments
de la classe .Les méthodes de classification sont une composante des méthodes
d'analyse des données. Elles sont aussi une première étape de certaines méthodes de
reconnaissance de formes.

4
1) La classification supervisée

La classification supervisée suppose qu’il existe déjà une classification de données.


Cette classification est un processus comprenant deux phases : Apprentissage et
Classement. La plupart des algorithmes d'apprentissage supervisés tentent donc de
trouver un modèle (une fonction mathématique) qui explique le lien entre des
données d'entrée et les classes de sorties.

Dans la phase de classement, on fournit donc à la machine des exemples sous la forme
(Données, Classe). Cette méthode de raisonnement est appelée inductive car on induit
de la connaissance (le modèle) à partir des données d'entrée (les Documents) et des
sorties (leurs Catégories). Grâce à ce modèle, on peut alors déduire les classes de
nouvelles données.

5
Plusieurs méthodes de classification supervisée dans la littérature s’appuient
sur des techniques différentes en trouve parmi eux : K plus proches voisins,
les arbres de décisions, Naїve Bayes (ou encore Simple Bayes), Réseaux de
Neurones, ou bien la programmation génétique.

Les méthodes de classification supervisées peuvent divisées en deux groupes,


méthodes paramétriques et autres non paramétriques.

6
*) Classification Paramétrique
Classification dans laquelle il est tenu compte de la forme fonctionnelle de
la distribution conditionnelle de probabilité pour les modèles, les catégories
étant connues.
Les données observées sont supposées être des réalisations d'un
vecteur aléatoire X de loi inconnue P.

*) Classification non Paramétrique


Classification dans laquelle aucune hypothèse n'est faite sur la forme
fonctionnelle de la distribution conditionnelle de probabilité des modèles,
même si les catégories sont connues.

7
*) Méthodes de classification supervisée
K plus proches voisins (K-PPV)

Le K-PPV est une méthode de classification non paramétrique puisque aucune


estimation de paramètres n'est nécessaire comme pour la régression linéaire .le
principe de fonctionnement est :

(1) Trouver les k plus proches observations


(2) Utiliser une règle de décision à la majorité pour classer une nouvelle
observation.

Elle consiste, étant donné un point représentant la forme à reconnaître, à


déterminer la classe des points les plus proches de parmi l’ensemble des
formes d’apprentissage et à retenir pour la décision, la classe la plus
représentée. Si , le point est donc simplement attribué à la classe de son plus
proche voisin.

8
Avantages
La méthode de K-PPV a l'avantage de la simplicité.

Inconvénients
1) Le défaut de cette méthode qu’elle nécessite beaucoup d'échantillons pour
être fiable, ce qui rend le processus de décision complexe.
2) Bien qu'il n'y ait pas besoin de temps pour estimer les paramètres, le
temps pour calculer les K voisins peut être prohibitif. cet algorithme a la
réputation d’être lent en phase de décision.

9
Arbre de décision

Une fois construit, un Arbre se présente sous la forme d'une


arborescence inversée dont chaque nœud terminal (ou
"feuille") contient une fraction de l'échantillon original dont
les individus appartiennent presque tous à une seule et même
classe .d’autre terme, Un nouvel individu "descend" l'Arbre
depuis la racine jusqu'à une unique feuille (voir image
inférieure).
Son trajet dans l'Arbre est entièrement déterminé par les
valeurs de ses attributs (ou "prédicteurs"). Il est alors affecté à
la classe dominante de la feuille. Plus précisément, pour
chaque k, la probabilité a posteriori de la classe k peut être
estimée par la proportion d'individus dans la feuille qui
appartiennent à cette classe.

10
11
Avantages
1) La façon de raisonnement est facile à saisir par des praticiens ;elle
offre par conséquent la possibilité des éventuelle modification (mise
à jour) en ajoutant ou en supprimant des diagnostics.

Inconvénients
La complexité de l’arbre de décision pour un grand nombre de
paramètres et de diagnostics; ainsi que les frontières brusques entre
les classes.

12
Naїve Bayes (Simple Bayes)

Le Naïve Bayes est une méthode de classification basée sur ce que l'on appelle
théorème de Bayes et est particulièrement adaptée lorsque la dimensionnalité
des intrants est élevé. Ces méthodes sont qualifiées de "Naïve" ou "Simple" car
elles supposent l'indépendance des variables. Malgré de sa simplicité, Naïve
Bayes peut souvent surclasser plus sophistiquées

L'idée est d'utiliser des conditions de probabilité observées dans les données. On
calcule la probabilité de chaque classe parmi les exemples. Ce sont les "prior
probabilities".

13
L'algorithme Expectation-Maximisation (EM)

L'algorithme EM est un algorithme itératif très utilisé pour la recherche du


paramètre réalisant le maximum de vraisemblance présence des données
incomplètes. Les étapes E (calcul d'Espérance) et M (Maximisation), sur
lesquelles l'algorithme boucle, sont souvent en pratique difficiles à réaliser. B.
DELYON propose, avec M.Lavielle et E.Moulines, une variante appelée SAEM
(Stochastic Approximation EM) où ces deux étapes sont réalisées de manières
approximative et rapide: la maximisation se fait par une étape de gradient et
l'espérance s'approxime par simulation. On prouve la convergence de la
méthode en utilisant des méthodes empruntées à la théorie de l'approximation
stochastique.

14
2) La classification semi supervisé
Dans ce cadre on enrichit un ensemble de données non étiquetées par
un certain nombre des exemples étiquetés.

Ces derniers en proportion généralement faible servent à guider les


algorithmes de classification via leur paramétrage et leurs conditions
d’initialisation.

Nous illustrons deux exemples pour montrer l’intérêt de la semi


supervision en classification.

Considérons le cas de deux classes séparées (Figure 1) et quelques


points isolés (outliers) qui peuvent être aberrants. La classification obtenue
est le résultat de l’algorithme Expectation-Maximisation (EM).

15
Si l’on ajoute quelques points supervisés (dans Figure 2), on contraint
suffisamment le processus d’optimisation pour éviter un extremum
local très éloigné de l’optimum global pour autant que Les points
supervisés Soient pertinents.

La semi supervision trouve également son intérêt dans des problèmes


de type OU exclusif.

Le jeu de données de la (Figure 3) comporte quatre classes où deux


d’entre elles ont la même moyenne théorique.

Une mauvaise initialisation peut être corrigée en supervisant quelques


points adéquats (Figure 4).

16
17
3) La classification non supervisé
La classification non supervisée est appliquée si l’on dispose d’un ensemble
d’apprentissage non réparti en classes. On cherche par cette technique de
classification à regrouper les éléments de l’ensemble d’apprentissage dans
des partitions.

18
Classification hiérarchique

La classification hiérarchique est une famille de techniques de


classification non supervisée qui génèrent des suites de partitions
emboîtées les unes dans les autres, et allant depuis la partition triviale à
une seule classe (contenant toutes les observations) jusqu'à la partition
triviale où chaque observation est une classe. Entre ces deux extrêmes
figurent de nombreuses partitions plus réalistes entre lesquelles
l'analyste devra choisir.

Cette première famille est subdivise en deux catégories : méthode


ascendante méthode descendante.

19
20
Classification Hiérarchique Ascendante (CHA)
Le Classification Hiérarchique Ascendante (ou "par agrégation") procède
par fusions successives de clusters déjà existants. A chaque étape, les
deux clusters qui vont fusionner sont ceux dont la "distance" est la plus
faible. La question est donc de trouver une bonne définition de ce que
l'on entend par la "distance" entre deux groups de points. Il existe de
nombreuses définitions d'une telle distance, la plus utilisée étant la
distance de Ward.

Classification Hiérarchique Descendante


La Classification Hiérarchique Descendante (ou "par division") procède
de façon inverse. Elle considère l'ensemble des données comme un gros
cluster unique, et le scinde en deux clusters "descendants". La scission
s'opère de façon à ce que la distance entre les deux descendants soit la
plus grande possible, de façon à créer deux clusters bien séparés. Cette
procédure est ensuite appliquée à chacun des descendants (procédure
récursive) jusqu'à ce qu'il ne reste plus que des clusters ne contenant
qu'une seule observation (singletons).
21
Quelques algorithmes de classification hiérarchique

L’algorithme d’AGNES (Agglomerative Nesting)


L’algorithme d’AGNES est un des algorithmes de « Classification
hiérarchique ascendante». Le déroulement typique de cet algorithme
peut s’énoncer comme suit :
- Chaque individu représente un groupe.
- Trouver les deux groupes les plus proches.
- Grouper ces deux groupes en un nouveau groupe.
- Itérer jusqu’à N groupes.

22
L’algorithme de DIANA (DIvide ANAlysis)

L’algorithme de DIANA est un des algorithmes de « Classification hiérarchique


descendante ». Les caractéristiques de cet algorithme sont :
- L’ordre inverse de celui d’AGNES.
- Méthode par division récursive.
- Tous les objets sont placés dans un cluster.
- Divise de manière hiérarchique les clusters, Selon un critère de dispersion des
objets. Celle(s) dont les objets les plus proches sont les plus éloignés.
- Stoppe quand le nombre de clusters est atteint ou les clusters contiennent 1
seul objet.

23
Classification par partitionnement
Cette deuxième famille part d’une partition initiale et la modifiée
progressivement en redistribuant les objets au sein des classes si cela
améliore un critère prédéfini (fonction objectif) mesurant la qualité d’une
partition .Nous nous intéressons particulièrement à ce genre de méthodes.

Le but de ces algorithmes est de construire une partition en k classes


d’objets, k étant soit fixé a priori, soit déterminé par la méthode utilisée, en
minimisant son hétérogénéité. Citons principalement les algorithmes des k-
means, des nuées dynamiques et fuzzy c-means pour la première catégorie
et k-means avec paramétrage et ISODATA pour la seconde. L’intérêt de ces
méthodes de partitionnement (on parle aussi de réallocation) réside dans
le fait de permettre le traitement rapide de très grands tableaux de
données. On va parler sur quelques méthodes dites précédemment.

24
L’algorithme de K-means
Une des techniques de classification non supervisée (clustering) les plus
utilisées.
Etant donné un entier K, K-means partitionne les données en K groupes, ou
"clusters", ou "classes" ne se chevauchant pas. Ce résultat est obtenu en
positionnant K "prototypes", ou "centroïdes" dans les régions de l'espace les
plus peuplées. Chaque observation est alors affectée au prototype le plus
proche (règle dite "de la Distance Minimale"). Chaque classe contient donc
les observations qui sont plus proches d'un certain prototype que de tout
autre prototype (image inférieure de l'illustration ci-dessous).

25
26
Classification par K-means Classification par K-means
« phase initiale » « phase finale »

Avantages
- Sa simplicité conceptuelle.
- Sa rapidité et ses faibles exigences en taille mémoire

27
Inconvénients
- L'utilisateur doit choisir a priori la valeur de K, le nombre de classes. Ce
choix peut se faire par simple examen visuel dans le cas de données
bidimensionnelles, mais il n'en est pas de même pour des données de
dimension supérieure. Il n'existe en général pas d'indication claire sur le
nombre approprié de classes, et un "mauvais choix" pour la valeur de K
conduira alors à une typologie sans rapport avec la réalité.
- Pour une valeur donnée de K, les classes obtenues dépendent beaucoup
de la configuration initiale des prototypes, ce qui rend l'interprétation des
classes difficile.
- K-means est une technique objective, ce qui veut dire qu'elle minimise la
valeur d'un certain critère numérique. C'est donc une technique
d'optimisation. Comme c'est souvent le cas en optimisation, l'algorithme
K-means s'arrête lorsqu'il ne peut plus faire baisser la valeur du critère.
Cependant, il est tout à fait possible qu'une autre configuration des
prototypes conduise à des valeurs encore plus faibles du critère. Dans le
vocabulaire de l'optimisation, on dit que K-means atteint un minimum
local, mais ne peut pas garantir d'atteindre le minimum global du critère
(valeur la plus faible possible).
28
L’algorithme des fuzzy c-means (FCM)

L’algorithme FCM est une méthode de classification qui permet à une


donnée d’appartenir à deux classes ou plus. Cette méthode développée par
Dunn en 1973 et améliorée Bezdek en 1981 est fréquemment employée
dans l’identification de modèle.

29
30
Avantages
Du fait que l’algorithme FCM est parmi les algorithmes les plus appropriés
de La LF, il a dans ce cas pour principal mérite de pouvoir exprimer les
connaissances vagues et imprécises (cas des vecteurs acoustiques) en
introduisant la notion de gradualité dans l’appartenance d’un élément à un
ensemble. Par rapport à la logique booléenne, la LF d’une façon générale,
permet de mieux illustrer la notion de raisonnement approximatif qui est
naturellement induite par le cerveau humain et la prise en compte de
variables linguistiques de nature symbolique qui réalise une meilleure
correspondance par rapport aux informations généralement données par
les experts humains.

31
Considération pratique
Le corpus est constitué de 579 vecteurs acoustiques appartenant à 9 sons : 3
occurrences du chiffre "Un", 3 occurrences du chiffre "Deux", 3 occurrences du
chiffre "Trois" (les vecteurs ont été sélectionnés d’une façon aléatoire parmi la
gamme des vecteurs acoustiques représentative de chaque son prononcé). La
figure 1 détermine le corpus synthétique contenant ces trois. Comme montré
dans la figure 1, il n'y a aucune frontière claire entre les classes. La figure 2
schématise l’ensemble des classes avec leurs centres, où le symbole ""
désigne l’endroit des centres. La figure 3 détermine le résultat de la
classification par l’algorithme FCM, nous constatons que le corpus est classé
correctement par l'approche proposée. Pour des raisons de comparaison et
d’évaluation, nous avons appliqué l'algorithme k-means (c= 3) avec l’emploi
d’une distance euclidienne pour classer le même corpus. La classification
résultante est déterminée dans la figure 4. Nous avons constaté qu'il y a
beaucoup de vecteurs qui n’ont pas été convenablement classés par l'approche
k-means. En revanche, avec l’algorithme FCM, la classification du même corpus
est parfaite.
32
FIG 1 Ensemble de données synthétiques FIG 2 Estimation des centres de
avec un mélange de classes sphériques classes
et ellipsoïdales

33
FIG 3 Résultat de la classification par FIG 4 Résultat de la classification par
l'algorithme FCM l'algorithme k-means

34
L’algorithme des Nuées Dynamique
Les nuées dynamiques sont en fait une généralisation de l'algorithme des K-
means.
On cherche à constituer une partition en K classes des données d'entrée.
Chaque classe est représentée par son centre, également appelé noyau
constitué du petit sous-ensemble de la classe qui minimise le critère de
dissemblance.
Les deux fonctions de base sur lesquelles repose l'algorithme sont les
suivantes :

35
- La fonction de réallocation : Elle partitionne, c’est à dire qu'elle affecte
chaque individu du nuage E aux centres d'attractions que forment les
noyaux. Elle est définie par l'équation :

- La fonction de recentrage : Elle recalcule les nouveaux noyaux à partir


des classes déjà formées. Elle est définie par l'équation :

Où Nj est le nombre d'éléments de la classe ou partition.

36

Vous aimerez peut-être aussi