Vous êtes sur la page 1sur 5

Classification automatique

1. Introduction

La nature offre un grand nombre de population qui est souhaitable de les répartir en
catégories. Chaque discipline scientifique sollicite des classifications.

2. Les données

Soit un ensemble de données e de n objets (qui sont soit des individus ou des observations)
sur lesquelles on a mesuré p caractères.

3. Objectifs

Création et caractérisation des groupes disjoints des individus homogènes et bien séparés
les uns aux autres. La classification set faite automatiquement à partir de valeurs de
variables en utilisant un algorithme. C’est une méthode multidimensionnelle. Elle tient
compte simultanément d’un ensemble de variables.

4. La classification, pourquoi faire ?

L’utilisateur peut chercher à :

 Confronter un modèle théorique de données avec des observations.


 Partitionner une population dans un but simplificateur et descriptif.
5. Méthodes de classification
5.1. Les méthodes non-hiérarchiques

Trouver une partition de E tel qu’un objet de E n’appartiennent qu’à une seule classe.

5.2. Les méthodes hiérarchiques

Cherche une suite de partitions emboitées

T
m
e
l
e
u
O c
t
s
a
r
O
n
e n
6. Définitions
6.1. Partition

Une partition d’un ensemble E, du partie non


vide et l’intersection vide deux à deux dont la
réunion forme E.

 P= { P1 , P2, …, Pk }.
 ∀ l∈ { 1, 2 , … , k } Pl ≠ ∅ .
 ∀ l, m ∈ { 1 ,2 , … , k } l≠ m , Pl ∩ Pm ≠ ∅ .
 ¿ l=1 ¿ k Pl=E .

6.2. Recouvrement

Un recouvrement de E est un ensemble P= { P1 , P2, …, Pk } de partie non vide de E


dont la réunion forme E.

 ∀ l∈ { 1, 2 , … , k } Pl ≠ ∅ .
 ¿ l=1 ¿ k Pl=E .

Remarque : une partition est donc un


recouvrement particulier.

6.3. L’hiérarchie

On cherche a représenté E par un ensemble emboité.

Soit E un ensemble fini, H un ensemble de partie appelé « palier »non vide de E. H est une
hiérarchie sur E si :

 E ∈ H (c .à. d le palier le plus haut contient tous les individus).


 ∀ w ∈ E { w } ∈ H (les points terminaux).
 ∀ h , h' ∈ H on a h∩ h' ≠ ∅ ⇒ ( h ⊂ h' ) ou ( h' ⊂ h ) .

On a l’exemple suivant

h
1
2 h
h 1
h h 1
1
9 8v0
w w w w w w w
 h8 ={w4 , w5 }.
 h 9={w1 , w2 , w3 }.
 h10={w 6 }∪ h8
 h11 ={w7 }∪ h10
 h12 = h11 ∪ h 9
 h8 ⊂ h10
7. Algorithme de type « Nués dynamique » (non supervisé)
7.1. Choix d’un mode de représentation

Cet algorithme nécessite tout d’abord la définition d’un mode de représentation symbolique
de tous groupes d’individus, un groupe d’individus étant donnée cette représentation
symbolique appelé « noyau » peut être par exemple :

 Une droite.
 Un groupe de point de la population ;
 Un centre de gravité.

7.2. Déroulement de l’algorithme de classement

On peut d’un choix de k noyaux estimer ou tirer au hasard parmi une famille de noyaux
admissible appeler espace de représentation, chaque point de la population est ensuite
effectué au noyau dont il est le plus proche, on obtient ainsi une partition de k classes
dont on calcule les noyaux, on recommence la procédé avec les nouveaux noyaux et
ainsi de suite. On démontre que sous certain conditions l’algorithme converge vers une
position stable en améliorant à chaque itération un critère mathématique.
Exemple :

Trouver une bonne partition en 2 classes

2 points A, B sont tirées au hasard est


appelés noyaux

On associe a chaque point le noyau le


plus proche

2 nouveaux noyaux C, D sont calculées en


prenant les points les plus proches du
centre de l’état précédente

On associe a chaque point le noyau le


plus proche.
Dans l’itération suivante l’algo converge
vers un état stable.

7.3. Exemple des distances utilisées


7.3.1.Distance euclidienne :
d 2 ( i, i ' ) =Σ(X ij − X i j) ²
'

7.3.2.Distance de Mahalanobis :
d 2 ( i, i ' ) =( X i−X i )T cov−1 ( X i −X i )
' '

7.3.3.Distance de χ² :
1 X∙ j Xi j
n
'

d 2 ( i, i ' ) =∑ ( − )²
j=1 X∙ j Xi∙ Xi ∙ '
7.3.4.Distance Minkowski :
n 1
2 '
d ( i, i ) = [∑
j=1
(X ij − X i j)
'
]
λ λ

8. Classification supervisé

Elle cherche de regrouper dans une même classe des données de type analogue et
distinct des autres classes, la reconnaissance s’effectue à partir des éléments étalant
(échantillon) choisie avant le classement. Dans cette classification les caractéristiques de
chaque classe sont connu approprie des données étalant, la classification dépend de choix
d’échantillon.

Vous aimerez peut-être aussi