Classification Automatique

Classification automatique
1. Introduction
La nature offre un grand nombre de population qui est souhaitable de les répartir en
catégories. Chaque discipline scientifique sollicite des classifications.
2. Les données
Soit un ensemble de données e de n objets (qui sont soit des individus ou des observations)
sur lesquelles on a mesuré p caractères.
3. Objectifs
Création et caractérisation des groupes disjoints des individus homogènes et bien séparés
les uns aux autres. La classification set faite automatiquement à partir de valeurs de
variables en utilisant un algorithme. C’est une méthode multidimensionnelle. Elle tient
compte simultanément d’un ensemble de variables.
4. La classification, pourquoi faire ?
L’utilisateur peut chercher à :
 Confronter un modèle théorique de données avec des observations.

 Partitionner une population dans un but simplificateur et descriptif.
5. Méthodes de classification
5.1. Les méthodes non-hiérarchiques
Trouver une partition de E tel qu’un objet de E n’appartiennent qu’à une seule classe.
5.2. Les méthodes hiérarchiques
Cherche une suite de partitions emboitées
T
m
e
l
e
u
O c
t
s
a
r
O
n
e n
6. Définitions
6.1. Partition
Une partition d’un ensemble E, du partie non

vide et l’intersection vide deux à deux dont la
réunion forme E.
 P= { P1 , P2, …, Pk }.
 ∀ l∈ { 1, 2 , … , k } Pl ≠ ∅ .
 ∀ l, m ∈ { 1 ,2 , … , k } l≠ m , Pl ∩ Pm ≠ ∅ .
 ¿ l=1 ¿ k Pl=E .
6.2. Recouvrement
Un recouvrement de E est un ensemble P= { P1 , P2, …, Pk } de partie non vide de E

dont la réunion forme E.
 ∀ l∈ { 1, 2 , … , k } Pl ≠ ∅ .
 ¿ l=1 ¿ k Pl=E .
Remarque : une partition est donc un

recouvrement particulier.
6.3. L’hiérarchie
On cherche a représenté E par un ensemble emboité.
Soit E un ensemble fini, H un ensemble de partie appelé « palier »non vide de E. H est une
hiérarchie sur E si :
 E ∈ H (c .à. d le palier le plus haut contient tous les individus).

 ∀ w ∈ E { w } ∈ H (les points terminaux).
 ∀ h , h' ∈ H on a h∩ h' ≠ ∅ ⇒ ( h ⊂ h' ) ou ( h' ⊂ h ) .
On a l’exemple suivant
h
1
2 h
h 1
h h 1
1
9 8v0
w w w w w w w
 h8 ={w4 , w5 }.
 h 9={w1 , w2 , w3 }.
 h10={w 6 }∪ h8
 h11 ={w7 }∪ h10
 h12 = h11 ∪ h 9
 h8 ⊂ h10
7. Algorithme de type « Nués dynamique » (non supervisé)
7.1. Choix d’un mode de représentation
Cet algorithme nécessite tout d’abord la définition d’un mode de représentation symbolique
de tous groupes d’individus, un groupe d’individus étant donnée cette représentation
symbolique appelé « noyau » peut être par exemple :
 Une droite.
 Un groupe de point de la population ;
 Un centre de gravité.
7.2. Déroulement de l’algorithme de classement
On peut d’un choix de k noyaux estimer ou tirer au hasard parmi une famille de noyaux
admissible appeler espace de représentation, chaque point de la population est ensuite
effectué au noyau dont il est le plus proche, on obtient ainsi une partition de k classes
dont on calcule les noyaux, on recommence la procédé avec les nouveaux noyaux et
ainsi de suite. On démontre que sous certain conditions l’algorithme converge vers une
position stable en améliorant à chaque itération un critère mathématique.
Exemple :
Trouver une bonne partition en 2 classes
2 points A, B sont tirées au hasard est

appelés noyaux
On associe a chaque point le noyau le

plus proche
2 nouveaux noyaux C, D sont calculées en

prenant les points les plus proches du
centre de l’état précédente
On associe a chaque point le noyau le

plus proche.
Dans l’itération suivante l’algo converge
vers un état stable.
7.3. Exemple des distances utilisées

7.3.1.Distance euclidienne :
d 2 ( i, i ' ) =Σ(X ij − X i j) ²
'
7.3.2.Distance de Mahalanobis :
d 2 ( i, i ' ) =( X i−X i )T cov−1 ( X i −X i )
' '
7.3.3.Distance de χ² :
1 X∙ j Xi j
n
'
d 2 ( i, i ' ) =∑ ( − )²
j=1 X∙ j Xi∙ Xi ∙ '
7.3.4.Distance Minkowski :
n 1
2 '
d ( i, i ) = [∑
j=1
(X ij − X i j)
'
]
λ λ
8. Classification supervisé
Elle cherche de regrouper dans une même classe des données de type analogue et
distinct des autres classes, la reconnaissance s’effectue à partir des éléments étalant
(échantillon) choisie avant le classement. Dans cette classification les caractéristiques de
chaque classe sont connu approprie des données étalant, la classification dépend de choix
d’échantillon.

Classification Automatique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Classification Automatique

Transféré par

Droits d'auteur :

Formats disponibles

Classification automatique

4. La classification, pourquoi faire ?

L’utilisateur peut chercher à :

 Confronter un modèle théorique de données avec des observations.

5.2. Les méthodes hiérarchiques

Cherche une suite de partitions emboitées

Une partition d’un ensemble E, du partie non

Un recouvrement de E est un ensemble P= { P1 , P2, …, Pk } de partie non vide de E

Remarque : une partition est donc un

On cherche a représenté E par un ensemble emboité.

 E ∈ H (c .à. d le palier le plus haut contient tous les individus).

7.2. Déroulement de l’algorithme de classement

Trouver une bonne partition en 2 classes

2 points A, B sont tirées au hasard est

On associe a chaque point le noyau le

2 nouveaux noyaux C, D sont calculées en

On associe a chaque point le noyau le

7.3. Exemple des distances utilisées

Vous aimerez peut-être aussi