Académique Documents
Professionnel Documents
Culture Documents
1. Introduction
La nature offre un grand nombre de population qui est souhaitable de les répartir en
catégories. Chaque discipline scientifique sollicite des classifications.
2. Les données
Soit un ensemble de données e de n objets (qui sont soit des individus ou des observations)
sur lesquelles on a mesuré p caractères.
3. Objectifs
Création et caractérisation des groupes disjoints des individus homogènes et bien séparés
les uns aux autres. La classification set faite automatiquement à partir de valeurs de
variables en utilisant un algorithme. C’est une méthode multidimensionnelle. Elle tient
compte simultanément d’un ensemble de variables.
Trouver une partition de E tel qu’un objet de E n’appartiennent qu’à une seule classe.
T
m
e
l
e
u
O c
t
s
a
r
O
n
e n
6. Définitions
6.1. Partition
P= { P1 , P2, …, Pk }.
∀ l∈ { 1, 2 , … , k } Pl ≠ ∅ .
∀ l, m ∈ { 1 ,2 , … , k } l≠ m , Pl ∩ Pm ≠ ∅ .
¿ l=1 ¿ k Pl=E .
6.2. Recouvrement
∀ l∈ { 1, 2 , … , k } Pl ≠ ∅ .
¿ l=1 ¿ k Pl=E .
6.3. L’hiérarchie
Soit E un ensemble fini, H un ensemble de partie appelé « palier »non vide de E. H est une
hiérarchie sur E si :
On a l’exemple suivant
h
1
2 h
h 1
h h 1
1
9 8v0
w w w w w w w
h8 ={w4 , w5 }.
h 9={w1 , w2 , w3 }.
h10={w 6 }∪ h8
h11 ={w7 }∪ h10
h12 = h11 ∪ h 9
h8 ⊂ h10
7. Algorithme de type « Nués dynamique » (non supervisé)
7.1. Choix d’un mode de représentation
Cet algorithme nécessite tout d’abord la définition d’un mode de représentation symbolique
de tous groupes d’individus, un groupe d’individus étant donnée cette représentation
symbolique appelé « noyau » peut être par exemple :
Une droite.
Un groupe de point de la population ;
Un centre de gravité.
On peut d’un choix de k noyaux estimer ou tirer au hasard parmi une famille de noyaux
admissible appeler espace de représentation, chaque point de la population est ensuite
effectué au noyau dont il est le plus proche, on obtient ainsi une partition de k classes
dont on calcule les noyaux, on recommence la procédé avec les nouveaux noyaux et
ainsi de suite. On démontre que sous certain conditions l’algorithme converge vers une
position stable en améliorant à chaque itération un critère mathématique.
Exemple :
7.3.2.Distance de Mahalanobis :
d 2 ( i, i ' ) =( X i−X i )T cov−1 ( X i −X i )
' '
7.3.3.Distance de χ² :
1 X∙ j Xi j
n
'
d 2 ( i, i ' ) =∑ ( − )²
j=1 X∙ j Xi∙ Xi ∙ '
7.3.4.Distance Minkowski :
n 1
2 '
d ( i, i ) = [∑
j=1
(X ij − X i j)
'
]
λ λ
8. Classification supervisé
Elle cherche de regrouper dans une même classe des données de type analogue et
distinct des autres classes, la reconnaissance s’effectue à partir des éléments étalant
(échantillon) choisie avant le classement. Dans cette classification les caractéristiques de
chaque classe sont connu approprie des données étalant, la classification dépend de choix
d’échantillon.