Introduction :
Il s’agit de mettre sous forme de partitions des ensembles étudiés (lignes ou colonnes
du tableau analysé), ou de hiérarchie de partitions que nous définirons de façon plus précise
ultérieurement. Quelquefois, il s'agira d'arbres au sens de la théorie des graphes, arbres dont
les sommets sont les objets à classer. Enfin on pourra rechercher des classes empiétantes ou
simplement mettre en évidence des zones à forte densité, laissant de nombreux individus ou
caractères non classés.
89
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Un des avantages des méthodes de classification est de créer des éléments qui sont des
groupements d’individus qui se ressemblent (les classes) souvent plus faciles à décrire et
interpréter que les axes factoriels.
En pratique, il est plus intéressant d’utiliser de façon conjointe les méthodes
factorielles et les méthodes de classification.
90
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
L'algorithme ne fournit pas une partition en q classes d'un ensemble de n objets mais
fournit une hiérarchie de partitions, se présentant sous la forme d'arbres appelés
dendrogrammes et contenant (n – 1) partitions. L'intérêt de ces arbres est qu'ils peuvent être
utilisés pour donner une idée du nombre de classes existant effectivement dans la population.
Chaque coupure d'un arbre fournit une partition. Cette partition aura d'autant moins de
classes et des classes d'autant moins homogènes que l'on coupe l’arbre plus haut
91
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Une autre règle simple et fréquemment employée est celle de la distance moyenne ;
pour deux objets x et y regroupés en h : d(h,z) (d(x,z) d(y, z))/ 2
Plus généralement, si x et y désignent des sous-ensembles disjoints de l'ensemble des
objets, ayant respectivement nx et ny éléments, h est alors un sous-ensemble formé de
(nx + ny )éléments et on définit la distance entre l’ensemble h et un élément z par :
d(h,z) (nx d(x,z) ny d(y,z))/( nx ny)
IV - Algorithme de classification :
L'algorithme fondamental de classification ascendante hiérarchique se déroule de la
façon suivante :
Étape 1 : il y a n éléments à classer (qui sont les n individus);
Étape 2 : on construit la matrice de distances entre les n éléments et l'on cherche les
deux plus proches, que l'on agrège en un nouvel élément. On obtient une première
partition à (n-1) classes;
Étape 3 : on construit une nouvelle matrice des distances qui résultent de l'agrégation,
en calculant les distances entre le nouvel élément et les éléments restants (les autres
distances sont inchangées).
On se trouve dans les mêmes conditions qu'à l'étape 1, mais avec seulement (n-1)
éléments à classer et en ayant choisi un critère d'agrégation.
On cherche de nouveau les deux éléments les plus proches, que l'on agrège. On obtient
une deuxième partition avec n-2 classes et qui englobe la première;
Etc. …. …. …. ….
Étape m : on calcule les nouvelles distances, et l'on réitère le processus jusqu'à n'avoir
plus qu'un seul élément regroupant tous les objets et qui constitue la dernière partition.
Exemple :
Nous illustrons cette procédure en prenant comme objets à classer cinq points.
92
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
A la 1ère étape, on essaiera d’agréger les deux points les plus proches parmi les
cinq.
Il s’agit des points (1) et (3) puisque
d((1),(3))= { ) )) }
Les points (1) et (3) sont désormais agrégés. Il faudra reconstruire une nouvelle
matrice de rang inférieur de telle manière à regrouper ces deux points.
On recalcule seulement les distances entre le nouvel objet obtenu {(1),(3)}et
les autres points ; les autres distances ne changeant pas.
En utilisant le critère du saut minimal, on obtiendra
d((i),{(1),(3)})= { ) )) }
La nouvelle matrice sera
(1),(3) (2) (4) (5)
(1),(3) 0 9 4 9
(2) 9 0 9 2
(4) 4 9 0 9
(5) 9 2 9 0
93
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
((1),(3)),(4) (2),(5)
((1),(3)),(4) 0 9
(2),(5) 9 0
(9)
(8)
(6) (7)
Remarque : On peut choisir de prendre deux classes puisque le saut maximal est obtenu pour
d((1,3,4),(2,5)) = 9 et réaliser une coupure de l’arbre à ce niveau.
V - Eléments de vocabulaire :
Il est important d'introduire les notions et la terminologie habituellement utilisées en
classification hiérarchique.
Le fonctionnement de l'algorithme nous montre que les distances n'interviennent que
par les inégalités qui existent entre elles. Le même arbre (à une dilatation près des
ordonnées) aurait été obtenu à partir d'un simple classement des couples d'objets dans
l'ordre des distances croissantes. Un tel classement s'appelle une ordonnance (une
pré-ordonnance s'il y a des distances égales). Dans ce cas, on tracera
conventionnellement l'arbre avec des niveaux équidistants.
La famille H des parties de l'ensemble I des objets construite à partir d'algorithmes
ascendants forme ce que l'on appelle une hiérarchie. Cette famille a pour propriété de
contenir l'ensemble tout entier (I H) ainsi que chacun des objets pris isolément (i I
=> {i} H). Les autres couples de parties h, h' de H sont alors soit disjointes, soit
incluses l'une dans l'autre. En effet lors du fonctionnement de l'algorithme, chaque fois
qu'une classe se forme à partir d'éléments disjoints, elle est elle-même considérée
94
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
comme un nouvel élément, donc strictement incluse dans une classe ultérieure (voir la
figure).
Les objets ou individus (1, 2, 3, 4, 5) sont les éléments terminaux de l'arbre (ou de la
hiérarchie). Les classes 6, 7, 8, 9 sont les nœuds de l'arbre : ce sont des classes issues
de regroupements de deux éléments (terminaux ou non) numérotés à la suite des
éléments terminaux et dont chacune détermine une nouvelle partition.
On appelle arbitrairement aîné et benjamin, les deux éléments groupés constituant un
nœud (voir la figure).
On a une hiérarchie indicée si à toute partie h de la hiérarchie est associée une valeur
numérique v(h) ≥ 0 compatible avec la relation d'inclusion au sens suivant: si h h'
alors v(h) < v(h') La hiérarchie de la figure est indicée de façon naturelle par les
valeurs des distances correspondant à chaque étape d'agrégation (ces distances sont
portées en ordonnées).
L'indice est la distance déterminant le regroupement.
En "coupant" l’arbre par une droite horizontale (voir la figure), on obtient une
partition, d'autant plus fine que la coupure est proche des éléments terminaux. Si par
exemple l'indice est supérieur à 4 et inférieur à 9, on obtient une partition en deux
classes {1,3,4} et {2,5}. Si l’indice vaut 3, on obtient trois classes {1,3}, {4} et {2,5}.
Une hiérarchie permet donc de fournir une chaîne de n partitions emboitées ayant de
1 à n classes.
VI – Limites de la méthode :
Résultats différents en fonction de la paramétrisation:
Distances différentes ;
Choix d’agrégation différents ;
Lourdeur des calculs dès qu’on a un nombre de données important
95
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Introduction :
La méthode de classification autour de centres mobiles est probablement la technique
de partitionnement la mieux adaptée actuellement aux vastes recueils de données ainsi que la
plus utilisée pour ce type d'application.
Produisant des partitions des ensembles étudiés, elle est utilisée aussi bien comme
technique de description et d'analyse que comme technique de réduction, généralement en
association avec des analyses factorielles et d'autres méthodes de classification.
Cette méthode peut être considérée comme un cas particulier de techniques connues
sous le nom de nuées dynamiques. Elle est particulièrement intéressante pour les gros fichiers
numériques car les données sont traitées en lecture directe : le tableau des données, stocké sur
une mémoire auxiliaire, est lu plusieurs fois de façon séquentielle, sans encombrer de zones
importantes dans la mémoire centrale de l'ordinateur. La lecture directe permet également
d'utiliser au mieux les particularités du codage des données et la nature de la formule de
distance utilisée pour réduire le coût des calculs.
96
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Ces nouveaux centres induisent une nouvelle partition P 1 de I construite selon la même règle
que pour P0. La partition P1 est formée des classes notées : , ,
Etc. .... …. …. ….
Etape m: On détermine q nouveaux centres de classes : , ,…, en prenant les
centres de gravité des classes qui ont été obtenues lors de l'étape précédente, , ,
.Ces nouveaux centres induisent une nouvelle partition P m de l'ensemble I formée des
classes : , ,
L'algorithme s'arrête :
soit lorsque deux itérations successives conduisent à la même partition ;
soit lorsqu'un critère convenablement choisi (par exemple, la mesure de la variance
intra-classes ou inertie intra- classe) cesse de décroître de façon sensible ;
soit encore parce qu'un nombre maximal d'itérations a été fixé a priori.
II - Exemple :
4 types de médicaments avec chacun deux variables : « La concentration » et
« l’efficacité », on veut créer deux classes => K=2.
97
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
4,5
D
4
3,5 C
3
2,5
Efficacité
2
1,5 B
A
1
0,5
0
0 1 2 3 4 5 6
Concentration
) √ ) ) = 3,61
) √ ) ) = 2,82
) √ ) ) =5
) √ ) ) = 4,24
Les points C et D sont affectés à la classe C2. On obtient donc une nouvelle classification :
C1 : composée seulement du point A ;
C2 : composée des points B, C et D
Etape 2 : On Calcule les nouveaux centres de classe compte tenu de la nouvelle classification.
C1(1,1) ;
C2( )
98
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
4,5
D
4
3,5 C
3
2,5
Efficacité
2
1,5 B
A
1
0,5
0
0 1 2 3 4 5 6
Concentration
On réassigne chaque médicament à une classe en calculant la distance les séparant des
nouveaux centres de classe .
On repart à l’étape 1.
On répète les étapes jusqu’à convergence.
Connaissant les membres de chaque classe, on recalcule leurs centres de classe pour chacun
de leur nouveau membre.
99
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
4,5
D
4
3,5 C
3
2,5
Efficacité
2
1,5 B
A
1
0,5
0
0 1 2 3 4 5 6
Concentration
Remarque :
Notons que la partition obtenue dépend généralement du choix initial des centres. On
améliore la solution en menant simultanément deux ou trois partitions indépendantes que l’on
croise ensuite. En croisant par exemple deux partitions en 10 classes, on crée une nouvelle
partition qui aura au plus 100 classes (certaines peuvent être vides Les individus qui se
retrouvent dans chacune d’elles se sont retrouvés deux fois dans une même classe, ce qui
préjuge d’une partition croisée plus « robuste » vis-à-vis de l’arbitraire des centres initiaux
des classes. Il restera à mener une procédure de regroupement des classes croisées pour
définir une partition finale (la procédure de classification mixte)
100
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Introduction
L’AFD est une méthode d’analyse de données ayant pour objectif de discriminer
(séparer ) m groupes d’individus préalablement définis, décrits par p variables quantitatives.
On cherchera, ainsi, des combinaisons linéaires des p variables initiales (des axes
discriminants) qui permettent de séparer au mieux les groupes. Ceci permet, entre autres, de
décrire les différences entre les groupes.
Dans le cas où l’on ne dispose que d’une variable quantitative (p = 1) le problème de
comparaison des m populations peut être résolu à l’aide de l’analyse de la variance
(ANOVA). D’un point de vue technique, l’AFD est l’ACP normée du nuage des centres de
gravités des m groupes d’individus munis de leurs poids.
I - Données et notations
Ces individus forment un nuage de points dans Rp dont le centre de gravité est donné
par : P 1, où 1 désigne le vecteur de Rn dont toutes les composantes sont égales à 1
̅̅̅
(̅̅̅ ) où ̅ ∑ est la moyenne de la j ème variable.
̅̅̅̅
Supposons, en plus, que ces individus soient répartis en m groupes disjoints (chaque
individu appartenant à un groupe et un seul) notés E1, E2, … Em d’effectifs respectifs n1, n2,
…, nm ( ∑ ) et notons Gk le centre de gravité de Ek :
101
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
̅̅̅̅̅
(̅̅̅̅̅ ) , ̅̅̅̅ ∑ étant la moyenne de Xj dans le groupe Ek
̅̅̅̅̅
On a ∑
G X1 … Xj Xp
ro
up
e
1
1
1
. X = (xij)
.
.
m
m
102
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
II - Variances
E1 … Ek … Em
x11 … xk1 … xm1
x12 xk2 xm2
… … … xkj étant la valeur de X observée sur
x1j xkj xmj le j ème individu du groupe Ek
… … …
Effectifs n1 … nk … nm
Moyennes
X1 Xk Xm 1
X n X : moyenne totale de
k k
n k
X
Variances V1 … Vk … Vm
Xk
( resp. Vk ) étant la moyenne ( resp. la variance ) de X dans le groupe Ek.
103
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
a) Variance totale de X :
La variance totale de X, notée V(X), est la variance de X calculée sur tous les
individus sans distinction de groupes :
1 ²
V (X ) (x X )
ij
n k jEk
1 2
VINTER nk ( X k X )
nk
c) Variance INTRA : (Within)
La variance INTRA est définie comme étant la moyenne des variances dans les
différents groupes :
1
VIN TR A n k Vk
n k
d) Proposition :
e) Rapport de corrélation
V
2
INTER
V (X )
VINTRA
1
V (X )
104
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Proposition :
2 [0,1]
2
Plus est proche de 1, plus la variable Y discrimine les k groupes.
Exemples :
20 ² =0.95
15
10
0
0 1 2 3
b)
7 ² =0.01
6
5
4
3
2
1
0
0 1 2 3
II – 2 - Cas de p variables :
105
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
II – 2 – 1 - Variance totale
On appelle matrice variance (ou de covariance) totale la matrice de covariance entre les p
variables X1, …Xp calculée sur l’ensemble des n individus sans distinction de groupes :
V = Xt PX
II – 2 – 2 - Variance INTER
B M k Gk ²
II – 2 – 3 - Variance intra :
1 '
Vk X k X k Gk Gk'
nk
~
où X k est le tableau obtenu en observant les p variables sur les individus du groupe Ek.
106
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
1
W
n
n k Vk
Proposition :
La matrice de covariance totale est la somme des matrices de covariance inter et intra :
V=B+W
En effet :
X1
1 ' X2
X1 X 2' ... X m'
n ...
X m
=
1
n
X k' X k (*)
1 '
Vk X k X k Gk Gk'
or
nk
107
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
d’où
X k' X k nkVk nk Gk Gk'
Les centres de gravité des différents groupes les plus éloignés possibles ( variance INTER
élevée )
Les individus d’un même groupe concentrés autour de leur centre de gravité ( variance
INTRA faible )
p
d uj X j
j 1
p
ou en notant u le vecteur colonne de R :
u1
…
u= uj d = Xu
…
up
Proposition - définition
Var(d) = utVu
= utBu + utWu
108
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
t
uBu est appelée variance INTER de d
et tuWu la variance INTRA de d.
Proposition
a) maximum
ou de manière équivalente :
b) maximum
Démonstration (b ) (a)
max min
) min min
1+
109
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
min max
III - 2 – 1 - Solution :
En considérant le problème :
Le premier axe de l’AFD est donnée par d1 = Xu1 où u1 est le premier vecteur propre
de V-1 B associé à la plus grande valeur propre 1.
Proposition 1
1 [ 0,1 ]
1 = 1 : discrimination parfaite
1 = 0 : Les centres de gravité des nuages de points sont confondus ( aucune discrimination
n’est possible.
1 =1 1 =0
E1
E1
E2
E2
Définition :
1 est appelée pouvoir discriminant de l’axe 1
110
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Proposition 2
Proposition 3
Les deux problèmes :
maximum et maximum
étant équivalents, il s’ensuit que u1 est aussi solution de ( maximum ). De plus u1 est
vecteur propre de
W-1B associé à la valeur propre µ1 donnée par :
1
1
1 1
IV- Réalisation :
Dans cette présentation ‘pratique’ de l’AFD, nous traiterons le cas de deux groupes, la
généralisation à plusieurs groupes se fait sans difficulté.
111
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
IV – 1 - Données :
Gr X1 X2
M 1 5
M 3 6
M 2 4
F 3 3
F 6 2
On a donc :
et on cherche à discriminer les deux groupe ( i.e. chercher une combinaison linéaire des deux
variables permettant de « séparer » ces deux groupes).
X2
M
M
M
F
F
X1
112
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Rappel :
L’AFD est obtenue en diagonalisant V-1B ou W -1B, il s’agit, donc, de calculer ces
différentes matrices (au fait, il suffit d’en calculer deux, ici, dans un but didactique, nous
calculerons les 3 matrices)
Rappel :
La matrice variance (ou de covariance) totale la matrice de covariance entre les
variables quantitatives calculée sur l’ensemble des n individus (ici les 5 individus ) sans
distinction de groupes. Elle est donnée par :
V = XtcPXc
où :
a) Centrage :
Xc = X – 1Gt où :
3
G =
4
d’où :
X1 X2
-2 1
0 2
Xc = -1 0
113
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
0 -1
3 -2
1 14 8
Soit alors : V
5 8 10
Rappel :
1 '
Vk X k X k Gk Gk'
nk
~
où X k est le tableau restreint aux individus du groupe k.
On appelle matrice de covariance intra, et on note notée W (within) la matrice
obtenue en faisant la moyenne (pondérée par les nk ) de ces matrices :
1
W
n
n k Vk
a) Calcul de V1
X1 X2
1 5
~ 3 6
X1=
2 4
En attribuant le même poids à tous les individus, le centre de gravité de ce groupe est :
2
G1 = et la matrice de covariance est :
5
114
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
1 2 1
V1
3 1 2
b) Calcul de V2
X1 X2
~ 3 3
X2 =
6 2
4 .5
G2 = et la matrice de covariance est :
2 .5
1 4.5 1.5
V2
2 1.5 0.5
c) Calcul de W :
1
W= (3V1 2V2 )
5
1 6.5 0.5
W
5 0.5 2.5
Rappel :
La matrice de covariances INTER est la matrice de covariances entre les variables
observées sur les centres de gravité des m groupes, ainsi, pour le calcul de cette matrice
n
chaque groupe, k, sera représenté par son centre de gravité, g k, affecté du poids k et on
n
calculera la matrice covariance entre les variables pour ces nouveaux individus : matrice de
covariance entre les groupes .Cette matrice est notée B ( Between) :
1
B
n
nk (Gk G)(Gk G) '
115
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
X1 X2
2 5
4.5 2.5
1 n1 0 1 3 0
La matrice des poids est :
n 0 n2 5 0 2
1 7.5 7.5
B=
5 7.5 7.5
On a bien V = B + W
IV – 4 - AFD
Rappel :
a b
Soit A une matrice 2x2, alors :
c d
Det(A) = ad-bc
Si A est inversible ( i.e. det (A) 0) alors son inverse, A-1, est donné par :
1 d b
A 1
det( A) c a
Application :
1 14 8 76
V det (V) = et son inverse est :
5 8 10 25
5 10 8
V 1
76 8 14
a) Calcul de V-1 B
7.5 2 2
V-1 B =
76 6 6
116
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
b) Diagonalisation de V-1 B
La valeur propre non nulle de V-1B est = 0.79, qui est le pouvoir de discriminant de
l’axe ( rappelons que plus cette valeur est proche de 1 meilleure est la discrimination)
Les coordonnées des individus sur l’axe discriminant sont données (à un coefficient de
proportionnalité prés) par C = Xcu :
M 5
M 6
C= M 1
F -3
F -9
29 99 450 400 1
117
Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Y
3
3
2 3
1 3
0
1
2
- 1
2
1
- 2
2
- 3
- 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5
Y
2
3
2
1 2
2
3
0
3
1 3
1
- 1
- 2
1
- 3
- 2 - 1 0 1 2 3
X
118