Classification AFD

Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel
Partie III - Classification
Chapitre V – Classification hiérarchique Ascendante
Introduction :
Les techniques de classification automatique sont destinées à produire des

groupements de lignes ou de colonnes d'un tableau. Il s'agit le plus souvent d'objets ou
d'individus (les lignes) décrits par un certain nombre de variables ou de caractères (les
colonnes). Ces groupements peuvent se faire par agglomération progressive des éléments
deux à deux (comme cela se fait en classification hiérarchique), ou par recherche directe d'une
partition, en affectant les éléments à des centres provisoires de classes, puis en recentrant ces
classes (méthode itérative des centres mobiles).
Les circonstances d'utilisation de la classification sont sensiblement les mêmes que

celles des méthodes d'analyse factorielle descriptive ; on se trouve face à un tableau de
valeurs numériques.
Ce tableau peut être un tableau de valeurs numériques continues (valeur de la variable

j pour l'individu i, à l'intersection de la ligne i et de la colonne j du tableau), un tableau de
contingence (croisant deux partitions d'une même population), ou encore un tableau de
présence-absence (valeurs 0 ou 1 selon que tel individu ou objet possède tel caractère ou
attribut). Dans certaines applications, on peut disposer d'un tableau carré symétrique de
similarités ou de distances.
Il s’agit de mettre sous forme de partitions des ensembles étudiés (lignes ou colonnes
du tableau analysé), ou de hiérarchie de partitions que nous définirons de façon plus précise
ultérieurement. Quelquefois, il s'agira d'arbres au sens de la théorie des graphes, arbres dont
les sommets sont les objets à classer. Enfin on pourra rechercher des classes empiétantes ou
simplement mettre en évidence des zones à forte densité, laissant de nombreux individus ou
caractères non classés.
89
Pour l'essentiel, les techniques de classification font appel à une démarche

algorithmique et non aux calculs formalisés usuels. Alors que les valeurs des composantes
des axes factoriels, par exemple, sont la solution d'une équation pouvant s'écrire sous une
forme très condensée (même si sa résolution est complexe), la définition des classes ne se fera
qu'à partir d'une formulation algorithmique: une série d'opérations est définie de façon
récursive et répétitive. La mise en œuvre de la plupart des techniques de classification ne
nécessite donc, que des notions mathématiques relativement élémentaires.
Il existe plusieurs familles d'algorithmes de classification, mais on se limitera à deux

techniques de classification :
 la classification ascendante hiérarchique qui peut être présentée suivant

plusieurs critères d'agrégation. La technique « du saut minimal » (single
linkage) est équivalente à la recherche de l'arbre de longueur minimale, alors
que la technique d'agrégation selon « la variance », est compatible par ses
résultats avec certaines analyses factorielles.
 techniques d'agrégation autour de centres mobiles.
Un des avantages des méthodes de classification est de créer des éléments qui sont des
groupements d’individus qui se ressemblent (les classes) souvent plus faciles à décrire et
interpréter que les axes factoriels.
En pratique, il est plus intéressant d’utiliser de façon conjointe les méthodes
factorielles et les méthodes de classification.
I - Classification hiérarchique ascendante :

Les principes généraux communs aux diverses techniques de classification ascendante
hiérarchique (notée souvent CAH) sont très simples. Elles reposent sur un algorithme
convergeant nécessairement vers une classe regroupant tous les individus étudiés.
Le principe de l'algorithme consiste à créer, à chaque étape, une partition obtenue en
agrégeant deux à deux les éléments les plus proches. On désignera ici par élément à la fois les
individus ou objets à classer eux-mêmes et les regroupements d'individus générés par
l'algorithme.
Il y a différentes manières de considérer le nouveau couple d'éléments agrégés. C’est
pourquoi, on trouve un nombre important de variantes de cette technique.
90
L'algorithme ne fournit pas une partition en q classes d'un ensemble de n objets mais
fournit une hiérarchie de partitions, se présentant sous la forme d'arbres appelés
dendrogrammes et contenant (n – 1) partitions. L'intérêt de ces arbres est qu'ils peuvent être
utilisés pour donner une idée du nombre de classes existant effectivement dans la population.
Chaque coupure d'un arbre fournit une partition. Cette partition aura d'autant moins de
classes et des classes d'autant moins homogènes que l'on coupe l’arbre plus haut
II - Distances et indices d’agrégation :

On suppose que l'ensemble des individus à classer est muni d'une distance (il s'agira
parfois simplement d'une mesure de dissimilarité ; dans ce cas, l'inégalité triangulaire
d(x,y) ≤ d(x,z) + d(y,z) n'est pas exigée).
Ceci ne suppose pas que les distances soient toutes calculées en même temps : il faut
pouvoir les calculer ou les recalculer à partir des coordonnées des points-individus, celles-ci
devant être accessibles rapidement. On peut calculer ainsi une matrice de distances entre tous
les individus deux à deux.
III - Critères d’agrégation :

Une fois constitué un groupe d'individus, il est nécessaire ensuite de savoir évaluer une
distance entre un individu et un groupe, et par la suite une distance entre deux groupes. Ceci
revient à définir une stratégie de regroupements des éléments, c'est-à-dire se fixer des règles
de calcul des distances entre groupements disjoints d'individus. Ces règles sont appelées
critères (ou indices) d'agrégation.
La distance entre ces groupements pourra en général se calculer directement à partir
des distances des différents éléments impliqués dans le regroupement.
Par exemple :
 Si x, y, z sont trois objets ;
 Et si les objets x et y sont regroupés en un seul élément noté h, on peut définir la
distance de ce groupement à z par la plus petite distance des deux éléments de h à z :
d(h,z) = Min {d(x,z), d(y,z) } . Cette distance s'appelle le saut minimal (single
linkage) (Sneath, 1957 ; Johnson, 1967) et constitue un critère d'agrégation.
 On peut également définir la distance du saut maximal (ou diamètre) en prenant la
plus grande distance des deux éléments de h à z : d(h,z) = Max {d(x,z), d(y,z) }
91
 Une autre règle simple et fréquemment employée est celle de la distance moyenne ;
pour deux objets x et y regroupés en h : d(h,z)  (d(x,z)  d(y, z))/ 2
 Plus généralement, si x et y désignent des sous-ensembles disjoints de l'ensemble des
objets, ayant respectivement nx et ny éléments, h est alors un sous-ensemble formé de
(nx + ny )éléments et on définit la distance entre l’ensemble h et un élément z par :
d(h,z)  (nx d(x,z)  ny d(y,z))/( nx  ny)
IV - Algorithme de classification :
L'algorithme fondamental de classification ascendante hiérarchique se déroule de la
façon suivante :
Étape 1 : il y a n éléments à classer (qui sont les n individus);
Étape 2 : on construit la matrice de distances entre les n éléments et l'on cherche les
deux plus proches, que l'on agrège en un nouvel élément. On obtient une première
partition à (n-1) classes;
Étape 3 : on construit une nouvelle matrice des distances qui résultent de l'agrégation,
en calculant les distances entre le nouvel élément et les éléments restants (les autres
distances sont inchangées).
On se trouve dans les mêmes conditions qu'à l'étape 1, mais avec seulement (n-1)
éléments à classer et en ayant choisi un critère d'agrégation.
On cherche de nouveau les deux éléments les plus proches, que l'on agrège. On obtient
une deuxième partition avec n-2 classes et qui englobe la première;
Etc. …. …. …. ….
Étape m : on calcule les nouvelles distances, et l'on réitère le processus jusqu'à n'avoir
plus qu'un seul élément regroupant tous les objets et qui constitue la dernière partition.
Exemple :
Nous illustrons cette procédure en prenant comme objets à classer cinq points.
(1) (2) (3) (4) (5)

(1) 0 9 1 4 9
(2) 9 0 9 9 2
(3) 1 9 0 4 9
(4) 4 9 4 0 9
(5) 9 2 9 9 0
92
 A la 1ère étape, on essaiera d’agréger les deux points les plus proches parmi les
cinq.
 Il s’agit des points (1) et (3) puisque
d((1),(3))= { ) )) }
 Les points (1) et (3) sont désormais agrégés. Il faudra reconstruire une nouvelle
matrice de rang inférieur de telle manière à regrouper ces deux points.
 On recalcule seulement les distances entre le nouvel objet obtenu {(1),(3)}et
les autres points ; les autres distances ne changeant pas.
 En utilisant le critère du saut minimal, on obtiendra
d((i),{(1),(3)})= { ) )) }
 La nouvelle matrice sera
(1),(3) (2) (4) (5)
(1),(3) 0 9 4 9
(2) 9 0 9 2
(4) 4 9 0 9
(5) 9 2 9 0
 En même temps, on commence à tracer l’arborescence
(1) (3) (2) (4) (5)

 On refait l’opération jusqu’à ce que tous les ponts soient agrégés.
 Les étapes à venir sont donc les suivantes :
(1),(3) (2),(5) (4)
(1),(3) 0 9 4
(2),(5) 9 0 9
(4) 4 9 0
(1) (3) (2) (5) (4)
93
((1),(3)),(4) (2),(5)
((1),(3)),(4) 0 9
(2),(5) 9 0
(9)
(8)
(6) (7)
(1) (3) (4) (2) (5)
Remarque : On peut choisir de prendre deux classes puisque le saut maximal est obtenu pour
d((1,3,4),(2,5)) = 9 et réaliser une coupure de l’arbre à ce niveau.
V - Eléments de vocabulaire :
Il est important d'introduire les notions et la terminologie habituellement utilisées en
classification hiérarchique.
 Le fonctionnement de l'algorithme nous montre que les distances n'interviennent que
par les inégalités qui existent entre elles. Le même arbre (à une dilatation près des
ordonnées) aurait été obtenu à partir d'un simple classement des couples d'objets dans
l'ordre des distances croissantes. Un tel classement s'appelle une ordonnance (une
pré-ordonnance s'il y a des distances égales). Dans ce cas, on tracera
conventionnellement l'arbre avec des niveaux équidistants.
 La famille H des parties de l'ensemble I des objets construite à partir d'algorithmes
ascendants forme ce que l'on appelle une hiérarchie. Cette famille a pour propriété de
contenir l'ensemble tout entier (I  H) ainsi que chacun des objets pris isolément (i  I
=> {i}  H). Les autres couples de parties h, h' de H sont alors soit disjointes, soit
incluses l'une dans l'autre. En effet lors du fonctionnement de l'algorithme, chaque fois
qu'une classe se forme à partir d'éléments disjoints, elle est elle-même considérée
94
comme un nouvel élément, donc strictement incluse dans une classe ultérieure (voir la
figure).
 Les objets ou individus (1, 2, 3, 4, 5) sont les éléments terminaux de l'arbre (ou de la
hiérarchie). Les classes 6, 7, 8, 9 sont les nœuds de l'arbre : ce sont des classes issues
de regroupements de deux éléments (terminaux ou non) numérotés à la suite des
éléments terminaux et dont chacune détermine une nouvelle partition.
 On appelle arbitrairement aîné et benjamin, les deux éléments groupés constituant un
nœud (voir la figure).
 On a une hiérarchie indicée si à toute partie h de la hiérarchie est associée une valeur
numérique v(h) ≥ 0 compatible avec la relation d'inclusion au sens suivant: si h  h'
alors v(h) < v(h') La hiérarchie de la figure est indicée de façon naturelle par les
valeurs des distances correspondant à chaque étape d'agrégation (ces distances sont
portées en ordonnées).
 L'indice est la distance déterminant le regroupement.
 En "coupant" l’arbre par une droite horizontale (voir la figure), on obtient une
partition, d'autant plus fine que la coupure est proche des éléments terminaux. Si par
exemple l'indice est supérieur à 4 et inférieur à 9, on obtient une partition en deux
classes {1,3,4} et {2,5}. Si l’indice vaut 3, on obtient trois classes {1,3}, {4} et {2,5}.
 Une hiérarchie permet donc de fournir une chaîne de n partitions emboitées ayant de
1 à n classes.
VI – Limites de la méthode :
Résultats différents en fonction de la paramétrisation:
 Distances différentes ;
 Choix d’agrégation différents ;
 Lourdeur des calculs dès qu’on a un nombre de données important
95
Chapitre II - Agrégation autour de centres mobiles
Introduction :
La méthode de classification autour de centres mobiles est probablement la technique
de partitionnement la mieux adaptée actuellement aux vastes recueils de données ainsi que la
plus utilisée pour ce type d'application.
Produisant des partitions des ensembles étudiés, elle est utilisée aussi bien comme
technique de description et d'analyse que comme technique de réduction, généralement en
association avec des analyses factorielles et d'autres méthodes de classification.
Cette méthode peut être considérée comme un cas particulier de techniques connues
sous le nom de nuées dynamiques. Elle est particulièrement intéressante pour les gros fichiers
numériques car les données sont traitées en lecture directe : le tableau des données, stocké sur
une mémoire auxiliaire, est lu plusieurs fois de façon séquentielle, sans encombrer de zones
importantes dans la mémoire centrale de l'ordinateur. La lecture directe permet également
d'utiliser au mieux les particularités du codage des données et la nature de la formule de
distance utilisée pour réduire le coût des calculs.
I - Les bases de l'algorithme :

Soit un ensemble I de n individus à partitionner, caractérisés par p caractères ou
variables. On suppose que l'espace Rp supportant les n points-individus est muni d'une
distance appropriée notée d (par exemple la distance euclidienne usuelle si les variables sont
continues, ou la distance du 2 si elles sont nominales). On désire constituer au maximum q
classes.
Etape 0 : On détermine q centres provisoires de classes (par exemple, par tirage pseudo-
aléatoire sans remise de q individus dans la population à classifier).
Les q centres :  , ,…,  induisent une première partition P0 de l'ensemble des
individus I en q classes  , , .
Ainsi l'individu i appartient à la classe s'il est plus proche de , que de tous les autres
centres (Les classes sont alors délimitées dans l'espace par les cloisons polyédrales convexes
formées par les plans médiateurs des segments joignant tous les couples de centres).
Etape 1: On détermine q nouveaux centres de classes :  , ,…,  en prenant les
centres de gravité des classes qui viennent d'être obtenues :  , , .
96
Ces nouveaux centres induisent une nouvelle partition P 1 de I construite selon la même règle
que pour P0. La partition P1 est formée des classes notées :  , , 
Etc. .... …. …. ….
Etape m: On détermine q nouveaux centres de classes :  , ,…,  en prenant les
centres de gravité des classes qui ont été obtenues lors de l'étape précédente,  , ,
 .Ces nouveaux centres induisent une nouvelle partition P m de l'ensemble I formée des
classes :  , , 
L'algorithme s'arrête :
 soit lorsque deux itérations successives conduisent à la même partition ;
 soit lorsqu'un critère convenablement choisi (par exemple, la mesure de la variance
intra-classes ou inertie intra- classe) cesse de décroître de façon sensible ;
 soit encore parce qu'un nombre maximal d'itérations a été fixé a priori.
II - Exemple :
4 types de médicaments avec chacun deux variables : « La concentration » et
« l’efficacité », on veut créer deux classes => K=2.
Médicament Concentration Efficacité

A 1 1
B 2 1
C 4 3
D 5 4
On peut représenter ces quatre individus graphiquement comme suit :
97
4,5
D
4
3,5 C
3
2,5
Efficacité
2
1,5 B
A
1
0,5
0
0 1 2 3 4 5 6
Concentration
Etape 0 : On désigne aléatoirement A et B comme centre de classes.

C1 = A C2 = B
Etape 1 : On assigne chaque point à une des classes de telle sorte à ce qu’elle y soit la plus
proche.
) √ ) ) = 3,61
) √ ) ) = 2,82
) √ ) ) =5
) √ ) ) = 4,24
Les points C et D sont affectés à la classe C2. On obtient donc une nouvelle classification :
 C1 : composée seulement du point A ;
 C2 : composée des points B, C et D
Etape 2 : On Calcule les nouveaux centres de classe compte tenu de la nouvelle classification.
 C1(1,1) ;
 C2( )
98
On aura donc : C1 (1 , 1) et C2 (3.67 , 2.67).
4,5
D
4
3,5 C
3
2,5
Efficacité
2
1,5 B
A
1
0,5
0
0 1 2 3 4 5 6
Concentration
On revient à nouveau à l’étape 0. On commence la deuxième itération de l’algorithme.
On réassigne chaque médicament à une classe en calculant la distance les séparant des
nouveaux centres de classe .
On repart à l’étape 1.
On répète les étapes jusqu’à convergence.
Connaissant les membres de chaque classe, on recalcule leurs centres de classe pour chacun
de leur nouveau membre.
99
4,5
D
4
3,5 C
3
2,5
Efficacité
2
1,5 B
A
1
0,5
0
0 1 2 3 4 5 6
Concentration
C1(1,5 ;1) ; C2(4,5 ;3,5)

Le résultat final est donc:
 Classe1 = {A , B} avec comme centre de classe c 1 (1.5 , 1).
 Classe2 = {C , D} avec comme centre de classe c 2 (4.5 , 3.5).
Remarque :
Notons que la partition obtenue dépend généralement du choix initial des centres. On
améliore la solution en menant simultanément deux ou trois partitions indépendantes que l’on
croise ensuite. En croisant par exemple deux partitions en 10 classes, on crée une nouvelle
partition qui aura au plus 100 classes (certaines peuvent être vides Les individus qui se
retrouvent dans chacune d’elles se sont retrouvés deux fois dans une même classe, ce qui
préjuge d’une partition croisée plus « robuste » vis-à-vis de l’arbitraire des centres initiaux
des classes. Il restera à mener une procédure de regroupement des classes croisées pour
définir une partition finale (la procédure de classification mixte)
100
Partie 4 – Analyse Discriminante

Chapitre VI - Analyse Factorielle Discriminante (AFD)
Introduction
L’AFD est une méthode d’analyse de données ayant pour objectif de discriminer
(séparer ) m groupes d’individus préalablement définis, décrits par p variables quantitatives.
On cherchera, ainsi, des combinaisons linéaires des p variables initiales (des axes
discriminants) qui permettent de séparer au mieux les groupes. Ceci permet, entre autres, de
décrire les différences entre les groupes.
Dans le cas où l’on ne dispose que d’une variable quantitative (p = 1) le problème de
comparaison des m populations peut être résolu à l’aide de l’analyse de la variance
(ANOVA). D’un point de vue technique, l’AFD est l’ACP normée du nuage des centres de
gravités des m groupes d’individus munis de leurs poids.
I - Données et notations
On considère un ensemble de n individus sur lesquels on a observé p variables

quantitatives, X1, …, Xp. Il en résulte un tableau X à n lignes et p colonnes.
Par souci de simplification, on attribuera dans toute la suite le même poids à tous les
individus ; la matrice des poids est donc , où In désigne la matrice identité de rang n.
Ces individus forment un nuage de points dans Rp dont le centre de gravité est donné
par : P 1, où 1 désigne le vecteur de Rn dont toutes les composantes sont égales à 1
̅̅̅
(̅̅̅ ) où ̅ ∑ est la moyenne de la j ème variable.
̅̅̅̅
Supposons, en plus, que ces individus soient répartis en m groupes disjoints (chaque
individu appartenant à un groupe et un seul) notés E1, E2, … Em d’effectifs respectifs n1, n2,
…, nm ( ∑ ) et notons Gk le centre de gravité de Ek :
101
̅̅̅̅̅
(̅̅̅̅̅ ) , ̅̅̅̅ ∑ étant la moyenne de Xj dans le groupe Ek
̅̅̅̅̅
On a ∑
Le tableau de données total peut donc se présenter sous la forme :
G X1 … Xj Xp
ro
up
e
1
1
1
. X = (xij)
.
.
m
m
xij étant la valeur de la variable Xj (j=1, …, p) observée sur l’individu n° i (i=1, …, n) et la

colonne groupe indique le numéro du groupe d’appartenance de chaque individu.
On dispose donc de plusieurs nuages de points :
 Un nuage de points (total) formé des n points.
 m nuages de points, chacun correspondant aux individus d’un groupe.
 Un nuage de points formé des m centres de gravités G1, G2, …, Gm.
102
II - Variances
II - 1 - Rappels : Cas d’une seule variable quantitative
Soit X une variable quantitative observée sur n individus répartis en m groupes :
E1 … Ek … Em
x11 … xk1 … xm1
x12 xk2 xm2
… … … xkj étant la valeur de X observée sur
x1j xkj xmj le j ème individu du groupe Ek
… … …
Effectifs n1 … nk … nm
Moyennes
X1 Xk Xm 1
X  n X : moyenne totale de
k k
n k
X
Variances V1 … Vk … Vm
Xk
( resp. Vk ) étant la moyenne ( resp. la variance ) de X dans le groupe Ek.
103
a) Variance totale de X :
La variance totale de X, notée V(X), est la variance de X calculée sur tous les
individus sans distinction de groupes :
1 ²
V (X )    (x  X )
ij
n k jEk
b) Variance INTER : (Between)
On appelle variance INTER de X la variance du nuage de points formé des moyennes

des différents groupes :
1 2
VINTER   nk ( X k  X )
nk
c) Variance INTRA : (Within)
La variance INTRA est définie comme étant la moyenne des variances dans les
différents groupes :
1
VIN TR A   n k Vk
n k
d) Proposition :
V(X) = VINTER + V INTRA
e) Rapport de corrélation
V
2
  INTER
V (X )
VINTRA
1 
V (X )
104
Proposition :
 2  [0,1]
2
Plus  est proche de 1, plus la variable Y discrimine les k groupes.
Exemples :
Deux groupes codés 1 et 2 et une variable quantitative X :

a)
20 ² =0.95
15
10
0
0 1 2 3
b)
7 ² =0.01
6
5
4
3
2
1
0
0 1 2 3
II – 2 - Cas de p variables :
Dans toute la suite X sera supposé centré
105
II – 2 – 1 - Variance totale
On appelle matrice variance (ou de covariance) totale la matrice de covariance entre les p
variables X1, …Xp calculée sur l’ensemble des n individus sans distinction de groupes :
V = Xt PX
II – 2 – 2 - Variance INTER
La matrice de covariances INTER est la matrice de covariances entre les p variables

observées sur les centres de gravité des m groupes, ainsi, pour le calcul de cette
matrice chaque groupe, Ek, sera représenté par son centre de gravité (l’individu moyen
nk
du groupe), Gk, affecté du poids M k  et on calculera la matrice covariance entre
n
les variables pour ces nouveaux individus : matrice de covariance entre les groupes
(égale à l’inertie inter). Cette matrice est notée B ( Between) :
B   M k Gk ²
Remarque : Dans le cas de deux groupes, on montre que B

n1n2
B 2
(G1  G2 )(G1  G2 )'
n
II – 2 – 3 - Variance intra :
Soit Vk ( k=1, …, m) la matrice de covariance entre les variables à l'intérieur du

groupe Ek :
1 '
Vk  X k X k  Gk Gk'
nk
~
où X k est le tableau obtenu en observant les p variables sur les individus du groupe Ek.
106
On appelle matrice de covariance intra (égale à l’inertie intra-classes), et on note notée W

(Within) la matrice obtenue est obtenue en faisant la moyenne de ces matrices :
1
W
n
 n k Vk
Proposition :
La matrice de covariance totale est la somme des matrices de covariance inter et intra :
V=B+W
En effet :
Le tableau X peut s’écrire :

~
 X1 
 
~
X 
X  2 
 ... 
~ 
Xm  ~
X k étant le tableau associé au groupe Ek ( k=1, …, m)
La matrice de covariance totale est V = X’PX
1
V X 'X
D’où n
 X1 
 
  
1 ' X2 
X1 X 2' ... X m'
n  ... 
 
 X m 
=
1

n
 X k' X k (*)
1 '
or
nk
107
d’où
X k' X k  nkVk  nk Gk Gk'
Et en remplaçant dans (*), on obtient le résultat.
III - Recherche des axes discriminants :

Rappelons que notre objectif est de discriminer ( séparer ) au mieux les m groupes.
Pour cela, on va construire de nouvelles variables synthétiques, combinaisons linéaires des
variables initiales, ( axes discriminants ) de telle sorte qu’en projection sur cet axe on ait :
 Les centres de gravité des différents groupes les plus éloignés possibles ( variance INTER
élevée )
 Les individus d’un même groupe concentrés autour de leur centre de gravité ( variance
INTRA faible )
III - 1 - Position du problème :
Soit d une combinaison linéaire des variables Xj :
p
d  uj X j
j 1
p
ou en notant u le vecteur colonne de R :
u1
…
u= uj d = Xu
…
up
Proposition - définition
Var(d) = utVu
= utBu + utWu
108
t
uBu est appelée variance INTER de d
et tuWu la variance INTRA de d.
III – 2 - Recherche du premier axe discriminant :
On cherchera donc un premier axe d = Xu tel que :

a) Variance INTER de d (utBu ) MAXIMALE
b) Variance INTRA de d (utWu ) MINIMALE
Proposition
La recherche du premier axe discriminant revient à résoudre le problème

d’optimisation :
Chercher u Rp tel que
a) maximum
ou de manière équivalente :
b) maximum
Démonstration (b )  (a)
max min
) min min
 
1+
109
min max
 
III - 2 – 1 - Solution :
En considérant le problème :
Chercher u Rp tel que : maximum
Le premier axe de l’AFD est donnée par d1 = Xu1 où u1 est le premier vecteur propre
de V-1 B associé à la plus grande valeur propre  1.
Proposition 1
 1  [ 0,1 ]
 1 = 1 : discrimination parfaite
 1 = 0 : Les centres de gravité des nuages de points sont confondus ( aucune discrimination
n’est possible.
 1 =1  1 =0
E1
E1
E2
E2
Définition :
 1 est appelée pouvoir discriminant de l’axe 1
110
Proposition 2
Proposition 3
Les deux problèmes :
maximum et maximum
étant équivalents, il s’ensuit que u1 est aussi solution de ( maximum ). De plus u1 est
vecteur propre de
W-1B associé à la valeur propre µ1 donnée par :
1
1 
1  1
III – 3 - Recherche des axes de rang supérieur
L’AFD du tableau X s’obtient soit :

a) en cherchant les vecteurs propres ui et les valeurs propres associées  i de V-1B
b) en cherchant les vecteurs propres ui et les valeurs propres associées µ i de W-1B
i
i 
1  i
et on a
III – 4 - Nombre d’axes maximum

Le nombre maximum d’axes que l’on puisse obtenir en effectuant l’AFD sur m
groupes est ( m-1 ). Ainsi pour 2 groupes, on aura au plus un axe, et pour trois groupes au plus
2 axes.
IV- Réalisation :
Dans cette présentation ‘pratique’ de l’AFD, nous traiterons le cas de deux groupes, la
généralisation à plusieurs groupes se fait sans difficulté.
111
IV – 1 - Données :
On observe deux variables quantitatives X1 et X2 sur un ensemble de n individus

supposés répartis en deux groupes (M : masculin et F : féminin), on obtient le tableau ci
dessous :
Gr X1 X2
M 1 5
M 3 6
M 2 4
F 3 3
F 6 2
On a donc :
n1 = 3 n2= 2 et n = (n1 + n2) = 5
et on cherche à discriminer les deux groupe ( i.e. chercher une combinaison linéaire des deux
variables permettant de « séparer » ces deux groupes).
X2
M
M
M
F
F
X1
112
Rappel :
L’AFD est obtenue en diagonalisant V-1B ou W -1B, il s’agit, donc, de calculer ces
différentes matrices (au fait, il suffit d’en calculer deux, ici, dans un but didactique, nous
calculerons les 3 matrices)
IV – 2 - Calcul de V (matrice de covariance totale ) :
Rappel :
La matrice variance (ou de covariance) totale la matrice de covariance entre les
variables quantitatives calculée sur l’ensemble des n individus (ici les 5 individus ) sans
distinction de groupes. Elle est donnée par :
V = XtcPXc
où :
Xc est le tableau centré associé aux variables quantitatives

 P la matrice des poids des individus, ici on attribuera le même poids à tous les individus, il
1
s’ensuit que cette matrice est égale à I 5 , I5 étant la matrice identité de rang 5.
5
a) Centrage :
Xc = X – 1Gt où :
 G est le centre de gravité du nuage de points, G=X’PE

 1 est le vecteur de R5 dont toutes les composantes sont égales à 1
3
G =  
 4
d’où :
X1 X2
-2 1
0 2
Xc = -1 0
113
0 -1
3 -2
1  14  8 
Soit alors : V   
5   8 10 
Rappel :
Notons Vk ( k=1, 2) la matrice de covariance entre les variables à l'intérieur du groupe n° k :
1 '
nk
~
où X k est le tableau restreint aux individus du groupe k.
On appelle matrice de covariance intra, et on note notée W (within) la matrice
obtenue en faisant la moyenne (pondérée par les nk ) de ces matrices :
1
W
n
 n k Vk
a) Calcul de V1
Le tableau associé au premier groupe est :
X1 X2
1 5
~ 3 6
X1=
2 4
En attribuant le même poids à tous les individus, le centre de gravité de ce groupe est :
 2
G1 =   et la matrice de covariance est :
5
114
1 2 1
V1   
3  1 2 
b) Calcul de V2
Le tableau associé au deuxième groupe est :
X1 X2
~ 3 3
X2 =
6 2
En procédant de la même manière que dans a), on trouve :
 4 .5 
G2 =   et la matrice de covariance est :
 2 .5 
1  4.5  1.5 
V2   
2   1.5 0.5 
c) Calcul de W :
1
W= (3V1  2V2 )
5
1  6.5  0.5 
W   
5   0.5 2.5 
N.B. On aurait pu récupérer dans le tableau centré au lieu du tableau initial .
IV – 3- Calcul de la matrice de covariance INTER, B
Rappel :
La matrice de covariances INTER est la matrice de covariances entre les variables
observées sur les centres de gravité des m groupes, ainsi, pour le calcul de cette matrice
n
chaque groupe, k, sera représenté par son centre de gravité, g k, affecté du poids k et on
n
calculera la matrice covariance entre les variables pour ces nouveaux individus : matrice de
covariance entre les groupes .Cette matrice est notée B ( Between) :
1
B
n
 nk (Gk  G)(Gk  G) '
115
La matrice formée des centres de gravités est donnée par :
X1 X2
2 5
4.5 2.5
1  n1 0 1 3 0
La matrice des poids est :     
n 0 n2  5  0 2 
Et la matrice de covariance inter est :
1  7.5  7.5 
B=  
5   7.5 7.5 
On a bien V = B + W
IV – 4 - AFD
Rappel :
a b 
Soit A    une matrice 2x2, alors :
c d 
 Det(A) = ad-bc
 Si A est inversible ( i.e. det (A)  0) alors son inverse, A-1, est donné par :
1  d  b
A 1   
det( A)  c a 
(cette matrice vérifie AA-1 = A-1 A = Identité : définition )
Application :
1  14  8  76
V     det (V) = et son inverse est :
5   8 10  25
5 10 8 
V 1   
76  8 14 
a) Calcul de V-1 B
7.5  2  2 
V-1 B =  
76   6 6 
116
b) Diagonalisation de V-1 B
La valeur propre non nulle de V-1B est  = 0.79, qui est le pouvoir de discriminant de
l’axe ( rappelons que plus cette valeur est proche de 1 meilleure est la discrimination)
Un vecteur propre associé à cette valeur propre est donné par :

  1
u   
3
Les coordonnées des individus sur l’axe discriminant sont données (à un coefficient de
proportionnalité prés) par C = Xcu :
M 5
M 6
C= M 1
F -3
F -9
V- AFD SOUS SAS
âge revenu patrimoine emprunt groupe
45 250 1300 600 3
47 160 1150 450 3
38 165 850 370 1
36 175 770 250 1
29 99 450 400 1
39 170 1400 120 3
27 120 1400 160 2
51 160 1300 320 3
32 155 1500 350 2
35 170 1400 180 2
117
Y
3
3
2 3
1 3
0
1
2
- 1
2
1
- 2
2
- 3
- 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5
Y
2
3
2
1 2
2
3
0
3
1 3
1
- 1
- 2
1
- 3
- 2 - 1 0 1 2 3
X
118

Classification AFD

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Classification AFD

Transféré par

Droits d'auteur :

Formats disponibles

Ecole Nationale Polytechnique d’Alger Cours ADD - 1ère Année-Génie Industriel

Partie III - Classification

Chapitre V – Classification hiérarchique Ascendante

Les techniques de classification automatique sont destinées à produire des

Les circonstances d'utilisation de la classification sont sensiblement les mêmes que

Ce tableau peut être un tableau de valeurs numériques continues (valeur de la variable

Pour l'essentiel, les techniques de classification font appel à une démarche

Il existe plusieurs familles d'algorithmes de classification, mais on se limitera à deux

 la classification ascendante hiérarchique qui peut être présentée suivant

I - Classification hiérarchique ascendante :

II - Distances et indices d’agrégation :

III - Critères d’agrégation :

(1) (2) (3) (4) (5)

 En même temps, on commence à tracer l’arborescence

(1) (3) (2) (4) (5)

(1) (3) (2) (5) (4)

(1) (3) (4) (2) (5)

Chapitre II - Agrégation autour de centres mobiles

I - Les bases de l'algorithme :

Médicament Concentration Efficacité

Etape 0 : On désigne aléatoirement A et B comme centre de classes.

On aura donc : C1 (1 , 1) et C2 (3.67 , 2.67).

On revient à nouveau à l’étape 0. On commence la deuxième itération de l’algorithme.

C1(1,5 ;1) ; C2(4,5 ;3,5)

Partie 4 – Analyse Discriminante

On considère un ensemble de n individus sur lesquels on a observé p variables

Le tableau de données total peut donc se présenter sous la forme :

xij étant la valeur de la variable Xj (j=1, …, p) observée sur l’individu n° i (i=1, …, n) et la

On dispose donc de plusieurs nuages de points :

 Un nuage de points (total) formé des n points.

 m nuages de points, chacun correspondant aux individus d’un groupe.

 Un nuage de points formé des m centres de gravités G1, G2, …, Gm.

II - 1 - Rappels : Cas d’une seule variable quantitative

Soit X une variable quantitative observée sur n individus répartis en m groupes :

b) Variance INTER : (Between)

On appelle variance INTER de X la variance du nuage de points formé des moyennes

V(X) = VINTER + V INTRA

Deux groupes codés 1 et 2 et une variable quantitative X :

Dans toute la suite X sera supposé centré

La matrice de covariances INTER est la matrice de covariances entre les p variables

Remarque : Dans le cas de deux groupes, on montre que B

Soit Vk ( k=1, …, m) la matrice de covariance entre les variables à l'intérieur du

On appelle matrice de covariance intra (égale à l’inertie intra-classes), et on note notée W

Le tableau X peut s’écrire :

Et en remplaçant dans (*), on obtient le résultat.

III - Recherche des axes discriminants :

III - 1 - Position du problème :

Soit d une combinaison linéaire des variables Xj :

III – 2 - Recherche du premier axe discriminant :

On cherchera donc un premier axe d = Xu tel que :

La recherche du premier axe discriminant revient à résoudre le problème

Chercher u Rp tel que : maximum

III – 3 - Recherche des axes de rang supérieur

L’AFD du tableau X s’obtient soit :

III – 4 - Nombre d’axes maximum

On observe deux variables quantitatives X1 et X2 sur un ensemble de n individus

n1 = 3 n2= 2 et n = (n1 + n2) = 5

IV – 2 - Calcul de V (matrice de covariance totale ) :

Xc est le tableau centré associé aux variables quantitatives

 G est le centre de gravité du nuage de points, G=X’PE

Notons Vk ( k=1, 2) la matrice de covariance entre les variables à l'intérieur du groupe n° k :

Le tableau associé au premier groupe est :

Le tableau associé au deuxième groupe est :