Académique Documents
Professionnel Documents
Culture Documents
Ouazza Ahmed
2020-2021
1 / 40
Méthodes de Classification
2 / 40
AFC
3 / 40
Classification
Les données:
5 / 40
Classification
Distances et dissimilarités
Pour calculer les distances, les données peuvent se présenter sous
différentes formes; elles concernent n individus:
• Cas 1: Un tableau de distances entre les n individus pris deux à
deux (c-à-d un tableau de n lignes et n colonnes).
• Cas 2: Les observations de p variables quantitatives sur ces n
individus.
• Cas 3: Les observations, toujours sur ces n individus, de variables
qualitatives (ou binaires).
D’une façon ou d’une autre, il s’agit, dans chaque cas, de se ramener
au tableau des distances deux à deux entre les individus (c-à-d au cas
1).
6 / 40
Classification
Soit E = {1, ..., n} l’ensemble de n individus à classer.
• Une distance est une application de E × E dans R+ telle que:
d(i, j) = d(j, i)
d(i, j) ≥ 0
d(i, j) = 0 ⇒ i = j
d(i, j) ≤ d(i, k) + d(k, j)
7 / 40
Classification
• Lorsque les données se présentent sous forme d’un tableau X de p
variables quantitatives et n individus, on utilise souvent les distances
suivantes:
Distance euclidienne:
p
X
2
d (Ii , Il ) = (xij − xlj )2
j=1
Distance L1 :
p
X
d(Ii , Il ) = |xij − xlj |
j=1
• Lorsque les variables sont qualitatives on utilise la distance de
khi-deux χ2 (voir le cours de l’AFC).
8 / 40
Classification
Similarité entre des objets à structure binaire:
a
Russel et Rao: dil = a+b+c+d
2a
Dice: dil = 2a+b+c
a
Ochiaï: dil = (a+b)(a+c)
10 / 40
Classification
Exemple
On considère le tableau suivant:
X1 X2 X3 X4
I1 1 1 0 1
I2 1 1 1 1
I3 1 0 1 1
I4 0 0 1 0
I5 1 1 0 1
I6 0 1 0 0
11 / 40
Classification
Dans ce cas, on a: a = 2, b = 1, c = 1 et d = 0
a 2 1
d35 = a+b+c = 2+1+1 = 2 (Jaccard)
a 2 1
d35 = a+b+c+d = 2+1+1+0 = 2 (Russel et Rao)
2×2 1
d35 = 2×2+1+1 = 3 (Dice)
a 2 2
d35 = (a+b)(a+c) = (2+1)(2+1) = 9 (Ochiaï)
12 / 40
Classification
Méthodes de classification:
13 / 40
Classification
14 / 40
Classification
15 / 40
Classification
Stratégie d’agrégation:
• Première étape:
Si d est une dissimilarité, on choisit Ii et Ii0 tel que d(Ii , Ii0 ) est
minimale ⇒ G1 = {Ii , Ii0 }
• Deuxième étape:
Nouveau tableau de dissimilarités (n − 1) × (n − 1) ⇒ nécessite de
définir une méthode d’agrégation entre un individu et un groupe
d’individus ou entre deux groupes d’individus.
16 / 40
Classification
Méthodes d’agrégation:
17 / 40
Classification
18 / 40
Le principe de la méthode de Ward repose sur la formule de
décomposition de Huygens, ainsi l’inertie totale du nuage NI est
égale à la somme de l’inertie interclasse et de l’inertie intraclasse :
I = Iinter + Iintra
n K K
1X 2 1X 2 1XX 2
d (Ii , g) = nk d (gk , g) + d (Ii , gk )
n n n
i=1 k=1 k=1 i∈Gk
19 / 40
Classification
Remarque:
20 / 40
Algorithme de la classification hiérarchique ascendante
Étape 1: Le nuage des individus NI est une partition Pn de n
éléments, c-à-d les classes initiales sont les singletons.
Étape 2: Calculons la matrice des distances n × n entre les individus.
Ensuite, nous recherchons les deux éléments à agréger, c-à-d les deux
individus les plus proches en terme de distance.
⇒ L’agrégation des deux individus fournit une partition Pn−1 à n − 1
individus.
Étape 3: Nous construisons la nouvelle matrice (n − 1) × (n − 1)
des distances, puis nous recherchons les deux nouveaux éléments à
agréger en utilisant une méthode d’agrégation.
⇒ L’agrégation des deux éléments fournit une partition Pn−2 à n − 2
individus.
Étape m: Calculons la matrice (n − (m − 1)) × (n − (m − 1)) des
distances, puis nous cherchons à agréger deux éléments jusqu’à
l’obtention de la dernière partition P1 .
21 / 40
Les regroupement successifs sont représentés sous la forme d’un
arbre ou dendrogramme.
23 / 40
Classification
X1 X2
I1 2 2
I2 7.5 4
I3 3 3
I4 0.5 5
I5 6 4
24 / 40
Classification
Remarque:
On sait que:
Itotale = Iinter + Iintra
• Dans l’Étape 1, on a Itotale = Iinter et Iintra = 0
• Dans l’Étape 2, on a Iinter = dnw avec dw est la distance de Ward
associé au premier regroupement (agrégation).
• Dans la dernière étape, on a Itotale = Iintra et Iinter = 0
25 / 40
Classification
• Matrice des distances (euclidienne) 5 × 5 entre les individus:
I1 I2 I3 I4 I5
I1 0 5.85 1.41 3.35 4.47
I2 5.85 0 4.61 7.07 1.50
I3 1.41 4.61 0 3.20 3.16
I4 3.35 7.07 3.20 0 5.59
I5 4.47 1.5 3.16 5.59 0
I1 I2 I3 I4 I5
I1 0 17.12 1 5.62 10
I2 17.12 0 10.62 25 1.12
I3 1 10.62 0 5.12 5
I4 5.62 25 5.12 0 15.62
I5 10 1.12 5 15.62 0
26 / 40
Classification
Par exemple:
1×1
dw (I1 , I2 ) = × 5.852 = 17.12
1+1
La plus petite valeur (6= 0) dans le tableau des distances de Ward est 1
entre l’individu I1 et I3 , donc on agrège ces deux individus dans le
groupe G1 = {I1 , I3 } et on obtient une nouvelle partition
P1 = {I2 , I4 , I5 , G1 }
Le centre de gravité associé à G1 est le point g1 de coordonnées:
g1 = ( 2+3 2+3
2 , 2 ) = (2.5, 2.5)
L’inertie intraclasse de P1 est:
1
1XX 2
Iintra (P1 ) = d (Ii , g1 )
n
k=1 i∈G1
1
= (d2 (I1 , g1 ) + d2 (I3 , g1 ))
n
1
= ((2 − 2.5)2 + (2 − 2.5)2 + (3 − 2.5)2 + (3 − 2.5)2 ) = 0.2
5 27 / 40
Classification
I2 I4 I5 G1
I2 0 25 1.12 18.16
I4 25 0 15.62 6.83
I5 1.12 15.62 0 9.66
G1 18.16 6.83 9.66 0
1×2
Avec dw (I2 , G1 ) = 1+2 ((7.5 − 2.5)2 + (4 − 2.5)2 ) = 18.16
28 / 40
Classification
La plus petite valeur dans le tableau des distances 4 × 4 de Ward est
1.12 entre l’individu I2 et I5 , donc on agrège ces deux individus dans
le groupe G2 = {I2 , I5 } et on obtient une nouvelle partition
P2 = {I4 , G1 , G2 }
Le centre de gravité associé à G2 est le point g2 de coordonnées:
g2 = ( 7.5+6 4+4
2 , 2 ) = (6.75, 4)
L’inertie intraclasse de P2 est:
2
1XX 2
Iintra (P2 ) = d (Ii , gk )
n
k=1 i∈Gk
1 X X
= d2 (Ii , g1 ) + d2 (Ii , g2 )
n
i∈G1 i∈G2
1
= 0.2 + ((7.5 − 6.75)2 + (4 − 4)2 + (6 − 6.75)2 + (4 − 4)2 )
5
= 0.425
29 / 40
Classification
I4 G1 G2
I4 0 6.83 26.7
G1 6.83 0 20.31
G2 26.7 20.31 0
2×2
Avec dw (G1 , G2 ) = 2+2 ((6.75 − 2.5)2 + (4 − 2.5)2 ) = 20.31
30 / 40
Classification
31 / 40
Classification
G2 G3
G2 0 29.54
G3 29.54 0
2×3
Avec dw (G2 , G3 ) = 2+3 ((6.75 − 1.833)2 + (4 − 3.333)2 ) = 29.54
32 / 40
Classification
33 / 40
Classification
Méthodes de classification:
34 / 40
Classification
Exemple:
On reprend l’exemple précédent,
X1 X2
I1 2 2
I2 7.5 4
I3 3 3
I4 0.5 5
I5 6 4
36 / 40
Classification
I1 I2 I3 I4 I5
g10 0 5.85 1.41 3.35 4.47
g20 4.47 1.5 3.16 5.59 0
37 / 40
Classification
38 / 40
Classification
39 / 40
Classification
Méthodes de Classification
1) Classification hiérarchique :
40 / 40