Cours Classification Ouazza

Analyse Des Données
Ouazza Ahmed
Institut National de Statistique et d’Economie Appliquée

(INSEA)
2020-2021
1 / 40
Méthodes de Classification
2 / 40
AFC
• Le but des méthodes de classification est de construire une partition

d’un ensemble d’objets dont on connaît les distances deux à deux. Les
classes formées doivent être le plus homogène possible.
• Les méthodes de classification sont utilisées pour regrouper les
individus décrits par un ensemble de variables, ou pour regrouper les
variables observées sur des individus et d’interpréter les
regroupements obtenus.
3 / 40
Classification
Les données:
Les données de départ sont souvent organisées dans un tableau de

données X de type (Individus × Variables) :
Suppose qu’on a p variables X1 , X2 , ..., Xp observées sur n individus
I1 , I2 , ..., In .
X1 ... Xj ... Xp
I1 x11 ... x1j ... x1p
. . . .
. . . .
. . . .
Ii xi1 ... xij ... xip
. . . .
. . . .
. . . .
In xn1 ... xnj ... xnp
4 / 40
Classification
• xij est la valeur de la variable Xj pour l’individu Ii

• n représente le nombre d’individus
• p représente le nombre des variables
L’ensemble des variables peuvent être:

-Quantitatives
-Qualitatives
-Binaires
5 / 40
Classification
Distances et dissimilarités
Pour calculer les distances, les données peuvent se présenter sous
différentes formes; elles concernent n individus:
• Cas 1: Un tableau de distances entre les n individus pris deux à
deux (c-à-d un tableau de n lignes et n colonnes).
• Cas 2: Les observations de p variables quantitatives sur ces n
individus.
• Cas 3: Les observations, toujours sur ces n individus, de variables
qualitatives (ou binaires).
D’une façon ou d’une autre, il s’agit, dans chaque cas, de se ramener
au tableau des distances deux à deux entre les individus (c-à-d au cas
1).
6 / 40
Classification
Soit E = {1, ..., n} l’ensemble de n individus à classer.
• Une distance est une application de E × E dans R+ telle que:


 d(i, j) = d(j, i)
d(i, j) ≥ 0


 d(i, j) = 0 ⇒ i = j
d(i, j) ≤ d(i, k) + d(k, j)

• Une dissimilarité est une application telle que:


 d(i, j) = d(j, i)
d(i, j) ≥ 0
d(i, i) = 0

• Une similarité est une application s telle que:


 s(i, j) = s(j, i)
s(i, j) ≥ 0
s(i, i) ≥ s(i, j)

7 / 40
Classification
• Lorsque les données se présentent sous forme d’un tableau X de p
variables quantitatives et n individus, on utilise souvent les distances
suivantes:
Distance euclidienne:
p
X
2
d (Ii , Il ) = (xij − xlj )2
j=1
Distance de Minkowsky : dépend d’un paramètre λ > 0

p
X 1
d(Ii , Il ) = ( |xij − xlj |λ ) λ
j=1
Distance L1 :
p
X
d(Ii , Il ) = |xij − xlj |
j=1
• Lorsque les variables sont qualitatives on utilise la distance de
khi-deux χ2 (voir le cours de l’AFC).
8 / 40
Classification
Similarité entre des objets à structure binaire:
Ce cas concerne des données du type suivant: n individus sont décrits

par la présence ou l’absence de p variables binaires (c-à-d
Xj ∈ {0, 1} pour j = 1, ..., p). De nombreux indices de similarité ont
été proposés qui combinent de diverses manières les quatre nombres
suivants
Passociés à un couple d’individus (Ii , Il ):
• a = j=1 1(xij =xlj =1)
p
c-à-d a = le nombre de fois où xij = xlj = 1

1(xij =0,xlj =1)
Pp
•b= j=1
c-à-d b = le nombre de fois où xij = 0 et xlj = 1
1(xij =1,xlj =0)
Pp
•c= j=1
c-à-d c = le nombre de fois où xij = 1 et xlj = 0
1(xij =xlj =0)
Pp
•d= j=1
c-à-d d = le nombre de fois où xij = xlj = 0
9 / 40
Classification
Similarité entre des objets à structure binaire:
Les similarités suivantes ont été proposées par différents auteurs:

a
Jaccard: dil = a+b+c
a
Russel et Rao: dil = a+b+c+d
2a
Dice: dil = 2a+b+c
a
Ochiaï: dil = (a+b)(a+c)
10 / 40
Classification
Exemple
On considère le tableau suivant:
X1 X2 X3 X4
I1 1 1 0 1
I2 1 1 1 1
I3 1 0 1 1
I4 0 0 1 0
I5 1 1 0 1
I6 0 1 0 0
On cherche à déterminer la similarité entre individus I3 et I5 .
11 / 40
Classification
Dans ce cas, on a: a = 2, b = 1, c = 1 et d = 0
a 2 1
d35 = a+b+c = 2+1+1 = 2 (Jaccard)
a 2 1
d35 = a+b+c+d = 2+1+1+0 = 2 (Russel et Rao)
2×2 1
d35 = 2×2+1+1 = 3 (Dice)
a 2 2
d35 = (a+b)(a+c) = (2+1)(2+1) = 9 (Ochiaï)
12 / 40
Classification
Méthodes de classification:
1) Classification hiérarchique ascendante
2) Méthode des centres mobiles
13 / 40
Classification
14 / 40
Classification
1) Classification hiérarchique ascendante:
La classification hiérarchique ascendante est une méthode itérative

qui consiste, à chaque étape, à regrouper les classes les plus proches.
C-à-d à chaque étape, on cherche à créer une partition en agrégeant
deux à deux les individus les plus proches.
Le nuage des individus NI qu’on cherche à classer est supposé muni
d’une distance (ou similarité ou dissimilarité) d.
La façon de regrouper des individus ou des groupes d’individus
repose sur des critères d’agrégation.
15 / 40
Classification
Stratégie d’agrégation:
• Première étape:
Si d est une dissimilarité, on choisit Ii et Ii0 tel que d(Ii , Ii0 ) est
minimale ⇒ G1 = {Ii , Ii0 }
• Deuxième étape:
Nouveau tableau de dissimilarités (n − 1) × (n − 1) ⇒ nécessite de
définir une méthode d’agrégation entre un individu et un groupe
d’individus ou entre deux groupes d’individus.
16 / 40
Classification
Méthodes d’agrégation:
Soit x, y et z trois classes. Si les classes x et y sont regroupées en une

seule classe h, plusieurs critères d’agrégation sont possibles :
• distance du saut minimal : d(h, z) = min{d(x, z); d(y, z}
• distance du saut maximal : d(h, z) = max{d(x, z); d(y, z}
d(x,z)+d(y,z)
• distance moyenne : d(h, z) = 2
17 / 40
Classification
• Méthode des centroïdes: d(h, z) = d(gh , gz )

nh nz 2
• Méthode de la variance (Ward): d(h, z) = nh +nz d (gh , gz )
Avec gh et gz sont des centres de gravité des classes h et z. nh et nz
sont des effectifs des classes h et z.
Le saut de Ward joue un rôle particulier et est la stratégie d’agrégation
la plus courante.
L’idée de la méthode de Ward est d’agréger les individus en
minimisant l’inertie (la variance) intraclasse et en maximisant l’inertie
interclasse.
18 / 40
Le principe de la méthode de Ward repose sur la formule de
décomposition de Huygens, ainsi l’inertie totale du nuage NI est
égale à la somme de l’inertie interclasse et de l’inertie intraclasse :
I = Iinter + Iintra
n K K
1X 2 1X 2 1XX 2
d (Ii , g) = nk d (gk , g) + d (Ii , gk )
n n n
i=1 k=1 k=1 i∈Gk
19 / 40
Classification
Remarque:
La distance de Ward entre G1 et G2 , notée dw (G1 , G2 ), est une

mesure de la perte d’inertie interclasse lors du regroupement de deux
classes G1 et G2 .
C-à-d, la perte d’inertie inter-classe lors du regroupement de G1 et G2
est égale à dw (Gn1 ,G2 )
20 / 40
Algorithme de la classification hiérarchique ascendante
Étape 1: Le nuage des individus NI est une partition Pn de n
éléments, c-à-d les classes initiales sont les singletons.
Étape 2: Calculons la matrice des distances n × n entre les individus.
Ensuite, nous recherchons les deux éléments à agréger, c-à-d les deux
individus les plus proches en terme de distance.
⇒ L’agrégation des deux individus fournit une partition Pn−1 à n − 1
individus.
Étape 3: Nous construisons la nouvelle matrice (n − 1) × (n − 1)
des distances, puis nous recherchons les deux nouveaux éléments à
agréger en utilisant une méthode d’agrégation.
⇒ L’agrégation des deux éléments fournit une partition Pn−2 à n − 2
individus.
Étape m: Calculons la matrice (n − (m − 1)) × (n − (m − 1)) des
distances, puis nous cherchons à agréger deux éléments jusqu’à
l’obtention de la dernière partition P1 .
21 / 40
Les regroupement successifs sont représentés sous la forme d’un
arbre ou dendrogramme.
• Les éléments terminaux de dendrogramme représentent les

individus.
• Les nœuds de l’arbre correspondent aux regroupements de deux
éléments.
Dans le dendrogramme précédent, les éléments terminaux sont les
individus (1), (2), (3), (4) et (5). Les nœuds sont (6), (7), (8) et (9).
Avec l’effectif de nœud (6) est 2, de nœud (7) est 2, de nœud (8) est 3
et de nœud (9) est 5.
22 / 40
Illustration:
Voir le fichier "exemple.ppt"
Qualité de la typologie en K classes

(Voir TP)
23 / 40
Classification
Exemple: On considère le tableau X de données suivant:
X1 X2
I1 2 2
I2 7.5 4
I3 3 3
I4 0.5 5
I5 6 4
On cherche à faire une classification hiérarchique ascendante en

utilisant la distance euclidienne et la méthode d’agrégation de Ward.
On note NI = {I1 , I2 , I3 , I4 , I5 } le nuage des individus à classer.
24 / 40
Classification
Remarque:
On sait que:
Itotale = Iinter + Iintra
• Dans l’Étape 1, on a Itotale = Iinter et Iintra = 0
• Dans l’Étape 2, on a Iinter = dnw avec dw est la distance de Ward
associé au premier regroupement (agrégation).
• Dans la dernière étape, on a Itotale = Iintra et Iinter = 0
25 / 40
Classification
• Matrice des distances (euclidienne) 5 × 5 entre les individus:
I1 I2 I3 I4 I5
I1 0 5.85 1.41 3.35 4.47
I2 5.85 0 4.61 7.07 1.50
I3 1.41 4.61 0 3.20 3.16
I4 3.35 7.07 3.20 0 5.59
I5 4.47 1.5 3.16 5.59 0
• Étape 2: Matrice des distances de Ward:
I1 I2 I3 I4 I5
I1 0 17.12 1 5.62 10
I2 17.12 0 10.62 25 1.12
I3 1 10.62 0 5.12 5
I4 5.62 25 5.12 0 15.62
I5 10 1.12 5 15.62 0
26 / 40
Classification
Par exemple:
1×1
dw (I1 , I2 ) = × 5.852 = 17.12
1+1
La plus petite valeur (6= 0) dans le tableau des distances de Ward est 1
entre l’individu I1 et I3 , donc on agrège ces deux individus dans le
groupe G1 = {I1 , I3 } et on obtient une nouvelle partition
P1 = {I2 , I4 , I5 , G1 }
Le centre de gravité associé à G1 est le point g1 de coordonnées:
g1 = ( 2+3 2+3
2 , 2 ) = (2.5, 2.5)
L’inertie intraclasse de P1 est:
1
1XX 2
Iintra (P1 ) = d (Ii , g1 )
n
k=1 i∈G1
1
= (d2 (I1 , g1 ) + d2 (I3 , g1 ))
n
1
= ((2 − 2.5)2 + (2 − 2.5)2 + (3 − 2.5)2 + (3 − 2.5)2 ) = 0.2
5 27 / 40
Classification
• Étape 3: Nouvelle matrice des distances 4 × 4 de Ward:
I2 I4 I5 G1
I2 0 25 1.12 18.16
I4 25 0 15.62 6.83
I5 1.12 15.62 0 9.66
G1 18.16 6.83 9.66 0
1×2
Avec dw (I2 , G1 ) = 1+2 ((7.5 − 2.5)2 + (4 − 2.5)2 ) = 18.16
28 / 40
Classification
La plus petite valeur dans le tableau des distances 4 × 4 de Ward est
1.12 entre l’individu I2 et I5 , donc on agrège ces deux individus dans
le groupe G2 = {I2 , I5 } et on obtient une nouvelle partition
P2 = {I4 , G1 , G2 }
g2 = ( 7.5+6 4+4
2 , 2 ) = (6.75, 4)
2
1XX 2
Iintra (P2 ) = d (Ii , gk )
n
k=1 i∈Gk
 
1 X X
=  d2 (Ii , g1 ) + d2 (Ii , g2 )
n
i∈G1 i∈G2
1
= 0.2 + ((7.5 − 6.75)2 + (4 − 4)2 + (6 − 6.75)2 + (4 − 4)2 )
5
= 0.425
29 / 40
Classification
I4 G1 G2
I4 0 6.83 26.7
G1 6.83 0 20.31
G2 26.7 20.31 0
2×2
Avec dw (G1 , G2 ) = 2+2 ((6.75 − 2.5)2 + (4 − 2.5)2 ) = 20.31
30 / 40
Classification
La plus petite valeur dans le tableau des distances 3 × 3 de Ward est

6.83 entre l’individu I4 et G1 , donc les individus I4 et G1 sont les
plus proches. On les regroupe pour former le groupe G3 = {I4 , G1 }
et on obtient une nouvelle partition P3 = {G3 , G2 }
g3 = ( 2+3+0.5
3 , 2+3+5
3 ) = (1.833, 3.333)
1 X 2 1 X 2
Iintra (P3 ) = d (Ii , g2 ) + d (Ii , g3 )
n n
i∈G2 i∈G3
= 1.79
31 / 40
Classification
G2 G3
G2 0 29.54
G3 29.54 0
2×3
Avec dw (G2 , G3 ) = 2+3 ((6.75 − 1.833)2 + (4 − 3.333)2 ) = 29.54
32 / 40
Classification
Il ne reste plus que 2 éléments G2 et G3 , on les regroupe. Cela donne

la partition P4 = {I1 , I2 , I3 , I4 , I5 } qui correspond au nuage initial
des individus NI .
L’inertie intraclasse de P3 est égale à l’inertie totale du nuage:
Iintra (P4 ) = Itotale (NI )

n
1X 2
= d (Ii , g)
n
i=1
= 7.7
Avec g est le centre de gravité du nuage NI .
33 / 40
Classification
Méthodes de classification:
2) Méthode des centres mobiles

La méthode des centres mobiles ou la méthode K-means est fondée
sur une méthode de partitionnement directe des individus connaissant
par avance le nombre de classes attendues.
Soit X = (xij )i=1,...,n ;j=1,...,p une matrice d’observations. On choisit
a priori le nombre de classes K (avec K ≤ n). On note gk le centre
de gravité de la classe k.
34 / 40
Classification
Algorithme des kmeans
Étape 0: Choisir le nombre de classes K puis choisir K points

(individus) au hasard parmi les n individus.
⇒ Ces K individus servent de centres initiaux des classes.
Étape 1: Allouer l’individu Ii à la classe k telle que
d(Ii , gk ) ≤ d(Ii , gl ) pour tout l 6= k.
Étape 2: Recalculer les centres de gravité gk des K classes.
Étape 3: Répéter les étapes 1 et 2 jusqu’à la stabilité des centres (les
centres ne bougent plus)
Remarque: (autre critère d’arrêt)
L’algorithme est itéré jusqu’à ce que le critère de variance interclasse
ne croisse plus de manière significative.
Illustration: (Voir le fichier "exemple.ppt")
35 / 40
Classification
Exemple:
On reprend l’exemple précédent,
X1 X2
I1 2 2
I2 7.5 4
I3 3 3
I4 0.5 5
I5 6 4
Soit NI = {I1 , I2 , I3 , I4 , I5 } le nuage des individus à classer.

On cherche à regrouper les individus en K = 2 classes.
36 / 40
Classification
Étape 0: Soit K = 2, on considère, par exemple, les deux individus

I1 et I5 comme des centres initiaux, c-à-d g10 = I1 = (2, 2) et
g20 = I5 = (6, 4)
Étape 1: Tableau des distances entre les individus et les centres,
I1 I2 I3 I4 I5
g10 0 5.85 1.41 3.35 4.47
g20 4.47 1.5 3.16 5.59 0
Donc, on obtient les deux groupes suivant:

G1 = {I1 , I3 , I4 } et G2 = {I2 , I5 }
37 / 40
Classification
Étape 2: Recalculer les centres de gravité:

On considère deux nouveaux centres, g11 et c12 , lesquels sont les
centres de gravité des deux groupes G1 et G2 .
Donc
g11 = ( 2+3+0.5
3 , 2+3+5
3 ) = (1.83, 3.33) et
g21 = ( 7.5+6 4+4
2 , 2 ) = (6.75, 4)
38 / 40
Classification
Étape 3: Tableau des distances entre les individus et les nouveaux

centres,
I1 I2 I3 I4 I5
g11 1.34 5.71 1.21 2.13 4.22
g22 5.15 0.75 3.88 6.32 0.75
D’où les deux groupes :

G1 = {I1 , I3 , I4 } et G2 = {I2 , I5 }
On retrouve la même classification que l’étape précédente, on arrête
l’algorithme.
39 / 40
Classification
Méthodes de Classification
1) Classification hiérarchique :
• Avantage: La lecture de l’arbre permet de déterminer le nombre

optimal de classes.
• Inconvénients: Couteux en temps de calcul
2) Méthode de Partitionnement : partition en K classes
• Avantages: Permettent la classification d’ensembles volumineux.

• Inconvénients: on impose au départ le nombre de classes
40 / 40

Cours Classification Ouazza

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Classification Ouazza

Transféré par

Droits d'auteur :

Formats disponibles

Analyse Des Données

Institut National de Statistique et d’Economie Appliquée

• Le but des méthodes de classification est de construire une partition

Les données de départ sont souvent organisées dans un tableau de

• xij est la valeur de la variable Xj pour l’individu Ii

L’ensemble des variables peuvent être:

• Une dissimilarité est une application telle que:

• Une similarité est une application s telle que:

Distance de Minkowsky : dépend d’un paramètre λ > 0

Ce cas concerne des données du type suivant: n individus sont décrits

c-à-d a = le nombre de fois où xij = xlj = 1

Similarité entre des objets à structure binaire:

Les similarités suivantes ont été proposées par différents auteurs:

On cherche à déterminer la similarité entre individus I3 et I5 .

1) Classification hiérarchique ascendante

2) Méthode des centres mobiles

1) Classification hiérarchique ascendante:

La classification hiérarchique ascendante est une méthode itérative

Soit x, y et z trois classes. Si les classes x et y sont regroupées en une

• Méthode des centroïdes: d(h, z) = d(gh , gz )

La distance de Ward entre G1 et G2 , notée dw (G1 , G2 ), est une

• Les éléments terminaux de dendrogramme représentent les

Voir le fichier "exemple.ppt"

Qualité de la typologie en K classes

Exemple: On considère le tableau X de données suivant:

On cherche à faire une classification hiérarchique ascendante en

• Étape 2: Matrice des distances de Ward:

• Étape 3: Nouvelle matrice des distances 4 × 4 de Ward:

• Étape 4: Nouvelle matrice des distances 3 × 3 de Ward:

La plus petite valeur dans le tableau des distances 3 × 3 de Ward est

• Étape 5: Nouvelle matrice des distances 2 × 2 de Ward:

Il ne reste plus que 2 éléments G2 et G3 , on les regroupe. Cela donne

Iintra (P4 ) = Itotale (NI )

Avec g est le centre de gravité du nuage NI .

2) Méthode des centres mobiles

Algorithme des kmeans

Étape 0: Choisir le nombre de classes K puis choisir K points

Soit NI = {I1 , I2 , I3 , I4 , I5 } le nuage des individus à classer.

Étape 0: Soit K = 2, on considère, par exemple, les deux individus

Donc, on obtient les deux groupes suivant:

Étape 2: Recalculer les centres de gravité:

Étape 3: Tableau des distances entre les individus et les nouveaux

D’où les deux groupes :

• Avantage: La lecture de l’arbre permet de déterminer le nombre

2) Méthode de Partitionnement : partition en K classes

• Avantages: Permettent la classification d’ensembles volumineux.

Vous aimerez peut-être aussi