Vous êtes sur la page 1sur 40

Analyse Des Données

Ouazza Ahmed

Institut National de Statistique et d’Economie Appliquée


(INSEA)

2020-2021

1 / 40
Méthodes de Classification

2 / 40
AFC

• Le but des méthodes de classification est de construire une partition


d’un ensemble d’objets dont on connaît les distances deux à deux. Les
classes formées doivent être le plus homogène possible.
• Les méthodes de classification sont utilisées pour regrouper les
individus décrits par un ensemble de variables, ou pour regrouper les
variables observées sur des individus et d’interpréter les
regroupements obtenus.

3 / 40
Classification
Les données:

Les données de départ sont souvent organisées dans un tableau de


données X de type (Individus × Variables) :
Suppose qu’on a p variables X1 , X2 , ..., Xp observées sur n individus
I1 , I2 , ..., In .
X1 ... Xj ... Xp
I1 x11 ... x1j ... x1p
. . . .
. . . .
. . . .
Ii xi1 ... xij ... xip
. . . .
. . . .
. . . .
In xn1 ... xnj ... xnp
4 / 40
Classification

• xij est la valeur de la variable Xj pour l’individu Ii


• n représente le nombre d’individus
• p représente le nombre des variables

L’ensemble des variables peuvent être:


-Quantitatives
-Qualitatives
-Binaires

5 / 40
Classification

Distances et dissimilarités
Pour calculer les distances, les données peuvent se présenter sous
différentes formes; elles concernent n individus:
• Cas 1: Un tableau de distances entre les n individus pris deux à
deux (c-à-d un tableau de n lignes et n colonnes).
• Cas 2: Les observations de p variables quantitatives sur ces n
individus.
• Cas 3: Les observations, toujours sur ces n individus, de variables
qualitatives (ou binaires).
D’une façon ou d’une autre, il s’agit, dans chaque cas, de se ramener
au tableau des distances deux à deux entre les individus (c-à-d au cas
1).

6 / 40
Classification
Soit E = {1, ..., n} l’ensemble de n individus à classer.
• Une distance est une application de E × E dans R+ telle que:


 d(i, j) = d(j, i)
d(i, j) ≥ 0


 d(i, j) = 0 ⇒ i = j
d(i, j) ≤ d(i, k) + d(k, j)

• Une dissimilarité est une application telle que:



 d(i, j) = d(j, i)
d(i, j) ≥ 0
d(i, i) = 0

• Une similarité est une application s telle que:



 s(i, j) = s(j, i)
s(i, j) ≥ 0
s(i, i) ≥ s(i, j)

7 / 40
Classification
• Lorsque les données se présentent sous forme d’un tableau X de p
variables quantitatives et n individus, on utilise souvent les distances
suivantes:
Distance euclidienne:
p
X
2
d (Ii , Il ) = (xij − xlj )2
j=1

Distance de Minkowsky : dépend d’un paramètre λ > 0


p
X 1
d(Ii , Il ) = ( |xij − xlj |λ ) λ
j=1

Distance L1 :
p
X
d(Ii , Il ) = |xij − xlj |
j=1
• Lorsque les variables sont qualitatives on utilise la distance de
khi-deux χ2 (voir le cours de l’AFC).
8 / 40
Classification
Similarité entre des objets à structure binaire:

Ce cas concerne des données du type suivant: n individus sont décrits


par la présence ou l’absence de p variables binaires (c-à-d
Xj ∈ {0, 1} pour j = 1, ..., p). De nombreux indices de similarité ont
été proposés qui combinent de diverses manières les quatre nombres
suivants
Passociés à un couple d’individus (Ii , Il ):
• a = j=1 1(xij =xlj =1)
p

c-à-d a = le nombre de fois où xij = xlj = 1


1(xij =0,xlj =1)
Pp
•b= j=1
c-à-d b = le nombre de fois où xij = 0 et xlj = 1
1(xij =1,xlj =0)
Pp
•c= j=1
c-à-d c = le nombre de fois où xij = 1 et xlj = 0
1(xij =xlj =0)
Pp
•d= j=1
c-à-d d = le nombre de fois où xij = xlj = 0
9 / 40
Classification

Similarité entre des objets à structure binaire:

Les similarités suivantes ont été proposées par différents auteurs:


a
Jaccard: dil = a+b+c

a
Russel et Rao: dil = a+b+c+d

2a
Dice: dil = 2a+b+c

a
Ochiaï: dil = (a+b)(a+c)

10 / 40
Classification

Exemple
On considère le tableau suivant:
X1 X2 X3 X4
I1 1 1 0 1
I2 1 1 1 1
I3 1 0 1 1
I4 0 0 1 0
I5 1 1 0 1
I6 0 1 0 0

On cherche à déterminer la similarité entre individus I3 et I5 .

11 / 40
Classification

Dans ce cas, on a: a = 2, b = 1, c = 1 et d = 0
a 2 1
d35 = a+b+c = 2+1+1 = 2 (Jaccard)
a 2 1
d35 = a+b+c+d = 2+1+1+0 = 2 (Russel et Rao)
2×2 1
d35 = 2×2+1+1 = 3 (Dice)
a 2 2
d35 = (a+b)(a+c) = (2+1)(2+1) = 9 (Ochiaï)

12 / 40
Classification

Méthodes de classification:

1) Classification hiérarchique ascendante

2) Méthode des centres mobiles

13 / 40
Classification

14 / 40
Classification

1) Classification hiérarchique ascendante:

La classification hiérarchique ascendante est une méthode itérative


qui consiste, à chaque étape, à regrouper les classes les plus proches.
C-à-d à chaque étape, on cherche à créer une partition en agrégeant
deux à deux les individus les plus proches.
Le nuage des individus NI qu’on cherche à classer est supposé muni
d’une distance (ou similarité ou dissimilarité) d.
La façon de regrouper des individus ou des groupes d’individus
repose sur des critères d’agrégation.

15 / 40
Classification

Stratégie d’agrégation:

• Première étape:
Si d est une dissimilarité, on choisit Ii et Ii0 tel que d(Ii , Ii0 ) est
minimale ⇒ G1 = {Ii , Ii0 }
• Deuxième étape:
Nouveau tableau de dissimilarités (n − 1) × (n − 1) ⇒ nécessite de
définir une méthode d’agrégation entre un individu et un groupe
d’individus ou entre deux groupes d’individus.

16 / 40
Classification

Méthodes d’agrégation:

Soit x, y et z trois classes. Si les classes x et y sont regroupées en une


seule classe h, plusieurs critères d’agrégation sont possibles :
• distance du saut minimal : d(h, z) = min{d(x, z); d(y, z}
• distance du saut maximal : d(h, z) = max{d(x, z); d(y, z}
d(x,z)+d(y,z)
• distance moyenne : d(h, z) = 2

17 / 40
Classification

• Méthode des centroïdes: d(h, z) = d(gh , gz )


nh nz 2
• Méthode de la variance (Ward): d(h, z) = nh +nz d (gh , gz )
Avec gh et gz sont des centres de gravité des classes h et z. nh et nz
sont des effectifs des classes h et z.
Le saut de Ward joue un rôle particulier et est la stratégie d’agrégation
la plus courante.
L’idée de la méthode de Ward est d’agréger les individus en
minimisant l’inertie (la variance) intraclasse et en maximisant l’inertie
interclasse.

18 / 40
Le principe de la méthode de Ward repose sur la formule de
décomposition de Huygens, ainsi l’inertie totale du nuage NI est
égale à la somme de l’inertie interclasse et de l’inertie intraclasse :
I = Iinter + Iintra

n K K
1X 2 1X 2 1XX 2
d (Ii , g) = nk d (gk , g) + d (Ii , gk )
n n n
i=1 k=1 k=1 i∈Gk

19 / 40
Classification

Remarque:

La distance de Ward entre G1 et G2 , notée dw (G1 , G2 ), est une


mesure de la perte d’inertie interclasse lors du regroupement de deux
classes G1 et G2 .
C-à-d, la perte d’inertie inter-classe lors du regroupement de G1 et G2
est égale à dw (Gn1 ,G2 )

20 / 40
Algorithme de la classification hiérarchique ascendante
Étape 1: Le nuage des individus NI est une partition Pn de n
éléments, c-à-d les classes initiales sont les singletons.
Étape 2: Calculons la matrice des distances n × n entre les individus.
Ensuite, nous recherchons les deux éléments à agréger, c-à-d les deux
individus les plus proches en terme de distance.
⇒ L’agrégation des deux individus fournit une partition Pn−1 à n − 1
individus.
Étape 3: Nous construisons la nouvelle matrice (n − 1) × (n − 1)
des distances, puis nous recherchons les deux nouveaux éléments à
agréger en utilisant une méthode d’agrégation.
⇒ L’agrégation des deux éléments fournit une partition Pn−2 à n − 2
individus.
Étape m: Calculons la matrice (n − (m − 1)) × (n − (m − 1)) des
distances, puis nous cherchons à agréger deux éléments jusqu’à
l’obtention de la dernière partition P1 .
21 / 40
Les regroupement successifs sont représentés sous la forme d’un
arbre ou dendrogramme.

• Les éléments terminaux de dendrogramme représentent les


individus.
• Les nœuds de l’arbre correspondent aux regroupements de deux
éléments.
Dans le dendrogramme précédent, les éléments terminaux sont les
individus (1), (2), (3), (4) et (5). Les nœuds sont (6), (7), (8) et (9).
Avec l’effectif de nœud (6) est 2, de nœud (7) est 2, de nœud (8) est 3
et de nœud (9) est 5.
22 / 40
Illustration:

Voir le fichier "exemple.ppt"

Qualité de la typologie en K classes


(Voir TP)

23 / 40
Classification

Exemple: On considère le tableau X de données suivant:

X1 X2
I1 2 2
I2 7.5 4
I3 3 3
I4 0.5 5
I5 6 4

On cherche à faire une classification hiérarchique ascendante en


utilisant la distance euclidienne et la méthode d’agrégation de Ward.
On note NI = {I1 , I2 , I3 , I4 , I5 } le nuage des individus à classer.

24 / 40
Classification

Remarque:

On sait que:
Itotale = Iinter + Iintra
• Dans l’Étape 1, on a Itotale = Iinter et Iintra = 0
• Dans l’Étape 2, on a Iinter = dnw avec dw est la distance de Ward
associé au premier regroupement (agrégation).
• Dans la dernière étape, on a Itotale = Iintra et Iinter = 0

25 / 40
Classification
• Matrice des distances (euclidienne) 5 × 5 entre les individus:
I1 I2 I3 I4 I5
I1 0 5.85 1.41 3.35 4.47
I2 5.85 0 4.61 7.07 1.50
I3 1.41 4.61 0 3.20 3.16
I4 3.35 7.07 3.20 0 5.59
I5 4.47 1.5 3.16 5.59 0

• Étape 2: Matrice des distances de Ward:

I1 I2 I3 I4 I5
I1 0 17.12 1 5.62 10
I2 17.12 0 10.62 25 1.12
I3 1 10.62 0 5.12 5
I4 5.62 25 5.12 0 15.62
I5 10 1.12 5 15.62 0

26 / 40
Classification
Par exemple:
1×1
dw (I1 , I2 ) = × 5.852 = 17.12
1+1
La plus petite valeur (6= 0) dans le tableau des distances de Ward est 1
entre l’individu I1 et I3 , donc on agrège ces deux individus dans le
groupe G1 = {I1 , I3 } et on obtient une nouvelle partition
P1 = {I2 , I4 , I5 , G1 }
Le centre de gravité associé à G1 est le point g1 de coordonnées:
g1 = ( 2+3 2+3
2 , 2 ) = (2.5, 2.5)
L’inertie intraclasse de P1 est:
1
1XX 2
Iintra (P1 ) = d (Ii , g1 )
n
k=1 i∈G1
1
= (d2 (I1 , g1 ) + d2 (I3 , g1 ))
n
1
= ((2 − 2.5)2 + (2 − 2.5)2 + (3 − 2.5)2 + (3 − 2.5)2 ) = 0.2
5 27 / 40
Classification

• Étape 3: Nouvelle matrice des distances 4 × 4 de Ward:

I2 I4 I5 G1
I2 0 25 1.12 18.16
I4 25 0 15.62 6.83
I5 1.12 15.62 0 9.66
G1 18.16 6.83 9.66 0
1×2
Avec dw (I2 , G1 ) = 1+2 ((7.5 − 2.5)2 + (4 − 2.5)2 ) = 18.16

28 / 40
Classification
La plus petite valeur dans le tableau des distances 4 × 4 de Ward est
1.12 entre l’individu I2 et I5 , donc on agrège ces deux individus dans
le groupe G2 = {I2 , I5 } et on obtient une nouvelle partition
P2 = {I4 , G1 , G2 }
Le centre de gravité associé à G2 est le point g2 de coordonnées:
g2 = ( 7.5+6 4+4
2 , 2 ) = (6.75, 4)
L’inertie intraclasse de P2 est:
2
1XX 2
Iintra (P2 ) = d (Ii , gk )
n
k=1 i∈Gk
 
1 X X
=  d2 (Ii , g1 ) + d2 (Ii , g2 )
n
i∈G1 i∈G2
1
= 0.2 + ((7.5 − 6.75)2 + (4 − 4)2 + (6 − 6.75)2 + (4 − 4)2 )
5
= 0.425
29 / 40
Classification

• Étape 4: Nouvelle matrice des distances 3 × 3 de Ward:

I4 G1 G2
I4 0 6.83 26.7
G1 6.83 0 20.31
G2 26.7 20.31 0
2×2
Avec dw (G1 , G2 ) = 2+2 ((6.75 − 2.5)2 + (4 − 2.5)2 ) = 20.31

30 / 40
Classification

La plus petite valeur dans le tableau des distances 3 × 3 de Ward est


6.83 entre l’individu I4 et G1 , donc les individus I4 et G1 sont les
plus proches. On les regroupe pour former le groupe G3 = {I4 , G1 }
et on obtient une nouvelle partition P3 = {G3 , G2 }
Le centre de gravité associé à G3 est le point g3 de coordonnées:
g3 = ( 2+3+0.5
3 , 2+3+5
3 ) = (1.833, 3.333)
L’inertie intraclasse de P3 est:
1 X 2 1 X 2
Iintra (P3 ) = d (Ii , g2 ) + d (Ii , g3 )
n n
i∈G2 i∈G3
= 1.79

31 / 40
Classification

• Étape 5: Nouvelle matrice des distances 2 × 2 de Ward:

G2 G3
G2 0 29.54
G3 29.54 0
2×3
Avec dw (G2 , G3 ) = 2+3 ((6.75 − 1.833)2 + (4 − 3.333)2 ) = 29.54

32 / 40
Classification

Il ne reste plus que 2 éléments G2 et G3 , on les regroupe. Cela donne


la partition P4 = {I1 , I2 , I3 , I4 , I5 } qui correspond au nuage initial
des individus NI .
L’inertie intraclasse de P3 est égale à l’inertie totale du nuage:

Iintra (P4 ) = Itotale (NI )


n
1X 2
= d (Ii , g)
n
i=1
= 7.7

Avec g est le centre de gravité du nuage NI .

33 / 40
Classification

Méthodes de classification:

2) Méthode des centres mobiles


La méthode des centres mobiles ou la méthode K-means est fondée
sur une méthode de partitionnement directe des individus connaissant
par avance le nombre de classes attendues.
Soit X = (xij )i=1,...,n ;j=1,...,p une matrice d’observations. On choisit
a priori le nombre de classes K (avec K ≤ n). On note gk le centre
de gravité de la classe k.

34 / 40
Classification

Algorithme des kmeans

Étape 0: Choisir le nombre de classes K puis choisir K points


(individus) au hasard parmi les n individus.
⇒ Ces K individus servent de centres initiaux des classes.
Étape 1: Allouer l’individu Ii à la classe k telle que
d(Ii , gk ) ≤ d(Ii , gl ) pour tout l 6= k.
Étape 2: Recalculer les centres de gravité gk des K classes.
Étape 3: Répéter les étapes 1 et 2 jusqu’à la stabilité des centres (les
centres ne bougent plus)
Remarque: (autre critère d’arrêt)
L’algorithme est itéré jusqu’à ce que le critère de variance interclasse
ne croisse plus de manière significative.
Illustration: (Voir le fichier "exemple.ppt")
35 / 40
Classification

Exemple:
On reprend l’exemple précédent,

X1 X2
I1 2 2
I2 7.5 4
I3 3 3
I4 0.5 5
I5 6 4

Soit NI = {I1 , I2 , I3 , I4 , I5 } le nuage des individus à classer.


On cherche à regrouper les individus en K = 2 classes.

36 / 40
Classification

Étape 0: Soit K = 2, on considère, par exemple, les deux individus


I1 et I5 comme des centres initiaux, c-à-d g10 = I1 = (2, 2) et
g20 = I5 = (6, 4)
Étape 1: Tableau des distances entre les individus et les centres,

I1 I2 I3 I4 I5
g10 0 5.85 1.41 3.35 4.47
g20 4.47 1.5 3.16 5.59 0

Donc, on obtient les deux groupes suivant:


G1 = {I1 , I3 , I4 } et G2 = {I2 , I5 }

37 / 40
Classification

Étape 2: Recalculer les centres de gravité:


On considère deux nouveaux centres, g11 et c12 , lesquels sont les
centres de gravité des deux groupes G1 et G2 .
Donc
g11 = ( 2+3+0.5
3 , 2+3+5
3 ) = (1.83, 3.33) et
g21 = ( 7.5+6 4+4
2 , 2 ) = (6.75, 4)

38 / 40
Classification

Étape 3: Tableau des distances entre les individus et les nouveaux


centres,
I1 I2 I3 I4 I5
g11 1.34 5.71 1.21 2.13 4.22
g22 5.15 0.75 3.88 6.32 0.75

D’où les deux groupes :


G1 = {I1 , I3 , I4 } et G2 = {I2 , I5 }
On retrouve la même classification que l’étape précédente, on arrête
l’algorithme.

39 / 40
Classification

Méthodes de Classification

1) Classification hiérarchique :

• Avantage: La lecture de l’arbre permet de déterminer le nombre


optimal de classes.
• Inconvénients: Couteux en temps de calcul

2) Méthode de Partitionnement : partition en K classes

• Avantages: Permettent la classification d’ensembles volumineux.


• Inconvénients: on impose au départ le nombre de classes

40 / 40

Vous aimerez peut-être aussi