Vous êtes sur la page 1sur 24

ANALYSE

TYPOLOGIQUE

R. JAHIDI ADD 1
Objectifs

 Construire à partir des variables choisies a priori des


groupes d’individus.

 Constituer des groupes de façon à ce que :


a) les individus appartenant à un même groupe se
rassemblent le plus possible
b) les groupes soient les plus différents possible les uns
des autres.

R. JAHIDI ADD 2
ETAPES DE
L’ANALYSE

R. JAHIDI ADD 3
A) Choix des variables de classifications

 Dépend de l’objectif de l’étude

 Forte hétérogénéité entre individus

 Ne retenir que les variables importantes par


rapport à ce que l’on cherche à montrer

R. JAHIDI ADD 4
B) Données

Variables
X1 X2 X3 ... Xp
O1
O2
Objets
ou O3
Individus ..
.
On

R. JAHIDI ADD 5
Transformer les données brutes en
une matrice de proximité des objets
ou individus
Objets ou individus
O1 O2 O3 ... On
O1
O2
Objets
ou O3
Individus ..
.
On
R. JAHIDI ADD 6
Exemple de mesure de la distance

 Distance euclidienne (au carré)


p
d =  ( X im − X jm )
2
ij
2
m =1

Xim & Xjm = valeurs standardisées (à une moyenne nulle et


un écart type de un) du mième attribut des
individus i et j
dij = la distance euclidienne
R. JAHIDI ADD 7
C) Algorithme : Analyse Hiérarchique ascendante

R. JAHIDI ADD 8
 Chaque individu constitue une classe en soi. Dans
la première étape, les deux individus les plus
proches sont fusionnés pour former une classe …
et ainsi de suite… la fusion pouvant se faire entre
les classes, entre une classe et un individu.
 L’allocation d’un individu à une classe donnée est
irrévocable; une fois qu’un individu a été associé
à une classe, il ne peut plus être dissocié pour
être fusionné avec d’autres individus
appartenant à une autre classe.

R. JAHIDI ADD 9
Puisque la première classe sera
composée de deux individus, il
faudra déterminer la méthode
de calcul des distances entre
classes.

R. JAHIDI ADD 10
le saut minimum
l’individu le plus proche

 
   
  
  
 

l’individu le plus éloigné

   
   
 
R. JAHIDI ADD
    11
la distance moyenne entre classes

 
   
  
  
 

Méthode des centres de classe

   
   
 
R. JAHIDI ADD
    12
Méthode de Ward


 

  Minimiser  
 
la variance
   
intra classe

R. JAHIDI ADD 13
Décomposition de la somme des carrés
totale
Xp*
* * * G2
G1 * * *
* * g2
* *
g1 * **
* * g
*
* X2*
*
*
* g3 *
* G3
X1* * *

n K K

 i , g)
d 2

i =1
(x *
=  k (g k , g)
n d
k =1
2
+   i , gk )
d 2
(x
k =1 iG k
*

R. JAHIDI ADD Somme des carrés Somme des carrés Somme des 14 carrés
totale = (n-1)*p = inter-classes + intra-classes
Classification ascendante hiérarchique
(Méthode de Ward)
G2
Xp*
* *
* * * * *g *
G1 * 2 Cette distance
* * *g * * * *
1* * correspond à la
* * *
*
*
Perte d’inertie
*
* X2* consécutive au
* *g3 **
* * G3
regroupement de
* *
X1 * Gi et Gj
nin j
Distance de Ward : D(Gi, Gj) = d 2 (g i , g j )
(n i + n j )
ni = effectif de la classe Gi et gi centre de la classe Gi
15
Coefficient : Somme des carrés
intra-classes de la typologie en K classes
Distance de Ward(13,15)
Chaîne des agrégations
Qualité de la typologie
en K classes :
Regroupement de Etape d'apparition de
classes la classe Etape

(261 - Coeff[n-K])/261
Etape Classe 1 Classe 2 Coeffi ci ents Classe 1 Classe 2 suivante
1 13 15 4,135E-02 0 0 2
2 13 24 ,397 1 0 18
3 12 22 ,780 0 0 19
4 3 7 1,241 0 0 16
5 28 29 1,727 0 0 14
6
Qualité de la typologie
8 23 2,267 0 0 11
7 16 17 2,810 0 0 12

en 2 classes :
8 9 25 3,636 0 0 12
9 2 26 4,670 0 0 19

(261 – 180)/261 = 0.31


10 1 19 5,755 0 0 22
11 8 20 6,843 6 0 20
12 9 16 8,020 8 7 18
13 4 6 9,232 0 0 24
14 5 28 10,522 0 5 20
15 18 21 12,019 0 0 23
16
17
3
27
14
30
13,715
15,572
4
0
0
0
21
26
Somme des carrés
18
19
9
2
13
12
17,880
20,713
12
9
2
3
27
23
intra-classes pour
20
21
5 8 24,588 14 11 24 la typologie en K=2
3 10 28,756 16 0 22
22 1 3 34,429 10 21 27 classes
23 2 18 40,300 19 15 26
24 4 5 46,810 13 20 25
25 4 11 60,857 24 0 28
26
27
2
1
27
9
75,860
103,634
23
22
17
18
28
29
Somme des carrés
R. JAHIDI ADD 28
29
2
1
4
2
180,025
261,000
26
27
25
28
29
0
totale =16p*(n-1)
Dendrogramme ou arbre hierarchique

indice

(1) (3) (4) (2) (5)

R. JAHIDI ADD
Individu d’origine 17
R. JAHIDI ADD 18
D) Interprétation des groupes

 Choix du nombre de groupes (méthode


hiérarchique)
Détecter un saut important au niveau des
indices d’agrégation

 Description des groupes basée sur les


variables de classification

R. JAHIDI ADD 19
3

ACP suggère 3 11
ou 4 classes
2
6
4
20 288
23 5
29
1

25
10 19
7 1524
0 9 13 16
14 1
3 17
2
18
26
-1 12 22 21

30 27
-2
R. JAHIDI ADD
-3 -2 -1 0 1 20 2
Chaîne des agrégations

Regroupement de Etape d'apparition de


classes la classe Etape
Etape Classe 1 Classe 2 Coefficients Classe 1 Classe 2 suivante
1 13 15 4,135E-02 0 0 2
2 13 24 ,397 1 0 18
3 12 22 ,780 0 0 19
4 3 7 1,241 0 0 16
5 28 29 1,727 0 0 14
6 8 23 2,267 0 0 11
7 16 17 2,810 0 0 12
8 9 25 3,636 0 0 12
9 2 26 4,670 0 0 19
10 1 19 5,755 0 0 22 Saut au niveau de l’étape
11 8 20 6,843 6 0 20 24: solution en 6 classes
12 9 16 8,020 8 7 18
13 4 6 9,232 0 0 24 Qualité de la typologie
14 5 28 10,522 0 5 20 en 6 classes :
15
16
18
3
21
14
12,019
13,715
0
4
0
0
23
21
(261 – 46,81)/261 = 0.82
17 27 30 15,572 0 0 26
18 9 13 17,880 12 2 27
19 2 12 20,713 9 3 23 Saut au niveau de l’étape
20 5 8 24,588 14 11 24 26: solution en 4 classes
21 3 10 28,756 16 0 22
22 1 3 34,429 10 21 27 Qualité de la typologie
23
24
2 18 40,300 19 15 26
en 4 classes :
4 5 46,810 13 20 25
25 4 11 60,857 24 0 28 (261 – 75,86)/261 = 0.71
26 2 27 75,860 23 17 28
27 1 9 103,634 22 18 29
R. JAHIDI ADD 28 2 4 180,025 26 25 29 21
29 1 2 261,000 27 28 0
Solutions en 6 classes

Solutions en 4 classes

Solutions en 3 classes

R. JAHIDI ADD 22
E) Validation des groupes

 Des méthodes différentes doivent aboutir à des


résultats semblables
 Après séparation aléatoire de l’échantillon en
deux moitiés, on doit aboutir aux mêmes résultats
 Les distributions des groupes sur les variables de
classification ne se chevauchent pas

R. JAHIDI ADD 23
R. JAHIDI ADD 24

Vous aimerez peut-être aussi