Vous êtes sur la page 1sur 28

ANALYSE TYPOLOGIQUE

20/05/2018 cours ADD R. JAHIDI 1


Objectifs
• Construire à partir des variables choisies a
priori des groupes d’individus.

• Constituer des groupes de façon à ce que :


a) les individus appartenant à un même
groupe se rassemblent le plus possible
b) les groupes soient les plus différents
possible les uns des autres.
20/05/2018 cours ADD R. JAHIDI 2
ETAPES DE L’ANALYSE

20/05/2018 cours ADD R. JAHIDI 3


A) Choix des variables de
classifications

• Dépend de l’objectif de l’étude

• Forte hétérogénéité entre individus

• Ne retenir que les variables importantes par


rapport à ce que l’on cherche à montrer

20/05/2018 cours ADD R. JAHIDI 4


B) Données

Variables
X1 X2 X3 ... Xp
O1
O2
Objets
ou O3
Individus ..
.
On

20/05/2018 cours ADD R. JAHIDI 5


Transformer les données brutes en
une matrice de proximité des objets
ou individus
Objets ou individus
O1 O2 O3 ... On
O1
O2
Objets
ou O3
Individus ..
.
On

20/05/2018 cours ADD R. JAHIDI 6


Exemple de mesure de la distance

• Distance euclidienne (au carré)


p
d = ∑ ( X im − X jm )
2
ij
2
m =1

Xim & Xjm = valeurs standardisées (à une moyenne nulle et


un écart type de un) du mième attribut des
individus i et j
dij = la distance euclidienne
20/05/2018 cours ADD R. JAHIDI 7
C) Algorithme : Analyse
Hiérarchique
• Les méthodes hiérarchiques réalisent des
fusions ou divisions successives des données.
• L’allocation d’un individu à une classe donnée
est irrévocable; une fois qu’un individu a été
associé à une classe, il ne peut plus être
dissocié pour être fusionné avec d’autres
individus appartenant à une autre classe.

20/05/2018 cours ADD R. JAHIDI 8


Analyse Hiérarchique - Les méthodes
ascendantes
• Chaque individu constitue une classe en soi.
Dans la première étape, les deux individus les
plus proches sont fusionnés pour former une
classe … et ainsi de suite… la fusion pouvant se
faire entre les classes, entre une classe et un
individu.

20/05/2018 cours ADD R. JAHIDI 9


classification hierarchique

10
Puisque la première classe sera
composée de deux individus, il
faudra déterminer la méthode
de calcul des distances entre
classes.

20/05/2018 cours ADD R. JAHIDI 11


le saut minimum
l’individu le plus proche

l’individu le plus éloigné

20/05/2018 cours ADD R. JAHIDI 12


la distance moyenne entre classes

Méthode des centres de classe

20/05/2018 cours ADD R. JAHIDI 13


Méthode de Ward

Minimiser
la variance
intra classe

20/05/2018 cours ADD R. JAHIDI 14


Décomposition de la somme des carrés
totale
Xp*
* * *
* * *
* * g2
* *
* g **
*
1
* g
*
* X2*
*
*
* g3 *
*
X1* * *

n K K

∑ i , g)
d 2
(x *
= ∑ k (g k , g) +
n d 2
∑ ∑ i , gk )
d 2
(x *

i =1 k =1 k =1 i∈G k

Somme des carrés Somme des carrés Somme des carrés


totale = (n-1)*p = inter-classes + intra-classes 15
• Classification hiérarchique sur données Lc
banq (méthode Word)

20/05/2018 cours ADD R. JAHIDI 16


Classification ascendante hiérarchique
(Méthode de Ward)

Xp*
* *
* * * * *g *
* 2
* * *g * * * *
*
* * **
1

*
* *
* X2*
* g* *
3 *
* *
* *
X1*

nin j
Distance de Ward : D(Gi, Gj) = d 2 (g i , g j )
(n i + n j )
ni = effectif de la classe Gi
17
Coefficient : Somme des carrés
intra-classes de la typologie en K classes
Distance de Ward(13,15)
Chaîne des agrégations
Qualité de la typologie
Regroupement de Etape d'apparition de
classes la classe Etape en K classes :
Etape Classe 1 Classe 2 Coefficients Classe 1 Classe 2 suivante
1 13 15 4,135E-02 0 0 2 (261 - Coeff[n-K])/261
2 13 24 ,397 1 0 18
3 12 22 ,780 0 0 19
4 3 7 1,241 0 0 16
5 28 29 1,727 0 0 14
6 8 23 2,267 0 0 11
7 16 17 2,810 0 0 12 Qualité de la typologie
8 9 25 3,636 0 0 12
9 2 26 4,670 0 0 19 en 2 classes :
10 1 19 5,755 0 0 22
11 8 20 6,843 6 0 20 (261 – 180)/261 = 0.31
12 9 16 8,020 8 7 18
13 4 6 9,232 0 0 24
14 5 28 10,522 0 5 20
15 18 21 12,019 0 0 23
16
17 27
3 14
30
13,715
15,572
4
0
0
0
21
26
Somme des carrés
18
19
9
2
13
12
17,880
20,713
12
9
2
3
27
23
intra-classes pour
20
21
5
3 10
8 24,588
28,756
14
16
11
0
24
22
la typologie en K=2
22 1 3 34,429 10 21 27 classes
23 2 18 40,300 19 15 26
24 4 5 46,810 13 20 25
25 4 11 60,857 24 0 28
26
27
2
1
27
9
75,860
103,634
23
22
17
18
28
29 Somme des carrés
28
29
2
1
4
2
180,025
261,000
26
27
25
28
29
0
totale = p*(n-1)
20/05/2018 cours ADD R. JAHIDI 18
Dendrogramme

indice

(1) (3) (4) (2) (5)

Individu d’origine
19
20/05/2018 cours ADD R. JAHIDI 20
D) Interprétation des groupes

• Choix du nombre de groupes (méthode


hiérarchique)
Détecter un saut important au niveau des
indices d’agrégation

• Description des groupes basée sur les


variables de classification

20/05/2018 cours ADD R. JAHIDI 21


• Cas LC Banq (suite)

la carte ACP suggère des solutions en trois ou


quatre classes

20/05/2018 cours ADD R. JAHIDI 22


3

11

2
1

6
REGR factor score 2 for analysis

4
20 288
23 5
29
1

25
10 19 24
7 15
0 9 13 16
14 1
3 17
2
18
26
-1 12 22 21

30 27
-2
-3 -2 -1 0 1 2
20/05/2018 cours ADD R. JAHIDI 23

REGR factor score 1 for analysis 1


Chaîne des agrégations

Regroupement de Etape d'apparition de


classes la classe Etape
Etape Classe 1 Classe 2 Coefficients Classe 1 Classe 2 suivante
1 13 15 4,135E-02 0 0 2
2 13 24 ,397 1 0 18
3 12 22 ,780 0 0 19
4 3 7 1,241 0 0 16
5 28 29 1,727 0 0 14
6 8 23 2,267 0 0 11
7 16 17 2,810 0 0 12
8 9 25 3,636 0 0 12
9 2 26 4,670 0 0 19
10 1 19 5,755 0 0 22 Saut au niveau de l’étape
11 8 20 6,843 6 0 20 24: solution en 6 classes
12 9 16 8,020 8 7 18
13 4 6 9,232 0 0 24 Qualité de la typologie
14 5 28 10,522 0 5 20 en 6 classes :
15 18 21 12,019 0 0 23
16 3 14 13,715 4 0 21
(261 – 46,81)/261 = 0.82
17 27 30 15,572 0 0 26
18 9 13 17,880 12 2 27
19 2 12 20,713 9 3 23 Saut au niveau de l’étape
20 5 8 24,588 14 11 24 26: solution en 4 classes
21 3 10 28,756 16 0 22
22 1 3 34,429 10 21 27 Qualité de la typologie
23 2 18 40,300 19 15 26
24 4 5 46,810 13 20 25
en 4 classes :
25 4 11 60,857 24 0 28 (261 – 75,86)/261 = 0.71
26 2 27 75,860 23 17 28
27 1 9 103,634 22 18 29
28 2 4 180,025 26 25 29
29 1 2 261,000 27 28 0
20/05/2018 cours ADD R. JAHIDI 24
On détecte un saut à l’étape 26 :
solution en quatre classes

20/05/2018 cours ADD R. JAHIDI 25


Solutions en 6 classes

Solutions en 4 classes

Solutions en 3 classes

20/05/2018 cours ADD R. JAHIDI 26


E) Validation des groupes
• Des méthodes différentes doivent aboutir à des
résultats semblables
• Après séparation aléatoire de l’échantillon en deux
moitiés, on doit aboutir aux mêmes résultats
• Les distributions des groupes sur les variables de
classification ne se chevauchent pas

20/05/2018 cours ADD R. JAHIDI 27


20/05/2018 cours ADD R. JAHIDI 28

Vous aimerez peut-être aussi