Vous êtes sur la page 1sur 29

Analyse des données.

UNIVERSITE MOHAMMED V
FACULTES DES SCIENCES JURIDIQUES
ECONOMIQUES ET SOCIALES

MODULE :

TECHNIQUES D’ENQUETES ET ANALYSE DES


DONNEES

ANIME PAR :

Pr. Adil ELMARHOUM

A. ELMARHOUM
Analyse des données.

CHAPITRE 6. ANALYSE TYPOLOGIQUE

6.1. INTRODUCTION.

L'analyse typologique a pour but de décomposer un groupe


hétérogène d'individus ou d’objets, décrits par un ensemble de
plusieurs caractéristiques ( X1, X2,..., Xp) en un certain nombre
de sous-groupes homogènes. Il s'agit de regrouper les
observations pour constituer des groupes d'individus similaires
de façon à ce que les individus appartenant à un même groupe se
ressemblent le plus possible et les groupes soient les plus
différents possibles les un des autres.

6.2. LES ETAPES D'UNE ANALYSE TYPOLOGIQUE.

La typologie est composée des étapes suivantes :

6.2.1. Choix des critères de classification.

il faut choisir les variables qui vont caractériser les individus, ce


choix dépend de l’objectif de l’étude et d’une forte
présupposition d’hétérogénéité des individus, pour ces variables.
Plus le nombre de variables à considérer est grand plus
l’identification et l’interprétation des groupes est complexe,
d’où la nécessité de choisir les variables qui sont pertinentes vis-
à-vis du problème considéré et, parmi celles-ci, celles à forte
A. ELMARHOUM
Analyse des données.
dispersion, c’est à dire celles qui véhiculent la plus grande
quantité d'information.

Dans certaines situations, on peut réaliser une analyse en


composantes principales sur l'ensemble des variables afin de
remplacer les groupes de variables corrélées par des facteurs
indépendants les uns des autres, on utilise ensuite ces
composantes comme nouvelles variables.

6.2.2. Mesures de distance.

Il s'agit de mesurer le degré de ressemblance entre individus ou


objets, pour cela on calcule une distance séparant deux individus.
Le type de distance entre objets dépend directement du type de
données à traiter.

Les données peuvent se présenter sous la forme d’une matrice qui


prend différentes formes suivant la nature de l’étude :

- matrice d'occurrence, composée de fréquences ou nombre


d'occurrences du caractère étudié. Si les fréquences sont exprimées
en pourcentages, la matrice est appelée dans ce cas une matrice de
fréquences relatives.

- matrice métrique, les variables sont métriques et les unités de


mesures sont différentes. Si les unités de mesure sont identiques
pour toutes les variables, on a alors une matrice de contingence.

A. ELMARHOUM
Analyse des données.
- matrice de rangs, formée de variables ordinales, les éléments de
la matrice représentent des rangs.
- matrice logique (binaire ou matrice de présences-absences),
composée de variables binaires ou dichotomiques. Les éléments de
la matrice sont des codes 0 et 1 qui indiquent que l’individu ou
l'objet à analyser est caractérisé par la présence ou l'absence d'un
attribut.

- matrice nominale, composée de variables nominales.

- matrice mixte, composée de plusieurs types de variables.

Selon le type de la matrice de données, on distingue trois grands


groupes de mesures de distance :

6.2.2.1. Mesures de distance définis sur les matrices


d'occurrence, de fréquences relatives, métriques, de
contingence et de rangs.

Pour ce type de matrice de données, on distingue cinq mesures


de distance dont la plus couramment utilisée est la distance
euclidienne.

a) La distance euclidienne :

La distance euclidienne entre deux individus A et B décrits par un


ensemble de p variables ( X1A, X2A,..., XpA) et ( X1B, X2B,...,
XpB), est donné par :

A. ELMARHOUM
Analyse des données.

(X −XiB ) .
p
2
dAB = iA
i =1

Comme la distance euclidienne dépend de l'unité de mesure choisie


pour les variables, la pratique la plus courante est de standardiser
les variables c’est-à-dire les ramener à une moyenne nulle et une
variance unitaire.

b) La distance rectangulaire :

Utilisée en recherche opérationnelle, la distance rectangulaire de


type Manhattan ou «city-block» calcule la somme des différences
absolues entre les valeurs :

p
dAB = 
i =1
XiA −XiB ;

c) La distance de Mahalanobis :

Elle tient compte des corrélations entre les variables, c’est une
distance appropriée pour des variables corrélées.

d) La distance de Minkowski :

La distance de Minkowski est définie comme étant la r-ième


racine de la somme des différences absolues à la puissance r :

A. ELMARHOUM
Analyse des données.
p


r
dAB = r XiA −XiB
i =1

e) La distance de khi-deux :

Elle mesure les écarts entre des effectifs observés et des effectifs
théoriques, elle est à la base de l'analyse factorielle des
correspondances.

6.2.2.2. Mesures de distance définis sur les matrices logiques


(présence-absence).

Pour des données se présentant sous forme binaire (1 ou 0), on


utilise ce qu’on appelle les coefficients de coïncidence.

La ressemblance entre deux individus A et B est mesurée par le


nombre de présences à la fois chez les deux individus appelé
nombre de coïncidences positives, P, par le nombre d’absences à la
fois chez les deux individus appelé nombre de coïncidences
négatives, N, par le nombre de paires de présence chez l'un des
individus mais absence chez l'autre appelé nombre de non-
coïncidences, U, ou enfin par toute combinaison de ces 3 quantités.

plusieurs coefficients de coïncidence sont définis, certains


coefficients ne tiennent pas compte des coïncidences négatives N,
d’autres donnent des poids différents aux coïncidences P et N par
rapport à ceux accordés aux non-coïncidences U.

- Coefficient de Russel et Rao : P / (P+N+U)

A. ELMARHOUM
Analyse des données.
- Coefficient de Jaccard et Sneath : P / (P+U)

- Coefficient de Dice : 2P / (2P+U)

- Coefficient de Sokal et Sneath : P / (P+2U)

- Coefficient de Sokal et Michener : (P+N) / (P+N+U)

6.2.2.3. Mesures de distance définis sur les matrices nominales.

Dans le cas des variables nominales, les données sont souvent des
codes numériques servant d’étiquettes identifiant les différentes
modalités d’une variable nominale, pour mesurer les distances entre
individus, on doit transformer cette variable nominale en autant de
variables binaires qu'il y a de modalités pour la variable nominale,
et de procéder alors comme le cas d’une matrice logique.

6.2.2.4. Mesures de distance définis sur les matrices mixtes.

Pour les matrices mixtes, on utilise un indice appelé coefficient de


similitude définie par Gower 1971. Le principe consiste à taiter
chaque type de variable selon son échelle de mesure. Le coefficient
de similitude entre deux individus est la moyenne, pour les p
variables, de la valeur de la similitude pour chaque variable :
p
1
S= s i
p i =1

Les valeurs de similitude par variable sont calculées comme suit :


A. ELMARHOUM
Analyse des données.
a) Pour les variables binaires, si = 1 s’il y a coïncidence positive,
c’est à dire présence à la fois chez les deux individus, et si = 0
s’il y a coïncidence négatives, c’est à dire absence à la fois
chez les deux individus, ou s’il y a non-coïncidence.

b) Pour les variables qualitatives, ainsi que les variables


ordinales, si = 1 s’il y a coïncidence) et si = 0 quand il y a
non-coïncidence.

c) Pour les variables quantitatives, la similitude entre deux


individus A et B est calculée par :

XiA −XiB avec R l'écart maximal que peut prendre cette


si =1− i
Ri
variable Xi dans l'échantillon.

6.2.3. Choix d’un algorithme de classification et constitution des


groupes.

Pour la constitution des groupes, on distingue différents algorithmes


de classification :

monothétiques
 non hiérarchiques
Méthodes
polythétiques as cendantes(agglomératives)
  
hiérarchiques
  descendantes(divis ives)

A. ELMARHOUM
Analyse des données.
6.2.3.1. Méthodes monothétiques

Elles partent de l'ensemble des individus à classer et les divisent


successivement en sous-groupes en ne tenant compte que d'une
seule variable à la fois, celle qui permet de différencier le plus les
objets en deux groupes.

6.2.3.2. Méthodes polythétiques

Les méthodes polythétiques tiennent compte de toutes les variables


simultanément. Parmi ces méthodes, on distingue deux approches
possibles : les méthodes hiérarchiques et les méthodes non
hiérarchiques.

a) Les méthodes hiérarchiques :

Les méthodes hiérarchiques s’appliquent sur de petits échantillons


(n < 100), à chaque étape, les groupes sont fusionnés ou divisés
selon qu’il s’agit de méthodes hiérarchiques ascendantes
(agglomératives) ou descendantes (divisives).

Les méthodes hiérarchiques ascendantes ou agglomératives sont


les plus couramment utilisées, elles procèdent par agglomération.
On démarre avec une situation où chaque individu forme un groupe
à lui seul. Un premier groupe est obtenu en agglomérant les 2
individus les plus proches, c’est à dire pour lesquels la distance est
A. ELMARHOUM
Analyse des données.
la plus faible, puis, à chaque étape, un nouveau groupe est obtenu
par fusion des 2 groupes les plus semblables. Le processus de
regroupement se termine quand il aboutit à un groupe unique
contenant tous les individus.

Les méthodes hiérarchiques descendantes ou divisives procèdent


par décomposition. On démarre avec une situation où tous les
individus forment un seul groupe. On obtient une hiérarchie de
groupes en procédant par divisions successives: à chaque étape, 2
nouveaux groupes sont obtenus en divisant le groupe le plus
hétérogène. Le processus de division se termine lorsqu’on arrive à
une situation où chaque individu forme un groupe à lui seul.

Quelle que soit la méthode choisie, les diverses étapes du processus


peuvent être représentées graphiquement par un arbre de hiérarchie
appelé dendrogramme.

Les méthodes hiérarchiques ascendantes ou agglomératives sont les


plus couramment utilisées, selon la distance utilisée entre un objet
et un groupe, ou entre deux groupes on distingue 5 méthodes
hiérarchiques ascendantes.

A1. Méthode du plus proche voisin (chaînage simple, agrégation


suivant le saut minimum, single linkage method)

La distance entre deux groupes est définie comme étant la distance


séparant leurs membres les plus proches.

A. ELMARHOUM
Analyse des données.
A2. Méthode du voisin le plus éloigné (chaînage complet,
agrégation suivant le diamètre, complete linkage method)

La distance entre deux groupes est définie comme étant la distance


entre leurs membres les plus éloignés.

A3. Méthode de chaînage moyen (average linkage method)

La distance entre deux groupes est définie comme étant la valeur


moyenne des distances entre les éléments des deux groupes. On
distingue deux approches : on fait la moyenne des distances
calculées entre des individus provenant de groupes différents
(average linkage between groups method, distance moyenne entre
classes), ou bien on fait la moyenne des distances calculées entre
toutes les paires possibles d’individus appartenant aux 2 groupes
(average linkage within groups method, distance moyenne dans
classes).

A4. Méthode de centroïde

La distance entre deux groupes est égale à la distance séparant leur


centroïde (vecteur des moyennes des variables).

A5. Méthode de la variance minimum de Ward

La méthode vise, à chaque étape, de fusionner des groupes de façon


à minimiser la variance du nouveau groupe.

A. ELMARHOUM
Analyse des données.
b) Méthodes de classification non hiérarchiques :

Un nombre prédéterminé de groupes est fixé à l’avance par


l’utilisateur, ces groupes sont représentés par des individus types
choisis à priori, les autres individus sont affectés à ces groupes de
façon à minimiser la variance ou l’inertie à l’intérieur des groupes
et maximiser la variance ou l’inertie entre les groupes.

Les Méthodes de classification non hiérarchiques sont appropriée


pour de grands fichiers (n > 200). On distingue 4 méthodes non
hiérarchiques.

B1. Méthodes de réallocation (méthodes itératives)

Un objet affecté à un groupe donné lors d'une itération peut être


réaffecté à un autre groupe lors d'une étape ultérieure. La démarche
comporte 3 étapes :

- choix d'une configuration initiale d'individus constituant le noyau


de k groupes.

- allocation des autres individus aux groupes déjà formés selon le


critère de distance minimum.

A. ELMARHOUM
Analyse des données.
- réallocation des individus aux différents groupes pour optimiser
un certain critère. Chaque individu est déplacé d'un groupe à un
autre s’il améliore le critère choisi, sinon, l'individu ne bouge pas.

B2. Méthode de recherche de densité

Les groupes sont formés en recherchant les régions contenant des


concentrations relativement importantes de points.

B3. Méthodes directes

Elles forment simultanément des groupes d'individus et des groupes


de variables en minimisant la variance intra-groupes. Cette
méthode n'est applicable que sur des données de même nature.

B4. Méthodes de recouvrement

Ici un même individu peut être classé dans plusieurs groupes. Cette
analyse considère au départ la matrice des corrélations entre
individus plutôt qu'entre variables. Chaque facteur correspond à un
groupe. Comme un individu peut appartenir à plusieurs facteurs avec
des poids différents, l'interprétation des groupes est très difficile.

6.2.4. Interprétation des groupes.

Il s’agit de décrire la solution obtenue, pour cela on procède en


deux étapes :

6.2.4.1. Choix du nombre de groupes.


A. ELMARHOUM
Analyse des données.
On commence par fixer le nombre de groupes à retenir, c’est à dire
décider de la phase à laquelle l’algorithme de classification
hiérarchique doit s’arrêter. Pour cela on utilise le dendrogramme
qui visualise les groupes et le niveau auquel ils ont été formés, on
se base le plus souvent, pour fixer le nombre de groupes sur les
sauts dans les distances de fusion.

6.2.4.2. Description des groupes.

Le but est de définir le profil des individus composant les différents


groupes, pour cela on utilise les variables de classification pour
lesquelles on calcule certaines caractéristiques telle que la
moyenne, la médiane et l’écart type.

6.2.5. Validation des groupes.

Pour vérifier l’acceptabilité de la solution retenue, on peut étudier la


stabilité des résultats obtenus sur les mêmes données en utilisant
des méthodes différentes. Si on obtient des résultats similaires, il y
a de fortes chances pour que ces résultats représentent réellement la
structure hiérarchique existant dans les données. Quand les résultats
varient d'une méthode à l'autre, il est difficile de dire si ces
différences sont dues aux méthodes ou à l'absence de structure dans
les données. En général on choisira les résultats qui sont le plus
facilement interprétables et le plus cohérents avec les hypothèses
que l'on entretenait au départ sur la structure des données.

6.3. APPLICATION NUMERIQUE.


A. ELMARHOUM
Analyse des données.

10 salariés d’une entreprise sont caractérisés par deux variables : le


niveau d’instruction mesuré par le nombre d’années passées à l’école
et l’expérience mesurée par le nombre de mois dans l’entreprise.

Salarié Niveau d’instruction Expérience


1 12 205
2 18 182
3 12 72
4 12 101
5 8 75
6 16 3
7 12 94
8 15 5
9 16 45
10 12 2

- Quelques statistiques descriptives.


Statistiques descriptives

N Interv alle Minimum Maximum Moyenne Ecart type


Niv eau d'éducation
(nombre d'années 10 10 8 18 13,30 2,91
passées à l'école)
Expérience passée
10 203 2 205 78,40 71,17
(nombre de mois)
N valide (listwise) 10

l’importance des variables dans l’analyse typologique dépend de la


forte variabilité des individus en fonction des critères. On constate
que les 10 salariés sont caractérisés par une forte variabilité de
l’expérience passée (écart type = 71,17).

- Calcul des distances.


A. ELMARHOUM
Analyse des données.

Pour calculer la distance entre les individus, on utilise la


distance euclidienne définit par :

(X −XiB ) .
p
2
dAB = iA
i =1

Matrice de proximité : Carré de la distance Euclidienne (après


centrage et réduction des variables)

1 2 3 4 5 6 7 8 9 10
1
2 4,362
3 3,492 6,646
4 2,135 5,553 ,166
5 5,228 14,087 1,894 2,026
6 9,947 6,798 2,832 3,788 8,592
7 2,432 5,786 ,09554 ,009673 1,964 3,527
8 8,960 7,249 1,951 2,884 6,762 ,119 2,628
9 6,946 4,178 2,036 2,511 7,747 ,348 2,366 ,434
10 8,135 10,653 ,967 1,935 2,944 1,892 1,671 1,066 2,257

- Classification hiérarchique ascendante.

Les méthodes hiérarchiques ascendantes ou agglomérat ives


sont les plus couramment utilisées, elles procèdent par
agglomération.
A. ELMARHOUM
Analyse des données.

Phase 0 :

On démarre avec une situation où chaque individu forme un


groupe à lui seul. Ainsi on a les dix groupes suivants :

[1] ; [2] ; [3] ; [4] ; [5] ; [6] ; [7] ; [8] ; [9] ; [10]

Phase 1 :

Un premier groupe est obtenu en agglomérant les 2 individus les


plus proches, c’est à dire pour lesquels la distance est la plus
faible, il s’agit des individus 4 et 7 pour lesquels on trouve la
plus petite distance (0,009673). On a alors les 9 groupes
suivants :

[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ; [10]

Phase 2 :

On calcule la distance moyenne de chaque individu restant avec


le groupe [4 ;7]. Par exemple, la distance entre l’individu 1 et le
groupe [4 ;7] est de (2,135+2,432)/2 = 2,2835. la nouvelle
matrice des distances est donc :

1 2 3 4;7 5 6 8 9 10
1
2 4,362
3 3,492 6,646
4;7 2,2835 5,6695 ,13077
5 5,228 14,087 1,894 1,995
6 9,947 6,798 2,832 3,6575 8,592
8 8,960 7,249 1,951 2,756 6,762 ,119
9 6,946 4,178 2,036 2,4385 7,747 ,348 ,434

A. ELMARHOUM
Analyse des données.
10 8,135 10,653 ,967 1,803 2,944 1,892 1,066 2,257

Un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,119 entre l’individu 6 et
l’individu 8. On a alors les 8 groupes suivants :

[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ; [10]

Phase 3 :

On calcule de nouveau la distance moyenne de chaque groupe


restant avec le groupe [6 ;8]. la nouvelle matrice des distances
est donc :

1 2 3 4;7 5 6;8 9 10
1
2 4,362
3 3,492 6,646
4;7 2,2835 5,6695 ,13077
5 5,228 14,087 1,894 1,995
6;8 9,4535 7,0235 2,3915 3,20675 7,677
9 6,946 4,178 2,036 2,4385 7,747 ,391
10 8,135 10,653 ,967 1,803 2,944 1,479 2,257

Un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,13077 entre l’individu 3
et le groupe [4 ;7]. On a alors les 7 groupes suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]

Phase 4 :

A. ELMARHOUM
Analyse des données.
On calcule de nouveau la distance moyenne de chaque groupe
restant avec le groupe [3 ;4 ;7]. la nouvelle matrice des distances
est donc :

1 2 3;4;7 5 6;8 9 10
1
2 4,362
3;4;7 2,6863 5,995
5 5,228 14,087 1,9613
6;8 9,4535 7,0235 2,935 7,677
9 6,946 4,178 2,3043 7,747 ,391
10 8,135 10,653 1,5243 2,944 1,479 2,257

Un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,391 entre l’individu 9 et
le groupe [6 ;8]. On a alors les 6 groupes suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]

Phase 5 :

On calcule de nouveau la distance moyenne de chaque groupe


restant avec le groupe [6 ;8 ;9]. la nouvelle matrice des distances
est donc :

1 2 3;4;7 5 6;8;9 10
1
2 4,362
3;4;7 2,6863 5,995
5 5,228 14,087 1,9613
6;8;9 8,61767 6,075 2,7248 7,7003
10 8,135 10,653 1,5243 2,944 1,7383

A. ELMARHOUM
Analyse des données.
Un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 1,5243 entre l’individu 10
et le groupe [3 ;4 ;7]. On a alors les 5 groupes suivants :

[1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]

Phase 6 :

On calcule de nouveau la distance moyenne de chaque groupe


restant avec le groupe [3 ;4 ;7 ;10]. la nouvelle matrice des
distances est donc :

1 2 3;4;7;10 5 6;8;9
1
2 4,362
3;4;7;10 4,0485 7,1595
5 5,228 14,087 2,207
6;8;9 8,61767 6,075 2,4782 7,7003

Un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 2,207 entre l’individu 5 et
le groupe [3 ;4 ;7 ;10]. On a alors les 4 groupes suivants :

[1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]

Phase 7 :

On calcule de nouveau la distance moyenne de chaque groupe


restant avec le groupe [3 ;4 ;5;7 ;10]. la nouvelle matrice des
distances est donc :

1 2 3;4;5;7;10 6;8;9
1
2 4,362

A. ELMARHOUM
Analyse des données.
3;4;5;7;10 4,2844 8,545
6;8;9 8,61767 6,075 3,5226

Un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 3,5226 entre le
groupe[6 ;8 ;9] et le groupe [3 ;4 ;5 ;7 ;10]. On a alors les 3
groupes suivants :

[1] ; [2] ; [3;4;5;6;7;8;9;10]

Phase 8 :

On calcule de nouveau la distance moyenne de chaque groupe


restant avec le groupe [3;4;5;6;7;8;9;10]. la nouvelle matrice des
distances est donc :

1 2 3;4;5;6;7;8;9;10
1
2 4,362
3;4;5;6;7;8;9;10 5,9094 7,61875

Un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 4,362 entre l’individu 1 et
l’individu 2. On a alors les 2 groupes suivants :

[1;2] ; [3;4;5;6;7;8;9;10]

Phase 9 :

On calcule de nouveau la distance moyenne de chaque groupe


restant avec le groupe [1 ;2]. la nouvelle matrice des distances
est donc :

1;2 3;4;5;6;7;8;9;10

A. ELMARHOUM
Analyse des données.
1;2
3;4;5;6;7;8;9;10 6,764
Un nouveau groupe est obtenu par fusion des 2 groupes restant.
On a alors le groupe suivant :

[1;2;3;4;5;6;7;8;9;10]

- Choix du nombre de groupes.

On commence par fixer le nombre de groupes à retenir, c’est à dire


décider de la phase à laquelle l’algorithme de classification
hiérarchique doit s’arrêter. Pour cela on utilise le dendrogramme
qui visualise les groupes et le niveau auquel ils ont été formés, on
se base le plus souvent, pour fixer le nombre de groupes sur les
sauts dans les distances de fusion.

Le dendrogramme représente les neuf phases de la typologie en


indiquant à chaque fois la distance entre les groupes agglomérés, on
obtient :

Phases Agglomération Distance Solution résultante


1 [4] et [7] 0,00967 [1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ;
3 [10]
2 [6] et [8] 0,119 [1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ;
[10]
3 [3] et [4 ;7] 0,131 [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]
4 [9] et [6 ;8] 0,391 [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]
5 [10] et [3 ;4 ;7] 1,5243 [1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]
6 [5] et [3 ;4 ;7 ;10] 2,207 [1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]
7 [3; 4 ;5 ;7 ;10] et [6;8;9] 3,5226 [1] ; [2] ; [3;4;5;6;7;8;9;10]
8 [1] et [2] 4,362 [1;2] ; [3;4;5;6;7;8;9;10]
9 [1;2] et [3;4;5;6;7;8;9;10] 6,764 [1;2;3;4;5;6;7;8;9;10]

le saut dans les distances de fusion se trouve à la phase 5. la


distance d’agglomération passe de 0,391 à 1,5243. Avec une
solution à 6 groupes, les distances d’agglomération sont

A. ELMARHOUM
Analyse des données.
relativement homogènes et faibles. Les 6 groupes retenus par la
typologie sont donc : [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] et [10].

- Description des groupes.

Le but est de définir le profil des individus composant les différents


groupes, pour cela on utilise les variables de classification pour
lesquelles on calcule certaines caractéristiques telle que la
moyenne, la médiane et l’écart type.

Groupes Individus Niveau d’instruction Expérience passée


Moyenne Ecart type Moyenn Ecart
e type
1 1 12 - 205 -
2 2 18 - 182 -
3 3 ;4 ;7 12 0 89 12,3
4 5 8 - 75 -
5 6 ;8 ;9 15,67 0,47 17,67 19,34
6 10 12 - 2 -

On peut définir 6 groupes de salariés :

Groupe 1 :

Salariés à moyen niveau d’instruction et un niveau d’expérience


très élevé (salarié 1) ;

Groupe 2 :

Salariés à haut niveau d’instruction et un niveau d’expérience


très élevé (salarié 2).

Groupe 3 :

A. ELMARHOUM
Analyse des données.

Salariés à moyen niveau d’instruction et un niveau d’expérience


moyen (salariés 3 ; 4 et 7) ;

Groupe 4 :

Salariés à faible niveau d’instruction et un niveau d’expérience


moyen (salarié 5) ;

Groupe 5 :

Salariés à haut niveau d’instruction et un niveau d’expérience


faible (salariés 6 ; 8 et 9) ;

Groupe 6 :

Salariés à moyen niveau d’instruction et très faible niveau


d’expérience (salarié 10);

Les résultats obtenus ci-dessus peuvent être obtenus à l’aide du


logiciel SPSS. La procédure SPSS pour effectuer la
classification est la suivante :

- Analyse
Classification
Classification hiérarchique
- Dans Variables, sélectionner les variables de classification.

- Dans Statistiques, cocher chaînes des agrégations et Matrice des


distances. Si on connaît le nombre de groupes, on coche une seule
partition et on saisie le nombre de groupes (pour notre exemple on
saisit 6).

A. ELMARHOUM
Analyse des données.
- Dans Graphique, cocher arbre hiérarchique.

- Dans Méthode :
Dans méthode d’agrégation, sélectionner Distance moyenne
entre classes.
Dans mesure, sélectionner le type de distance, (dans notre
exemple, carré de la distance euclidienne).
Dans transformer les variables, sélectionner standardiser
centrer-réduire

- Dans Enregistrer, cocher, si on connaît le nombre de groupes, une


seule partition et on saisie le nombre de groupes (pour notre exemple
on saisit 6).

Les résultats de l’analyse sont :

Matrice de proximité : Carré de la distance Euclidienne (après


centrage et réduction des variables)

Il s’agit du carré de la distance entre les individus, on utilise la


distance euclidienne définit par :

(X −XiB ) .
p
2
dAB = iA
i =1

A. ELMARHOUM
Analyse des données.

Matri ce de proximité

Carré de la distance Euclidienne


1 2 3 4 5 6 7
1 4,362 3,492 2,135 5,228 9,95 2,432
2 4,362 6,646 5,553 14,087 6,80 5,786
3 3,492 6,646 ,166 1,894 2,83 9,554E-02
4 2,135 5,553 ,166 2,026 3,79 9,673E-03
5 5,228 14,087 1,894 2,026 8,59 1,964
6 9,947 6,798 2,832 3,788 8,592 3,527
7 2,432 5,786 9,554E-02 9,673E-03 1,964 3,53
8 8,960 7,249 1,951 2,884 6,762 ,119 2,628
9 6,946 4,178 2,036 2,511 7,747 ,348 2,366
10 8,135 10,653 ,967 1,935 2,944 1,89 1,671
Ceci est une matrice de dissimilarités

A. ELMARHOUM
Analyse des données.

Distance moyenne (entre classes)

Il s’agit de l’algorithme de classification hiérarchique qui visualise


les groupes et le niveau auquel ils ont été formés. Il représente les
phases de la typologie en indiquant à chaque fois la distance entre
les groupes agglomérés.

Chaîne des agrégations

Regroupement de Etape d'apparition de


classes la classe Etape
Etape Classe 1 Classe 2 Coeff icients Classe 1 Classe 2 suiv ante
1 4 7 9,673E-03 0 0 3
2 6 8 ,119 0 0 4
3 3 4 ,131 0 1 5
4 6 9 ,391 2 0 7
5 3 10 1,524 3 0 6
6 3 5 2,207 5 0 7
7 3 6 3,523 6 4 9
8 1 2 4,362 0 0 9
9 1 3 6,764 8 7 0

Dans une première étape, un premier groupe est obtenu en


agglomérant les 2 individus les plus proches, c’est à dire pour
lesquels la distance est la plus faible, il s’agit des individus 4 et 7
pour lesquels on trouve la plus petite distance (0,009673). On a
alors les 9 groupes suivants :

[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ; [10]

Dans une deuxième étape, un nouveau groupe est obtenu par fusion
des 2 groupes les plus semblables. La plus petite distance est 0,119
entre l’individu 6 et l’individu 8. On a alors les 8 groupes suivants :

A. ELMARHOUM
Analyse des données.
[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ; [10]

Dans une troisième étape, un nouveau groupe est obtenu par fusion
des 2 groupes les plus semblables. La plus petite distance est 0,131
entre l’individu 3 et le groupe [4 ;7]. On a alors les 7 groupes
suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]

Dans une quatrième étape, un nouveau groupe est obtenu par fusion
des 2 groupes les plus semblables. La plus petite distance est 0,391
entre l’individu 9 et le groupe [6 ;8]. On a alors les 6 groupes
suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]

Dans une cinquième étape, un nouveau groupe est obtenu par


fusion des 2 groupes les plus semblables. La plus petite distance est
1,524 entre l’individu 10 et le groupe [3 ;4 ;7]. On a alors les 5
groupes suivants :

[1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]

Dans une sixième étape, un nouveau groupe est obtenu par fusion
des 2 groupes les plus semblables. La plus petite distance est 2,207
entre l’individu 5 et le groupe [3 ;4 ;7 ;10]. On a alors les 4 groupes
suivants :

[1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]

Dans une septième étape, un nouveau groupe est obtenu par fusion
des 2 groupes les plus semblables. La plus petite distance est 3,523
entre le groupe[6 ;8 ;9] et le groupe [3 ;4 ;5 ;7 ;10]. On a alors les 3
groupes suivants :
A. ELMARHOUM
Analyse des données.

[1] ; [2] ; [3;4;5;6;7;8;9;10]

Dans une huitième étape, un nouveau groupe est obtenu par fusion
des 2 groupes les plus semblables. La plus petite distance est 4,362
entre l’individu 1 et l’individu 2. On a alors les 2 groupes suivants :

[1;2] ; [3;4;5;6;7;8;9;10]

Dans une neuvième étape, un nouveau groupe est obtenu par fusion
des 2 groupes restant. On a alors le groupe suivant :

[1;2;3;4;5;6;7;8;9;10]

Les groupes et leur composition.

On a choisit une solution à 6 groupes. Les 6 groupes retenus par la


typologie sont donc : [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] et [10].

Appartenance à la classe

Observ ation 6 classes


1:Case 1 1
2:Case 2 2
3:Case 3 3
4:Case 4 3
5:Case 5 4
6:Case 6 5
7:Case 7 3
8:Case 8 5
9:Case 9 5
10:Case 10 6

A. ELMARHOUM

Vous aimerez peut-être aussi