Chapitre 6

Analyse des données.
UNIVERSITE MOHAMMED V
FACULTES DES SCIENCES JURIDIQUES
ECONOMIQUES ET SOCIALES
MODULE :
TECHNIQUES D’ENQUETES ET ANALYSE DES

DONNEES
ANIME PAR :
Pr. Adil ELMARHOUM
A. ELMARHOUM
CHAPITRE 6. ANALYSE TYPOLOGIQUE
6.1. INTRODUCTION.
L'analyse typologique a pour but de décomposer un groupe

hétérogène d'individus ou d’objets, décrits par un ensemble de
plusieurs caractéristiques ( X1, X2,..., Xp) en un certain nombre
de sous-groupes homogènes. Il s'agit de regrouper les
observations pour constituer des groupes d'individus similaires
de façon à ce que les individus appartenant à un même groupe se
ressemblent le plus possible et les groupes soient les plus
différents possibles les un des autres.
6.2. LES ETAPES D'UNE ANALYSE TYPOLOGIQUE.
La typologie est composée des étapes suivantes :
6.2.1. Choix des critères de classification.
il faut choisir les variables qui vont caractériser les individus, ce

choix dépend de l’objectif de l’étude et d’une forte
présupposition d’hétérogénéité des individus, pour ces variables.
Plus le nombre de variables à considérer est grand plus
l’identification et l’interprétation des groupes est complexe,
d’où la nécessité de choisir les variables qui sont pertinentes vis-
à-vis du problème considéré et, parmi celles-ci, celles à forte
A. ELMARHOUM
dispersion, c’est à dire celles qui véhiculent la plus grande
quantité d'information.
Dans certaines situations, on peut réaliser une analyse en

composantes principales sur l'ensemble des variables afin de
remplacer les groupes de variables corrélées par des facteurs
indépendants les uns des autres, on utilise ensuite ces
composantes comme nouvelles variables.
6.2.2. Mesures de distance.
Il s'agit de mesurer le degré de ressemblance entre individus ou

objets, pour cela on calcule une distance séparant deux individus.
Le type de distance entre objets dépend directement du type de
données à traiter.
Les données peuvent se présenter sous la forme d’une matrice qui

prend différentes formes suivant la nature de l’étude :
- matrice d'occurrence, composée de fréquences ou nombre

d'occurrences du caractère étudié. Si les fréquences sont exprimées
en pourcentages, la matrice est appelée dans ce cas une matrice de
fréquences relatives.
- matrice métrique, les variables sont métriques et les unités de

mesures sont différentes. Si les unités de mesure sont identiques
pour toutes les variables, on a alors une matrice de contingence.
A. ELMARHOUM
- matrice de rangs, formée de variables ordinales, les éléments de
la matrice représentent des rangs.
- matrice logique (binaire ou matrice de présences-absences),
composée de variables binaires ou dichotomiques. Les éléments de
la matrice sont des codes 0 et 1 qui indiquent que l’individu ou
l'objet à analyser est caractérisé par la présence ou l'absence d'un
attribut.
- matrice nominale, composée de variables nominales.
- matrice mixte, composée de plusieurs types de variables.
Selon le type de la matrice de données, on distingue trois grands

groupes de mesures de distance :
6.2.2.1. Mesures de distance définis sur les matrices

d'occurrence, de fréquences relatives, métriques, de
contingence et de rangs.
Pour ce type de matrice de données, on distingue cinq mesures

de distance dont la plus couramment utilisée est la distance
euclidienne.
a) La distance euclidienne :
La distance euclidienne entre deux individus A et B décrits par un

ensemble de p variables ( X1A, X2A,..., XpA) et ( X1B, X2B,...,
XpB), est donné par :
A. ELMARHOUM
(X −XiB ) .
p
2
dAB = iA
i =1
Comme la distance euclidienne dépend de l'unité de mesure choisie

pour les variables, la pratique la plus courante est de standardiser
les variables c’est-à-dire les ramener à une moyenne nulle et une
variance unitaire.
b) La distance rectangulaire :
Utilisée en recherche opérationnelle, la distance rectangulaire de

type Manhattan ou «city-block» calcule la somme des différences
absolues entre les valeurs :
p
dAB = 
i =1
XiA −XiB ;
c) La distance de Mahalanobis :
Elle tient compte des corrélations entre les variables, c’est une
distance appropriée pour des variables corrélées.
d) La distance de Minkowski :
La distance de Minkowski est définie comme étant la r-ième

racine de la somme des différences absolues à la puissance r :
A. ELMARHOUM
p

r
dAB = r XiA −XiB
i =1
e) La distance de khi-deux :
Elle mesure les écarts entre des effectifs observés et des effectifs
théoriques, elle est à la base de l'analyse factorielle des
correspondances.
6.2.2.2. Mesures de distance définis sur les matrices logiques

(présence-absence).
Pour des données se présentant sous forme binaire (1 ou 0), on

utilise ce qu’on appelle les coefficients de coïncidence.
La ressemblance entre deux individus A et B est mesurée par le

nombre de présences à la fois chez les deux individus appelé
nombre de coïncidences positives, P, par le nombre d’absences à la
fois chez les deux individus appelé nombre de coïncidences
négatives, N, par le nombre de paires de présence chez l'un des
individus mais absence chez l'autre appelé nombre de non-
coïncidences, U, ou enfin par toute combinaison de ces 3 quantités.
plusieurs coefficients de coïncidence sont définis, certains

coefficients ne tiennent pas compte des coïncidences négatives N,
d’autres donnent des poids différents aux coïncidences P et N par
rapport à ceux accordés aux non-coïncidences U.
- Coefficient de Russel et Rao : P / (P+N+U)
A. ELMARHOUM
- Coefficient de Jaccard et Sneath : P / (P+U)
- Coefficient de Dice : 2P / (2P+U)
- Coefficient de Sokal et Sneath : P / (P+2U)
- Coefficient de Sokal et Michener : (P+N) / (P+N+U)
6.2.2.3. Mesures de distance définis sur les matrices nominales.
Dans le cas des variables nominales, les données sont souvent des
codes numériques servant d’étiquettes identifiant les différentes
modalités d’une variable nominale, pour mesurer les distances entre
individus, on doit transformer cette variable nominale en autant de
variables binaires qu'il y a de modalités pour la variable nominale,
et de procéder alors comme le cas d’une matrice logique.
6.2.2.4. Mesures de distance définis sur les matrices mixtes.
Pour les matrices mixtes, on utilise un indice appelé coefficient de

similitude définie par Gower 1971. Le principe consiste à taiter
chaque type de variable selon son échelle de mesure. Le coefficient
de similitude entre deux individus est la moyenne, pour les p
variables, de la valeur de la similitude pour chaque variable :
p
1
S= s i
p i =1
Les valeurs de similitude par variable sont calculées comme suit :

A. ELMARHOUM
a) Pour les variables binaires, si = 1 s’il y a coïncidence positive,
c’est à dire présence à la fois chez les deux individus, et si = 0
s’il y a coïncidence négatives, c’est à dire absence à la fois
chez les deux individus, ou s’il y a non-coïncidence.
b) Pour les variables qualitatives, ainsi que les variables

ordinales, si = 1 s’il y a coïncidence) et si = 0 quand il y a
non-coïncidence.
c) Pour les variables quantitatives, la similitude entre deux

individus A et B est calculée par :
XiA −XiB avec R l'écart maximal que peut prendre cette

si =1− i
Ri
variable Xi dans l'échantillon.
6.2.3. Choix d’un algorithme de classification et constitution des

groupes.
Pour la constitution des groupes, on distingue différents algorithmes

de classification :
monothétiques
 non hiérarchiques
Méthodes
polythétiques as cendantes(agglomératives)
  
hiérarchiques
  descendantes(divis ives)
A. ELMARHOUM
6.2.3.1. Méthodes monothétiques
Elles partent de l'ensemble des individus à classer et les divisent

successivement en sous-groupes en ne tenant compte que d'une
seule variable à la fois, celle qui permet de différencier le plus les
objets en deux groupes.
6.2.3.2. Méthodes polythétiques
Les méthodes polythétiques tiennent compte de toutes les variables

simultanément. Parmi ces méthodes, on distingue deux approches
possibles : les méthodes hiérarchiques et les méthodes non
hiérarchiques.
a) Les méthodes hiérarchiques :
Les méthodes hiérarchiques s’appliquent sur de petits échantillons

(n < 100), à chaque étape, les groupes sont fusionnés ou divisés
selon qu’il s’agit de méthodes hiérarchiques ascendantes
(agglomératives) ou descendantes (divisives).
Les méthodes hiérarchiques ascendantes ou agglomératives sont

les plus couramment utilisées, elles procèdent par agglomération.
On démarre avec une situation où chaque individu forme un groupe
à lui seul. Un premier groupe est obtenu en agglomérant les 2
individus les plus proches, c’est à dire pour lesquels la distance est
A. ELMARHOUM
la plus faible, puis, à chaque étape, un nouveau groupe est obtenu
par fusion des 2 groupes les plus semblables. Le processus de
regroupement se termine quand il aboutit à un groupe unique
contenant tous les individus.
Les méthodes hiérarchiques descendantes ou divisives procèdent

par décomposition. On démarre avec une situation où tous les
individus forment un seul groupe. On obtient une hiérarchie de
groupes en procédant par divisions successives: à chaque étape, 2
nouveaux groupes sont obtenus en divisant le groupe le plus
hétérogène. Le processus de division se termine lorsqu’on arrive à
une situation où chaque individu forme un groupe à lui seul.
Quelle que soit la méthode choisie, les diverses étapes du processus

peuvent être représentées graphiquement par un arbre de hiérarchie
appelé dendrogramme.
Les méthodes hiérarchiques ascendantes ou agglomératives sont les

plus couramment utilisées, selon la distance utilisée entre un objet
et un groupe, ou entre deux groupes on distingue 5 méthodes
hiérarchiques ascendantes.
A1. Méthode du plus proche voisin (chaînage simple, agrégation

suivant le saut minimum, single linkage method)
La distance entre deux groupes est définie comme étant la distance

séparant leurs membres les plus proches.
A. ELMARHOUM
A2. Méthode du voisin le plus éloigné (chaînage complet,
agrégation suivant le diamètre, complete linkage method)
La distance entre deux groupes est définie comme étant la distance

entre leurs membres les plus éloignés.
A3. Méthode de chaînage moyen (average linkage method)
La distance entre deux groupes est définie comme étant la valeur

moyenne des distances entre les éléments des deux groupes. On
distingue deux approches : on fait la moyenne des distances
calculées entre des individus provenant de groupes différents
(average linkage between groups method, distance moyenne entre
classes), ou bien on fait la moyenne des distances calculées entre
toutes les paires possibles d’individus appartenant aux 2 groupes
(average linkage within groups method, distance moyenne dans
classes).
A4. Méthode de centroïde
La distance entre deux groupes est égale à la distance séparant leur

centroïde (vecteur des moyennes des variables).
A5. Méthode de la variance minimum de Ward
La méthode vise, à chaque étape, de fusionner des groupes de façon

à minimiser la variance du nouveau groupe.
A. ELMARHOUM
b) Méthodes de classification non hiérarchiques :
Un nombre prédéterminé de groupes est fixé à l’avance par

l’utilisateur, ces groupes sont représentés par des individus types
choisis à priori, les autres individus sont affectés à ces groupes de
façon à minimiser la variance ou l’inertie à l’intérieur des groupes
et maximiser la variance ou l’inertie entre les groupes.
Les Méthodes de classification non hiérarchiques sont appropriée

pour de grands fichiers (n > 200). On distingue 4 méthodes non
hiérarchiques.
B1. Méthodes de réallocation (méthodes itératives)
Un objet affecté à un groupe donné lors d'une itération peut être

réaffecté à un autre groupe lors d'une étape ultérieure. La démarche
comporte 3 étapes :
- choix d'une configuration initiale d'individus constituant le noyau

de k groupes.
- allocation des autres individus aux groupes déjà formés selon le

critère de distance minimum.
A. ELMARHOUM
- réallocation des individus aux différents groupes pour optimiser
un certain critère. Chaque individu est déplacé d'un groupe à un
autre s’il améliore le critère choisi, sinon, l'individu ne bouge pas.
B2. Méthode de recherche de densité
Les groupes sont formés en recherchant les régions contenant des

concentrations relativement importantes de points.
B3. Méthodes directes
Elles forment simultanément des groupes d'individus et des groupes

de variables en minimisant la variance intra-groupes. Cette
méthode n'est applicable que sur des données de même nature.
B4. Méthodes de recouvrement
Ici un même individu peut être classé dans plusieurs groupes. Cette
analyse considère au départ la matrice des corrélations entre
individus plutôt qu'entre variables. Chaque facteur correspond à un
groupe. Comme un individu peut appartenir à plusieurs facteurs avec
des poids différents, l'interprétation des groupes est très difficile.
6.2.4. Interprétation des groupes.
Il s’agit de décrire la solution obtenue, pour cela on procède en

deux étapes :
6.2.4.1. Choix du nombre de groupes.

A. ELMARHOUM
On commence par fixer le nombre de groupes à retenir, c’est à dire
décider de la phase à laquelle l’algorithme de classification
hiérarchique doit s’arrêter. Pour cela on utilise le dendrogramme
qui visualise les groupes et le niveau auquel ils ont été formés, on
se base le plus souvent, pour fixer le nombre de groupes sur les
sauts dans les distances de fusion.
6.2.4.2. Description des groupes.
Le but est de définir le profil des individus composant les différents

groupes, pour cela on utilise les variables de classification pour
lesquelles on calcule certaines caractéristiques telle que la
moyenne, la médiane et l’écart type.
6.2.5. Validation des groupes.
Pour vérifier l’acceptabilité de la solution retenue, on peut étudier la

stabilité des résultats obtenus sur les mêmes données en utilisant
des méthodes différentes. Si on obtient des résultats similaires, il y
a de fortes chances pour que ces résultats représentent réellement la
structure hiérarchique existant dans les données. Quand les résultats
varient d'une méthode à l'autre, il est difficile de dire si ces
différences sont dues aux méthodes ou à l'absence de structure dans
les données. En général on choisira les résultats qui sont le plus
facilement interprétables et le plus cohérents avec les hypothèses
que l'on entretenait au départ sur la structure des données.
6.3. APPLICATION NUMERIQUE.

A. ELMARHOUM
10 salariés d’une entreprise sont caractérisés par deux variables : le

niveau d’instruction mesuré par le nombre d’années passées à l’école
et l’expérience mesurée par le nombre de mois dans l’entreprise.
Salarié Niveau d’instruction Expérience

1 12 205
2 18 182
3 12 72
4 12 101
5 8 75
6 16 3
7 12 94
8 15 5
9 16 45
10 12 2
- Quelques statistiques descriptives.

Statistiques descriptives
N Interv alle Minimum Maximum Moyenne Ecart type

Niv eau d'éducation
(nombre d'années 10 10 8 18 13,30 2,91
passées à l'école)
Expérience passée
10 203 2 205 78,40 71,17
(nombre de mois)
N valide (listwise) 10
l’importance des variables dans l’analyse typologique dépend de la

forte variabilité des individus en fonction des critères. On constate
que les 10 salariés sont caractérisés par une forte variabilité de
l’expérience passée (écart type = 71,17).
- Calcul des distances.

A. ELMARHOUM
Pour calculer la distance entre les individus, on utilise la

distance euclidienne définit par :
(X −XiB ) .
p
2
dAB = iA
i =1
Matrice de proximité : Carré de la distance Euclidienne (après

centrage et réduction des variables)
1 2 3 4 5 6 7 8 9 10
1
2 4,362
3 3,492 6,646
4 2,135 5,553 ,166
5 5,228 14,087 1,894 2,026
6 9,947 6,798 2,832 3,788 8,592
7 2,432 5,786 ,09554 ,009673 1,964 3,527
8 8,960 7,249 1,951 2,884 6,762 ,119 2,628
9 6,946 4,178 2,036 2,511 7,747 ,348 2,366 ,434
10 8,135 10,653 ,967 1,935 2,944 1,892 1,671 1,066 2,257
- Classification hiérarchique ascendante.
Les méthodes hiérarchiques ascendantes ou agglomérat ives

sont les plus couramment utilisées, elles procèdent par
agglomération.
A. ELMARHOUM
Phase 0 :
On démarre avec une situation où chaque individu forme un

groupe à lui seul. Ainsi on a les dix groupes suivants :
[1] ; [2] ; [3] ; [4] ; [5] ; [6] ; [7] ; [8] ; [9] ; [10]
Phase 1 :
Un premier groupe est obtenu en agglomérant les 2 individus les

plus proches, c’est à dire pour lesquels la distance est la plus
faible, il s’agit des individus 4 et 7 pour lesquels on trouve la
plus petite distance (0,009673). On a alors les 9 groupes
suivants :
[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ; [10]
Phase 2 :
On calcule la distance moyenne de chaque individu restant avec

le groupe [4 ;7]. Par exemple, la distance entre l’individu 1 et le
groupe [4 ;7] est de (2,135+2,432)/2 = 2,2835. la nouvelle
matrice des distances est donc :
1 2 3 4;7 5 6 8 9 10
1
2 4,362
3 3,492 6,646
4;7 2,2835 5,6695 ,13077
5 5,228 14,087 1,894 1,995
6 9,947 6,798 2,832 3,6575 8,592
8 8,960 7,249 1,951 2,756 6,762 ,119
9 6,946 4,178 2,036 2,4385 7,747 ,348 ,434
A. ELMARHOUM
10 8,135 10,653 ,967 1,803 2,944 1,892 1,066 2,257
Un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,119 entre l’individu 6 et
l’individu 8. On a alors les 8 groupes suivants :
[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ; [10]
Phase 3 :
On calcule de nouveau la distance moyenne de chaque groupe

restant avec le groupe [6 ;8]. la nouvelle matrice des distances
est donc :
1 2 3 4;7 5 6;8 9 10
1
2 4,362
3 3,492 6,646
4;7 2,2835 5,6695 ,13077
5 5,228 14,087 1,894 1,995
6;8 9,4535 7,0235 2,3915 3,20675 7,677
9 6,946 4,178 2,036 2,4385 7,747 ,391
10 8,135 10,653 ,967 1,803 2,944 1,479 2,257
semblables. La plus petite distance est 0,13077 entre l’individu 3
et le groupe [4 ;7]. On a alors les 7 groupes suivants :
[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]
Phase 4 :
A. ELMARHOUM
restant avec le groupe [3 ;4 ;7]. la nouvelle matrice des distances
est donc :
1 2 3;4;7 5 6;8 9 10
1
2 4,362
3;4;7 2,6863 5,995
5 5,228 14,087 1,9613
6;8 9,4535 7,0235 2,935 7,677
9 6,946 4,178 2,3043 7,747 ,391
10 8,135 10,653 1,5243 2,944 1,479 2,257
le groupe [6 ;8]. On a alors les 6 groupes suivants :
[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]
Phase 5 :

restant avec le groupe [6 ;8 ;9]. la nouvelle matrice des distances
est donc :
1 2 3;4;7 5 6;8;9 10
1
2 4,362
3;4;7 2,6863 5,995
5 5,228 14,087 1,9613
6;8;9 8,61767 6,075 2,7248 7,7003
10 8,135 10,653 1,5243 2,944 1,7383
A. ELMARHOUM
semblables. La plus petite distance est 1,5243 entre l’individu 10
et le groupe [3 ;4 ;7]. On a alors les 5 groupes suivants :
[1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]
Phase 6 :

restant avec le groupe [3 ;4 ;7 ;10]. la nouvelle matrice des
distances est donc :
1 2 3;4;7;10 5 6;8;9
1
2 4,362
3;4;7;10 4,0485 7,1595
5 5,228 14,087 2,207
6;8;9 8,61767 6,075 2,4782 7,7003
le groupe [3 ;4 ;7 ;10]. On a alors les 4 groupes suivants :
[1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]
Phase 7 :

restant avec le groupe [3 ;4 ;5;7 ;10]. la nouvelle matrice des
1 2 3;4;5;7;10 6;8;9
1
2 4,362
A. ELMARHOUM
3;4;5;7;10 4,2844 8,545
6;8;9 8,61767 6,075 3,5226
semblables. La plus petite distance est 3,5226 entre le
groupe[6 ;8 ;9] et le groupe [3 ;4 ;5 ;7 ;10]. On a alors les 3
groupes suivants :
[1] ; [2] ; [3;4;5;6;7;8;9;10]
Phase 8 :

restant avec le groupe [3;4;5;6;7;8;9;10]. la nouvelle matrice des
1 2 3;4;5;6;7;8;9;10
1
2 4,362
3;4;5;6;7;8;9;10 5,9094 7,61875
l’individu 2. On a alors les 2 groupes suivants :
[1;2] ; [3;4;5;6;7;8;9;10]
Phase 9 :

restant avec le groupe [1 ;2]. la nouvelle matrice des distances
est donc :
1;2 3;4;5;6;7;8;9;10
A. ELMARHOUM
1;2
3;4;5;6;7;8;9;10 6,764
Un nouveau groupe est obtenu par fusion des 2 groupes restant.
On a alors le groupe suivant :
[1;2;3;4;5;6;7;8;9;10]
- Choix du nombre de groupes.
On commence par fixer le nombre de groupes à retenir, c’est à dire

décider de la phase à laquelle l’algorithme de classification
hiérarchique doit s’arrêter. Pour cela on utilise le dendrogramme
qui visualise les groupes et le niveau auquel ils ont été formés, on
se base le plus souvent, pour fixer le nombre de groupes sur les
sauts dans les distances de fusion.
Le dendrogramme représente les neuf phases de la typologie en

indiquant à chaque fois la distance entre les groupes agglomérés, on
obtient :
Phases Agglomération Distance Solution résultante

1 [4] et [7] 0,00967 [1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ;
3 [10]
2 [6] et [8] 0,119 [1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ;
[10]
3 [3] et [4 ;7] 0,131 [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]
4 [9] et [6 ;8] 0,391 [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]
5 [10] et [3 ;4 ;7] 1,5243 [1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]
6 [5] et [3 ;4 ;7 ;10] 2,207 [1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]
7 [3; 4 ;5 ;7 ;10] et [6;8;9] 3,5226 [1] ; [2] ; [3;4;5;6;7;8;9;10]
8 [1] et [2] 4,362 [1;2] ; [3;4;5;6;7;8;9;10]
9 [1;2] et [3;4;5;6;7;8;9;10] 6,764 [1;2;3;4;5;6;7;8;9;10]
le saut dans les distances de fusion se trouve à la phase 5. la

distance d’agglomération passe de 0,391 à 1,5243. Avec une
solution à 6 groupes, les distances d’agglomération sont
A. ELMARHOUM
relativement homogènes et faibles. Les 6 groupes retenus par la
typologie sont donc : [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] et [10].
- Description des groupes.
Le but est de définir le profil des individus composant les différents

groupes, pour cela on utilise les variables de classification pour
lesquelles on calcule certaines caractéristiques telle que la
moyenne, la médiane et l’écart type.
Groupes Individus Niveau d’instruction Expérience passée

Moyenne Ecart type Moyenn Ecart
e type
1 1 12 - 205 -
2 2 18 - 182 -
3 3 ;4 ;7 12 0 89 12,3
4 5 8 - 75 -
5 6 ;8 ;9 15,67 0,47 17,67 19,34
6 10 12 - 2 -
On peut définir 6 groupes de salariés :
Groupe 1 :
Salariés à moyen niveau d’instruction et un niveau d’expérience

très élevé (salarié 1) ;
Groupe 2 :
Salariés à haut niveau d’instruction et un niveau d’expérience

très élevé (salarié 2).
Groupe 3 :
A. ELMARHOUM
Salariés à moyen niveau d’instruction et un niveau d’expérience

moyen (salariés 3 ; 4 et 7) ;
Groupe 4 :
Salariés à faible niveau d’instruction et un niveau d’expérience

moyen (salarié 5) ;
Groupe 5 :
Salariés à haut niveau d’instruction et un niveau d’expérience

faible (salariés 6 ; 8 et 9) ;
Groupe 6 :
Salariés à moyen niveau d’instruction et très faible niveau

d’expérience (salarié 10);
Les résultats obtenus ci-dessus peuvent être obtenus à l’aide du

logiciel SPSS. La procédure SPSS pour effectuer la
classification est la suivante :
- Analyse
Classification
Classification hiérarchique
- Dans Variables, sélectionner les variables de classification.
- Dans Statistiques, cocher chaînes des agrégations et Matrice des

distances. Si on connaît le nombre de groupes, on coche une seule
partition et on saisie le nombre de groupes (pour notre exemple on
saisit 6).
A. ELMARHOUM
- Dans Graphique, cocher arbre hiérarchique.
- Dans Méthode :
Dans méthode d’agrégation, sélectionner Distance moyenne
entre classes.
Dans mesure, sélectionner le type de distance, (dans notre
exemple, carré de la distance euclidienne).
Dans transformer les variables, sélectionner standardiser
centrer-réduire
- Dans Enregistrer, cocher, si on connaît le nombre de groupes, une

seule partition et on saisie le nombre de groupes (pour notre exemple
on saisit 6).
Les résultats de l’analyse sont :
Matrice de proximité : Carré de la distance Euclidienne (après

centrage et réduction des variables)
Il s’agit du carré de la distance entre les individus, on utilise la

distance euclidienne définit par :
(X −XiB ) .
p
2
dAB = iA
i =1
A. ELMARHOUM
Matri ce de proximité
Carré de la distance Euclidienne

1 2 3 4 5 6 7
1 4,362 3,492 2,135 5,228 9,95 2,432
2 4,362 6,646 5,553 14,087 6,80 5,786
3 3,492 6,646 ,166 1,894 2,83 9,554E-02
4 2,135 5,553 ,166 2,026 3,79 9,673E-03
5 5,228 14,087 1,894 2,026 8,59 1,964
6 9,947 6,798 2,832 3,788 8,592 3,527
7 2,432 5,786 9,554E-02 9,673E-03 1,964 3,53
8 8,960 7,249 1,951 2,884 6,762 ,119 2,628
9 6,946 4,178 2,036 2,511 7,747 ,348 2,366
10 8,135 10,653 ,967 1,935 2,944 1,89 1,671
Ceci est une matrice de dissimilarités
A. ELMARHOUM
Distance moyenne (entre classes)
Il s’agit de l’algorithme de classification hiérarchique qui visualise

les groupes et le niveau auquel ils ont été formés. Il représente les
phases de la typologie en indiquant à chaque fois la distance entre
les groupes agglomérés.
Chaîne des agrégations
Regroupement de Etape d'apparition de

classes la classe Etape
Etape Classe 1 Classe 2 Coeff icients Classe 1 Classe 2 suiv ante
1 4 7 9,673E-03 0 0 3
2 6 8 ,119 0 0 4
3 3 4 ,131 0 1 5
4 6 9 ,391 2 0 7
5 3 10 1,524 3 0 6
6 3 5 2,207 5 0 7
7 3 6 3,523 6 4 9
8 1 2 4,362 0 0 9
9 1 3 6,764 8 7 0
Dans une première étape, un premier groupe est obtenu en

agglomérant les 2 individus les plus proches, c’est à dire pour
lesquels la distance est la plus faible, il s’agit des individus 4 et 7
pour lesquels on trouve la plus petite distance (0,009673). On a
alors les 9 groupes suivants :
[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ; [10]
Dans une deuxième étape, un nouveau groupe est obtenu par fusion
des 2 groupes les plus semblables. La plus petite distance est 0,119
entre l’individu 6 et l’individu 8. On a alors les 8 groupes suivants :
A. ELMARHOUM
[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ; [10]
Dans une troisième étape, un nouveau groupe est obtenu par fusion
entre l’individu 3 et le groupe [4 ;7]. On a alors les 7 groupes
suivants :
[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]
Dans une quatrième étape, un nouveau groupe est obtenu par fusion
entre l’individu 9 et le groupe [6 ;8]. On a alors les 6 groupes
suivants :
[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]
Dans une cinquième étape, un nouveau groupe est obtenu par

fusion des 2 groupes les plus semblables. La plus petite distance est
1,524 entre l’individu 10 et le groupe [3 ;4 ;7]. On a alors les 5
groupes suivants :
[1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]
Dans une sixième étape, un nouveau groupe est obtenu par fusion
entre l’individu 5 et le groupe [3 ;4 ;7 ;10]. On a alors les 4 groupes
suivants :
[1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]
Dans une septième étape, un nouveau groupe est obtenu par fusion
entre le groupe[6 ;8 ;9] et le groupe [3 ;4 ;5 ;7 ;10]. On a alors les 3
groupes suivants :
A. ELMARHOUM
[1] ; [2] ; [3;4;5;6;7;8;9;10]
Dans une huitième étape, un nouveau groupe est obtenu par fusion
entre l’individu 1 et l’individu 2. On a alors les 2 groupes suivants :
[1;2] ; [3;4;5;6;7;8;9;10]
Dans une neuvième étape, un nouveau groupe est obtenu par fusion
des 2 groupes restant. On a alors le groupe suivant :
[1;2;3;4;5;6;7;8;9;10]
Les groupes et leur composition.
On a choisit une solution à 6 groupes. Les 6 groupes retenus par la

typologie sont donc : [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] et [10].
Appartenance à la classe
Observ ation 6 classes

1:Case 1 1
2:Case 2 2
3:Case 3 3
4:Case 4 3
5:Case 5 4
6:Case 6 5
7:Case 7 3
8:Case 8 5
9:Case 9 5
10:Case 10 6
A. ELMARHOUM

Chapitre 6

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 6

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données.

TECHNIQUES D’ENQUETES ET ANALYSE DES

Pr. Adil ELMARHOUM

CHAPITRE 6. ANALYSE TYPOLOGIQUE

L'analyse typologique a pour but de décomposer un groupe

6.2. LES ETAPES D'UNE ANALYSE TYPOLOGIQUE.

La typologie est composée des étapes suivantes :

6.2.1. Choix des critères de classification.

il faut choisir les variables qui vont caractériser les individus, ce

Dans certaines situations, on peut réaliser une analyse en

6.2.2. Mesures de distance.

Il s'agit de mesurer le degré de ressemblance entre individus ou

Les données peuvent se présenter sous la forme d’une matrice qui

- matrice d'occurrence, composée de fréquences ou nombre

- matrice métrique, les variables sont métriques et les unités de

- matrice nominale, composée de variables nominales.

- matrice mixte, composée de plusieurs types de variables.

Selon le type de la matrice de données, on distingue trois grands

6.2.2.1. Mesures de distance définis sur les matrices

Pour ce type de matrice de données, on distingue cinq mesures

La distance euclidienne entre deux individus A et B décrits par un

Comme la distance euclidienne dépend de l'unité de mesure choisie

Utilisée en recherche opérationnelle, la distance rectangulaire de

La distance de Minkowski est définie comme étant la r-ième

6.2.2.2. Mesures de distance définis sur les matrices logiques

Pour des données se présentant sous forme binaire (1 ou 0), on

La ressemblance entre deux individus A et B est mesurée par le

plusieurs coefficients de coïncidence sont définis, certains

- Coefficient de Russel et Rao : P / (P+N+U)

- Coefficient de Dice : 2P / (2P+U)

- Coefficient de Sokal et Sneath : P / (P+2U)

- Coefficient de Sokal et Michener : (P+N) / (P+N+U)

6.2.2.3. Mesures de distance définis sur les matrices nominales.

6.2.2.4. Mesures de distance définis sur les matrices mixtes.

Pour les matrices mixtes, on utilise un indice appelé coefficient de

Les valeurs de similitude par variable sont calculées comme suit :

b) Pour les variables qualitatives, ainsi que les variables

c) Pour les variables quantitatives, la similitude entre deux

XiA −XiB avec R l'écart maximal que peut prendre cette

6.2.3. Choix d’un algorithme de classification et constitution des

Pour la constitution des groupes, on distingue différents algorithmes

Elles partent de l'ensemble des individus à classer et les divisent

6.2.3.2. Méthodes polythétiques

Les méthodes polythétiques tiennent compte de toutes les variables

a) Les méthodes hiérarchiques :

Les méthodes hiérarchiques s’appliquent sur de petits échantillons

Les méthodes hiérarchiques ascendantes ou agglomératives sont

Les méthodes hiérarchiques descendantes ou divisives procèdent

Quelle que soit la méthode choisie, les diverses étapes du processus

Les méthodes hiérarchiques ascendantes ou agglomératives sont les

A1. Méthode du plus proche voisin (chaînage simple, agrégation

La distance entre deux groupes est définie comme étant la distance

La distance entre deux groupes est définie comme étant la distance

A3. Méthode de chaînage moyen (average linkage method)

La distance entre deux groupes est définie comme étant la valeur

A4. Méthode de centroïde

La distance entre deux groupes est égale à la distance séparant leur

A5. Méthode de la variance minimum de Ward

La méthode vise, à chaque étape, de fusionner des groupes de façon

Un nombre prédéterminé de groupes est fixé à l’avance par

Les Méthodes de classification non hiérarchiques sont appropriée

B1. Méthodes de réallocation (méthodes itératives)

Un objet affecté à un groupe donné lors d'une itération peut être