Vous êtes sur la page 1sur 62

Université Chouaïb Doukkali

Ecole Nationale de Commerce et


de Gestion (ENCG) -El jadida

Analyse des données


3ème année -Semestre 5

Professeur : Ayad El BAZ

Année Universitaire 2018-2019


Méthodes de classification

• Classification :Concept et définition


Les méthodes de classifications ce sont des
techniques permettant de regrouper des
individus ( des entreprises , des pays , des
ménages, des produits , des clients , des patients ,
etc.) en classes homogènes .
Ces techniques peuvent être utilisées également
pour classer les variables .
Méthodes de classification

• Ces méthodes sont descriptives et elles


peuvent être utilisées pour compléter les
analyses factorielles ( ACP en cas de variables
quantitatives , AFC et l’ ACM en cas de variables
qualitatives ) .
• Ces outils s’utilisent donc pour classer des
individus qui ont fait l’objet de la description des
variables aussi bien quantitatives que
qualitatives .
Méthodes de classification

• La classification est une branche de l'analyse


des données qui a donné lieu à des publications
nombreuses. Elles sont souvent adoptées en
matière d’ exploration ( ce sont donc des
méthodes exploratoires)
Méthodes de classification

• Elles permettent ainsi de découvrir des


groupes naturels au sein d’une population .
• ces techniques ont été d’abord développées
en zoologie et en botanique afin de classer
les animaux et les plantes selon un ensemble
de caractéristiques jugées importantes (
Everitt et al .,2011). Aujourd’hui, l’application
de ces outils touche plusieurs domaines :
médecine , biologie , économie , gestion , etc
.
Méthodes de classification

En marketing , ces techniques s’utilisent,


notamment, en matière de segmentation des
marchés( lors de la distinction des différents
segments de marchés en fonction des attentes
des clients afin de choisir des cibles ).
Méthodes de classification

• La Démarche des méthodes de classification


1-Justification de la méthode ( objectif =
classification des individus ; taille de l’échantillon
relativement réduit ( inférieur à 200))
2- Détermination des matrices des distances à partir
des coordonnées des points individus tout en
choisissant un critère d’agrégation ( saut minimal ,
saut maximal ,etc. ) .
Méthodes de classification
3-formation des groupes (affectation de chaque
individu au groupe dont il est le plus proche).
4-Interprétation des résultats , par la description
des groupes au moyen de leurs caractéristiques.
4-Validation des résultats, afin vérifier la qualité de
la classification obtenue ( tout en utilisant, par
exemple, d’autres méthodes ) .
Méthodes de classification

• Pour construire des groupes homogènes


d’individus ou de variables , il convient d’utiliser
des distances:
- distance euclidienne pour le cas des variables
quantitatives .
- -distance de khi-deux pour le cas des variables
qualitatives (des variables issues d’une analyse de
correspondance( AFC ou ACM ) .
Méthodes de classification

• Pour le cas de l’AFC , nous pouvons calculer la


distance de khi-deux directement à partir du
tableau de contingence .
• nous distinguons généralement entre deux
types de classification:
Méthodes de classification

classification hiérarchique et classification non-


hiérarchique
-Il convient de noter que les deux types de
classification ne s’utilisent pas dans le même
contexte :
-les techniques de classification font appel des
démarches algorithmiques.
Méthodes de classification

• I- Classification hiérarchique
Classification
hiérarchique

Classification Classification
ascendante descendante
Méthodes de classification

• L’algorithme de classification hiérarchique


ascendante
on commence par calculer les distances entre
toutes les classes ( plus cette distance est petite,
plus les classes sont similaires).
• Puis, on fusionne les deux éléments( individus )
les plus proches et on respecte les étapes de
l’algorithme de la CHA pour ne constituer qu’une
seule classe à la fin du processus .
Méthodes de classification

a- La classification descendante( méthode


divisive ) : consiste à considérer l’ensemble des
observations( individus ) rassemblée au sein d’une
même classe , puis on divise en deux classes ,
puis en trois , quatre , jusqu’à ce qu’on obtiendra
un nombre maximum de classes .
C’est une classification qui se fonde sur un
algorithme descendant qui procédé par
dichotomies successives de l’ensemble des
individus .
Méthodes de classification

Nb: La classification descendante ( plus précisément


la segmentation) est au cœur de la démarche
marketing .
Méthodes de classification

• b- La méthode ascendante ( ou agglomérative ) :


elle consiste à construire une suites de partitions
de classes : n classes , n-1 classes , n-2 classes
et ainsi de suite jusqu’ à ce qu’on obtiendra une
seule classe. En d’autres termes , à partir n
individus , on construit de petites classes et à
partir de celles –ci on construit des classes de
plus en plus grandes .
Méthodes de classification

• Cette méthode s’appuie sur un algorithme


ascendant qui procédé à la construction des
classes par agglomération successives des
individus deux à deux .
• C’ est la méthode la plus couramment utilisée .
Méthodes de classification

• Le processus de la constitution des classes de


la CHA ( l’algorithme de la CHA )
• Dans un premier temps , chaque individu est
considéré comme une classe à part entière.
Nous avons donc, à ce niveau du processus,
autant de classes que d’individus (n classes
pour n individus).
Méthodes de classification

• à la fin de cette première étape, une classe


disparaitra (il restera donc n −1 classes).
• On recalcule, à nouveau, toutes les distances
entre les classes , pour fusionner deux nouvelles
classes, selon le même principe que
précédemment . Cette fusion est liée aux critères
d’agrégation adoptés . selon le critère du saut
minimal on agrège les classes dont les distances
sont les plus petites . Pour le critère de Ward , il
convient de fusionner les classes dont la perte
d’inertie interclasses est la plus faible ).
Méthodes de classification

• A la fin de la deuxième étape, nous


obtiendrons n−2 classes. Ce processus
continue jusqu’à ce qu’il ne restera plus
qu’une seule classe. En d’autres termes,
toutes les classes finissent, en fin
d’algorithme, par la constitution d’une seule
classe.
Méthodes de classification

• Distance ultramétrique
• Une distance est une application qui vérifie les
propriétés suivantes
• - d(x,y)= 0 ssi x=y
• -d(x,y) = d(y,x)
• - d(x,y)<ou = d(x,z) +d(y,z)
• cette distance est dite ultramétrique si elle
vérifie en plus la condition suivante: d(x,y) < ou =
max ( d(x,z),d(y,z) ).
Méthodes de classification

• Soit I =( 1,2,3,4,5) . Cet ensemble est muni


d’une distance ultramétrique .les distances
entre les différents éléments sont résumées
dans la matrice suivante :
1 2 3 4 5
1 0

2 9 0

3 1 9 0

4 4 9 4 0

5 9 2 9 9 0
Méthodes de classification

• la méthode de Ward: elle représente l’une des


méthodes les plus adoptées lors de la CHA
• Pour dépasser les limites des méthodes de CHA
qui se fondent sur le saut minimal , Ward a
utilisé un autre critère de classification qui
repose sur la décomposition de la variance.
Une variance comporte 2 éléments : une partie
qui explique les déférences entre les classes
(appelée variance inter classe ou expliquée) et
une autre qui relate les déférences dans les
groupes (variance intra classe ou résiduelle).
Méthodes de classification

• Selon le critère de Ward , on regroupe les


classes dont la réunion provoque la perte
d’inertie inter classes la plus faible. En d’autre
termes , on reteint, parmi les partitions initiales
, celle qui est dotée de la plus grande inertie
inter classes .
Méthodes de classification

• La perte d’inertie inter classes ( notée P) que


provoque la réunion quelconques de deux
classes A et B est donnée par la relation
suivante :

m A  mB
P  d (g A, gB )
2

mA  m B
Méthodes de classification

• Où mA et mB représentent les poids


respectivement des classes a et b
• g A et g B représentent les centres de
gravités des deux classes .
• Exercice d’application ( voir les données de la
matrice des distances ) :
m A  mB  mC  mD  1
• on vous donne :
• Les points sont assimilés à leurs centres de
gravités : A = g A B= g B gC  C
• D  gD
Méthodes de classification

d 2 ( A, B)  d 2 ( g A , g B )
• Donc
m A  mB 1 1
P  d ( A, B) 
2
188  94
mA  mB 11
Méthodes de classification

• Matrice des distances


A B C D

A 0

B 188 0

C 36 196 0

D 148 220 260 0


Méthodes de classification

• Calcul des pertes d’inerties .

ma  mb 11
P  d ( g a , gb ) 
2
 188  94
ma  mb 11

• On obtient le tableau des pertes d’inertie inter


classes suivant :
Méthodes de classification

• tableau des pertes d’inertie inter classes


A B C D
A 0
B 94 0
C 18 98 0
D 74 110 130 0

D’après le tableau ci-dessus , la perte d’inertie


P( A, C) est la plus faible . on agrège donc A et
C en un élément E (de masse m(E) = m( A)+
m(C) =2).
Méthodes de classification

• Pour déterminer la distance entre un nouvel


élément E (regroupant A et B) et un élément l,
on utilise la formule suivante .
1 m  mB 2
d 2 ( g E , gl )  ((m A  d 2 ( g A , g l )  mB d 2 ( g B , g l )  A d ( g A , g B ))
m A  mB mC  mC
• Par utilisation de cette formule et celle de la
perte d’inertie , on détermine les tableaux des
distances et les tableaux des perte d’inertie inter
classes .
Méthodes de classification

• Tableau des distances


B D E

B 0
D 220 0
E 183 195 0

Tableau des pertes d’inertie


B D E
B 0
D 110 0
E 122 130 0
• d’après le tableau des pertes d’inertie , il
convient d’ agréger D et B ( F= ( D,E) ) du fait
qu’ils ont la perte d’inertie la plus faible . .
• on obtient
E F

Poids 2 2

• D( E, F) = 134 et P (E , F) = 134
• On construit l ’arbre hiérarchique .
Méthodes de classification

• Application sous SPSS . Cas des échanges


extérieurs( voir base de données)
- toutes les variables sont quantitatives
- le nombre d’individus est de 23
TAF
1- justifier l’adoption de la CH
2-en optant pour une CHA( fondée sur la
méthode de Ward), déterminer le nombre
optimal des classes
3-préciser les composantes de chacune des
classes retenues .
Méthodes de classification

1_Justification de la CHA
- D’ après le descriptif de ce cas , on déduit que
son objectif est de faire un regroupement des
pays entretenant des relations commerciales
avec le Maroc . En plus ,le nombre d’individus
est de 23 (inférieur à 200 ). Ceci justifie
l’adoption de la CH.
Méthodes de classification

• 2- On optant pour une CHA, déterminons le


nombre optimal des classes homogènes .
• Pour ce faire, sous SPSS, il convient de
respecter les étapes suivantes :
• Étape 1: analyse – classification-classification
hiérarchique( voir ce qui suit )
Méthodes de classification
Méthodes de classification

• L’étape 2: faire glisser les variables et les pays


( observations )
(Voir ce qui suit )
Méthodes de classification
Méthodes de classification

• Choisir
• a -méthode :
-choisir méthode de Ward
-intervalle :carré de la distance euclidienne
-standardiser : valeurs centrées réduites ( selon le
cas )
(voir ce qui suit)
Méthodes de classification
Méthodes de classification

• Choisir
• b –diagramme :
• cocher
-arbre hiérarchique ( dendrogramme )
-toutes les classes
-verticale
(voir ce qui suit )
Méthodes de classification
Méthodes de classification

• Choisir
• b –statistique :
• cocher
-chaine d’agrégation
-aucun
(Voir ce qui suit )
Méthodes de classification
Méthodes de classification

• Cliquer sur poursuivre , puis OK


• On obtient l’arbre hiérarchique suivante :
Méthodes de classification

2 classes

Classe: ( 15,20,………………………………………,12,23) 1

3 classes

Classe: ( 15,20,………………………,12) 23
1
2
Méthodes de classification

• Pour la classification hiérarchique ascendante


(CHA) , la lecture de l’arbre se fait de la gauche
vers la droite .
• En coupant cet arbre au niveau 5 de l’axe des
ordonnées (trait en rouge), on retient 3 classes
homogènes :
• NB: Si on coupe cet arbre au niveau 15 (trait en
bleu ) , on ne peut retenir que deux classes
homogènes .
Méthodes de classification

• Après avoir déterminé le nombre optimal des


classes homogènes( N=3) , il convient de
préciser les composantes de chacune de ces 3
classes
3-determination des composantes des classes
• en utilisant SPPS , il convient de suivre les
étapes suivantes :
• Classification hiérarchique
• Choisir Statistiques
Méthodes de classification

• Cocher une seule solution


• Nombre de classes : fixer le nombre de classes
déterminé (pour notre cas N=3 )
• Puis poursuivre
• Choisir enregistrer
• Cocher une seule solution
• Nombre de classes : fixer le nombre de classes
retenu ( pour notre cas ce nombre est de 3 )
• Puis poursuivre
• On obtient le résultat suivant
Méthodes de classification
Tableau 2: Appartenance à la classe
Observation 3 classes
1:France 1
2:Espagne 2
3:Emirat_Uni 3
4:Chine 3
5:Kowait 3
6:Belgique 3
7:GB 3
8:Saoudi_Arab 3
9:Allemagne 3
10:USA 3
11:Pays_Bas 3
12:Italie 3
13:Suede 3
14:Tunisie 3
15:Finlande 3
16:Canada 3
17:Portugal 3
18:Autriche 3
19:Japon 3
20:Irlande 3
21:Norvege 3
22:Danemark 3
23:AUTRES 2
Méthodes de classification

• Commentaire du tableau 2
Les résultats du tableau 2 révèlent que
La classe 1 est composée de la France
La classe 2 est composée de l’Espagne et autres
La classe 3 est composée des pays suivants :
Emirates Arabes Unies, Chine, Kowait, Belgique,
GB, Saoudi-Arab, Allemagne, USA, Pays-Bas,
Italie, Suède, Tunisie, Finlande, Canada,
Portugal, Autriche, Japon, Irlande, Norvege,
Danemark.
Méthodes de classification

• Interprétation des classes


• En se basant sur les données de l ’économie
marocaine , on peut conclure que les classes 1 et
2 contiennent des pays entretenant de fortes
relations commerciales avec le Maroc ( en termes
des RME, des recettes de voyages, etc ) . Tandis
que la classe 3 contient des pays entretenant de
faibles relations commerciales avec le Maroc ( en
termes des RME, des recettes de voyages, etc ) .
Méthodes de classification ( dendrogramme)

• Application 2: ( CHA pour une enseigne de


grande distribution )
• Celle- ci cherche à réaliser une enquête sur
les habitudes alimentaires en Europe afin
d’adapter sa politique d’achat et de
référencement . Les données concernent 25
pays et portent sur les indices globaux de
consommation de 9 catégories de produits
alimentaires( voir fichier SPSS) : viande
blanche , œuf , lait , poisson , céréale ,
féculents , oléagineux et légumes .
Méthodes de classification ( dendrogramme)

TAF
1-Quelle est l’utilité de l’analyse de classification
dans ce cas?
2-quelle méthode de classification recommandez
vous ?
3- Réaliser une classification ( CHA) et interpréter
les résultats obtenus .
Méthodes de classification ( dendrogramme)

1- Utilité de la classification hiérarchique (CH)


• Cette méthode nous permet de réduire le
nombre d’observation en les regroupant en
des classes homogènes . Ceci permet à
l’enseigne d’optimiser sa politique d’achat et
de structurer son département d’achat.
2- il est recommander d’utiliser une CHA qui se
base sur la méthode de Ward du fait qu’on est
en présence des données quantitatives et que
le nombre d’individus = 25< 200.
Méthodes de classification ( dendrogramme)

3-Réalisation de la CHA
Pour ce faire, nous procédons comme suit :
A- détermination du nombre de calasses
B- précision des composantes des classes
C- Interprétation des résultats
Avec utilisation du logiciel SPSS , on obtient
l’arbre hiérarchique suivante
Méthodes de classification ( dendrogramme)

Deux classes
à retenir
Méthodes de classification ( dendrogramme)

A-Détermination du nombre de classes


• En coupant l’arbre hiérarchique au niveau 10
,nous pouvons retenir deux classes
homogènes .
B-Précision des composantes des classes
• pour préciser les composantes de chacune des
deux classes retenues , on se réfère au
tableau 3 suivant (fourni par SPSS) :
Méthodes de classification ( dendrogramme)
Tableau 3 : Appartenance à la classe
Observation 2 classes
1:Bulgaria 1
2:Yugoslavia 1
3:Romania 1
4:Russian Federation 1
5:Albania 1
6:Greece 1
7:Hungary 1
8:Italy 1
9:Poland 1
10:Czech Republic 1
11:Spain 1
12:France 2
13:Liechtenstein 2
14:Portugal 1
15:Belgium 2
16:Iceland 2
17:Switzerland 2
18:Ukraine 1
19:United Kingdom 2
20:Ireland 2
21:Norway 2
22:Netherlands 2
23:Denmark 2
24:Sweden 2
25:Germany 2
Méthodes de classification ( dendrogramme)

• Commentaire du tableau 3 : le tableau 3 montre


que :
• La première classe est composée de: Danemark ,
Suède , Norvège , Islande , France , Belgique,
royaume –uni, suisse, Irlande, pays bas ,
Allemagne , Liechtenstein .
• La deuxième classe est composée de :
Bulgarie, Yougoslavie, Roumanie ,Espagne, Portugal
, Ukraine , Pologne, république tchèque, Hongrie,
Grèce, Italie, Russie, Albanie .
Méthodes de classification ( dendrogramme)

C-Interprétation des résultats obtenus


• Au vu de ces résultats et en nous basant sur
l’historique de l’UE , il nous parait que cette
classification est cohérente du fait que la
première classe est composée de pays
développés et qui font partie des premiers
pays de l’UE .
• Tandis que la deuxième classe , exception de
l’Italie , est composé de pays ayant adhéré
plus tardivement à l’EU ou hors UE .

Vous aimerez peut-être aussi