1
Walid Ayadi
2
Analyse factorielle
- Projection du nuage de points sur un espace de dimension
inférieure pour obtenir une visualisation de l’ensemble des liaisons
entre variables tout en minimisant la perte d’information
Classification
- Trouver dans l’espace de travail des groupes homogènes
d’individus ou de variables
Détection d’associations entre des objets
5
QU’EST CE QUE LA CLASSIFICATION?
Regrouper des objets en groupes, ou classes, ou familles,
ou segments, ou clusters, de sorte que :
- 2 objets d’un même groupe se ressemblent le + possible
- 2 objets de groupes distincts diffèrent le + possible
Méthode descriptive :
- pas de variable cible privilégiée
- décrire de façon simple une réalité complexe en la
résumant
7
LES DIFFÉRENTES MÉTHODES
Méthodes de partitionnement
- k-means et nuées dynamiques, k-modes, k-prototypes, k-
représentants (k-medoids)
- réseaux de Kohonen
Méthodes hiérarchiques
- C-means flous 8
Méthodes mixtes
APPLICATIONS DE LA CLASSIFICATION
Utilisation pour :
- les ciblages des actions commerciales
- l’évaluation du potentiel commercial
- l’affectation des clients aux différents types de commerciaux10
MÉTHODES DE
PARTITIONNEMENT
K-MEANS
11
MÉTHODE DE PARTITIONNEMENT K-MEANS
Algorithme K-moyennes
13
INERTIE ET QUALITÉ D’UNE CLASSIFICATION
14
ILLUSTRATION DE K-MEANS
Soit le tableau 1 de sept individus
caractérisés par 2 variables. On
souhaite construire deux groupes
homogènes à partir de ces
individus.
On propose de commencer la
construction à partir des deux Tableau 1
groupes du tableau 2.
Continuer la construction des
groupes en utilisant la distance
euclidienne pour mesurer la
similarité entre individus. Tableau 2
16
ILLUSTRATION DE K-MEANS
17
2 groupes stables
MESURES DE QUALITÉ D’UNE CLASSIFICATION
R² = proportion de la variance expliquée par les classes
▪ Rapport IR / ITOT
▪ Etre le plus proche possible de 1 sans avoir trop de
classes
▪ S’arrêter après le dernier saut important
18
MESURES DE QUALITÉ D’UNE CLASSIFICATION
Pseudo F = mesure la séparation entre toutes les
classes
▪ Rechercher une grande valeur
▪ Avec n = nb d’observations et c = nb de classes
▪ On a pseudo F =
19
MESURES DE QUALITÉ D’UNE CLASSIFICATION
Question 1 :
20
MESURES DE QUALITÉ D’UNE CLASSIFICATION
Evalutation d’un clustering avec K-means sur des données contenant la
variable de classification : matrice de confusion taux de classification
Matrice de confusion :
Exemple : clusters 1 2
22
ETUDE DE CAS K-MEANS
23
ETUDE DE CAS K-MEANS
25
MÉTHODE DE PARTITIONNEMENT K-MEANS
Principaux inconvénients :
- Le choix de k est subjectif dans le cas où le nombre de
classes est inconnu au sein de l’échantillon.
- L'algorithme du k-means ne trouve pas nécessairement la
configuration la plus optimal correspondant à la fonction
objective minimale.
- Les résultats de l'algorithme du k-means sont sensibles à
l'initialisation aléatoires des centres.
26
MÉTHODE
HIÉRARCHIQUE
ASCENDANTE
27
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Algorithme classification hiérarchique ascendante
Début
1. les classes initiales sont les observations
2. on calcule les distances entre classes
3. les 2 classes les plus proches sont fusionnées et
remplacées par une seule
4. on reprend en 2) jusqu’à n’avoir plus qu’une seule classe,
qui contient toutes les observations
Fin
28
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Résultat sous forme d’un arbre appelé dendrogramme :
Dendrogramme
29
MÉTHODE HIÉRARCHIQUE ASCENDANTE
30
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Stratégie d’agrégation :
✓ Stratégie du saut minimum ou single linkage (la
distance entre parties est la plus petite distance
entre éléments des deux parties):
31
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Stratégie d’agrégation :
✓ Stratégie du saut maximum ou du diamètre ou
complete linkage (la distance entre parties est la
plus grande distance entre éléments des deux
parties):
32
MÉTHODE HIÉRARCHIQUE ASCENDANTE
✓ La méthode du single linkage occasionne des problème de
chaînage : Très souvent, en effet, on se retrouve avec un
groupe démesurément gros et plusieurs petits groupes
satellites.
Chaînage
34
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Stratégie d’agrégation :
✓ Méthode de Ward :
• Initialisation : 1 classe = 1 individu Inertie inter = 1
• On agrège à chaque itération les classes dont l'agrégation
fait perdre le moins d'inertie interclasse.
Stratégie d’agrégation :
✓ Méthode de Ward :
Regroupe les objets de faible poids et évite l’effet de chaîne
Regroupe des classes ayant des centres de gravité proches
36
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Choix du nombre de classes:
On décidera de retenir la partition qui semble la meilleure,
généralement :
37
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Semi-partial R-squared (SPRSQ) = mesure la perte
d’inertie interclasse (ou de distance) provoquée en
regroupant 2 classes. Le but étant d’avoir une inertie
interclasse maximum, on recherche un faible SPRSQ suivi
d’un fort SPRSQ à l’agrégation suivante : un pic pour k
classes et un creux pour k+1 classes indique une bonne
classification en k+1 classes.
38
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Question 4 :
39
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Résultat sous forme d’un dendrogramme :
- le niveau où l’on coupe l’arbre détermine le nb de classes
- la hauteur d’une branche est proportionnelle à la perte
d’inertie interclasse
40
MÉTHODE HIÉRARCHIQUE ASCENDANTE
EXEMPLE
On s'intéresse au profil de 18 basketteurs de 14 ans. Ils ont passé
un certain nombre de tests relatifs aux qualités physiques
requises pour la pratique de cette discipline.
TAI : taille en cm
VIT : vitesse sur 30 m (en secondes)
DET : détente verticale en cm : sauter le plus haut possible
PAS : passe en mètres : lancer un ballon de basket le plus loin
possible
LEG : endurance: test Le Luc Léger
STA : adresse statique, en nombre de paniers.
42
MÉTHODE HIÉRARCHIQUE ASCENDANTE
E XEMPLE
Etape 1 : matrice des distances euclidiennes entre individus
………….44
EXEMPLE
Résultat final : les classes sont ici numérotées de C1 à C35
47
ETUDE DE CAS ALGORITHME HIÉRARCHIQUE
ASCENDANTE
Clustering hiérarchique :
48
ANALYSE EN COMPOSANTES
PRINCIPALES
49
50
51
INERTIE - INFORMATION
52
Objectif de l’ACP :
53
Objectif de l’ACP :
Lorsqu’il n’y a que deux dimensions (largeur et longueur par
exemple), il est facile de représenter les données sur un plan
54
Mais au delà de 3 dimensions, il est impossible de représenter les
données sur un plan ou même de les visualiser mentalement.
Objectif de l’ACP :
• Représenter en 2 ou 3 dimensions l’observation de p ≥3
variables.
• Réduire la dimension de manière pertinente : la réduction du
nombre de variables fait perdre de l’information. Comment conserver
l’information essentielle du jeu de données ?
Exemple introductif : sur les effets de la réduction de la
dimension...
Deux objets tridimentionnels (3 dimensions donc 3 variables) ont été
représentés de diverses manières sur nos transparents (2 dimensions
donc 2 variables) :
55
Objectif de l’ACP :
Exemple introductif : sur les effets de la réduction de la dimension...
56
Objectif de l’ACP :
Exemple introductif : sur les effets de la réduction de la dimension...
57
Objectif de l’ACP :
Exemple introductif : sur les effets de la réduction de la dimension...
58
Objectif de l’ACP :
59
Objectif de l’ACP :
Exemple 1 :
Données : plusieurs modèles de voitures caractérisés par des
variables (puissance, vitesse, longueur, hauteur,…)
NOMS PUISS CYLI CoupleMaxi LONG LARG HAUT COFFRE RESE POIDS VITE CONS
ALF 147 1,9 JTD Distinctive 115 1910 28 4,17 1,73 1,44 280 60 1270 191 5,8
ALF 166 2,5 V6 24V Progression 188 2492 22,5 4,72 1,81 1,42 490 72 1490 225 11,9
ASTMAR DB7 Volante 420 5935 55 4,66 1,83 1,26 150 89 1875 265 14
AUD A4 3,0 Quattro Pack 220 2976 30,6 4,55 1,77 1,43 445 66 1515 243 10,5
AUD A8 S8 Pack Avus 360 4172 43,9 5,03 1,88 1,44 525 90 1750 250 14
AUD TT Roadster 1,8 T225 Quattro 225 1781 28,5 4,04 1,76 1,34
270 55 1395 243 9,2
AUDIA4 Cabriolet 2,4 170 2393 23,4 4,57 1,78 1,39 315 70 1600 224 9,7
BEN Continental T 426 6750 88,2 5,22 1,95 1,45 350 100 2450 245 18,7
BMW 316i 115 1796 17,8 4,47 1,74 1,41 440 63 1310 206 7,1
BMW X5 3,0d Pack Luxe 183 2926 41,8 4,67 1,87 1,71 465 93 2085 200 9,7
BMW Z8 400 4941 51 4,4 1,83 1,32 203 73 1585 250 14,5
CAD Seville STS 305 4565 40,8 4,99 1,9 1,43 445 70 1857 241 14,1
CHR Grand Voyager 2,5 CRD Lim ited 140 2500 31,8 5,09 2 1,75 75 580
2000 185 7,7
CHR PT Cruiser 2,0 Classic 140 1995 19 4,29 1,7 1,6 520 57 1412 170 7,8
CIT Berlingo 1,6i 16V SX 110 1587 15,3 4,11 1,72 1,8 664 55 1252 172 7,4
CIT C3 1,4 HDI 70 ch SXPack Clim 70 1398 15,3 3,85 1,67 1,52 305 45 1022 165 4,2
CIT Picasso 1,6i SX 90 1587 14 4,28 1,75 1,64 515 55 1240 168 7,8
CIT Saxo 1,1i Bic 2 60 1124 9,1 3,72 1,59 1,37 280 45 805 162 6,7
CIT Xsara 2,0 Hdi 110 ch Exclusive 110 1997 26 4,19 1,7 4081,4 54 1210 191 5,2
DAE Leganza 2,0 CDX 133 1998 18,8 4,67 1,78 1,44 560 65 1433 206 9,2
DAI Sirion 1,3x 102 1298 12,2 3,67 1,59 1,45 235 40 850 180 5,7
FIA Multipla JTD 115 ELX 115 1910 20,7 3,99 1,87 1,67 430 63 1370 176 6,4
FIA Seicento S 55 1108 8,9 3,32 1,51 1,44 170 35 750 150 5,8
FIA Stilo 1,9 JTD 80 ch Active 80 1910 20 4,25 1,76 1,52 335 58 1305 170 5,5
FOR Fiesta 1,4 TDCi Ghia 68 1398 16,3 3,92 1,68 1,42 284 45 1065 164 4,3
FOR Focus ST 170 172 1989 20 4,17 1,7 1,43 350 55 1283 216 9,1
FOR Ka 1,3 Original 60 1299 10,7 3,62 1,63 1,37 185 42 890 155 6,3
FOR Mondeo 2,0 DTCi 130 ch Ghia 130 1998 33,7 4,73 1,81 1,43
500 56 1501 200 5,9
FOR Pum a 1,6 103
HON Accord 2,3iES 152
61
Données de l’ACP:
62
Données de l’ACP:
Réduction des données
Pour neutraliser le problème des unités on remplace les données
d’origine par les données centrées-réduites :
de moyenne 0 et d’écart-type 1.
63
Construction des composantes principales :
Première composante principale (suite)
65
Construction des composantes principales :
Première composante principale
66
Construction des composantes principales :
Première composante principale : les objectifs 1 et 2 sont atteints
simultanément.
De :
En déduit:
67
Inertie totale = p = Inertie expliquée par Δ1 + Inertie résiduelle
Maximiser Minimiser
Construction des composantes principales :
Question 5 :
68
Construction de la première composante
L’axe Δ1 passe par le centre de gravité 0 du nuage
de points N*.
70
Construction de la deuxième composante
On recherche le deuxième axe principal Δ2 orthogonal à
Δ1 et passant le mieux possible au milieu du nuage.
73
ACP : exemple 1
Exemple 1 :
Données : plusieurs modèles de voitures caractérisés par des
variables (puissance, vitesse, longueur, hauteur,…)
NOMS PUISS CYLI CoupleMaxi LONG LARG HAUT COFFRE RESE POIDS VITE CONS
ALF 147 1,9 JTD Distinctive 115 1910 28 4,17 1,73 1,44 280 60 1270 191 5,8
ALF 166 2,5 V6 24V Progression 188 2492 22,5 4,72 1,81 1,42 490 72 1490 225 11,9
ASTMAR DB7 Volante 420 5935 55 4,66 1,83 1,26 150 89 1875 265 14
AUD A4 3,0 Quattro Pack 220 2976 30,6 4,55 1,77 1,43 445 66 1515 243 10,5
AUD A8 S8 Pack Avus 360 4172 43,9 5,03 1,88 1,44 525 90 1750 250 14
AUD TT Roadster 1,8 T225 Quattro 225 1781 28,5 4,04 1,76 1,34
270 55 1395 243 9,2
AUDIA4 Cabriolet 2,4 170 2393 23,4 4,57 1,78 1,39 315 70 1600 224 9,7
BEN Continental T 426 6750 88,2 5,22 1,95 1,45 350 100 2450 245 18,7
BMW 316i 115 1796 17,8 4,47 1,74 1,41 440 63 1310 206 7,1
BMW X5 3,0d Pack Luxe 183 2926 41,8 4,67 1,87 1,71 465 93 2085 200 9,7
BMW Z8 400 4941 51 4,4 1,83 1,32 203 73 1585 250 14,5
CAD Seville STS 305 4565 40,8 4,99 1,9 1,43 445 70 1857 241 14,1
CHR Grand Voyager 2,5 CRD Lim ited 140 2500 31,8 5,09 2 1,75 75 580
2000 185 7,7
CHR PT Cruiser 2,0 Classic 140 1995 19 4,29 1,7 1,6 520 57 1412 170 7,8
CIT Berlingo 1,6i 16V SX 110 1587 15,3 4,11 1,72 1,8 664 55 1252 172 7,4
CIT C3 1,4 HDI 70 ch SXPack Clim 70 1398 15,3 3,85 1,67 1,52 305 45 1022 165 4,2
CIT Picasso 1,6i SX 90 1587 14 4,28 1,75 1,64 515 55 1240 168 7,8
CIT Saxo 1,1i Bic 2 60 1124 9,1 3,72 1,59 1,37 280 45 805 162 6,7
CIT Xsara 2,0 Hdi 110 ch Exclusive 110 1997 26 4,19 1,7 4081,4 54 1210 191 5,2
DAE Leganza 2,0 CDX 133 1998 18,8 4,67 1,78 1,44 560 65 1433 206 9,2
DAI Sirion 1,3x 102 1298 12,2 3,67 1,59 1,45 235 40 850 180 5,7
FIA Multipla JTD 115 ELX 115 1910 20,7 3,99 1,87 1,67 430 63 1370 176 6,4
FIA Seicento S 55 1108 8,9 3,32 1,51 1,44 170 35 750 150 5,8
FIA Stilo 1,9 JTD 80 ch Active 80 1910 20 4,25 1,76 1,52 335 58 1305 170 5,5
FOR Fiesta 1,4 TDCi Ghia 68 1398 16,3 3,92 1,68 1,42 284 45 1065 164 4,3
FOR Focus ST 170 172 1989 20 4,17 1,7 1,43 350 55 1283 216 9,1
FOR Ka 1,3 Original 60 1299 10,7 3,62 1,63 1,37 185 42 890 155 6,3
FOR Mondeo 2,0 DTCi 130 ch Ghia 130 1998 33,7 4,73 1,81 1,43
500 56 1501 200 5,9
FOR Pum a 1,6 103
HON Accord 2,3iES 152
75
ACP : exemple 1
Inertie totale du nuage de points
76
ACP : exemple 1
Le nuage de points associé aux données réduits
77
ACP : exemple 1
Diagonalisation de matrice de corrélation des variables
78
ACP : exemple 1
Qualité de la première composante principale
Inertie totale = 11
80
ACP : exemple 1
Cercle de corrélation
81
ACP : exemple 1
82
ACP : exemple 1
Interprétation de la première composante principale :
83
ACP : exemple 1
84
ACP : exemple 1
Interprétation de la deuxième composante principale :
85
ACP : exemple 2
Les données mesurent la consommation de protéines dans 25
pays européens par rapport à 9 groupes d’aliments
Variables :
VR : viande rouge
VB : viande blanche
Strach : aliments à
base de sucres lents
(pâtes, riz, lentilles,
pois chiche, pommes
de terres,….)
86
ACP : exemple 2
Conclusion :
On retient 4 axes, qui
représentent presque 86%
de l’inertie totale (on
explique 86% de
l’information du tableau) 87
ACP : exemple 2
88
ACP : exemple 2
- Comment interpréter la
proximité entre les points
(individus et variables) ?
89
ACP : exemple 2
90
ACP : exemple 2
Interprétation des axes
Contribution de l’individu i à l’inertie de l’axe k :
En pratique:
- On retient pour l’interprétation les individus dont la contribution
est > à la contribution moyenne (>1/n)
- Si les individus à poids égaux, les individus contribuant :
91
ACP : exemple 2
Interprétation des axes
Contribution de la variable j à l’inertie de l’axe factoriel k
En pratique:
- On retient pour l’interprétation les variables dont la contribution
N.B. : une contribution trop importante d’un des points à un axe doit
être regardé avec prudence (~25% d’inertie) . Il faut l’enlever s’il est
mal représenté.
93
ACP : exemple 2
Contribution des individus
94
ACP : exemple 2
95
ACP : exemple 2
Interprétation axe 1 :
Conclusion :
L’axe 1 oppose les Balkans ayant une forte consommation de noix,
graines et céréales aux pays qui comme l’Irlande consomment plutôt
des protéines animales. 96
ACP : exemple 2
Interprétation axe 2 :
Conclusion :
L’axe 2 caractérise les pays Ibériques, consommant beaucoup de
poisson.
97
ACP : exemple 2
Interprétation axe 3 :
Conclusion :
L’axe 3 oppose la Hongrie, et plus généralement les pays d’europe
centrale, grands consommateur de viande blanche, aux pays qui n’en
consomment pas , comme certains pays Scandinaves et l’albanie .
98
ACP : exemple 2
Interprétation axe 4 :
Conclusion :
L’axe 4 caractérise les pays qui consomment beaucoup de viande rouge
comme certains pays d’europe de l’ouest et méditerranéens.
99
ACP : exemple 2
Etude de proximité entre les points
Une fois les axes interprétés, on peut regarder les graphiques et
analyser plus finement les proximités entre points.
100
ACP : exemple 2
✓ Une variable est d’autant mieux représentée sur un axe qu’elle est
proche du bord du cercle des corrélations et de l’axe, d’autant plus mal
représentée qu’elle est proche de l’origine.
102
ACP : exemple 2
104
ACP : exemple 2
107
108
Recherche d’associations
(analyse du ticket de caisse)
109
Exemples :
• lift (C ⇒ B) = 5/6 (règle inutile)
• lift (B ⇒ E) = 5/4 (règle utile).
Données :
Construction de C1
Construction de C2
EXERCICE
125
CADRE GÉNÉRAL
Plusieurs types de tableau :
126
DONNÉES
Deux variables qualitatives à I et J modalités
Tableau de contingence :
127
Rôle symétrique des deux variables
EXEMPLE : ENQUÊTE
129
DONNÉES
131
INDÉPENDANCE ENTRE DEUX VARIABLES QUALITATIVES
Modèle d’indépendance :
Evènements indépendants : P(A et B) = P(A) × P(B)
Autres écritures :
132
INDÉPENDANCE ENTRE DEUX VARIABLES QUALITATIVES
Indépendance : fij = fi. f.j
134
COMMENT L’AFC APPRÉHENDE L’ÉCART À L’INDÉPENDANCE ?
135
COMPARAISON DU PROFIL LIGNE AU PROFIL MOYEN
136
COMMENT L’AFC APPRÉHENDE L’ÉCART À L’INDÉPENDANCE ?
137
COMPARAISON DU PROFIL COLONNE AU PROFIL MOYEN
138
NUAGE DES PROFILS LIGNES
139
NUAGE DES PROFILS COLONNES
140
QUE SE PASSE-T-IL S’IL Y A INDÉPENDANCE ?
141
ECART À L’INDÉPENDANCE ET INERTIE
142
REPRÉSENTATION DU NUAGE DES LIGNES (OU DES COLONNES)
143
POURCENTAGES D’INERTIE
144
RÈGLES D’INTERPRÉTATION SUR L’EXEMPLE
145
INERTIES (= VALEURS PROPRES)
146
INERTIES (= VALEURS PROPRES)
147
REPRÉSENTATION SIMULTANÉE
148
BILAN SUR L’EXEMPLE
149
AIDES À L’INTERPRÉTATION : QUALITÉ DE REPRÉSENTATION
150
QUALITÉ DE REPRÉSENTATION : EXEMPLE
151
CONCLUSION
152
ANALYSE FACTORIELLE DES
CORRESPONDANCES MULTIPLE
153
DONNÉES
154
DONNÉES – ONE HOT ENCODING
155
OBJECTIF - PROBLÉMATIQUE
156
TRANSFORMATION DU TABLEAU DISJONCTIF COMPLET
157
NUAGE DES INDIVIDUS
158
AJUSTEMENT DU NUAGE DES INDIVIDUS
159
EXEMPLE : DONNÉES DE LOISIR
160
EXEMPLE : DONNÉES DE LOISIR
161
DIAGRAMME DES INERTIES
162
REPRÉSENTATION DU NUAGE DES INDIVIDUS
163
REPRÉSENTATION DES INDIVIDUS EN FONCTION DU JARDINAGE
164
REPRÉSENTATION DES MODALITÉS DANS LE NUAGE DES INDIVIDUS
165
REPRÉSENTATION DES MODALITÉS DANS LE NUAGE DES INDIVIDUS
166
REPRÉSENTATION DES MODALITÉS DANS LE NUAGE DES INDIVIDUS
167
REPRÉSENTATION DES VARIABLES POUR INTERPRÉTER LES
DIMENSIONS
170
REPRÉSENTATION DES VARIABLES POUR INTERPRÉTER LES
DIMENSIONS
171