Académique Documents
Professionnel Documents
Culture Documents
Année académique
2021/2022
TABLE DE MATIERES
I
FICHE DE TD CHAPITRE 2 : CLASSIFICATION AUTOMATIQUE
Série d’exercices 1
Travail à faire :
1) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.
Série d’exercice 2
Page | 1
.
Réaliser une classification par l’algorithme des centres mobiles avec pour centres initiaux :
1. 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3).
1 2
2. 𝑐 0 de coordonnées (-1, 2) et 𝑐 0 de coordonnées (1,1).
1 2
Page | 2
2. Dans l’espace des individus (espace R p ), les individus éloignés du centre de gravité du nuage jouent
un rôle important dans l’analyse.
3. La variance des coordonnées des individus sur le premier axe factoriel est plus élevée que la variance
des coordonnées sur le second axe.
4. Des variables superposées sur le graphe des corrélations sont nécessairement très corrélées.
5. Dans R p , un individu très proche du centre de gravité a des valeurs brutes proches de zéro pour
l’ensemble des variables.
Exercice 2 :
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines (mathématiques, physique,
français, anglais)
MATH PHYS FRAN ANGL
Jean 6.00 6.00 5.00 5.50
Alan 8.00 8.00 8.00 8.00
Anni 6.00 7.00 11.00 9.50
Moni 14.50 14.50 15.50 15.00
Didi 14.00 14.00 12.00 12.50
Andr 11.00 10.00 5.50 7.00
Pier 5.50 7.00 14.00 11.50
Brig 13.00 12.50 8.50 9.50
Evel 9.00 9.50 12.50 12.00
Statistiques élémentaires
Variable Moyenne Ecart-type Minimum Maximum
MATH 9.67 3.37 5.50 14.50
PHYS 9.83 2.99 6.00 14.50
FRAN 10.22 3.47 5.00 15.50
ANGL 10.06 2.81 5.50 15.00
Page | 3
1) Que remarquez-vous ?
Le tableau suivant donne la matrice des corrélations. Il donne les coefficients de corrélation li-
néaire des variables prises deux à deux.
Coefficients de correlation
MATH PHYS FRAN ANGL
MATH 1.00 0.98 0.23 0.51
PHYS 0.98 1.00 0.40 0.65
FRAN 0.23 0.40 1.00 0.95
ANGL 0.51 0.65 0.95 1.00
2) Que remarquez-vous ?
2. Résultats généraux
Matrice des variances-covariances
MATH PHYS FRAN ANGL
MATH 11.39 9.92 2.66 4.82
PHYS 9.92 8.94 4.12 5.48
FRAN 2.66 4.12 12.06 9.29
ANGL 4.82 5.48 9.29 7.91
Ici :
PCT=pourcentage de variance
PCT= pourcentage cumulé : exemple (28, 23/40.30) × 100 = 70%.
Page | 4
Facteur i (ou composante principale Ci ).
Les deux premières colonnes de ce tableau permettent, tout d’abord, de réaliser le graphique
des variables donné par la Fig. 3 Mais, ces deux colonnes permettent également de donner une
signification aux facteurs (donc aux axes des graphiques).
Page | 5
5) Comment interprétez-vous ces résultats ?
On notera que chaque individu représente 1 élément sur 9, d’où un poids (une pondération) de
1/9 = 0.11, ce qui est fourni par la première colonne du tableau. Les 2 colonnes suivantes fournissent les
coordonnées des individus (les élèves) sur les deux premiers axes (les facteurs) et ont donc permis de
réaliser le graphique des individus. Ce dernier (Fig. 4) permet de préciser la signification des axes, donc
des facteurs.
Page | 6
La signification et l’utilisation des dernières colonnes du tableau seront explicitées un peu plus
loin.
6) Interpréter les résultats obtenus sur les individus.
Exercice 3:
Une analyse en composante principale (ACP normée) a été exécutée sur 50 avions. On a déterminé, pour
chacun d’eux, la valeur de 10 variables (vitesse de croisière, rayon d’action, consommation, nombre de
places, coût de revient du transport par passager et par kilomètre, etc). On considère la représentation de
ces variables dans le cercle de corrélation ci-dessous.
1) Quelles sont les variables qui peuvent aider à donner une signification à l’axe 1 ?
2) Quelles sont les variables qui ne doivent pas être interprétées sur cette figure ?
3) Donner 3 groupes de variables qui, au sein d’un même groupe, sont fortement corrélées positivement
entre elles.
4) Citer deux variables qui sont peu corrélées entre elles.
5) Citer deux variables qui sont fortement corrélées négativement avec la variable V4 .
6) Quel est approximativement le coefficient de corrélation entre la variable V 1 et la première
composante principale ?
Page | 7
7) Citer une variable dont le coefficient de corrélation avec la deuxième composante principale vaut
presque 1.
8) Que veut le coefficient de corrélation entre la première et la deuxième composante principale.
Exercice 4
On a rassemblé les résultats de 15 enfants de 10 ans à 6 subtests du WISC (scores 0 à 5). Les variables
observées sont : CUB (Cubes de Kohs), PUZ (Assemblage d'objets), CAL (Calcul mental), MEM
(Mémoire immédiate des chiffres), COM (Compréhension de phrases), VOC (Vocabulaire). Le
protocole observé est le suivant :
Corrélations
CUB PUZ CAL MEM COM VOC
CUB 1,0000 0,7320 0,9207 -0,4491 0,3086 0,2735
PUZ 0,7320 1,0000 0,7510 -0,6143 0,2814 0,2850
CAL 0,9207 0,7510 1,0000 -0,3685 0,4077 0,4869
MEM -0,4491 -0,6143 -0,3685 1,0000 0,3032 0,2023
COM 0,3086 0,2814 0,4077 0,3032 1,0000 0,7819
VOC 0,2735 0,2850 0,4869 0,2023 0,7819 1,0000
Page | 8
Scores, contributions et qualités de représentation des individus
4
I1
3
I1
2 1
I1I2
1 I1 I9
I5
I60
0
I15I
I1 3 I1
- I4 I7 3 4
1
- I
2 8
-
3
- - - - - - 0 1 2 3 4 5
Activ
5 4 3 2 1
Fact. 1 : e
54,30%
Page | 9
Projection des variables sur le plan factoriel ( 1 x 2)
1,0
0,5
PUZ
CUB
0,0 CAL
Fact. 2 : 30,62%
-0,5
VOC
COM MEM
-1,0
Quel est l'individu le moins bien représenté par le premier plan principal ? Quel est
l'individu le mieux représenté ?
Page | 10
b) Même question pour la deuxième composante principale.
1) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.
On retient finalement la partition en 4 classes.
Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?
Page | 11
On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant, permet de
définir sur les individus une distance dite ultra métrique. Evaluer à partir du graphique la distance ultra
métrique séparant le sujet I15 et le sujet I6.
Page | 12
Exercice 2:
Soit le tableau suivant:
1. Définir les termes et expressions suivante: Classification, Classification non supervisée, Clustering,
CAH, Classification binaire, Classification multi-classe.
Classification: technique qui sert à catégoriser ou classer les informations issues d’ensemble de données
dans le but d’établir des prédictions.
Classification non supervisée: désigne un corpus de méthodes ayant pour objectif de dresser ou de
retrouver une typologie existante caractérisant un ensemble de 𝑛 observations, à partir de 𝑝
caractéristiques mesurées sur chacune des observations
Clustering: méthode d’apprentissage automatique qui consiste à regrouper des points de données par
similarité ou par distance.
CAH: Classification Ascendante Hiérarchique.
Classification binaire: est une transformation de données qui vise à répartir les membres d'un ensemble
dans deux groupes disjoints selon que l'élément possède ou non une propriété/fonctionnalité donnée
Classification multi-classe: est un processus de répartition d'un lot de propositions entre plus de deux
ensembles.
Page | 13
2. Énumérer deux domaines d’application du clustering.
- Text mining : Il permet d’extraire des données pour recréer de l’information à partir de corpus de textes
en les classifiant et en les analysant de manière à établir des tendances. Il est employé dans le domaine
du marketing, la communication, les sciences politiques et la recherche.
- Web mining: Il désigne l’ensemble des techniques visant à explorer, traiter et analyser les grandes
masses d’informations liées à une activité web
- Bio-informatique : gènes ressemblants
- Marketing : segmentation de la clientèle
- Web lot analysis : profils utilisateurs
3. Quelles sont les qualités d’un bon clustering? Quels sont les algorithmes de clustering?
Pour évaluer un algorithme de clustering on peut s'intéresser à :
La forme des clusters qu'il produit (sont-ils denses, bien séparés)
la stabilité de l'algorithme ;
la compatibilité des résultats avec des connaissances spécifiques au domaine, que l'on peut
évaluer à l'aide de mesures d'enrichissement.
Les algorithmes de clustering les plus courants sont le K-Means, les algorithmes de maximisation de
l'espérance (de type EM, comme les mixtures gaussiennes) et les partitions de graphes.
Page | 14
7. Quelle est la différence entre la Classification hiérarchique et la méthode de k-means?
Contrairement au k-means, la classification hiérarchique ne nécessite pas de déterminer un nombre de
classes au préalable. En effet, en jouant sur la profondeur de l'arbre, on peut explorer différentes
possibilités et choisir le nombre de classes qui nous convient le mieux.
Travail à faire :
5) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.
Solution:
a) Initialisation :
b) Itération 1 :
Nombres Distances
d(8, μ1)=|8-8|=0
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-11|=3
Page | 15
8 est affecté au cluster C1.
C1={ 2, 5, 8}
C2={10}
C3={11, 18, 20}
c) Itération 2 :
Nombres Distances
Page | 16
Nombre 2 d(2, μ1)=|2-5|=3
d(2, μ2)=|2-10|=8
d(2, μ3)=|2-16.33|=14.33
d(8, μ1)=|8-5|=3
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-16.33|=8.33
Page | 17
C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}
d) Itération 3 :
Nombres Distances
d(8, μ1)=|8-3.5|=4.5
Nombre 8 d(8, μ2)=|8-9.66|=1.66
d(8, μ3)=|8-19|=11
Page | 18
Nombre 18 d(18, μ1)=|18-3.5|=14.5
d(18, μ2)=|18-9.66|=8.34
d(18, μ3)=|18-19|=1
C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}
SERIE 2
Page | 19
Dans un premier temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3)
1 2
Le tableau des distances entre les individus et ces centres est
Par exemple :
On considère deux nouveaux centres, 𝑐 1 et 𝑐 1, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 1 a pour coordonnées
1
𝑐 1 a pour coordonnées
2
Page | 20
On considère deux nouveaux centres, 𝑐 2 et 𝑐 2, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 2 a pour coordonnées
1
𝑐 2 a pour coordonnées
2
Dans un deuxième temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,2) et 𝑐 0 de coordonnées (1,1)
1 2
Page | 21
D’où les deux groupes :
On considère deux nouveaux centres, 𝑐 1 et 𝑐 1, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 1 a pour coordonnées
1
𝑐 1 a pour coordonnées
2
Conclusion : On obtient deux classifications différentes suivant les choix des centres initiaux.
2 2
7.5 4
X= 3 3
Page | 22
0.5 5
6 4
𝜔1 𝜔2 𝜔3 𝜔4 𝜔5
𝜔1 0 17.12 1 5.62 10
𝜔3 1 10.62 0 5.12 5
Par exemple, on a
Les éléments (individus) 𝜔 1 et 𝜔 3 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : A = { 𝜔 1, 𝜔 3}. On a une nouvelle partition de Γ:
𝜔2 𝜔4 𝜔5 A
𝜔2 0 25 1.12 18.16
𝜔4 25 0 15.62 6.83
Page | 23
𝜔5 1.12 15.62 0 9.66
Par exemple, on a
Les éléments (individus) 𝜔 2 et 𝜔 5 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : B = { 𝜔 2, 𝜔 5}. On a une nouvelle partition de Γ:
𝜔4 A B
𝜔 0 6.83 26.7
4
A 6.83 0 20.31
B 26.7 20.31 0
Par exemple, on a
Les éléments (individus) 𝜔 4 et A ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : C = { 𝜔 4, A}. On a une nouvelle partition de Γ
Page | 24
Le centre de gravité associé à C est le point gC de coordonnées
B C
B 0 29.58
C 29.58 0
On a :
Il ne reste plus que 2 éléments, B et C ; on les regroupe. Cela donne la partition P4=
{𝜔 1, 𝜔 2, 𝜔 3, 𝜔 4, 𝜔 5}= Γ.
Page | 25
La formule √2𝑒 (𝐴 , 𝐵 ) a été utilisée pour les hauteurs des branches du dendrogramme, on a :
2. Vrai.
Les individus ayant les mêmes poids, les individus très éloignés du centre de gravité du nuage contribuent
à une part importante de la variabilité (=de l’inertie). Ils "attirent" donc les axes puisque ces derniers ont
pour propriété de représenter au mieux l’inertie du nuage.
3. Vrai.
Page | 26
La variance des coordonnées correspond à l’inertie, et les axes sont classés par inertie décroissante ; la
variance des coordonnées sur le premier axe factoriel est donc plus élevée que la variance des
coordonnées sur le second axe.
4. Faux.
Il faut que les deux variables soient superposées mais aussi qu’elles soient bien projetées (pointes des
flèches proches du cercle des corrélations) pour qu’en puisse en déduire qu’elles sont corrélées entre elles
(notons que deux variables peuvent être mal projetées et étroitement corrélées).
5. Faux.
Un individu très proche du centre de gravité a des valeurs proches de la moyenne pour chacune des
variables.
Exercice 2 :
1) Que remarquez-vous ?
Réponse. Grande homogénéité des 4 variables : même ordre de grandeur pour la moyenne, les écarts-
types, les minima et les maxima
2) Que remarquez-vous ?
Réponse. Toutes les corrélations linéaires sont positives, ce qui signifie que toutes les variables varient
(en moyenne) dans le même sens
4) Comment interpréter la relation suivante qui relié la variance des variables initiales Xi avec celle des
composantes principales Ci ?
Réponse :
Le nuage de points en dimension 4 est toujours le même et sa dispersion globale n’a pas changée. C’est
la répartition de cette dispersion, selon les nouvelles variables que sont les facteurs, ou composantes
principales, qui se trouvent modifiée :
Page | 27
5) Comment interprétez-vous ces résultats ?
Réponse :
On notera que les deux dernières colonnes ne seront pas utilisées puisqu’on ne retient que deux
dimensions pour interpréter l’analyse
Interprétation.
On voit que le premier facteur est corrélé positivement, et assez fortement, avec chacune des 4 variables
initiales : plus un élève obtient de bonnes notes dans chacune des 4 disciplines, plus il a un score élevé
sur l’axe 1 ; réciproquement, plus ses notes sont mauvaises, plus son score est négatif.
L’axe 1 représente donc, en quelques sortes, le résultat global (dans l’ensemble des 4 disciplines
considérées) des élèves.
L’axe 2, il oppose, d’une part, le français et l’anglais (corrélations positives), d’autre part, les
mathématiques et la physique (corrélations négatives). Il s’agit donc d’un axe d’opposition entre
disciplines littéraires et disciplines scientifiques, surtout marqué par l’opposition entre le français
et les mathématiques.
Cette interprétation peut être précisée avec graphiques et tableaux relatifs aux individus. Ce que nous
donnons ci-dessous
L’axe 2 oppose bien les "littéraires" (en haut) aux "scientifiques" (en bas).
Page | 28
Les 3 colonnes du tableau ci-dessus fournissent des contributions des individus à diverses
dispersions :
cont1 et cont2 donnent les contributions (en pourcentages) des individus à la variance selon les
axes 1 et 2 (rappelons que l’on utilise ici la variance pour mesurer la dispersion) ;
Contg donne les contributions générales, c’est-à-dire à la dispersion en dimension 4 (il s’agit de
ce que l’on appelle l’inertie du nuage des élèves.
Ces contributions sont fournies en pourcentages (chaque colonne somme à 100) et permettent de repérer
les individus les plus importants au niveau de chaque axe. Elles servent en général à affiner
l’interprétation des résultats de l’analyse. Ainsi, par exemple, la variance de l’axe 1 vaut 28.23 (première
valeur propre). On peut la retrouver en utilisant la formule de définition de la variance :
La coordonnée de Jean (le premier individu du fichier) sur l’axe 1 vaut c11 = −8.61 ; sa contribution est
donc :
A lui seul, cet individu représente près de 30% de la variance : il est prépondérant (au même titre que
Monique) dans la définition de l’axe 1 ; cela provient du fait qu’il a le résultat le plus faible, Monique
ayant, à l’opposé, le résultat le meilleur.
Les 2 dernières colonnes du tableau sont des cosinus carrés qui fournissent la qualité de la
représentation de chaque individu sur chaque axe. Ces quantités s’additionnent axe par axe, de
sorte que, en dimension 2, Evelyne est représentée à 98% (0.25 + 0.73), tandis que les 8 autres
individus le sont à 100%.
Exercice 3:
1) Ce sont les variables représentées par des points proches du cercle des corrélations et proches de l’axe
1. Ici : V5, V6 et V7
Page | 29
2) Ce sont les variables représentées par des points trop éloignés du cercle des corrélations (proches de
0). Ici : V2 et V3.
3) Les variables représentées par des points proches du cercle des corrélations et proches entre elles sont
fortement corrélées positivement.
On distingue 3 groupes :
Groupe 1 : V5 et V7 ;
Groupe 2 : V1 et V9 ;
Groupe 3 : V4, V8 et V10.
4) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle droit (ou presque droit) ne sont pas corrélées entre elles (ou sont peu corrélées entre elles).
On peut citer ici :
V7 et V8, V7 et V10 ; V7 et V4 ; V7 et V9 ; V5 et V9 ; V6 et V1 ; V6 et V10, etc.
5) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle plat (ou presque plat) sont fortement corrélées négativement entre elles. On observe ici que les
variables fortement corrélées négativement avec V4 sont V1 et V9.
6) Ce coefficient est égal à l’abscisse (coordonnée sur l’axe 1) du point représentant V1. Il vaut environ
−0, 33.
7) La variable V9 convient puisqu’elle est représentée par un point dont la coordonnée sur l’axe 2 vaut
presque 1.
8) On sait que les composantes principales sont toutes non corrélées deux à deux, le coefficient de
corrélation entre la première et la deuxième est donc nul.
Exercice 4
1) Etude du tableau des valeurs propres
a) A quoi correspond la somme des valeurs propres ?
La somme des valeurs propres est égale à 6. Dans le cas d'une ACP normée telle que celle qui est effectuée
ici, cette somme est égale au nombre de variables. Cette valeur correspond également à la variance du
nuage des individus.
b) On choisit de n'étudier que les deux premières composantes principales. Justifier ce choix en analysant
le tableau des valeurs propres.
On peut choisir de ne s'intéresser qu'aux valeurs propres dont la contribution à la variance est supérieure
à la moyenne. Ceci revient à étudier les composantes principales correspondant à des valeurs propres
Page | 30
supérieures à 1. Or, seules les deux premières valeurs propres vérifient cette propriété sur l'exemple
fourni.
b) Comment s'organisent les signes "+" et les signes "-" dans le tableau des coefficients de corrélation.
Commenter.
La plupart des coefficients de corrélation sont positifs. Autrement dit, un bon résultat à un test est, en
règle général, lié à de bons résultats aux autres tests. On note toutefois une exception remarquable : la
variable MEM (mémoire immédiate des chiffres) est corrélée négativement à 3 autres variables : CUB,
PUZ et CAL. Mais ce sont les seuls coefficients négatifs du tableau.
Page | 31
Caractériser cet axe en termes d'opposition entre individus.
Cet axe oppose les individus I4, I1, I7 et I5 d'une part aux individus I9, I10 et I14 d'autre part.
Les sujets du premier groupe obtiennent des scores généralement plus élevés que ceux du 2è groupe,
particulièrement sur les variables CUB, PUZ et CAL.
Cet axe oppose les individus I8 et I4 d'une part aux individus I1 et I11 d'autre part. On peut noter que
l'individu I1 explique à lui seul plus du tiers de la variance de cet axe.
b) Quelles sont les variables qui sont corrélées positivement avec le premier facteur principal ?
Page | 32
Quelles sont celles qui sont corrélées négativement ? Comment peut-on caractériser cet axe par rapport
aux variables de départ ?
Les corrélations peuvent être lues sur le dessin ou sur le tableau des saturations. Seule la variable MEM
est corrélée positivement avec le premier axe, toutes les autres sont corrélées négativement. Ainsi, cet
axe oppose le résultat au test MEM à tous les autres tests.
c) Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième axe.
Les corrélations les plus fortes sont observées pour les variables MEM, COM et VOC. Ces variables sont
toutes trois corrélées négativement avec la variable CP2.
6)
a) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
Il s'agit ici d'une classification ascendante hiérarchique.
b) L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.
On observe un saut brutal de l'indice d'agrégation lors de la formation de la dernière classe. Le passage
de 3 à 2 classes se fait avec des indices d'agrégation peu différents. En revanche, on avait également une
forte progression de l'un indice d'agrégation lors du passage de 4 à 3 classes.
d) Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?
Les classes correspondent approximativement aux 4 quadrants définis par les deux premières variables
principales. Ainsi :
La classe I correspond à CP1 < 0 et CP2 > 0
La classe II correspond à CP1 < 0 et CP2 < 0, mais ne contient pas I13. Il vaudrait mieux la décrire par :
CP1 < -1, CP2 < -1
Page | 33
La classe III correspond à CP1 > -1, CP2 < 0
La classe IV correspond à CP1 >0 et CP2 > 0.
e) On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant,permet
de définir sur les individus une distance dite ultramétrique. Evaluer à partir du graphique la distance
ultramétrique séparant le sujet I15 et le sujet I6.
La distance ultramétrique associée à une CAH est obtenue en considérant, pour chaque couple d'objets,
la plus petite classe les contenant et en notant l'indice d'agrégation correspondant. Pour les objets I15 et
I6, la classe correspondante est l'avant-dernière, avec un indice d'agrégation proche de 24 (valeur lue sur
le graphique).
Calcul de l’entropie :
Page | 34
NB : À chaque nœud, choisir l'attribut de gain (i.e I-Ires) maximal et arrêter quand l'entropie
est nulle
Exercice 2 :
1. En appliquant :
2. En appliquant :
Page | 35