Travaux Dirige-et-corriges-Apprentissage Non Supervisee-Analyse Factorielle-Arbre de Decision-27 Mai 2022 12h15

FACULTE DES SCIENCES REPUBLIQUE DU CAMEROUN
FACULTY OF SCIENCE REPUBLIC OF CAMEROON

Peace-Work-Fatherland
Département de Mathématiques et ********
Informatique UNIVERSITE DE DSCHANG
Department of mathematics and Computer UNIVERSITY OF DSCHANG
Science Scholae Thesaurus Dschangensis Ibi Cordum
BP 96, DSc hang (Cameroun)
BP 96, Dschang (Cameroun)
Tél. /Fax (237) 233 45 13 81
Tél. /Fax (237) 233 45 13 81
Website : http://fs.univ-dschang.org.
Website : http://www.univ-dschang.org.
E-mail : dept.math-info@univ-dschang.org
E-mail : udsrectorat@univ-dschang.org
TD DE DATA MINING: THEME 2

CHAPITRE 2: MODELISATION NON SUPERVISEE: CLASSIFICATION
AUTOMATIQUE
CHAPITRE 3 : MODELISATION NON SUPERVISE : LES ANALYSES
FACTORIELLES
CHAPITRE 4 : MODELISATION SUPERVISEE : LES ARBRES DE
DECISION
Noms et prénoms des membres du groupe Matricules SPECIALITE
FOAM TOUKAM CINDY LENA CM-UDS-18SCI0092 IA
KENGNE WAMBO DARIL RAOUL CM-UDS-18SCI0131 IA
NGANFANG VICTOIRE CABRELLE CM-UDS-18SCI1828 IA
TEMFACK DERICK CM-UDS-18SCI0797 IA
Enseignant : Pr. KENGNE TCHENDJI VIANNEY
Année académique
2021/2022
TABLE DE MATIERES
TABLE DE MATIERES ............................................................................................................................ i

FICHE DE TD CHAPITRE 2 : CLASSIFICATION AUTOMATIQUE .................................................. 1
Série d’exercices 1 ................................................................................................................................ 1
Série d’exercice 2 .................................................................................................................................. 1
FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE .................................................................. 2
FICHE DE TD : CHAPITRE 4 : LES ARBRES DE DECISON............................................................ 12
CORRECTION DES EXERCICES CHAPITRE 2: CLASSIFICATION AUTOMATIQUE ............... 13
SERIE 1............................................................................................................................................... 13
SERIE 2............................................................................................................................................... 19
CORRIGÉ FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE .............................................. 26
CORRIGÉ CHAPITRE 4 : LES ARBRES DE DECISON .................................................................... 34
I
FICHE DE TD CHAPITRE 2 : CLASSIFICATION AUTOMATIQUE
Série d’exercices 1
Exercice 1: Questions de cours
1. Définir les termes et expressions suivante: Classification, Classification non supervisée,

clustering, CAH, Classification binaire, Classification multi-classe.
2. Énumérer deux domaines d’application du clustering.
3. Quelles sont les qualités d’un bon clustering? Quels sont les algorithmes de clustering?
4. Quelle est la différence entre Clustering et Classification?
5. Comment fonctionne la classification non supervisée?
6. Quand utiliser K-means?
7. Quelle est la différence entre la Classification hiérarchique et la méthode de k-means?
Exercice 2: Soit l'ensemble D des entiers suivants :

D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme K-means. La distance d
entre deux nombres a et b est calculé ainsi :
d (a , b) = |a – b| (la valeur absolue de a moins b)
Travail à faire :
1) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.
Série d’exercice 2
Exercice 1 (sur les centres mobiles)

Soit les deux variables X1 et X2 et les 6 individus {𝜔 1, 𝜔 2,…, 𝜔 6} représentés par le tableauci-
dessous :
Page | 1
.
Réaliser une classification par l’algorithme des centres mobiles avec pour centres initiaux :
1. 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3).
1 2
2. 𝑐 0 de coordonnées (-1, 2) et 𝑐 0 de coordonnées (1,1).
1 2
Exercice 2 (sur la CAH)

Soit X une matrice de données dans ℝ2 définie par
1. Appliquer l’algorithme de la CAH avec la méthode de Ward.

2. Construire le dendrogramme associé.
FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE
Exercice 1 : Vrai ou Faux.

On considère une ACP normée dans laquelle le poids des individus est le même. Répondre par vrai ou
faux en justifiant la réponse.
1. Plus les variables sont corrélées entre elles plus le pourcentage d’inertie porté par les premiers axes de
l’ACP est grand.
Page | 2
2. Dans l’espace des individus (espace R p ), les individus éloignés du centre de gravité du nuage jouent
un rôle important dans l’analyse.
3. La variance des coordonnées des individus sur le premier axe factoriel est plus élevée que la variance
des coordonnées sur le second axe.
4. Des variables superposées sur le graphe des corrélations sont nécessairement très corrélées.
5. Dans R p , un individu très proche du centre de gravité a des valeurs brutes proches de zéro pour
l’ensemble des variables.
Exercice 2 :
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines (mathématiques, physique,
français, anglais)
MATH PHYS FRAN ANGL
Jean 6.00 6.00 5.00 5.50
Alan 8.00 8.00 8.00 8.00
Anni 6.00 7.00 11.00 9.50
Moni 14.50 14.50 15.50 15.00
Didi 14.00 14.00 12.00 12.50
Andr 11.00 10.00 5.50 7.00
Pier 5.50 7.00 14.00 11.50
Brig 13.00 12.50 8.50 9.50
Evel 9.00 9.50 12.50 12.00
Nous présentons ci-dessous quelques résultats de l’A.C.P.

1. Résultats préliminaires
Le logiciel fournit tout d’abord la moyenne (mean), l’écart-type (standard deviation), le mini-
mum et le maximum de chaque variable. Il s’agit donc, pour l’instant, d’études univariées.
Statistiques élémentaires
Variable Moyenne Ecart-type Minimum Maximum
MATH 9.67 3.37 5.50 14.50
PHYS 9.83 2.99 6.00 14.50
FRAN 10.22 3.47 5.00 15.50
ANGL 10.06 2.81 5.50 15.00
Page | 3
1) Que remarquez-vous ?
Le tableau suivant donne la matrice des corrélations. Il donne les coefficients de corrélation li-
néaire des variables prises deux à deux.
Coefficients de correlation
MATH PHYS FRAN ANGL
MATH 1.00 0.98 0.23 0.51
PHYS 0.98 1.00 0.40 0.65
FRAN 0.23 0.40 1.00 0.95
ANGL 0.51 0.65 0.95 1.00
2. Résultats généraux
Matrice des variances-covariances
MATH PHYS FRAN ANGL
MATH 11.39 9.92 2.66 4.82
PHYS 9.92 8.94 4.12 5.48
FRAN 2.66 4.12 12.06 9.29
ANGL 4.82 5.48 9.29 7.91
Valeurs propres ; variances expliquées

FACTEUR VAL. PR. PCT. VAR PCT. CUM
1 28.23 0.70 0.70
2 12.03 0.30 1.00
3 0.03 0.00 1.00
4 0.01 0.00 1.00
40.30 1
Ici :
PCT=pourcentage de variance
PCT= pourcentage cumulé : exemple (28, 23/40.30) × 100 = 70%.
Page | 4
Facteur i (ou composante principale Ci ).
3) Quelle est la relation entre λi est la variance de Ci ?

4) Comment interpréter la relation suivante qui relié la variance des variables initiales Xi avec
celle des composantes principales Ci ?
3. Résultats sur les variables

Le résultat fondamental concernant les variables est le tableau des corrélations variables-facteurs
(tableau des r(Xj, Ck )). Il s’agit des coefficients de corrélation linéaire entre les variables initiales
et les facteurs. Ce sont ces corrélations qui vont permettre de donner un sens aux facteurs (de les
interpréter).
Corrélations variables-facteurs : r(Xj , Ck)

FACTEURS F1 F2 F3 F4
MATH 0.81 -0.58 0.01 -0.02
PHYS 0.90 -0.43 -0.03 0.02
FRAN 0.75 0.66 -0.02 -0.01
ANGL 0.91 0.40 0.05 0.01
Les deux premières colonnes de ce tableau permettent, tout d’abord, de réaliser le graphique
des variables donné par la Fig. 3 Mais, ces deux colonnes permettent également de donner une
signification aux facteurs (donc aux axes des graphiques).
Page | 5
5) Comment interprétez-vous ces résultats ?
4. Résultats sur les individus

Le tableau donné ci-dessous contient tous les résultats importants de l’A.C.P. sur les individus
POIDS FACT1 FACT2 CONTG CONT1 CONT2 COSCA1 COSCA2

Jean 0.11 -8.61 -1.41 20.99 29.19 1.83 0.97 0.03
Alan 0.11 -3.88 -0.50 4.22 5.92 0.23 0.98 0.02
Anni 0.11 -3.21 3.47 6.17 4.06 11.11 0.46 0.54
Moni 0.11 9.85 0.60 26.86 38.19 0.33 1.00 0.00
Didi 0.11 6.41 -2.05 12.48 16.15 3.87 0.91 0.09
Andr 0.11 -3.03 -4.92 9.22 3.62 22.37 0.28 0.72
Pier 0.11 -1.03 6.38 11.51 0.41 37.56 0.03 0.97
Brig 0.11 1.95 -4.20 5.93 1.50 16.29 0.18 0.82
Evel 0.11 1.55 2.63 2.63 0.95 6.41 0.25 0.73
On notera que chaque individu représente 1 élément sur 9, d’où un poids (une pondération) de
1/9 = 0.11, ce qui est fourni par la première colonne du tableau. Les 2 colonnes suivantes fournissent les
coordonnées des individus (les élèves) sur les deux premiers axes (les facteurs) et ont donc permis de
réaliser le graphique des individus. Ce dernier (Fig. 4) permet de préciser la signification des axes, donc
des facteurs.
Page | 6
La signification et l’utilisation des dernières colonnes du tableau seront explicitées un peu plus
loin.
6) Interpréter les résultats obtenus sur les individus.
Exercice 3:
Une analyse en composante principale (ACP normée) a été exécutée sur 50 avions. On a déterminé, pour
chacun d’eux, la valeur de 10 variables (vitesse de croisière, rayon d’action, consommation, nombre de
places, coût de revient du transport par passager et par kilomètre, etc). On considère la représentation de
ces variables dans le cercle de corrélation ci-dessous.
1) Quelles sont les variables qui peuvent aider à donner une signification à l’axe 1 ?
2) Quelles sont les variables qui ne doivent pas être interprétées sur cette figure ?
3) Donner 3 groupes de variables qui, au sein d’un même groupe, sont fortement corrélées positivement
entre elles.
4) Citer deux variables qui sont peu corrélées entre elles.
5) Citer deux variables qui sont fortement corrélées négativement avec la variable V4 .
6) Quel est approximativement le coefficient de corrélation entre la variable V 1 et la première
composante principale ?
Page | 7
7) Citer une variable dont le coefficient de corrélation avec la deuxième composante principale vaut
presque 1.
8) Que veut le coefficient de corrélation entre la première et la deuxième composante principale.
Exercice 4
On a rassemblé les résultats de 15 enfants de 10 ans à 6 subtests du WISC (scores 0 à 5). Les variables
observées sont : CUB (Cubes de Kohs), PUZ (Assemblage d'objets), CAL (Calcul mental), MEM
(Mémoire immédiate des chiffres), COM (Compréhension de phrases), VOC (Vocabulaire). Le
protocole observé est le suivant :
WISC CUB PUZ CAL MEM COM VOC

I1 5 5 4 0 1 1
I2 4 3 3 2 2 1
I3 2 1 2 3 2 2
I4 5 3 5 3 4 3
I5 4 4 3 2 3 2
I6 2 0 1 3 1 1
I7 3 3 4 2 4 4
I8 1 2 1 4 3 3
I9 0 1 0 3 1 0
I10 2 0 1 3 1 0
I11 1 2 1 1 0 1
I12 4 2 4 2 1 2
I13 3 2 3 3 2 3
I14 1 0 0 3 2 2
I15 2 1 1 2 3 2
On traite ces données par une analyse en composantes principales normée. Les principaux
résultats de cette ACP sont indiqués ci-dessous :
Corrélations
CUB PUZ CAL MEM COM VOC
CUB 1,0000 0,7320 0,9207 -0,4491 0,3086 0,2735
PUZ 0,7320 1,0000 0,7510 -0,6143 0,2814 0,2850
CAL 0,9207 0,7510 1,0000 -0,3685 0,4077 0,4869
MEM -0,4491 -0,6143 -0,3685 1,0000 0,3032 0,2023
COM 0,3086 0,2814 0,4077 0,3032 1,0000 0,7819
VOC 0,2735 0,2850 0,4869 0,2023 0,7819 1,0000
Val. Propres (matrice de corrél.) & stat.

associées Variables actives seules
Val. propr % Total Cumul Cumul

variance Val. propr %
1 3,2581 54,3020 3,2581 54,3020
2 1,8372 30,6194 5,0953 84,9214
3 0,4430 7,3831 5,5383 92,3044
4 0,2538 4,2292 5,7920 96,5337
5 0,1679 2,7990 5,9600 99,3327
6 0,0400 0,6673 6,0000 100,0000
Page | 8
Scores, contributions et qualités de représentation des individus
Score Score Contribution Contribution Cos2 Cos2 Fact.

Fact. 1 Fact. 2 Fact.1 Fact.2 Fact.1 1&2
I1 -2,5616 3,0568 13,43 33,91 0,4078 0,5807
I2 -0,9661 0,9370 1,91 3,19 0,3907 0,3676
I3 0,6765 -0,6624 0,94 1,59 0,4446 0,4263
I4 -2,7969 -1,4636 16,01 7,77 0,7160 0,1961
I5 -1,8423 0,1211 6,95 0,05 0,8142 0,0035
I6 1,8891 0,1350 7,30 0,07 0,8426 0,0043
I7 -2,3396 -1,5487 11,20 8,70 0,6028 0,2641
I8 0,7275 -2,2054 1,08 17,65 0,0816 0,7499
I9 2,8400 0,5423 16,50 1,07 0,8745 0,0319
I10 2,1733 0,6117 9,66 1,36 0,7433 0,0589
I11 1,2940 2,0373 3,43 15,06 0,2256 0,5592
I12 -0,9947 0,8181 2,02 2,43 0,3120 0,2110
I13 -0,6099 -0,8730 0,76 2,77 0,1949 0,3994
I14 2,0150 -0,9470 8,31 3,25 0,7548 0,1667
I15 0,4957 -0,5591 0,50 1,13 0,1151 0,1464
Saturations, contributions et qualités de représentation des variables
Saturation Saturation Contribution Contribution Cos2 Cos2

Fact. 1 Fact. 2 Fact.1 Fact.2 Fact.1 Fact.2
CUB -0,8970 0,2018 0,25 0,02 0,8046 0,8453
PUZ -0,8652 0,2883 0,23 0,05 0,7485 0,8316
CAL -0,9458 0,0390 0,27 0,00 0,8945 0,8960
MEM 0,4449 -0,7861 0,06 0,34 0,1980 0,8160
COM -0,5382 -0,7627 0,09 0,32 0,2897 0,8714
VOC -0,5683 -0,7156 0,10 0,28 0,3229 0,8350
Représentation des individus dans le premier plan factoriel
Projection des ind. sur le plan factoriel ( 1 x 2)

Observations avec la somme des cosinus
5 carrés >= 0,00
4
I1
3
I1
2 1
I1I2
1 I1 I9
I5
I60
0
I15I
I1 3 I1
- I4 I7 3 4
1
- I
2 8
-
3
- - - - - - 0 1 2 3 4 5
Activ
5 4 3 2 1
Fact. 1 : e
54,30%
Page | 9
Projection des variables sur le plan factoriel ( 1 x 2)
1,0
0,5
PUZ
CUB
0,0 CAL
Fact. 2 : 30,62%
-0,5
VOC
COM MEM
-1,0
-1,0 -0,5 0,0 0,5 1,0

Active
Fact. 1 : 54,30%
1) Etude du tableau des valeurs propres

a) A quoi correspond la somme des valeurs propres ?
b) On choisit de n'étudier que les deux premières composantes principales. Justifier ce choix en
analysant le tableau des valeurs propres.
2) Etude du tableau des corrélations
b) Quels sont les subtests les plus fortement corrélés entre eux ?
c)Comment s'organisent les signes "+" et les signes "-" dans le tableau des coefficients de corrélation.
Commenter.
2) Etude des qualités de représentation dans le premier plan principal
Quel est l'individu le moins bien représenté par le premier plan principal ? Quel est
l'individu le mieux représenté ?
3) Etude du nuage des individus.

a) Quels sont les individus dont la contribution à la formation de la première composante
principale est supérieure à la moyenne ? Pour chacun d'eux, préciser le signe de la coordonnée
correspondante.
Page | 10
b) Même question pour la deuxième composante principale.
4) Etude du nuage des variables

a) La représentation graphique des variables montre qu'elles sont toutes très bien
représentées dans le plan (CP1, CP2). Justifier cette affirmation.
b) Quelles sont les variables qui sont corrélées positivement avec le premier facteur principal ?
Quelles sont celles qui sont corrélées négativement ? Comment peut-on caractériser cet axe par rapport
aux variables de départ ?
c)Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième axe.
En utilisant les scores centrés-réduits des individus, on a obtenu le graphique suivant :
1) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.
On retient finalement la partition en 4 classes.
Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?
Page | 11
On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant, permet de
définir sur les individus une distance dite ultra métrique. Evaluer à partir du graphique la distance ultra
métrique séparant le sujet I15 et le sujet I6.
FICHE DE TD : CHAPITRE 4 : LES ARBRES DE DECISON

Exercice 1:
1. Définir entropie et calculer le.

2. Définir entropie résiduelle pour l’attribut A et calculer l’entropie résiduelle pour chaque attribut
(Emplacement, Type de maison, Revenu, client antérieur)
3. Construire l’arbre de décision et l’élaguer
Page | 12
Exercice 2:
Soit le tableau suivant:
1. Calculer l’entropie de l’ensemble d’exemples par rapport à la valeur de la classe.

2. Quel le gain de l’attribut a2.
CORRECTION DES EXERCICES CHAPITRE 2: CLASSIFICATION AUTOMATIQUE

SERIE 1
Exercice 1: Questions de cours
1. Définir les termes et expressions suivante: Classification, Classification non supervisée, Clustering,
CAH, Classification binaire, Classification multi-classe.
Classification: technique qui sert à catégoriser ou classer les informations issues d’ensemble de données
dans le but d’établir des prédictions.
Classification non supervisée: désigne un corpus de méthodes ayant pour objectif de dresser ou de
retrouver une typologie existante caractérisant un ensemble de 𝑛 observations, à partir de 𝑝
caractéristiques mesurées sur chacune des observations
Clustering: méthode d’apprentissage automatique qui consiste à regrouper des points de données par
similarité ou par distance.
CAH: Classification Ascendante Hiérarchique.
Classification binaire: est une transformation de données qui vise à répartir les membres d'un ensemble
dans deux groupes disjoints selon que l'élément possède ou non une propriété/fonctionnalité donnée
Classification multi-classe: est un processus de répartition d'un lot de propositions entre plus de deux
ensembles.
Page | 13
2. Énumérer deux domaines d’application du clustering.
- Text mining : Il permet d’extraire des données pour recréer de l’information à partir de corpus de textes
en les classifiant et en les analysant de manière à établir des tendances. Il est employé dans le domaine
du marketing, la communication, les sciences politiques et la recherche.
- Web mining: Il désigne l’ensemble des techniques visant à explorer, traiter et analyser les grandes
masses d’informations liées à une activité web
- Bio-informatique : gènes ressemblants
- Marketing : segmentation de la clientèle
- Web lot analysis : profils utilisateurs
3. Quelles sont les qualités d’un bon clustering? Quels sont les algorithmes de clustering?
Pour évaluer un algorithme de clustering on peut s'intéresser à :
 La forme des clusters qu'il produit (sont-ils denses, bien séparés)
 la stabilité de l'algorithme ;
 la compatibilité des résultats avec des connaissances spécifiques au domaine, que l'on peut
évaluer à l'aide de mesures d'enrichissement.
Les algorithmes de clustering les plus courants sont le K-Means, les algorithmes de maximisation de
l'espérance (de type EM, comme les mixtures gaussiennes) et les partitions de graphes.
4. Quelle est la différence entre Clustering et Classification?

Contrairement aux techniques de classification, les techniques de clustering appartiennent aux techniques
d'apprentissage non supervisé : l'algorithme ne dispose pas d'exemples pour lesquels les groupes à trouver
sont connus. La classification implique de classer les données d’entrée comme l’une des étiquettes de
classe de la variable de sortie.
5. Comment fonctionne la classification non supervisée?

En machine learning, la classification non supervisée (ou unsupervised learning) consiste à
entraîner des modèles, sans réaliser d'étiquetage manuel ou automatique des données au préalable. Les
algorithmes regroupent les données en fonction de leur similitude, sans aucune intervention humaine.
6. Quand utiliser K-means?

K-means peut s'appliquer dans de nombreux domaines pour identifier des clusters au sein de données
similaires. Il permet par exemple de regrouper des clients en fonction de leur degré de rentabilité en vue
d'analyser leur profil.
Page | 14
7. Quelle est la différence entre la Classification hiérarchique et la méthode de k-means?
Contrairement au k-means, la classification hiérarchique ne nécessite pas de déterminer un nombre de
classes au préalable. En effet, en jouant sur la profondeur de l'arbre, on peut explorer différentes
possibilités et choisir le nombre de classes qui nous convient le mieux.
Exercice 2: Soit l'ensemble D des entiers suivants :

D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme K-means. La distance d
entre deux nombres a et b est calculée ainsi :
d (a , b) = |a – b| (la valeur absolue de a moins b)
Travail à faire :
5) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.
Solution:
a) Initialisation :
- Initialisation des centres de gravité : μ1=8, μ2=10, μ3=11

- Initialisation des clusters : C1=Ø, C2=Ø, C3=Ø
b) Itération 1 :
 Calcul des distances
Nombres Distances
Nombre 2 d(2, μ1)=|2-8|=6

d(2, μ2)=|2-10|=8
d(2, μ3)=|2-11|=9
2 est affecté au cluster C1.
Nombre 5 d(5, μ1)=|5-8|=3

d(5, μ2)=|5-10|=5
d(5, μ3)=|5-11|=6
d(8, μ1)=|8-8|=0
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-11|=3
Page | 15
Nombre 10 d(10, μ1)=|10-8|=2

d(10, μ2)=|10-10|=0
d(10, μ3)=|10-11|=1
10 est affecté au cluster
Nombre 11 d(11, μ1)=|11-8|=3

d(11, μ2)=|11-10|=1
d(11, μ3)=|11-11|=0
Nombre 18 d(18, μ1)=|18-8|=10

d(18, μ2)=|18-10|=8
d(18, μ3)=|18-11|=7
Nombre 20 d(20, μ1)=|20-8|=12

d(20, μ2)=|20-10|=10
d(20, μ3)=|20-11|=9
Tableau 1: Calcul des distances
 Mise à jour des clusters :
C1={ 2, 5, 8}
C2={10}
C3={11, 18, 20}
 R- estimation des centres de gravité :

- μ1= (2+5+8)/3 μ1=5
- μ2=10/1 μ2=10
- μ3=(11+18+20)/3 μ3=16.33
c) Itération 2 :
Nombres Distances
Page | 16
Nombre 2 d(2, μ1)=|2-5|=3
d(2, μ2)=|2-10|=8
d(2, μ3)=|2-16.33|=14.33
Nombre 5 d(5, μ1)=|5-5|=0

d(5, μ2)=|5-10|=5
d(5, μ3)=|5-16.33|=11.33
d(8, μ1)=|8-5|=3
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-16.33|=8.33
Nombre 10 d(10, μ1)=|10-8|=2

d(10, μ2)=|10-10|=0
d(10, μ3)=|10-11|=1
10 est affecté au cluster
Nombre 11 d(11, μ1)=|11-5|=6

d(11, μ2)=|11-10|=1
d(11, μ3)=|11-16.33|=5.33
Nombre 18 d(18, μ1)=|18-8|=10

d(18, μ2)=|18-10|=8
d(18, μ3)=|18-11|=7
Nombre 20 d(20, μ1)=|20-5|=15

d(20, μ2)=|20-10|=10
d(20, μ3)=|20-16.33|=3.67
Page | 17
C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}

- μ1= (2+5)/2 μ1=3.5
- μ2=(8+10+11)/3 μ2=9.66
- μ3=(18+20)/2 μ3= 19
d) Itération 3 :
Nombres Distances
Nombre 2 d(2, μ1)=|2-3.5|=1.5

d(2, μ2)=|2-9.66|=7.66
d(2, μ3)=|2-19|=17
Nombre 5 d(5, μ1)=|5-3.5|=1.5

d(5, μ2)=|5-9.66|=4.66
d(5, μ3)=|5-19|=14
d(8, μ1)=|8-3.5|=4.5
Nombre 8 d(8, μ2)=|8-9.66|=1.66
d(8, μ3)=|8-19|=11
Nombre 10 d(10, μ1)=|10-3.5|=6.5

d(10, μ2)=|10-9.66|=0.34
d(10, μ3)=|10-19|=9
Nombre 11 d(11, μ1)=|11-3.5|=7.5

d(11, μ2)=|11-9.66|=1.34
d(11, μ3)=|11-19|=8
Page | 18
Nombre 18 d(18, μ1)=|18-3.5|=14.5
d(18, μ2)=|18-9.66|=8.34
d(18, μ3)=|18-19|=1
Nombre 20 d(20, μ1)=|20-3.5|=16.5

d(20, μ2)=|20-9.66|=10.34
d(20, μ3)=|20-19|=1
C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}

- μ1= (2+5)/2 μ1=3.5
- μ2=(8+10+11)/3 μ2=9.66
- μ3=(18+20)/2 μ3= 19
Stabilité : Les centres de gravité n'ont pas changé. L'algorithme s'arrête
SERIE 2
Exercice 1 (sur les centres mobiles)

Soit les deux variables X1 et X2 et les 6 individus {𝜔 1, 𝜔 2,…, 𝜔 6} représentés par le tableauci-
dessous :
Page | 19
Dans un premier temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3)
1 2
Le tableau des distances entre les individus et ces centres est
Par exemple :
D’où les deux groupes :
On considère deux nouveaux centres, 𝑐 1 et 𝑐 1, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 1 a pour coordonnées
1
2
𝑑 (𝜔 1,𝑐 1) = √(−2 − (−1.33)2 + (2 − 0)2 = √(−2 − (−1.33)2 + 4 = 2.109 = 2.11

1
Page | 20
1 2
groupes A et B.
1
2
On retrouve la même classification que l’étape précédente, on arrête l’algorithme
Dans un deuxième temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,2) et 𝑐 0 de coordonnées (1,1)
1 2
Page | 21
1 2
groupes A et B.
1
2
On retrouve la même classification que l’étape précédente, on arrête l’algorithme.
Conclusion : On obtient deux classifications différentes suivant les choix des centres initiaux.
Exercice 2 (sur la CAH)

On considère la matrice de données X dans ℝ2 définie par
2 2
7.5 4
X= 3 3
Page | 22
0.5 5
6 4
On fait l’algorithme de CAH avec la méthode de Ward.

Le tableau des écarts associé à P0= ({𝜔 1, 𝜔 2, 𝜔 3, 𝜔 4, 𝜔 5}) est
𝜔1 𝜔2 𝜔3 𝜔4 𝜔5
𝜔1 0 17.12 1 5.62 10
𝜔2 17.12 0 10.62 25 1.12
𝜔3 1 10.62 0 5.12 5
𝜔4 5.62 25 5 .12 0 15.62

𝜔5 10 1.12 5 15.62 0
Par exemple, on a
Les éléments (individus) 𝜔 1 et 𝜔 3 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : A = { 𝜔 1, 𝜔 3}. On a une nouvelle partition de Γ:
L’inertie intra-classes de P1 est
Le centre de gravité associé à A est le point gA de coordonnées :
Le tableau des écarts associé à P1 est :
𝜔2 𝜔4 𝜔5 A
𝜔2 0 25 1.12 18.16
𝜔4 25 0 15.62 6.83
Page | 23
𝜔5 1.12 15.62 0 9.66
A 18.16 6.83 9.66 0
Par exemple, on a
Les éléments (individus) 𝜔 2 et 𝜔 5 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : B = { 𝜔 2, 𝜔 5}. On a une nouvelle partition de Γ:
Le centre de gravité associé à B est le point gB de coordonnées gB= ((7,5+6)/2, (4+4)/2)=gB =

(6.75, 4).
Le tableau des écarts associé à P2 est
𝜔4 A B
𝜔 0 6.83 26.7
4
A 6.83 0 20.31
B 26.7 20.31 0
Par exemple, on a
Les éléments (individus) 𝜔 4 et A ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : C = { 𝜔 4, A}. On a une nouvelle partition de Γ
Page | 24
Le centre de gravité associé à C est le point gC de coordonnées
Le tableau des écarts associé à P3 est
B C
B 0 29.58
C 29.58 0
On a :
Il ne reste plus que 2 éléments, B et C ; on les regroupe. Cela donne la partition P4=
{𝜔 1, 𝜔 2, 𝜔 3, 𝜔 4, 𝜔 5}= Γ.
Cela termine l’algorithme de CAH.

Les éléments {𝜔 1}et {𝜔 3}ont été regroupés avec un écart de 1 Les
éléments {𝜔 2}et {𝜔 5}ont été regroupés avec un écart de 1.12
Les éléments A = {𝜔 1, 𝜔 3}et {𝜔 4} ont été regroupés avec un écart de 6.83

Les éléments B = {𝜔 2, 𝜔 5} et C = {𝜔 4, A}ont été regroupés avec un écart de 29.58.On
peut donc construire le dendrogramme associé.
Page | 25
La formule √2𝑒 (𝐴 , 𝐵 ) a été utilisée pour les hauteurs des branches du dendrogramme, on a :
CORRIGÉ FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE
Exercice 1 : Vrai ou Faux.

1. Vrai.
Plus les variables sont corrélées entre elles, plus il est facile de les résumer par un petit nombre de
variables synthétiques (les composantes principales) et donc plus le pourcentage d’inertie porté par les
premières composantes principales est important. Ce pourcentage est la somme des carrés des coefficients
de corrélation entre la composante et les variables initiales.
2. Vrai.
Les individus ayant les mêmes poids, les individus très éloignés du centre de gravité du nuage contribuent
à une part importante de la variabilité (=de l’inertie). Ils "attirent" donc les axes puisque ces derniers ont
pour propriété de représenter au mieux l’inertie du nuage.
3. Vrai.
Page | 26
La variance des coordonnées correspond à l’inertie, et les axes sont classés par inertie décroissante ; la
variance des coordonnées sur le premier axe factoriel est donc plus élevée que la variance des
coordonnées sur le second axe.
4. Faux.
Il faut que les deux variables soient superposées mais aussi qu’elles soient bien projetées (pointes des
flèches proches du cercle des corrélations) pour qu’en puisse en déduire qu’elles sont corrélées entre elles
(notons que deux variables peuvent être mal projetées et étroitement corrélées).
5. Faux.
Un individu très proche du centre de gravité a des valeurs proches de la moyenne pour chacune des
variables.
Exercice 2 :
Réponse. Grande homogénéité des 4 variables : même ordre de grandeur pour la moyenne, les écarts-
types, les minima et les maxima
Réponse. Toutes les corrélations linéaires sont positives, ce qui signifie que toutes les variables varient
(en moyenne) dans le même sens
3) Quelle est la relation entre 𝜆𝑖 est la variance de 𝐶𝑖 ?

Réponse :
𝑉𝑎𝑟(𝐶𝑖 ) = 𝜆𝑖 , 𝑜ù 𝜆𝑖 est une valeur propre de la Matrice Variance-Covariance
4) Comment interpréter la relation suivante qui relié la variance des variables initiales Xi avec celle des
composantes principales Ci ?
Réponse :
Le nuage de points en dimension 4 est toujours le même et sa dispersion globale n’a pas changée. C’est
la répartition de cette dispersion, selon les nouvelles variables que sont les facteurs, ou composantes
principales, qui se trouvent modifiée :
Page | 27
5) Comment interprétez-vous ces résultats ?
Réponse :
On notera que les deux dernières colonnes ne seront pas utilisées puisqu’on ne retient que deux
dimensions pour interpréter l’analyse
Interprétation.
On voit que le premier facteur est corrélé positivement, et assez fortement, avec chacune des 4 variables
initiales : plus un élève obtient de bonnes notes dans chacune des 4 disciplines, plus il a un score élevé
sur l’axe 1 ; réciproquement, plus ses notes sont mauvaises, plus son score est négatif.
 L’axe 1 représente donc, en quelques sortes, le résultat global (dans l’ensemble des 4 disciplines
considérées) des élèves.
 L’axe 2, il oppose, d’une part, le français et l’anglais (corrélations positives), d’autre part, les
mathématiques et la physique (corrélations négatives). Il s’agit donc d’un axe d’opposition entre
disciplines littéraires et disciplines scientifiques, surtout marqué par l’opposition entre le français
et les mathématiques.
Cette interprétation peut être précisée avec graphiques et tableaux relatifs aux individus. Ce que nous
donnons ci-dessous
6) Interpréter les résultats obtenus sur les individus.

Interprétation.
On confirme que : l’axe 1 représente le résultat d’ensemble des élèves :
 si on prend leur score - ou coordonnée- sur l’axe 1, on obtient le même classement que si on prend
leur moyenne générale.
 L’élève "le plus haut" sur le graphique, celui qui a la coordonnée la plus élevée sur l’axe 2, est
Pierre dont les résultats sont les plus contrastés en faveur des disciplines littéraires (14 et 11.5
contre 7 et 5.5). C’est exactement le contraire pour André qui obtient la moyenne dans les
disciplines scientifiques (11 et 10) mais des résultats très faibles dans les disciplines littéraires (7
et 5.5).
 Monique et Alain ont un score voisin de 0 sur l’axe 2 car ils ont des résultats très homogènes dans
les 4 disciplines (mais à des niveaux très distincts, ce qu’a déjà révélé l’axe 1).
L’axe 2 oppose bien les "littéraires" (en haut) aux "scientifiques" (en bas).
Page | 28
 Les 3 colonnes du tableau ci-dessus fournissent des contributions des individus à diverses
dispersions :
 cont1 et cont2 donnent les contributions (en pourcentages) des individus à la variance selon les
axes 1 et 2 (rappelons que l’on utilise ici la variance pour mesurer la dispersion) ;
 Contg donne les contributions générales, c’est-à-dire à la dispersion en dimension 4 (il s’agit de
ce que l’on appelle l’inertie du nuage des élèves.
Ces contributions sont fournies en pourcentages (chaque colonne somme à 100) et permettent de repérer
les individus les plus importants au niveau de chaque axe. Elles servent en général à affiner
l’interprétation des résultats de l’analyse. Ainsi, par exemple, la variance de l’axe 1 vaut 28.23 (première
valeur propre). On peut la retrouver en utilisant la formule de définition de la variance :
La coordonnée de Jean (le premier individu du fichier) sur l’axe 1 vaut c11 = −8.61 ; sa contribution est
donc :
A lui seul, cet individu représente près de 30% de la variance : il est prépondérant (au même titre que
Monique) dans la définition de l’axe 1 ; cela provient du fait qu’il a le résultat le plus faible, Monique
ayant, à l’opposé, le résultat le meilleur.
 Les 2 dernières colonnes du tableau sont des cosinus carrés qui fournissent la qualité de la
représentation de chaque individu sur chaque axe. Ces quantités s’additionnent axe par axe, de
sorte que, en dimension 2, Evelyne est représentée à 98% (0.25 + 0.73), tandis que les 8 autres
individus le sont à 100%.
Exercice 3:
1) Ce sont les variables représentées par des points proches du cercle des corrélations et proches de l’axe
1. Ici : V5, V6 et V7
Page | 29
2) Ce sont les variables représentées par des points trop éloignés du cercle des corrélations (proches de
0). Ici : V2 et V3.
3) Les variables représentées par des points proches du cercle des corrélations et proches entre elles sont
fortement corrélées positivement.
On distingue 3 groupes :
Groupe 1 : V5 et V7 ;
Groupe 2 : V1 et V9 ;
Groupe 3 : V4, V8 et V10.
4) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle droit (ou presque droit) ne sont pas corrélées entre elles (ou sont peu corrélées entre elles).
On peut citer ici :
V7 et V8, V7 et V10 ; V7 et V4 ; V7 et V9 ; V5 et V9 ; V6 et V1 ; V6 et V10, etc.
5) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle plat (ou presque plat) sont fortement corrélées négativement entre elles. On observe ici que les
variables fortement corrélées négativement avec V4 sont V1 et V9.
6) Ce coefficient est égal à l’abscisse (coordonnée sur l’axe 1) du point représentant V1. Il vaut environ
−0, 33.
7) La variable V9 convient puisqu’elle est représentée par un point dont la coordonnée sur l’axe 2 vaut
presque 1.
8) On sait que les composantes principales sont toutes non corrélées deux à deux, le coefficient de
corrélation entre la première et la deuxième est donc nul.
Exercice 4
1) Etude du tableau des valeurs propres
a) A quoi correspond la somme des valeurs propres ?
La somme des valeurs propres est égale à 6. Dans le cas d'une ACP normée telle que celle qui est effectuée
ici, cette somme est égale au nombre de variables. Cette valeur correspond également à la variance du
nuage des individus.
b) On choisit de n'étudier que les deux premières composantes principales. Justifier ce choix en analysant
le tableau des valeurs propres.
On peut choisir de ne s'intéresser qu'aux valeurs propres dont la contribution à la variance est supérieure
à la moyenne. Ceci revient à étudier les composantes principales correspondant à des valeurs propres
Page | 30
supérieures à 1. Or, seules les deux premières valeurs propres vérifient cette propriété sur l'exemple
fourni.
2) Etude du tableau des corrélations

a) Quels sont les subtests les plus fortement corrélés entre eux ?
Les corrélations les plus fortes sont celles correspondant aux coefficients de corrélation les plus proches
de 1 ou -1. Ici, le coefficient de corrélation dont la valeur absolue est la plus proche de 1 est celui qui
relie CUB et CAL.
b) Comment s'organisent les signes "+" et les signes "-" dans le tableau des coefficients de corrélation.
Commenter.
La plupart des coefficients de corrélation sont positifs. Autrement dit, un bon résultat à un test est, en
règle général, lié à de bons résultats aux autres tests. On note toutefois une exception remarquable : la
variable MEM (mémoire immédiate des chiffres) est corrélée négativement à 3 autres variables : CUB,
PUZ et CAL. Mais ce sont les seuls coefficients négatifs du tableau.
3) Etude des qualités de représentation dans le premier plan principal

Quel est l'individu le moins bien représenté par le premier plan principal ? Quel est l'individu le mieux
représenté ?
Les qualités de représentation des individus dans le premier plan factoriel sont obtenues en additionnant
les résultats des deux colonnes "Cos 2 " du tableau relatif aux individus. Le sujet le mieux représenté est
I1, avec une qualité de représentation de 0,9885, le plus mal représenté est I15, avec une qualité de
0,2615.
4) Etude du nuage des individus.

a) Quels sont les individus dont la contribution à la formation de la première composante principale est
supérieure à la moyenne ? Pour chacun d'eux, préciser le signe de la coordonnée correspondante.
Les individus envisagés ici sont ceux dont la contribution est supérieure à 6,67%. Ce sont les individus
suivants :
Page | 31
Caractériser cet axe en termes d'opposition entre individus.
Cet axe oppose les individus I4, I1, I7 et I5 d'une part aux individus I9, I10 et I14 d'autre part.
Les sujets du premier groupe obtiennent des scores généralement plus élevés que ceux du 2è groupe,
particulièrement sur les variables CUB, PUZ et CAL.
b) Même question pour la deuxième composante principale.
Cet axe oppose les individus I8 et I4 d'une part aux individus I1 et I11 d'autre part. On peut noter que
l'individu I1 explique à lui seul plus du tiers de la variance de cet axe.
5) Etude du nuage des variables

a) La représentation graphique des variables montre qu'elles sont toutes très bien représentées dans le
plan (CP1, CP2). Justifier cette affirmation.
Les extrémités des vecteurs représentant les variables sont toutes très proches du cercle des corrélations,
ce qui montre que les qualités de représentation des variables sont satisfaisantes.
D'autre part la dernière colonne du tableau des résultats relatifs aux variables montre que la variable la
plus mal représentée est MEM, avec une qualité qui atteint quand même 0,8816.
b) Quelles sont les variables qui sont corrélées positivement avec le premier facteur principal ?
Page | 32
Quelles sont celles qui sont corrélées négativement ? Comment peut-on caractériser cet axe par rapport
aux variables de départ ?
Les corrélations peuvent être lues sur le dessin ou sur le tableau des saturations. Seule la variable MEM
est corrélée positivement avec le premier axe, toutes les autres sont corrélées négativement. Ainsi, cet
axe oppose le résultat au test MEM à tous les autres tests.
c) Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième axe.
Les corrélations les plus fortes sont observées pour les variables MEM, COM et VOC. Ces variables sont
toutes trois corrélées négativement avec la variable CP2.
6)
a) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
Il s'agit ici d'une classification ascendante hiérarchique.
b) L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.
On observe un saut brutal de l'indice d'agrégation lors de la formation de la dernière classe. Le passage
de 3 à 2 classes se fait avec des indices d'agrégation peu différents. En revanche, on avait également une
forte progression de l'un indice d'agrégation lors du passage de 4 à 3 classes.
c) On retient finalement la partition en 4 classes.

Décrire en extension chacune des classes de la partition.
Classe I : I1, I2, I5, I12
Classe II : I4, I7
Classe III : I3, I13, I8, I14, I15
Classe IV : I6, I10, I9, I11
d) Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?
Les classes correspondent approximativement aux 4 quadrants définis par les deux premières variables
principales. Ainsi :
La classe I correspond à CP1 < 0 et CP2 > 0
La classe II correspond à CP1 < 0 et CP2 < 0, mais ne contient pas I13. Il vaudrait mieux la décrire par :
CP1 < -1, CP2 < -1
Page | 33
La classe III correspond à CP1 > -1, CP2 < 0
La classe IV correspond à CP1 >0 et CP2 > 0.
e) On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant,permet
de définir sur les individus une distance dite ultramétrique. Evaluer à partir du graphique la distance
ultramétrique séparant le sujet I15 et le sujet I6.
La distance ultramétrique associée à une CAH est obtenue en considérant, pour chaque couple d'objets,
la plus petite classe les contenant et en notant l'indice d'agrégation correspondant. Pour les objets I15 et
I6, la classe correspondante est l'avant-dernière, avec un indice d'agrégation proche de 24 (valeur lue sur
le graphique).
CORRIGÉ CHAPITRE 4 : LES ARBRES DE DECISON

Exercice 1:
1. Entropie : Quantité moyenne d’information pour classifier un objet.
Calcul de l’entropie :
2. Entropie résiduelle pour l’attribut A:
où v sont les valeurs possibles de l'attribut A.
Calcul de l’entropie résiduel pour l’attribue emplacement :
3. Construction de l’arbre de décision
Page | 34
NB : À chaque nœud, choisir l'attribut de gain (i.e I-Ires) maximal et arrêter quand l'entropie
est nulle
Exercice 2 :
1. En appliquant :
, nous avons 3 exemples positifs et trois négatifs donc I(n,p) = 1
2. En appliquant :
où T est un test sur l’attribut a2 on aura :
Par conséquent, le gain est égal à 0.
Page | 35

Travaux Dirige-et-corriges-Apprentissage Non Supervisee-Analyse Factorielle-Arbre de Decision-27 Mai 2022 12h15

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Travaux Dirige-et-corriges-Apprentissage Non Supervisee-Analyse Factorielle-Arbre de Decision-27 Mai 2022 12h15

Transféré par

Droits d'auteur :

Formats disponibles

FACULTE DES SCIENCES REPUBLIQUE DU CAMEROUN

FACULTY OF SCIENCE REPUBLIC OF CAMEROON

TD DE DATA MINING: THEME 2

Noms et prénoms des membres du groupe Matricules SPECIALITE

FOAM TOUKAM CINDY LENA CM-UDS-18SCI0092 IA

KENGNE WAMBO DARIL RAOUL CM-UDS-18SCI0131 IA

NGANFANG VICTOIRE CABRELLE CM-UDS-18SCI1828 IA

TEMFACK DERICK CM-UDS-18SCI0797 IA

Enseignant : Pr. KENGNE TCHENDJI VIANNEY

TABLE DE MATIERES ............................................................................................................................ i

Exercice 1: Questions de cours

1. Définir les termes et expressions suivante: Classification, Classification non supervisée,

Exercice 2: Soit l'ensemble D des entiers suivants :

Exercice 1 (sur les centres mobiles)

Exercice 2 (sur la CAH)

1. Appliquer l’algorithme de la CAH avec la méthode de Ward.

FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE

Exercice 1 : Vrai ou Faux.

Nous présentons ci-dessous quelques résultats de l’A.C.P.

Valeurs propres ; variances expliquées

3) Quelle est la relation entre λi est la variance de Ci ?

3. Résultats sur les variables

Corrélations variables-facteurs : r(Xj , Ck)

4. Résultats sur les individus

POIDS FACT1 FACT2 CONTG CONT1 CONT2 COSCA1 COSCA2

WISC CUB PUZ CAL MEM COM VOC

Val. Propres (matrice de corrél.) & stat.

Val. propr % Total Cumul Cumul

Score Score Contribution Contribution Cos2 Cos2 Fact.

Saturations, contributions et qualités de représentation des variables

Saturation Saturation Contribution Contribution Cos2 Cos2

Représentation des individus dans le premier plan factoriel

Projection des ind. sur le plan factoriel ( 1 x 2)

-1,0 -0,5 0,0 0,5 1,0

1) Etude du tableau des valeurs propres

2) Etude des qualités de représentation dans le premier plan principal

3) Etude du nuage des individus.

4) Etude du nuage des variables

FICHE DE TD : CHAPITRE 4 : LES ARBRES DE DECISON

1. Définir entropie et calculer le.

1. Calculer l’entropie de l’ensemble d’exemples par rapport à la valeur de la classe.

CORRECTION DES EXERCICES CHAPITRE 2: CLASSIFICATION AUTOMATIQUE

Exercice 1: Questions de cours

4. Quelle est la différence entre Clustering et Classification?

5. Comment fonctionne la classification non supervisée?

6. Quand utiliser K-means?

Exercice 2: Soit l'ensemble D des entiers suivants :

- Initialisation des centres de gravité : μ1=8, μ2=10, μ3=11

 Calcul des distances

Nombre 2 d(2, μ1)=|2-8|=6

2 est affecté au cluster C1.

Nombre 5 d(5, μ1)=|5-8|=3

5 est affecté au cluster C1.

Nombre 10 d(10, μ1)=|10-8|=2

10 est affecté au cluster

Nombre 11 d(11, μ1)=|11-8|=3

11 est affecté au cluster C3.

Nombre 18 d(18, μ1)=|18-8|=10

18 est affecté au cluster C3.

Nombre 20 d(20, μ1)=|20-8|=12

20 est affecté au cluster C3.

Tableau 1: Calcul des distances

 Mise à jour des clusters :

 R- estimation des centres de gravité :