Vous êtes sur la page 1sur 37

FACULTE DES SCIENCES REPUBLIQUE DU CAMEROUN

FACULTY OF SCIENCE REPUBLIC OF CAMEROON


Peace-Work-Fatherland
Département de Mathématiques et ********
Informatique UNIVERSITE DE DSCHANG
Department of mathematics and Computer UNIVERSITY OF DSCHANG
Science Scholae Thesaurus Dschangensis Ibi Cordum
BP 96, DSc hang (Cameroun)
BP 96, Dschang (Cameroun)
Tél. /Fax (237) 233 45 13 81
Tél. /Fax (237) 233 45 13 81
Website : http://fs.univ-dschang.org.
Website : http://www.univ-dschang.org.
E-mail : dept.math-info@univ-dschang.org
E-mail : udsrectorat@univ-dschang.org

TD DE DATA MINING: THEME 2


CHAPITRE 2: MODELISATION NON SUPERVISEE: CLASSIFICATION
AUTOMATIQUE
CHAPITRE 3 : MODELISATION NON SUPERVISE : LES ANALYSES
FACTORIELLES
CHAPITRE 4 : MODELISATION SUPERVISEE : LES ARBRES DE
DECISION

Noms et prénoms des membres du groupe Matricules SPECIALITE

FOAM TOUKAM CINDY LENA CM-UDS-18SCI0092 IA

KENGNE WAMBO DARIL RAOUL CM-UDS-18SCI0131 IA

NGANFANG VICTOIRE CABRELLE CM-UDS-18SCI1828 IA

TEMFACK DERICK CM-UDS-18SCI0797 IA

Enseignant : Pr. KENGNE TCHENDJI VIANNEY

Année académique
2021/2022
TABLE DE MATIERES

TABLE DE MATIERES ............................................................................................................................ i


FICHE DE TD CHAPITRE 2 : CLASSIFICATION AUTOMATIQUE .................................................. 1
Série d’exercices 1 ................................................................................................................................ 1
Série d’exercice 2 .................................................................................................................................. 1
FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE .................................................................. 2
FICHE DE TD : CHAPITRE 4 : LES ARBRES DE DECISON............................................................ 12
CORRECTION DES EXERCICES CHAPITRE 2: CLASSIFICATION AUTOMATIQUE ............... 13
SERIE 1............................................................................................................................................... 13
SERIE 2............................................................................................................................................... 19
CORRIGÉ FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE .............................................. 26
CORRIGÉ CHAPITRE 4 : LES ARBRES DE DECISON .................................................................... 34

I
FICHE DE TD CHAPITRE 2 : CLASSIFICATION AUTOMATIQUE
Série d’exercices 1

Exercice 1: Questions de cours

1. Définir les termes et expressions suivante: Classification, Classification non supervisée,


clustering, CAH, Classification binaire, Classification multi-classe.
2. Énumérer deux domaines d’application du clustering.
3. Quelles sont les qualités d’un bon clustering? Quels sont les algorithmes de clustering?
4. Quelle est la différence entre Clustering et Classification?
5. Comment fonctionne la classification non supervisée?
6. Quand utiliser K-means?
7. Quelle est la différence entre la Classification hiérarchique et la méthode de k-means?

Exercice 2: Soit l'ensemble D des entiers suivants :


D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme K-means. La distance d
entre deux nombres a et b est calculé ainsi :
d (a , b) = |a – b| (la valeur absolue de a moins b)

Travail à faire :
1) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.

Série d’exercice 2

Exercice 1 (sur les centres mobiles)


Soit les deux variables X1 et X2 et les 6 individus {𝜔 1, 𝜔 2,…, 𝜔 6} représentés par le tableauci-
dessous :

Page | 1
.
Réaliser une classification par l’algorithme des centres mobiles avec pour centres initiaux :
1. 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3).
1 2
2. 𝑐 0 de coordonnées (-1, 2) et 𝑐 0 de coordonnées (1,1).
1 2

Exercice 2 (sur la CAH)


Soit X une matrice de données dans ℝ2 définie par

1. Appliquer l’algorithme de la CAH avec la méthode de Ward.


2. Construire le dendrogramme associé.

FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE

Exercice 1 : Vrai ou Faux.


On considère une ACP normée dans laquelle le poids des individus est le même. Répondre par vrai ou
faux en justifiant la réponse.
1. Plus les variables sont corrélées entre elles plus le pourcentage d’inertie porté par les premiers axes de
l’ACP est grand.

Page | 2
2. Dans l’espace des individus (espace R p ), les individus éloignés du centre de gravité du nuage jouent
un rôle important dans l’analyse.
3. La variance des coordonnées des individus sur le premier axe factoriel est plus élevée que la variance
des coordonnées sur le second axe.
4. Des variables superposées sur le graphe des corrélations sont nécessairement très corrélées.
5. Dans R p , un individu très proche du centre de gravité a des valeurs brutes proches de zéro pour
l’ensemble des variables.

Exercice 2 :
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines (mathématiques, physique,
français, anglais)
MATH PHYS FRAN ANGL
Jean 6.00 6.00 5.00 5.50
Alan 8.00 8.00 8.00 8.00
Anni 6.00 7.00 11.00 9.50
Moni 14.50 14.50 15.50 15.00
Didi 14.00 14.00 12.00 12.50
Andr 11.00 10.00 5.50 7.00
Pier 5.50 7.00 14.00 11.50
Brig 13.00 12.50 8.50 9.50
Evel 9.00 9.50 12.50 12.00

Nous présentons ci-dessous quelques résultats de l’A.C.P.


1. Résultats préliminaires
Le logiciel fournit tout d’abord la moyenne (mean), l’écart-type (standard deviation), le mini-
mum et le maximum de chaque variable. Il s’agit donc, pour l’instant, d’études univariées.

Statistiques élémentaires
Variable Moyenne Ecart-type Minimum Maximum
MATH 9.67 3.37 5.50 14.50
PHYS 9.83 2.99 6.00 14.50
FRAN 10.22 3.47 5.00 15.50
ANGL 10.06 2.81 5.50 15.00

Page | 3
1) Que remarquez-vous ?
Le tableau suivant donne la matrice des corrélations. Il donne les coefficients de corrélation li-
néaire des variables prises deux à deux.

Coefficients de correlation
MATH PHYS FRAN ANGL
MATH 1.00 0.98 0.23 0.51
PHYS 0.98 1.00 0.40 0.65
FRAN 0.23 0.40 1.00 0.95
ANGL 0.51 0.65 0.95 1.00

2) Que remarquez-vous ?

2. Résultats généraux
Matrice des variances-covariances
MATH PHYS FRAN ANGL
MATH 11.39 9.92 2.66 4.82
PHYS 9.92 8.94 4.12 5.48
FRAN 2.66 4.12 12.06 9.29
ANGL 4.82 5.48 9.29 7.91

Valeurs propres ; variances expliquées


FACTEUR VAL. PR. PCT. VAR PCT. CUM
1 28.23 0.70 0.70
2 12.03 0.30 1.00
3 0.03 0.00 1.00
4 0.01 0.00 1.00
40.30 1

Ici :
PCT=pourcentage de variance
PCT= pourcentage cumulé : exemple (28, 23/40.30) × 100 = 70%.

Page | 4
Facteur i (ou composante principale Ci ).

3) Quelle est la relation entre λi est la variance de Ci ?


4) Comment interpréter la relation suivante qui relié la variance des variables initiales Xi avec
celle des composantes principales Ci ?

3. Résultats sur les variables


Le résultat fondamental concernant les variables est le tableau des corrélations variables-facteurs
(tableau des r(Xj, Ck )). Il s’agit des coefficients de corrélation linéaire entre les variables initiales
et les facteurs. Ce sont ces corrélations qui vont permettre de donner un sens aux facteurs (de les
interpréter).

Corrélations variables-facteurs : r(Xj , Ck)


FACTEURS F1 F2 F3 F4
MATH 0.81 -0.58 0.01 -0.02
PHYS 0.90 -0.43 -0.03 0.02
FRAN 0.75 0.66 -0.02 -0.01
ANGL 0.91 0.40 0.05 0.01

Les deux premières colonnes de ce tableau permettent, tout d’abord, de réaliser le graphique
des variables donné par la Fig. 3 Mais, ces deux colonnes permettent également de donner une
signification aux facteurs (donc aux axes des graphiques).

Page | 5
5) Comment interprétez-vous ces résultats ?

4. Résultats sur les individus


Le tableau donné ci-dessous contient tous les résultats importants de l’A.C.P. sur les individus

POIDS FACT1 FACT2 CONTG CONT1 CONT2 COSCA1 COSCA2


Jean 0.11 -8.61 -1.41 20.99 29.19 1.83 0.97 0.03
Alan 0.11 -3.88 -0.50 4.22 5.92 0.23 0.98 0.02
Anni 0.11 -3.21 3.47 6.17 4.06 11.11 0.46 0.54
Moni 0.11 9.85 0.60 26.86 38.19 0.33 1.00 0.00
Didi 0.11 6.41 -2.05 12.48 16.15 3.87 0.91 0.09
Andr 0.11 -3.03 -4.92 9.22 3.62 22.37 0.28 0.72
Pier 0.11 -1.03 6.38 11.51 0.41 37.56 0.03 0.97
Brig 0.11 1.95 -4.20 5.93 1.50 16.29 0.18 0.82
Evel 0.11 1.55 2.63 2.63 0.95 6.41 0.25 0.73

On notera que chaque individu représente 1 élément sur 9, d’où un poids (une pondération) de
1/9 = 0.11, ce qui est fourni par la première colonne du tableau. Les 2 colonnes suivantes fournissent les
coordonnées des individus (les élèves) sur les deux premiers axes (les facteurs) et ont donc permis de
réaliser le graphique des individus. Ce dernier (Fig. 4) permet de préciser la signification des axes, donc
des facteurs.

Page | 6
La signification et l’utilisation des dernières colonnes du tableau seront explicitées un peu plus
loin.
6) Interpréter les résultats obtenus sur les individus.

Exercice 3:
Une analyse en composante principale (ACP normée) a été exécutée sur 50 avions. On a déterminé, pour
chacun d’eux, la valeur de 10 variables (vitesse de croisière, rayon d’action, consommation, nombre de
places, coût de revient du transport par passager et par kilomètre, etc). On considère la représentation de
ces variables dans le cercle de corrélation ci-dessous.

1) Quelles sont les variables qui peuvent aider à donner une signification à l’axe 1 ?
2) Quelles sont les variables qui ne doivent pas être interprétées sur cette figure ?
3) Donner 3 groupes de variables qui, au sein d’un même groupe, sont fortement corrélées positivement
entre elles.
4) Citer deux variables qui sont peu corrélées entre elles.
5) Citer deux variables qui sont fortement corrélées négativement avec la variable V4 .
6) Quel est approximativement le coefficient de corrélation entre la variable V 1 et la première
composante principale ?

Page | 7
7) Citer une variable dont le coefficient de corrélation avec la deuxième composante principale vaut
presque 1.
8) Que veut le coefficient de corrélation entre la première et la deuxième composante principale.

Exercice 4
On a rassemblé les résultats de 15 enfants de 10 ans à 6 subtests du WISC (scores 0 à 5). Les variables
observées sont : CUB (Cubes de Kohs), PUZ (Assemblage d'objets), CAL (Calcul mental), MEM
(Mémoire immédiate des chiffres), COM (Compréhension de phrases), VOC (Vocabulaire). Le
protocole observé est le suivant :

WISC CUB PUZ CAL MEM COM VOC


I1 5 5 4 0 1 1
I2 4 3 3 2 2 1
I3 2 1 2 3 2 2
I4 5 3 5 3 4 3
I5 4 4 3 2 3 2
I6 2 0 1 3 1 1
I7 3 3 4 2 4 4
I8 1 2 1 4 3 3
I9 0 1 0 3 1 0
I10 2 0 1 3 1 0
I11 1 2 1 1 0 1
I12 4 2 4 2 1 2
I13 3 2 3 3 2 3
I14 1 0 0 3 2 2
I15 2 1 1 2 3 2
On traite ces données par une analyse en composantes principales normée. Les principaux
résultats de cette ACP sont indiqués ci-dessous :

Corrélations
CUB PUZ CAL MEM COM VOC
CUB 1,0000 0,7320 0,9207 -0,4491 0,3086 0,2735
PUZ 0,7320 1,0000 0,7510 -0,6143 0,2814 0,2850
CAL 0,9207 0,7510 1,0000 -0,3685 0,4077 0,4869
MEM -0,4491 -0,6143 -0,3685 1,0000 0,3032 0,2023
COM 0,3086 0,2814 0,4077 0,3032 1,0000 0,7819
VOC 0,2735 0,2850 0,4869 0,2023 0,7819 1,0000

Val. Propres (matrice de corrél.) & stat.


associées Variables actives seules

Val. propr % Total Cumul Cumul


variance Val. propr %
1 3,2581 54,3020 3,2581 54,3020
2 1,8372 30,6194 5,0953 84,9214
3 0,4430 7,3831 5,5383 92,3044
4 0,2538 4,2292 5,7920 96,5337
5 0,1679 2,7990 5,9600 99,3327
6 0,0400 0,6673 6,0000 100,0000

Page | 8
Scores, contributions et qualités de représentation des individus

Score Score Contribution Contribution Cos2 Cos2 Fact.


Fact. 1 Fact. 2 Fact.1 Fact.2 Fact.1 1&2
I1 -2,5616 3,0568 13,43 33,91 0,4078 0,5807
I2 -0,9661 0,9370 1,91 3,19 0,3907 0,3676
I3 0,6765 -0,6624 0,94 1,59 0,4446 0,4263
I4 -2,7969 -1,4636 16,01 7,77 0,7160 0,1961
I5 -1,8423 0,1211 6,95 0,05 0,8142 0,0035
I6 1,8891 0,1350 7,30 0,07 0,8426 0,0043
I7 -2,3396 -1,5487 11,20 8,70 0,6028 0,2641
I8 0,7275 -2,2054 1,08 17,65 0,0816 0,7499
I9 2,8400 0,5423 16,50 1,07 0,8745 0,0319
I10 2,1733 0,6117 9,66 1,36 0,7433 0,0589
I11 1,2940 2,0373 3,43 15,06 0,2256 0,5592
I12 -0,9947 0,8181 2,02 2,43 0,3120 0,2110
I13 -0,6099 -0,8730 0,76 2,77 0,1949 0,3994
I14 2,0150 -0,9470 8,31 3,25 0,7548 0,1667
I15 0,4957 -0,5591 0,50 1,13 0,1151 0,1464

Saturations, contributions et qualités de représentation des variables

Saturation Saturation Contribution Contribution Cos2 Cos2


Fact. 1 Fact. 2 Fact.1 Fact.2 Fact.1 Fact.2
CUB -0,8970 0,2018 0,25 0,02 0,8046 0,8453
PUZ -0,8652 0,2883 0,23 0,05 0,7485 0,8316
CAL -0,9458 0,0390 0,27 0,00 0,8945 0,8960
MEM 0,4449 -0,7861 0,06 0,34 0,1980 0,8160
COM -0,5382 -0,7627 0,09 0,32 0,2897 0,8714
VOC -0,5683 -0,7156 0,10 0,28 0,3229 0,8350

Représentation des individus dans le premier plan factoriel

Projection des ind. sur le plan factoriel ( 1 x 2)


Observations avec la somme des cosinus
5 carrés >= 0,00

4
I1
3
I1
2 1
I1I2
1 I1 I9
I5
I60
0
I15I
I1 3 I1
- I4 I7 3 4
1
- I
2 8
-
3

- - - - - - 0 1 2 3 4 5
Activ
5 4 3 2 1
Fact. 1 : e
54,30%

Page | 9
Projection des variables sur le plan factoriel ( 1 x 2)

1,0

0,5
PUZ
CUB

0,0 CAL
Fact. 2 : 30,62%

-0,5
VOC
COM MEM

-1,0

-1,0 -0,5 0,0 0,5 1,0


Active
Fact. 1 : 54,30%

1) Etude du tableau des valeurs propres


a) A quoi correspond la somme des valeurs propres ?
b) On choisit de n'étudier que les deux premières composantes principales. Justifier ce choix en
analysant le tableau des valeurs propres.
2) Etude du tableau des corrélations
b) Quels sont les subtests les plus fortement corrélés entre eux ?
c)Comment s'organisent les signes "+" et les signes "-" dans le tableau des coefficients de corrélation.
Commenter.

2) Etude des qualités de représentation dans le premier plan principal

Quel est l'individu le moins bien représenté par le premier plan principal ? Quel est
l'individu le mieux représenté ?

3) Etude du nuage des individus.


a) Quels sont les individus dont la contribution à la formation de la première composante
principale est supérieure à la moyenne ? Pour chacun d'eux, préciser le signe de la coordonnée
correspondante.

Page | 10
b) Même question pour la deuxième composante principale.

4) Etude du nuage des variables


a) La représentation graphique des variables montre qu'elles sont toutes très bien
représentées dans le plan (CP1, CP2). Justifier cette affirmation.
b) Quelles sont les variables qui sont corrélées positivement avec le premier facteur principal ?
Quelles sont celles qui sont corrélées négativement ? Comment peut-on caractériser cet axe par rapport
aux variables de départ ?
c)Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième axe.
En utilisant les scores centrés-réduits des individus, on a obtenu le graphique suivant :

1) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.
On retient finalement la partition en 4 classes.
Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?

Page | 11
On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant, permet de
définir sur les individus une distance dite ultra métrique. Evaluer à partir du graphique la distance ultra
métrique séparant le sujet I15 et le sujet I6.

FICHE DE TD : CHAPITRE 4 : LES ARBRES DE DECISON


Exercice 1:

1. Définir entropie et calculer le.


2. Définir entropie résiduelle pour l’attribut A et calculer l’entropie résiduelle pour chaque attribut
(Emplacement, Type de maison, Revenu, client antérieur)
3. Construire l’arbre de décision et l’élaguer

Page | 12
Exercice 2:
Soit le tableau suivant:

1. Calculer l’entropie de l’ensemble d’exemples par rapport à la valeur de la classe.


2. Quel le gain de l’attribut a2.

CORRECTION DES EXERCICES CHAPITRE 2: CLASSIFICATION AUTOMATIQUE


SERIE 1

Exercice 1: Questions de cours

1. Définir les termes et expressions suivante: Classification, Classification non supervisée, Clustering,
CAH, Classification binaire, Classification multi-classe.

Classification: technique qui sert à catégoriser ou classer les informations issues d’ensemble de données
dans le but d’établir des prédictions.
Classification non supervisée: désigne un corpus de méthodes ayant pour objectif de dresser ou de
retrouver une typologie existante caractérisant un ensemble de 𝑛 observations, à partir de 𝑝
caractéristiques mesurées sur chacune des observations
Clustering: méthode d’apprentissage automatique qui consiste à regrouper des points de données par
similarité ou par distance.
CAH: Classification Ascendante Hiérarchique.

Classification binaire: est une transformation de données qui vise à répartir les membres d'un ensemble
dans deux groupes disjoints selon que l'élément possède ou non une propriété/fonctionnalité donnée

Classification multi-classe: est un processus de répartition d'un lot de propositions entre plus de deux
ensembles.

Page | 13
2. Énumérer deux domaines d’application du clustering.

- Text mining : Il permet d’extraire des données pour recréer de l’information à partir de corpus de textes
en les classifiant et en les analysant de manière à établir des tendances. Il est employé dans le domaine
du marketing, la communication, les sciences politiques et la recherche.
- Web mining: Il désigne l’ensemble des techniques visant à explorer, traiter et analyser les grandes
masses d’informations liées à une activité web
- Bio-informatique : gènes ressemblants
- Marketing : segmentation de la clientèle
- Web lot analysis : profils utilisateurs

3. Quelles sont les qualités d’un bon clustering? Quels sont les algorithmes de clustering?
Pour évaluer un algorithme de clustering on peut s'intéresser à :
 La forme des clusters qu'il produit (sont-ils denses, bien séparés)
 la stabilité de l'algorithme ;
 la compatibilité des résultats avec des connaissances spécifiques au domaine, que l'on peut
évaluer à l'aide de mesures d'enrichissement.

Les algorithmes de clustering les plus courants sont le K-Means, les algorithmes de maximisation de
l'espérance (de type EM, comme les mixtures gaussiennes) et les partitions de graphes.

4. Quelle est la différence entre Clustering et Classification?


Contrairement aux techniques de classification, les techniques de clustering appartiennent aux techniques
d'apprentissage non supervisé : l'algorithme ne dispose pas d'exemples pour lesquels les groupes à trouver
sont connus. La classification implique de classer les données d’entrée comme l’une des étiquettes de
classe de la variable de sortie.

5. Comment fonctionne la classification non supervisée?


En machine learning, la classification non supervisée (ou unsupervised learning) consiste à
entraîner des modèles, sans réaliser d'étiquetage manuel ou automatique des données au préalable. Les
algorithmes regroupent les données en fonction de leur similitude, sans aucune intervention humaine.

6. Quand utiliser K-means?


K-means peut s'appliquer dans de nombreux domaines pour identifier des clusters au sein de données
similaires. Il permet par exemple de regrouper des clients en fonction de leur degré de rentabilité en vue
d'analyser leur profil.

Page | 14
7. Quelle est la différence entre la Classification hiérarchique et la méthode de k-means?
Contrairement au k-means, la classification hiérarchique ne nécessite pas de déterminer un nombre de
classes au préalable. En effet, en jouant sur la profondeur de l'arbre, on peut explorer différentes
possibilités et choisir le nombre de classes qui nous convient le mieux.

Exercice 2: Soit l'ensemble D des entiers suivants :


D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme K-means. La distance d
entre deux nombres a et b est calculée ainsi :
d (a , b) = |a – b| (la valeur absolue de a moins b)

Travail à faire :
5) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.

Solution:

a) Initialisation :

- Initialisation des centres de gravité : μ1=8, μ2=10, μ3=11


- Initialisation des clusters : C1=Ø, C2=Ø, C3=Ø

b) Itération 1 :

 Calcul des distances

Nombres Distances

Nombre 2 d(2, μ1)=|2-8|=6


d(2, μ2)=|2-10|=8
d(2, μ3)=|2-11|=9

2 est affecté au cluster C1.

Nombre 5 d(5, μ1)=|5-8|=3


d(5, μ2)=|5-10|=5
d(5, μ3)=|5-11|=6

5 est affecté au cluster C1.

d(8, μ1)=|8-8|=0
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-11|=3

Page | 15
8 est affecté au cluster C1.

Nombre 10 d(10, μ1)=|10-8|=2


d(10, μ2)=|10-10|=0
d(10, μ3)=|10-11|=1

10 est affecté au cluster

Nombre 11 d(11, μ1)=|11-8|=3


d(11, μ2)=|11-10|=1
d(11, μ3)=|11-11|=0

11 est affecté au cluster C3.

Nombre 18 d(18, μ1)=|18-8|=10


d(18, μ2)=|18-10|=8
d(18, μ3)=|18-11|=7

18 est affecté au cluster C3.

Nombre 20 d(20, μ1)=|20-8|=12


d(20, μ2)=|20-10|=10
d(20, μ3)=|20-11|=9

20 est affecté au cluster C3.

Tableau 1: Calcul des distances

 Mise à jour des clusters :

C1={ 2, 5, 8}
C2={10}
C3={11, 18, 20}

 R- estimation des centres de gravité :


- μ1= (2+5+8)/3 μ1=5
- μ2=10/1 μ2=10
- μ3=(11+18+20)/3 μ3=16.33

c) Itération 2 :

 Calcul des distances

Nombres Distances

Page | 16
Nombre 2 d(2, μ1)=|2-5|=3
d(2, μ2)=|2-10|=8
d(2, μ3)=|2-16.33|=14.33

2 est affecté au cluster C1.

Nombre 5 d(5, μ1)=|5-5|=0


d(5, μ2)=|5-10|=5
d(5, μ3)=|5-16.33|=11.33

5 est affecté au cluster C1.

d(8, μ1)=|8-5|=3
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-16.33|=8.33

8 est affecté au cluster C2.

Nombre 10 d(10, μ1)=|10-8|=2


d(10, μ2)=|10-10|=0
d(10, μ3)=|10-11|=1

10 est affecté au cluster

Nombre 11 d(11, μ1)=|11-5|=6


d(11, μ2)=|11-10|=1
d(11, μ3)=|11-16.33|=5.33

11 est affecté au cluster C2.

Nombre 18 d(18, μ1)=|18-8|=10


d(18, μ2)=|18-10|=8
d(18, μ3)=|18-11|=7

18 est affecté au cluster C3.

Nombre 20 d(20, μ1)=|20-5|=15


d(20, μ2)=|20-10|=10
d(20, μ3)=|20-16.33|=3.67

20 est affecté au cluster C3.

 Mise à jour des clusters :

Page | 17
C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}

 R- estimation des centres de gravité :


- μ1= (2+5)/2 μ1=3.5
- μ2=(8+10+11)/3 μ2=9.66
- μ3=(18+20)/2 μ3= 19

d) Itération 3 :

 Calcul des distances

Nombres Distances

Nombre 2 d(2, μ1)=|2-3.5|=1.5


d(2, μ2)=|2-9.66|=7.66
d(2, μ3)=|2-19|=17

2 est affecté au cluster C1.

Nombre 5 d(5, μ1)=|5-3.5|=1.5


d(5, μ2)=|5-9.66|=4.66
d(5, μ3)=|5-19|=14

5 est affecté au cluster C1.

d(8, μ1)=|8-3.5|=4.5
Nombre 8 d(8, μ2)=|8-9.66|=1.66
d(8, μ3)=|8-19|=11

8 est affecté au cluster C2.

Nombre 10 d(10, μ1)=|10-3.5|=6.5


d(10, μ2)=|10-9.66|=0.34
d(10, μ3)=|10-19|=9

10 est affecté au cluster C2.

Nombre 11 d(11, μ1)=|11-3.5|=7.5


d(11, μ2)=|11-9.66|=1.34
d(11, μ3)=|11-19|=8

11 est affecté au cluster C2.

Page | 18
Nombre 18 d(18, μ1)=|18-3.5|=14.5
d(18, μ2)=|18-9.66|=8.34
d(18, μ3)=|18-19|=1

18 est affecté au cluster C3.

Nombre 20 d(20, μ1)=|20-3.5|=16.5


d(20, μ2)=|20-9.66|=10.34
d(20, μ3)=|20-19|=1

20 est affecté au cluster C3.

 Mise à jour des clusters :

C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}

 R- estimation des centres de gravité :


- μ1= (2+5)/2 μ1=3.5
- μ2=(8+10+11)/3 μ2=9.66
- μ3=(18+20)/2 μ3= 19

Stabilité : Les centres de gravité n'ont pas changé. L'algorithme s'arrête

SERIE 2

Exercice 1 (sur les centres mobiles)


Soit les deux variables X1 et X2 et les 6 individus {𝜔 1, 𝜔 2,…, 𝜔 6} représentés par le tableauci-
dessous :

Page | 19
Dans un premier temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3)
1 2
Le tableau des distances entre les individus et ces centres est

Par exemple :

D’où les deux groupes :

On considère deux nouveaux centres, 𝑐 1 et 𝑐 1, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 1 a pour coordonnées
1

𝑐 1 a pour coordonnées
2

Le tableau des distances entre les individus et ces centres est

𝑑 (𝜔 1,𝑐 1) = √(−2 − (−1.33)2 + (2 − 0)2 = √(−2 − (−1.33)2 + 4 = 2.109 = 2.11


1

D’où les deux groupes :

Page | 20
On considère deux nouveaux centres, 𝑐 2 et 𝑐 2, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 2 a pour coordonnées
1

𝑐 2 a pour coordonnées
2

Le tableau des distances entre les individus et ces centres est

D’où les deux groupes :

On retrouve la même classification que l’étape précédente, on arrête l’algorithme

Dans un deuxième temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,2) et 𝑐 0 de coordonnées (1,1)
1 2

Le tableau des distances entre les individus et ces centres est

Page | 21
D’où les deux groupes :

On considère deux nouveaux centres, 𝑐 1 et 𝑐 1, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 1 a pour coordonnées
1

𝑐 1 a pour coordonnées
2

Le tableau des distances entre les individus et ces centres est

D’où les deux groupes :

On retrouve la même classification que l’étape précédente, on arrête l’algorithme.

Conclusion : On obtient deux classifications différentes suivant les choix des centres initiaux.

Exercice 2 (sur la CAH)


On considère la matrice de données X dans ℝ2 définie par

2 2
7.5 4
X= 3 3

Page | 22
0.5 5

6 4

On fait l’algorithme de CAH avec la méthode de Ward.


Le tableau des écarts associé à P0= ({𝜔 1, 𝜔 2, 𝜔 3, 𝜔 4, 𝜔 5}) est

𝜔1 𝜔2 𝜔3 𝜔4 𝜔5

𝜔1 0 17.12 1 5.62 10

𝜔2 17.12 0 10.62 25 1.12

𝜔3 1 10.62 0 5.12 5

𝜔4 5.62 25 5 .12 0 15.62


𝜔5 10 1.12 5 15.62 0

Par exemple, on a

Les éléments (individus) 𝜔 1 et 𝜔 3 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : A = { 𝜔 1, 𝜔 3}. On a une nouvelle partition de Γ:

L’inertie intra-classes de P1 est

Le centre de gravité associé à A est le point gA de coordonnées :

Le tableau des écarts associé à P1 est :

𝜔2 𝜔4 𝜔5 A

𝜔2 0 25 1.12 18.16
𝜔4 25 0 15.62 6.83

Page | 23
𝜔5 1.12 15.62 0 9.66

A 18.16 6.83 9.66 0

Par exemple, on a

Les éléments (individus) 𝜔 2 et 𝜔 5 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : B = { 𝜔 2, 𝜔 5}. On a une nouvelle partition de Γ:

L’inertie intra-classes de P2 est

Le centre de gravité associé à B est le point gB de coordonnées gB= ((7,5+6)/2, (4+4)/2)=gB =


(6.75, 4).

Le tableau des écarts associé à P2 est

𝜔4 A B
𝜔 0 6.83 26.7
4
A 6.83 0 20.31

B 26.7 20.31 0

Par exemple, on a

Les éléments (individus) 𝜔 4 et A ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : C = { 𝜔 4, A}. On a une nouvelle partition de Γ

L’inertie intra-classes de P3 est

Page | 24
Le centre de gravité associé à C est le point gC de coordonnées

Le tableau des écarts associé à P3 est

B C

B 0 29.58

C 29.58 0

On a :

Il ne reste plus que 2 éléments, B et C ; on les regroupe. Cela donne la partition P4=
{𝜔 1, 𝜔 2, 𝜔 3, 𝜔 4, 𝜔 5}= Γ.

L’inertie intra-classes de P4 est

Cela termine l’algorithme de CAH.


Les éléments {𝜔 1}et {𝜔 3}ont été regroupés avec un écart de 1 Les
éléments {𝜔 2}et {𝜔 5}ont été regroupés avec un écart de 1.12

Les éléments A = {𝜔 1, 𝜔 3}et {𝜔 4} ont été regroupés avec un écart de 6.83


Les éléments B = {𝜔 2, 𝜔 5} et C = {𝜔 4, A}ont été regroupés avec un écart de 29.58.On

peut donc construire le dendrogramme associé.

Page | 25
La formule √2𝑒 (𝐴 , 𝐵 ) a été utilisée pour les hauteurs des branches du dendrogramme, on a :

CORRIGÉ FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE

Exercice 1 : Vrai ou Faux.


1. Vrai.
Plus les variables sont corrélées entre elles, plus il est facile de les résumer par un petit nombre de
variables synthétiques (les composantes principales) et donc plus le pourcentage d’inertie porté par les
premières composantes principales est important. Ce pourcentage est la somme des carrés des coefficients
de corrélation entre la composante et les variables initiales.

2. Vrai.
Les individus ayant les mêmes poids, les individus très éloignés du centre de gravité du nuage contribuent
à une part importante de la variabilité (=de l’inertie). Ils "attirent" donc les axes puisque ces derniers ont
pour propriété de représenter au mieux l’inertie du nuage.

3. Vrai.

Page | 26
La variance des coordonnées correspond à l’inertie, et les axes sont classés par inertie décroissante ; la
variance des coordonnées sur le premier axe factoriel est donc plus élevée que la variance des
coordonnées sur le second axe.

4. Faux.
Il faut que les deux variables soient superposées mais aussi qu’elles soient bien projetées (pointes des
flèches proches du cercle des corrélations) pour qu’en puisse en déduire qu’elles sont corrélées entre elles
(notons que deux variables peuvent être mal projetées et étroitement corrélées).

5. Faux.
Un individu très proche du centre de gravité a des valeurs proches de la moyenne pour chacune des
variables.

Exercice 2 :
1) Que remarquez-vous ?
Réponse. Grande homogénéité des 4 variables : même ordre de grandeur pour la moyenne, les écarts-
types, les minima et les maxima

2) Que remarquez-vous ?
Réponse. Toutes les corrélations linéaires sont positives, ce qui signifie que toutes les variables varient
(en moyenne) dans le même sens

3) Quelle est la relation entre 𝜆𝑖 est la variance de 𝐶𝑖 ?


Réponse :
𝑉𝑎𝑟(𝐶𝑖 ) = 𝜆𝑖 , 𝑜ù 𝜆𝑖 est une valeur propre de la Matrice Variance-Covariance

4) Comment interpréter la relation suivante qui relié la variance des variables initiales Xi avec celle des
composantes principales Ci ?
Réponse :
Le nuage de points en dimension 4 est toujours le même et sa dispersion globale n’a pas changée. C’est
la répartition de cette dispersion, selon les nouvelles variables que sont les facteurs, ou composantes
principales, qui se trouvent modifiée :

Page | 27
5) Comment interprétez-vous ces résultats ?
Réponse :
On notera que les deux dernières colonnes ne seront pas utilisées puisqu’on ne retient que deux
dimensions pour interpréter l’analyse

Interprétation.
On voit que le premier facteur est corrélé positivement, et assez fortement, avec chacune des 4 variables
initiales : plus un élève obtient de bonnes notes dans chacune des 4 disciplines, plus il a un score élevé
sur l’axe 1 ; réciproquement, plus ses notes sont mauvaises, plus son score est négatif.
 L’axe 1 représente donc, en quelques sortes, le résultat global (dans l’ensemble des 4 disciplines
considérées) des élèves.
 L’axe 2, il oppose, d’une part, le français et l’anglais (corrélations positives), d’autre part, les
mathématiques et la physique (corrélations négatives). Il s’agit donc d’un axe d’opposition entre
disciplines littéraires et disciplines scientifiques, surtout marqué par l’opposition entre le français
et les mathématiques.
Cette interprétation peut être précisée avec graphiques et tableaux relatifs aux individus. Ce que nous
donnons ci-dessous

6) Interpréter les résultats obtenus sur les individus.


Interprétation.
On confirme que : l’axe 1 représente le résultat d’ensemble des élèves :
 si on prend leur score - ou coordonnée- sur l’axe 1, on obtient le même classement que si on prend
leur moyenne générale.
 L’élève "le plus haut" sur le graphique, celui qui a la coordonnée la plus élevée sur l’axe 2, est
Pierre dont les résultats sont les plus contrastés en faveur des disciplines littéraires (14 et 11.5
contre 7 et 5.5). C’est exactement le contraire pour André qui obtient la moyenne dans les
disciplines scientifiques (11 et 10) mais des résultats très faibles dans les disciplines littéraires (7
et 5.5).
 Monique et Alain ont un score voisin de 0 sur l’axe 2 car ils ont des résultats très homogènes dans
les 4 disciplines (mais à des niveaux très distincts, ce qu’a déjà révélé l’axe 1).

L’axe 2 oppose bien les "littéraires" (en haut) aux "scientifiques" (en bas).

Page | 28
 Les 3 colonnes du tableau ci-dessus fournissent des contributions des individus à diverses
dispersions :
 cont1 et cont2 donnent les contributions (en pourcentages) des individus à la variance selon les
axes 1 et 2 (rappelons que l’on utilise ici la variance pour mesurer la dispersion) ;
 Contg donne les contributions générales, c’est-à-dire à la dispersion en dimension 4 (il s’agit de
ce que l’on appelle l’inertie du nuage des élèves.

Ces contributions sont fournies en pourcentages (chaque colonne somme à 100) et permettent de repérer
les individus les plus importants au niveau de chaque axe. Elles servent en général à affiner
l’interprétation des résultats de l’analyse. Ainsi, par exemple, la variance de l’axe 1 vaut 28.23 (première
valeur propre). On peut la retrouver en utilisant la formule de définition de la variance :

La coordonnée de Jean (le premier individu du fichier) sur l’axe 1 vaut c11 = −8.61 ; sa contribution est
donc :

A lui seul, cet individu représente près de 30% de la variance : il est prépondérant (au même titre que
Monique) dans la définition de l’axe 1 ; cela provient du fait qu’il a le résultat le plus faible, Monique
ayant, à l’opposé, le résultat le meilleur.
 Les 2 dernières colonnes du tableau sont des cosinus carrés qui fournissent la qualité de la
représentation de chaque individu sur chaque axe. Ces quantités s’additionnent axe par axe, de
sorte que, en dimension 2, Evelyne est représentée à 98% (0.25 + 0.73), tandis que les 8 autres
individus le sont à 100%.

Exercice 3:
1) Ce sont les variables représentées par des points proches du cercle des corrélations et proches de l’axe
1. Ici : V5, V6 et V7

Page | 29
2) Ce sont les variables représentées par des points trop éloignés du cercle des corrélations (proches de
0). Ici : V2 et V3.
3) Les variables représentées par des points proches du cercle des corrélations et proches entre elles sont
fortement corrélées positivement.
On distingue 3 groupes :
Groupe 1 : V5 et V7 ;
Groupe 2 : V1 et V9 ;
Groupe 3 : V4, V8 et V10.
4) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle droit (ou presque droit) ne sont pas corrélées entre elles (ou sont peu corrélées entre elles).
On peut citer ici :
V7 et V8, V7 et V10 ; V7 et V4 ; V7 et V9 ; V5 et V9 ; V6 et V1 ; V6 et V10, etc.
5) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle plat (ou presque plat) sont fortement corrélées négativement entre elles. On observe ici que les
variables fortement corrélées négativement avec V4 sont V1 et V9.
6) Ce coefficient est égal à l’abscisse (coordonnée sur l’axe 1) du point représentant V1. Il vaut environ
−0, 33.
7) La variable V9 convient puisqu’elle est représentée par un point dont la coordonnée sur l’axe 2 vaut
presque 1.
8) On sait que les composantes principales sont toutes non corrélées deux à deux, le coefficient de
corrélation entre la première et la deuxième est donc nul.

Exercice 4
1) Etude du tableau des valeurs propres
a) A quoi correspond la somme des valeurs propres ?
La somme des valeurs propres est égale à 6. Dans le cas d'une ACP normée telle que celle qui est effectuée
ici, cette somme est égale au nombre de variables. Cette valeur correspond également à la variance du
nuage des individus.

b) On choisit de n'étudier que les deux premières composantes principales. Justifier ce choix en analysant
le tableau des valeurs propres.
On peut choisir de ne s'intéresser qu'aux valeurs propres dont la contribution à la variance est supérieure
à la moyenne. Ceci revient à étudier les composantes principales correspondant à des valeurs propres

Page | 30
supérieures à 1. Or, seules les deux premières valeurs propres vérifient cette propriété sur l'exemple
fourni.

2) Etude du tableau des corrélations


a) Quels sont les subtests les plus fortement corrélés entre eux ?
Les corrélations les plus fortes sont celles correspondant aux coefficients de corrélation les plus proches
de 1 ou -1. Ici, le coefficient de corrélation dont la valeur absolue est la plus proche de 1 est celui qui
relie CUB et CAL.

b) Comment s'organisent les signes "+" et les signes "-" dans le tableau des coefficients de corrélation.
Commenter.
La plupart des coefficients de corrélation sont positifs. Autrement dit, un bon résultat à un test est, en
règle général, lié à de bons résultats aux autres tests. On note toutefois une exception remarquable : la
variable MEM (mémoire immédiate des chiffres) est corrélée négativement à 3 autres variables : CUB,
PUZ et CAL. Mais ce sont les seuls coefficients négatifs du tableau.

3) Etude des qualités de représentation dans le premier plan principal


Quel est l'individu le moins bien représenté par le premier plan principal ? Quel est l'individu le mieux
représenté ?
Les qualités de représentation des individus dans le premier plan factoriel sont obtenues en additionnant
les résultats des deux colonnes "Cos 2 " du tableau relatif aux individus. Le sujet le mieux représenté est
I1, avec une qualité de représentation de 0,9885, le plus mal représenté est I15, avec une qualité de
0,2615.

4) Etude du nuage des individus.


a) Quels sont les individus dont la contribution à la formation de la première composante principale est
supérieure à la moyenne ? Pour chacun d'eux, préciser le signe de la coordonnée correspondante.
Les individus envisagés ici sont ceux dont la contribution est supérieure à 6,67%. Ce sont les individus
suivants :

Page | 31
Caractériser cet axe en termes d'opposition entre individus.
Cet axe oppose les individus I4, I1, I7 et I5 d'une part aux individus I9, I10 et I14 d'autre part.
Les sujets du premier groupe obtiennent des scores généralement plus élevés que ceux du 2è groupe,
particulièrement sur les variables CUB, PUZ et CAL.

b) Même question pour la deuxième composante principale.

Cet axe oppose les individus I8 et I4 d'une part aux individus I1 et I11 d'autre part. On peut noter que
l'individu I1 explique à lui seul plus du tiers de la variance de cet axe.

5) Etude du nuage des variables


a) La représentation graphique des variables montre qu'elles sont toutes très bien représentées dans le
plan (CP1, CP2). Justifier cette affirmation.
Les extrémités des vecteurs représentant les variables sont toutes très proches du cercle des corrélations,
ce qui montre que les qualités de représentation des variables sont satisfaisantes.
D'autre part la dernière colonne du tableau des résultats relatifs aux variables montre que la variable la
plus mal représentée est MEM, avec une qualité qui atteint quand même 0,8816.

b) Quelles sont les variables qui sont corrélées positivement avec le premier facteur principal ?

Page | 32
Quelles sont celles qui sont corrélées négativement ? Comment peut-on caractériser cet axe par rapport
aux variables de départ ?
Les corrélations peuvent être lues sur le dessin ou sur le tableau des saturations. Seule la variable MEM
est corrélée positivement avec le premier axe, toutes les autres sont corrélées négativement. Ainsi, cet
axe oppose le résultat au test MEM à tous les autres tests.

c) Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième axe.
Les corrélations les plus fortes sont observées pour les variables MEM, COM et VOC. Ces variables sont
toutes trois corrélées négativement avec la variable CP2.

6)
a) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
Il s'agit ici d'une classification ascendante hiérarchique.

b) L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.
On observe un saut brutal de l'indice d'agrégation lors de la formation de la dernière classe. Le passage
de 3 à 2 classes se fait avec des indices d'agrégation peu différents. En revanche, on avait également une
forte progression de l'un indice d'agrégation lors du passage de 4 à 3 classes.

c) On retient finalement la partition en 4 classes.


Décrire en extension chacune des classes de la partition.
Classe I : I1, I2, I5, I12
Classe II : I4, I7
Classe III : I3, I13, I8, I14, I15
Classe IV : I6, I10, I9, I11

d) Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?
Les classes correspondent approximativement aux 4 quadrants définis par les deux premières variables
principales. Ainsi :
La classe I correspond à CP1 < 0 et CP2 > 0
La classe II correspond à CP1 < 0 et CP2 < 0, mais ne contient pas I13. Il vaudrait mieux la décrire par :
CP1 < -1, CP2 < -1

Page | 33
La classe III correspond à CP1 > -1, CP2 < 0
La classe IV correspond à CP1 >0 et CP2 > 0.

e) On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant,permet
de définir sur les individus une distance dite ultramétrique. Evaluer à partir du graphique la distance
ultramétrique séparant le sujet I15 et le sujet I6.
La distance ultramétrique associée à une CAH est obtenue en considérant, pour chaque couple d'objets,
la plus petite classe les contenant et en notant l'indice d'agrégation correspondant. Pour les objets I15 et
I6, la classe correspondante est l'avant-dernière, avec un indice d'agrégation proche de 24 (valeur lue sur
le graphique).

CORRIGÉ CHAPITRE 4 : LES ARBRES DE DECISON


Exercice 1:
1. Entropie : Quantité moyenne d’information pour classifier un objet.

Calcul de l’entropie :

2. Entropie résiduelle pour l’attribut A:

où v sont les valeurs possibles de l'attribut A.

Calcul de l’entropie résiduel pour l’attribue emplacement :

3. Construction de l’arbre de décision

Page | 34
NB : À chaque nœud, choisir l'attribut de gain (i.e I-Ires) maximal et arrêter quand l'entropie
est nulle

Exercice 2 :

1. En appliquant :

, nous avons 3 exemples positifs et trois négatifs donc I(n,p) = 1

2. En appliquant :

où T est un test sur l’attribut a2 on aura :

Par conséquent, le gain est égal à 0.

Page | 35

Vous aimerez peut-être aussi