Vous êtes sur la page 1sur 10

Institut Supérieur des Études Technologiques de Mahdia

Département Technologies de l'informatique


Épreuve : Analyse de données
NOM : ……………………………….
Enseignante : Afifa Khélifa
Date : 7 Janvier 2023 PRENOM ……………………………
Durée : 1H30
Calculatrice autorisée CLASSE: IOT2.1
Feuille de réponse
Numéro de compostage (Administration)
Note : /20

………………………………………………………………………………………………………………………………………………………….......................
Lisez attentivement l’énoncé puis répondez aux questions demandées sur la feuille de réponse

Exercice 1 : K-Means (7 points)


On se propose de regrouper les élèves suivants selon leurs notes en deux matières : Arabe
(Note1) et Mathématiques (Note2). Le tableau suivant résume les résultats de 10 élèves.

Question1 (1.5point)
Appliquez l’algorithme de K-Means (2 itérations) pour regrouper les élèves en 4 groupes.

Utilisez la distance de Manhattan : d(ei, ej) = |Note1i – Note1j| + |Note2i – Note2j|


Les centres initiaux correspondent aux élèves Mohamed, Rania, Samia et Rim.
Itération1

Elève C1 (17,19) C2 (6,7) C3 (5,16) C4 (16,7) Groupe


e1 (17,19) 0 23 15 13 G1
e2 (7,18) 11 12 4 20 G3
e3 (16,17) 3 20 12 10 G1
e4 (15, 5) 16 11 21 3 G4
e5 (16,7) 13 10 20 0 G4
e6 (17,6) 13 12 22 2 G4
e7 (6,7) 23 0 10 10 G2
e8 (18,18) 2 23 15 13 G1
e9 (5,16) 15 10 0 20 G3
e10 (7,7) 22 1 11 9 G2

Page 1/8
NE RIEN ECRIRE ICI

………………………………………………………………………………………………………………………………………………………….......

Itération2 (1.5point)

Elève C1 (17,18) C2 (6.5,7) C3 (6,17.) C4 (16,6) Groupe


e1 (17,19) 1 22.5 13 14 G1
e2 (7,18) 10 11.5 2 21 G3
e3 (16,17) 2 19.5 10 11 G1
e4 (15, 5) 15 10.5 21 2 G4
e5 (16,7) 12 9.5 20 1 G4
e6 (17,6) 12 11.5 22 1 G4
e7 (6,7) 22 0.5 10 11 G2
e8 (18,18) 1 22.5 13 14 G1
e9 (5,16) 14 10.5 2 21 G3
e10 (7,7) 21 0.5 11 10 G2

Question2 (1point)
Est-il nécessaire d’effectuer d’autres itérations pour obtenir le résultat final de la
classification ? Pourquoi ?

Non, Aucun changement dans les partitions entre les deux


itérations.………………………………………………………………………………………
…………………………………………………………………………………………………
Question3 (1point)
Dessinez le résultat final en utilisant les prénoms des élèves dans les partitions

Mohamed Rania Saleh


Ali Yakin Samia
Karima Sami
Rim
Salem

2 /10
NE RIEN ECRIRE ICI

………………………………………………………………………………………………………………………………………………………….......

Question4 (1 point)
Interprétez le résultat final en définissant les caractéristiques de chaque partition.

Groupe Moyenne Moyenne Interprétation


de Note1 de Note2
G1 17 18 Les élèves ayant des bonnes notes dans les deux
matières
G2 6.5 7 Mauvaises notes dans les deux matières
G3 6 17 Mauvaise note en Arabe, bonne note en
mathématique
G4 16 6 Bonne note en Arabe, mauvaise note en
mathématique
Question5 (1point)
Classez les élèves suivants selon leurs notes.

Numéro Note1 Note2 Groupe Explication


e11 8 8 G2 d(e11,c2) = 2.5 ; d(e11,c1) = 21 ; d(e11,c3) =
11 ; d(e11,c4) = 10
e12 18.5 20 G1 d(e12, c1)=3.5 ; d(e12,c2)=25 ; d(e12,c3) =
15.5 ; d(e12,c4) = 16.5
e13 18.5 5.5 G4 d(e13,c4)= 3 ; d(e13,c2) = 13.5 ; d(e13,c1) =
14 ; d(e13,c3) = 14

Exercice 2 : Regroupement Hiérarchique (5 points)

On se propose d’effectuer une classification hiérarchique en utilisant le diamètre maximal


(complete link). La matrice des distances est donnée dans le tableau suivant :

3 /10
NE RIEN ECRIRE ICI

………………………………………………………………………………………………………………………………………………………….......

A B C D E F
A 0
B 0.5 0
C 1 2 0
D 1.25 2.5 0.75 0
E 1.5 4 2.75 3.75 0
F 1.75 2.75 3 3.25 4 0

Question1
Exécutez 4 itérations de l’algorithme CAH en utilisant la méthode de complete link en
remplissant les tableaux par les calculs et les résultats intermédiaires puis dessinez le
dendrogramme résultat.

Itération1 (1point) Itération2 (1 point)

{A,B} {C,D} E F
{A,B} C D E F
{A, B} 0
{A,B} 0
{C,D} 2.5 0
C 2 0
E 4 3.75 0
D 2.5 0.75 0
F 2.75 3.25 4 0
E 4 2.75 3.75 0
F 2.75 3 3.25 4 0

Résultat itération1 : Regroupement de C et D Résultat itération2 : Regroupement de {A,B}


et {C,D}

4 /10
NE RIEN ECRIRE ICI

………………………………………………………………………………………………………………………………………………………….......

Itération3 (1point) Itération4 (1point)


{{{A,B}, E
{{A,B}, {C,D}} E F {C,D}},F}
. {{{A,B}, {C,D}},F}

{{A,B}, {C,D}} 0 E 4
E 4 0
F 3.25 4 0

Résultat itération3 : Regroupement de {{A,B}, Résultat itération4 : Regroupement de


{C,D}} et F {{{A,B}, {C,D}},F} et E
1 point

Dendrogramme

A B C D E F

Exercice 3 : PCA (5 points)

Pour mieux connaître ses clients et particulièrement leur solvabilité lorsqu’ils demandent un prêt, une
banque a étudié un échantillon de clients en fonction de quatre variables : l’âge, le revenu annuel, le
patrimoine, et l’emprunt obtenu. Les clients ont été classés en trois groupes : mauvais payeurs
(groupe 1), risque moyen (groupe 2), sans problèmes (groupe 3).
Question1

5 /10
NE RIEN ECRIRE ICI

………………………………………………………………………………………………………………………………………………………….......

En utilisant le résultat donné en annexe1 du script R suivant, remplir le tableau suivant : (3points)

Pourcentage de la variance totale si on retient 2 88.32%


composantes
Les 2 variables les plus corrélées avec la composante 1 Revenu et patrimoine
Les 2 variables les plus représentées par la composante 1 Revenu et patrimoine
La variable la plus représentée par la composante 2 L’âge
Les 2 individus les plus représentés par la composante 1 3 et 4
Les 2 individus les plus contributifs à la composante 2 1et 7

Question2
En utilisant le biplot suivant, déterminez les caractéristiques de clients appartenant au groupe 1
(mauvais payeurs)

6 /10
NE RIEN ECRIRE ICI

………………………………………………………………………………………………………………………………………………………….......

Emprunt important + patrimoine faible + revenu faible (2 point)

Exercice 4 : AFC (3 points)


L’objectif de cet exercice est de rechercher une éventuelle association entre l’orientation politique
des individus et leurs catégories socio-professionnelle. Le résultat de l’enquête est donné dans le
tableau de contingence suivant :

7 /10
NE RIEN ECRIRE ICI

………………………………………………………………………………………………………………………………………………………….......

Question1
En utilisant les informations sur la qualité de la représentation des modalités données dans
l’annexe2, interprétez le graphique suivant qui représente le résultat de l’analyse factorielle de
correspondances appliquée sur le tableau de contingence.

Réponse
Il faut une réduction de l’interprétation pour formuler ce qui signifie une association entre
deux modalités de la 1ère variable, une association entre deux modalités de la deuxième
variable et entre deux modalités de deux variables différentes dans le contexte de l’enquête
Entre les modalités de la même variable
- Droite centre + gauche verts
- Cadres supérieurs + agriculteurs
- Employés + ouvriers
Associations entre les modalités de deux variables
- Extrême droite + inactifs
- Extrême gauche + agriculteurs
- Cadres moyens + gauches verts
- Employés + ouvriers + droite centre
(3points)

8 /10
NE RIEN ECRIRE ICI

………………………………………………………………………………………………………………………………………………………….......

Annexe1

9 /10
NE RIEN ECRIRE ICI

………………………………………………………………………………………………………………………………………………………….......

Annexe2

10 /10

Vous aimerez peut-être aussi