Vous êtes sur la page 1sur 2

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université de Carthage
Institut Supérieur des Technologies de l’Information et de la
Communication
Année Universitaire : 2022/2023
Enseignantes TD2 Niveaux
M. FARHAT - A. NAJJAR - I. BEN OTHMEN Machine Learning 3ème GLSI & Mastère

Exercice 1 (DS 2021-2022)

On possède l’échantillon suivant de l’ensemble de données.

Tableau 1
Durée Prise en Nombre de
Année de Aspect
d’hospitalisation Charge Services
Naissance Hôtelier
en jour médicale visités
Patient 1 1957 8 Oui Mécontent 2
Très
Patient 2 1981 5
satisfait
Patient 3 1992 4 Oui Satisfait 1
Patient 4 12 Non 3
Patient 5 1937 15 Oui Mécontent 3

1. Quel est la dimension de l’espace de représentation ? (3 lignes au Maximum)


2. Préciser le type de chacune des variables utilisées pour décrire les observations.
3. On souhaite appliquer un certain algorithme d’apprentissage automatique
a. Expliquer pourquoi, n’est-il pas possible d’appliquer cet algorithme sur les
données du tableau 1 dans leur état brut.
b. Effectuer sur les données du tableau 1 les opérations de
nettoyage/transformation nécessaires afin de les rendre exploitable. Il faut
expliquer chacune des transformations puis donner le résultat obtenu.

Exercice 2 (DS 2022-2023)


On vous propose d’étudier un jeu de données contenant 340 coureurs ayant réalisé une
distance de 10 km. Chaque coureur est caractérisé par les informations suivantes :

 Le rang à l'arrivée ;
 Son genre (M ou F) ;
 Le temps effectué sous le format suivant (heures:minutes:secondes) ;
 Sa ville de résidence ;
 Le temps effectué en secondes ;
 Son âge.

1
1- Le jeu de données contient des valeurs manquantes.
a. En se basant sur la Figure 1, indiquer le nombre de valeurs manquantes par variable ?
(0.5 point)

Figure 1

b. Proposer une solution, pour corriger ce problème, pour chacune des variables
affectées. (1 point)

2- Les villes auxquelles appartiennent les coureurs sont Bizerte (ville N°14), soit Kairouan
(ville N° 27) soit Médenine (ville N°76). Soit la Figure 2 qui donne la distribution des
coureurs par ville.

Figure 2

a. Quel problème met en évidence la figure 2 ? (1 point)


b. Que proposer vous pour corriger ce problème ? (1 point)

Vous aimerez peut-être aussi