Vous êtes sur la page 1sur 1

Institut Supérieur de Management, d’Administration et de Génie

Informatique Filière : CI2 G1


Année : 2023-2024
Enseignant : Dr LAZAAR
Module : Analyse des données et Apprentissage Automatique Contrôle 2

Partie I : Créez un script python permettant de :


1. Lire les données d’apprentissage (fish.csv)
2. Afficher le nombre de valeurs manquantes par colonne.
3. Apporter les traitements suivants pour :
a. Remplacer les caractéristiques manquantes par la moyenne.
b. Remplacer les caractéristiques manquantes par la médiane.
c. Remplacer les caractéristiques manquantes par la méthode de remplissage en
avant
d. Remplacer les caractéristiques manquantes par la méthode de remplissage en
arrière
Partie II : On veut analyser les données en utilisant la méthode Analyse en
Composantes Principales et t-SNE (utilisez waterQuality.csv)
1. Créez un script python permettant de :
a. Afficher le Pourcentage de variance expliquée. Commenter le résultat.
b. Afficher les valeurs des Composantes principales. Commenter le résultat.
c. Représenter sous forme d’un graphe (barre) les composantes principales. Quel est
le nombre optimal d’axes principaux.
d. Représenter les données dans un espace de 2D (deux axes principaux).
2. Créez un script python permettant de réduire la dimension à l’aide de t-SNE avec
deux composantes. Définissez le coefficient perplexité. Quelle est la valeur
adéquate de ce paramètre pour avoir une meilleure visualisation.
3. Créez un script python permettant de réduire la dimension à l’aide de UMAP.
4. Quelle est la différence entre t-SNE et UMAP
5. Comparez le résultat de PCA, t-SNE et UMAP. Quelle est la meilleure méthode de
réduction. Justifiez

NOTEBOOK RENDU VIA LA PLATEFORME

Vous aimerez peut-être aussi