Vous êtes sur la page 1sur 1

TP3 : Prétraitement de données avec R 2ème année ETL

Techniques Quantitatives Appliquées


(Analyse de Données et Data Mining)

TP 3 : Prétraitement de données avec R

Reprenez le TP2.
Nettoyage des données
1. Simulez des valeurs manquantes en remplaçant certains mpg avec NA.
2. Identifiez les lignes contenant des valeurs manquantes pour mpg.
3. Remplacez les valeurs manquantes de mpg par la moyenne des valeurs non manquantes.
4. Calculez le score Z pour la variable hp (puissance). (Z = (x- mu)/ segma)
5. Identifiez les voitures avec un score Z supérieur à 2 ou inférieur à -2 comme étant des
valeurs aberrantes.
6. Remplacez les valeurs aberrantes de hp par la médiane de hp.

Transformation des données pour l’analyse


7. Normalisez la variable wt (poids) pour qu'elle ait une moyenne de 0 et un écart-type de 1.
8. Convertissez cyl en facteur.
9. Convertissez la variable cyl (nombre de cylindres) en variables dummy (one-hot encoding).
10. Créez une nouvelle variable efficiency qui est le ratio de mpg (miles per gallon) à hp
(horsepower).
11. Pour traiter la distribution asymétrique de la variable disp (déplacement), appliquez une
transformation logarithmique.
12. Divisez la variable hp en trois catégories : faible, moyen, et élevé. Utilisez les quantiles
comme seuils.

1 Ameni Yengui

Vous aimerez peut-être aussi