Académique Documents
Professionnel Documents
Culture Documents
Après la phase d’acquisition des données il faut procéder tout d’abord à l’exploration des
données. Cette phase permettra de découvrir plusieurs aspects du dataset source. Ce qui mène
vers le besoin du nettoyage des données, leurs transformations et en fin la normalisation de
certaines données.
Nous allons nous concentrer dans cette activité sur le traitement des valeurs manquantes et les
outliers.
Tout au long de ce cette activité, nous allons travailler sur le dataset titanic.
1. Avant de commencer :
1.1 Préciser le dossier par défaut pour les datasets
Il convient de modifier le dossier par défaut et mettre celui ou vous avez déposé vos datasets
avant de charger les jeux de données dans la dataframe. Pour ce faire :
Remarque : Le nom du répertoire peut être défini avec le slash / ou avec l'antislash \ mais dans
deuxième cas il faut alors le doubler.
• Détecter les valeurs manquantes dans le dataset Titanic avec isna et isnull
• Détecter les valeurs manquantes dans le dataset Titanic avec notnull
• Compter les valeurs manquantes par variable
3.2 Traitement des valeurs manquantes
3.2.1 Remplacer les valeurs manquantes de manière simple
Fillna permet de :
• Remplacer les valeurs manquantes avec une seule valeur :
▪ On utilise le paramètre inplace pour avoir les modifications dans le DataFrame d'origine :
(data.fillna(0, inplace=True) ).
▪ Pour remplace la valeur manquante d’une variable A par une valeur X par exemple :
data["A"].fillna("X", inplace = True)
• Remplacer les valeurs manquantes avec les valeurs précédentes ou par celles qui suivent. Ces
méthodes sont importantes dans le cas de données temporelles ou de données continues.
• data.fillna(method='pad') / pad et ffill sont équivalentes
• data.fillna(method='bfill') / bfill et backfill sont équivalentes
3.2.3 Supprimer les valeurs manquantes des linges (axis=0) / des colonnes (axis=1)
dropna() permet de supprimer des lignes si au moins une colonne a une valeur manquante :
DataFrame.dropna(axis, how, inplace)
• how : Ce paramètre détermine comment la fonction supprime les lignes ou les colonnes. Il
n’accepte que deux string, any ou all. Par défaut, il est défini sur any :
o any supprime la ligne ou la colonne s’il contient une valeur nulle. Si nous voulons
supprimer les colonnes qui contiennent au moins une valeur manquante :
▪ data.dropna( how='any')
o all supprime la ligne ou la colonne si toutes les valeurs manquent.
▪ data.dropna(how='all').
• Inplace : On utilise le paramètre inplace pour avoir les modification dans le DataFrame
d'origine : data.dropna(inplace=True) .
• Axis : Si nous voulons supprimer les colonnes au lieu des lignes, il suffit de préciser axis=1 :
data.dropna(axis=1)
• Utiliser un dataframe du dataset dans laquelle les valeurs manquantes ont été
déjà traitées.
• Calculer les deux extrémités pour la variable âge.
• Remplacer les valeurs aberrantes avec ces deux extrémités.
4.2.2 Supprimer les valeurs aberrantes
• Utiliser une dataframe du dataset dans laquelle les valeurs manquantes ont été
déjà traitées.
• Supprimer les valeurs aberrantes.