Académique Documents
Professionnel Documents
Culture Documents
données
nettoyage des données Industrielles
‘’Le nettoyage de données est l'opération
de détection et de correction (ou
suppression) d'erreurs présentes sur des
données stockées dans des bases de
Définition données ou dans des fichiers. ‘’
Wikipedia
DANS LA “VRAI VIE” on passe malheureusement la majeure partie du temps à
nettoyer les données plus qu'à les analyser...
BASE DE
DONNÉES
« PROPRES »
VALEURS ERRONÉES
i. Erreur syntaxe VALEURS
1 2
ii. Erreur sémantique MANQUANTES
iii. Erreur « outlier »
1
i. Erreur de syntaxe
Identifier: Prénom Email Date de naissance Pays Taille
Une erreur de syntaxe est une Leila leila@example.co 23/01/1990 France 1,49 m
m
saisie qui ne respecte pas le
lexique, le format, ou qui est Samuel samuel_329@exa 20/09/2001 1,67 m
mple.com
irrégulière.
Radia choupipoune@sup 12 sept. 1984 Côte d'ivoire 153 cm
ermail.eu
• Une erreur ‘outlier’ est une saisie qui Marc marco23@exampl 10/02/1978 France 1,65 m
est aberrante ou atypique, et donc e.com,
mc23@supermail.
qui diffère de façon significative de la eu
tendance globale des autres
observations quand on observe un Heri helloworld@super 05/03/2008 Madagascar 1,34 m
ensemble de données ayant des mail.eu
caractéristiques communes. Hanna hanna2019@super 01/01/1970 24 3,45 m
mail.eu
• On peut l’identifier grâce a des
bornes et des méthodes graphiques. samuël samuel_329@exa Bénin 1,45 m
mple.com
Traiter: 4
A. Supprimer la valeur et traiter 3
comme une valeur manquante
2
B. Refaire la saisie (questionnaire…)
1
pas pour l’étude de cas
0
Leila Samuel Radia Marc Heri Hanna samuël
taille
2
Valeurs manquantes
Identifier: Prénom Email Date de naissance Pays Taille
Valeurs manquantes
Traiter: Prénom Email Date de naissance Pays Taille
Valeurs manquantes
Traiter: Taille
proche voisin…
Moyenne = 1,52m
1,65 m
13
Pour aller plus loin
Références: Outils:
Décrivez et nettoyez votre jeu de données, Nicolas Rangeon, Trifacta, OpenRefine, Paxata, Alteryx, Data Ladder,
Openclassrooms (2019) WinPure