Vous êtes sur la page 1sur 14

Introduction au Gestion des

données
nettoyage des données Industrielles
‘’Le nettoyage de données est l'opération
de détection et de correction (ou
suppression) d'erreurs présentes sur des
données stockées dans des bases de
Définition données ou dans des fichiers. ‘’

Wikipedia
DANS LA “VRAI VIE” on passe malheureusement la majeure partie du temps à
nettoyer les données plus qu'à les analyser...

Gil Press (data analyst), Forbes (2016)


Sources des erreurs

ERREUR DE SAISIE ERREUR DE ERREUR DE STOCKAGE


(MANUELLE) LECTURE/TRANSMISSION (I.E. BASE DE DONNÉES)
(I.E. CAPTEURS)
Type d’erreurs

• Erreurs de syntaxe: lexicale, formatage,


irrégularité
• Erreurs sémantiques: en double,
contradiction, invalide
• Erreur outlier: atypique ou aberrantes
• Valeurs manquantes
PAS DE RECETTE TOUTE FAITE, MAIS DES
Que faire? RECOMMANDATIONS
BASE DE DONNÉES « BRUTES »

BASE DE
DONNÉES
« PROPRES »
VALEURS ERRONÉES
i. Erreur syntaxe VALEURS
1 2
ii. Erreur sémantique MANQUANTES
iii. Erreur « outlier »
1

i. Erreur de syntaxe
Identifier: Prénom Email Date de naissance Pays Taille

Une erreur de syntaxe est une Leila leila@example.co 23/01/1990 France 1,49 m
m
saisie qui ne respecte pas le
lexique, le format, ou qui est Samuel samuel_329@exa 20/09/2001 1,67 m
mple.com
irrégulière.
Radia choupipoune@sup 12 sept. 1984 Côte d'ivoire 153 cm
ermail.eu

Marc marco23@exampl 10/02/1978 France 1,65 m


Traiter: e.com,
mc23@supermail.
A. Supprimer la valeur et eu

traiter comme une valeur Heri helloworld@super 05/03/2008 Madagascar 1,34 m


manquante mail.eu

Hanna hanna2019@super 01/01/1970 24 3,45 m


B. Corriger la valeur mail.eu

samuël samuel_329@exa Bénin 1,45 m


mple.com
1

ii. Erreur sémantique


Identifier: Prénom Email Date de naissance Pays Taille

• Une erreur sémantique est Leila leila@example.co 23/01/1990 France 1,49 m


m
une saisie qui apparait en
double, qui génère une Samuel samuel_329@exa 20/09/2001 1,67 m
mple.com
contradiction, ou qui est
Radia choupipoune@sup 12 sept. 1984 Côte d'ivoire 153 cm
invalide ermail.eu

Traiter: Marc marco23@exampl 10/02/1978 France 1,65 m


e.com,
A. Supprimer la valeur/ligne mc23@supermail.
eu
et traiter comme une
valeur manquante Heri helloworld@super 05/03/2008
mail.eu
Madagascar 1,34 m

B. Refaire la saisie Hanna hanna2019@super 01/01/1970 24 3,45 m


(questionnaire…) mail.eu

samuël samuel_329@exa Bénin 1,45 m


pas pour l’étude de cas mple.com
Prénom Email Date de naissance Pays Taille
1

iii.Erreur ‘outlier’ Leila leila@example.co


m
23/01/1990 France 1,49 m

Samuel samuel_329@exa 20/09/2001 1,67 m


mple.com

Radia choupipoune@sup 12 sept. 1984 Côte d'ivoire 153 cm


Identifier: ermail.eu

• Une erreur ‘outlier’ est une saisie qui Marc marco23@exampl 10/02/1978 France 1,65 m
est aberrante ou atypique, et donc e.com,
mc23@supermail.
qui diffère de façon significative de la eu
tendance globale des autres
observations quand on observe un Heri helloworld@super 05/03/2008 Madagascar 1,34 m
ensemble de données ayant des mail.eu
caractéristiques communes. Hanna hanna2019@super 01/01/1970 24 3,45 m
mail.eu
• On peut l’identifier grâce a des
bornes et des méthodes graphiques. samuël samuel_329@exa Bénin 1,45 m
mple.com
Traiter: 4
A. Supprimer la valeur et traiter 3
comme une valeur manquante
2
B. Refaire la saisie (questionnaire…)
1
pas pour l’étude de cas
0
Leila Samuel Radia Marc Heri Hanna samuël
taille
2

Valeurs manquantes
Identifier: Prénom Email Date de naissance Pays Taille

Leila leila@example.co 23/01/1990 France 1,49 m


m

Samuel samuel_329@exa 20/09/2001 1,67 m


mple.com

Radia choupipoune@sup Côte d'ivoire


Traiter: ermail.eu

Marc 10/02/1978 France 1,65 m


A. Rien faire
→ fromage gruyère
Heri helloworld@super 05/03/2008 Madagascar 1,34 m
mail.eu
Il faudra faire attention par Hanna hanna2019@super 01/01/1970
la suite a bien sélectionner mail.eu

les données pour analyse


2

Valeurs manquantes
Traiter: Prénom Email Date de naissance Pays Taille

B. Supprimer la ligne: Leila leila@example.co 23/01/1990 France 1,49 m


m
utiliser uniquement les
enregistrements pour Samuel samuel_329@exa 20/09/2001 1,67 m
mple.com
lesquels les données sont
Radia choupipoune@sup Côte d'ivoire
complètes ermail.eu

Marc 10/02/1978 France 1,65 m

Heri helloworld@super 05/03/2008 Madagascar 1,34 m


mail.eu
Option recommandée si vous
avez assez de données dans Hanna hanna2019@super 01/01/1970 3,45 m
mail.eu
l’échantillon
2

Valeurs manquantes
Traiter: Taille

C. Imputer une valeur 1,49 m

→ moyenne, ratio, régression, plus


1,67 m

proche voisin…
Moyenne = 1,52m
1,65 m

Attention aux conséquences et à 1,34 m


l’honnêteté intellectuelle
pas pour l’étude de cas

13
Pour aller plus loin

Références: Outils:
Décrivez et nettoyez votre jeu de données, Nicolas Rangeon, Trifacta, OpenRefine, Paxata, Alteryx, Data Ladder,
Openclassrooms (2019) WinPure

Traitement des valeurs manquantes et des valeurs aberrantes,


Florence Nicolau, SLID (2006)

Vous aimerez peut-être aussi