Académique Documents
Professionnel Documents
Culture Documents
Chapitre III :
Riadh ABDELFATTAH
École supérieure des Communications
riadh.abdelfattah@supcom.tn
Plan
1. Introduction : Importance de nettoyage des données
3. Echantillonnage et discrétisation
4. Intégration et agrégation
1. Introduction
Problèmes de qualité de données ?
▪ Données incomplètes, (ex. le numéro de téléphone de la filiale étrangère d’un client
auquel il manque l’indicatif du pays),
▪ Données inutiles, (ex. l’ancienne adresse email d’un prospect, demeurée dans le fichier
aux cotés de l’actuelle),
▪ Données doublons, (base renseignée via divers canaux),
▪ Données exactes dans l’absolu, mais incohérentes du point de vue de leur exploitation
commerciale (ex. le numéro de téléphone du siège social d’une société, relié à l’adresse
postale de l’une des ses filiales),
▪ Données brutes exactes mais présentées incorrectement par rapport aux normes de la
database (ex. le nom de famille placé avant le prénom ; le genre féminin apparaissant sous
la forme « F » alors que le standard retenu est « Mme »).
▪ Données mal retranscrites du fait d’incompatibilités informatiques (ex le plus courant :
les lettres avec accents remplacées par des caractères abscons).
1. Introduction
Problèmes de qualité de données ?
✓ Exactitude,
✓ Exhaustivité,
✓ Cohérence,
✓ Actualité,
✓ Crédibilité,
✓ Interprétabilité.
1. Introduction
▪ Les outils d’enseignements des compétences appliquées en sciences de
données
• Python,
• Les langages d'analyse statistique spécialisés comme R,
• Les langages de programmation plus généraux comme Java et C.
▪ Pourquoi Python ?
• facile à apprendre.
• le langage de choix pour initier les étudiants universitaires à la
programmation.
• Il est utilisé dans huit des 10 meilleurs programmes d'informatique des
États-Unis (CACM) et 6/10 dans le monde !
1. Introduction
▪ Pourquoi Python ?
•
1. Introduction
Manipulation des données
Bibliothèque Pandas sous Python
▪ Objectifs
▪ Comment acquérir (collecter) des données,
Compréhension
des données
▪ Comment décrire et explorer les données ?
complex (complexe)
Prétraitements
personnes.csv
Prétraitements
2.3 Manipulations sur les données
▪ Normalisation de données
• Normaliser les attributs sur [0,1],
▪ Agrégation de données
• Groupement de données pour fournir une vue plus concise
et résumée des informations (groupement des données
journalière par mois …),
▪ Nominales
✓ Exemple : Pays → Cinq continents
▪ Ordinales
✓ Exemple : notes à un examen →
Appréciation Très bien, bien, assez bien, moyen, faible, très faible
▪ Continus
✓ Exemples :
• Quantification
❑ Données disponibles triées : {4, 8 , 15, 21, 21, 24, 25, 28, 34}
Admission_Predict.csv
✓ Extraire dans une liste les noms des colonnes à partir de df0, et
les formater en minuscules :
Observations
Observations à valeurs
manquantes (ordonnée inconnue)
Imputation par la
valeur moyenne
▪ Exp : 25, 28, 29, 29, 30, 34, 35, 35, 37, 38
a. min = 25
b. Q1, = médiane(25,28,29,29,30)=29
c. la médiane = (30+34)/2=32,
d. Q3, = médiane(34,35,35,37,38)=35
e. max = 38.
personnel
5. Quiz chapitre 3
https://data.europa.eu/elearning
5. Quiz chapitre 3
2. Quels sont les deux outils les plus utiles pour nettoyer l’open data ?
https://data.europa.eu/elearning
5. Quiz chapitre 3
3. Lesquels des points suivants sont des erreurs des données qu’il faut nettoyer ?
o Aucune licence
o Une manque de granularité
o Des échelles numériques mixtes
o Des représentations multiples
odata.
https://data.europa.eu/elearning
5. Quiz chapitre 3
5. Quiz chapitre 2
5. A researcher doing a blind experiment got the respondent data coded with
numbers in a column named “Respondent_ID”. What data type is it?
o Ordinal
o Continuous
o Interval
o Nominal
https://data.europa.eu/elearning