Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Chapitre III :
Riadh ABDELFATTAH
École supérieure des Communications
riadh.abdelfattah@supcom.tn
Plan
1. Introduction : Importance de nettoyage des données
3. Echantillonnage et discrétisation
4. Intégration et agrégation
1. Introduction
Données non qualitatives ?
Données incomplètes, (ex. le numéro de téléphone de la filiale étrangère d’un client
auquel il manque l’indicatif du pays),
Données inutiles, (ex. l’ancienne adresse email d’un prospect, demeurée dans le fichier
aux cotés de l’actuelle),
Données doublons, (base renseignée via divers canaux),
Données exactes dans l’absolu, mais incohérentes du point de vue de leur exploitation
commerciale (ex. le numéro de téléphone du siège social d’une société, relié à l’adresse
postale de l’une des ses filiales),
Données brutes exactes mais présentées incorrectement par rapport aux normes de la
database (ex. le nom de famille placé avant le prénom ; le genre féminin apparaissant sous
la forme « F » alors que le standard retenu est « Mme »).
Données mal retranscrites du fait d’incompatibilités informatiques (ex le plus courant :
les lettres avec accents remplacées par des caractères abscons).
1. Introduction
Les outils d’enseignements des compétences appliquées en sciences de
données
• Python,
• Les langages d'analyse statistique spécialisés comme R,
• Les langages de programmation plus généraux comme Java et C.
Pourquoi Python ?
• facile à apprendre.
• le langage de choix pour initier les étudiants universitaires à la
programmation.
• Il est utilisé dans huit des 10 meilleurs programmes d'informatique des
États-Unis (CACM) et 6/10 dans le monde !
1. Introduction
Pourquoi Python ?
• facile à apprendre :
1. Introduction
Manipulation des données
Bibliothèque Pandas sous Python
Objectifs
Comment acquérir des données,
complex (complexe)
Open source
Admission_Predict.csv
Extraire dans une liste les noms des colonnes à partir de df0, et
les formater en minuscules :
suppression d’individus ou
de variables,
correction manuelle,
Répartition des données manquantes, (A) univariée, (B) monotone et (C) sans structure
(arbitraire). Les zones grisées indiquent la position des données manquantes.
Exp : 25, 28, 29, 29, 30, 34, 35, 35, 37, 38
a. min = 25
b. Q1, = médiane(25,28,29,29,30)=29
c. la médiane = (30+34)/2=32,
d. Q3, = médiane(34,35,35,37,38)=35
e. max = 38.
personnel
5. Quiz chapitre 3
https://data.europa.eu/elearning
5. Quiz chapitre 3
2. Quels sont les deux outils les plus utiles pour nettoyer l’open data ?
https://data.europa.eu/elearning
5. Quiz chapitre 3
3. Lesquels des points suivants sont des erreurs des données qu’il faut nettoyer ?
o Aucune licence
o Une manque de granularité
o Des échelles numériques mixtes
o Des représentations multiples
odata.
https://data.europa.eu/elearning
5. Quiz chapitre 3
5. Quiz chapitre 2
5. A researcher doing a blind experiment got the respondent data coded with
numbers in a column named “Respondent_ID”. What data type is it?
o Ordinal
o Continuous
o Interval
o Nominal
https://data.europa.eu/elearning