Chap3-Ingénierie Des Données2023

1 Ingénierie des données : Chapitre III
Chapitre III :
Qualité des données
Riadh ABDELFATTAH
École supérieure des Communications
riadh.abdelfattah@supcom.tn
École Supérieure des Communications R. Abdelfattah

Plan
1. Introduction : Importance de nettoyage des données
2. Prétraitements des données (en double, incohérentes,

aberrantes,…)
3. Echantillonnage et discrétisation
4. Intégration et agrégation

1. Introduction
Problèmes de qualité de données ?
▪ Données incomplètes, (ex. le numéro de téléphone de la filiale étrangère d’un client
auquel il manque l’indicatif du pays),
▪ Données inutiles, (ex. l’ancienne adresse email d’un prospect, demeurée dans le fichier
aux cotés de l’actuelle),
▪ Données doublons, (base renseignée via divers canaux),
▪ Données exactes dans l’absolu, mais incohérentes du point de vue de leur exploitation
commerciale (ex. le numéro de téléphone du siège social d’une société, relié à l’adresse
postale de l’une des ses filiales),
▪ Données brutes exactes mais présentées incorrectement par rapport aux normes de la
database (ex. le nom de famille placé avant le prénom ; le genre féminin apparaissant sous
la forme « F » alors que le standard retenu est « Mme »).
▪ Données mal retranscrites du fait d’incompatibilités informatiques (ex le plus courant :
les lettres avec accents remplacées par des caractères abscons).

1. Introduction
Problèmes de qualité de données ?
✓ Exactitude,
✓ Exhaustivité,
✓ Cohérence,
✓ Actualité,
✓ Crédibilité,
✓ Interprétabilité.

1. Introduction
▪ Les outils d’enseignements des compétences appliquées en sciences de
données
• Python,
• Les langages d'analyse statistique spécialisés comme R,
• Les langages de programmation plus généraux comme Java et C.
▪ Pourquoi Python ?
• facile à apprendre.
• le langage de choix pour initier les étudiants universitaires à la
programmation.
• Il est utilisé dans huit des 10 meilleurs programmes d'informatique des
États-Unis (CACM) et 6/10 dans le monde !

1. Introduction
▪ Pourquoi Python ?
•

1. Introduction
Manipulation des données
Bibliothèque Pandas sous Python
▪ Objectifs
▪ Comment acquérir (collecter) des données,
Compréhension
des données
▪ Comment décrire et explorer les données ?
▪ Comment sélectionner et nettoyer des données,

Préparation
▪ Comment manipuler et assembler des données des données
et faire des inférences de base sur ces données,
2. Prétraitements des données

2.1 Principaux types de données
▪ Typage dynamique : pas nécessaire de déclarer les variables avant de
pouvoir leur affecter une valeur
str (chaîne de
float (flottant) bool (booléen)
int (entier) caractères)


list (liste)
complex (complexe)


None (type de donnée objet)


▪ Séquences : En Python, les séquences sont un terme générique pour un
ensemble ordonné, ce qui signifie que l'ordre dans lequel nous saisissons
les éléments sera le même lorsque nous y accéderons.
▪ Python prend en charge six types de séquences différents. Ce sont des :

1. Chaînes (strings),
2. Listes (lists),
3. Tuples (tuples),
4. Séquences d'octets (byte sequences),
5. Tableaux d'octets (byte arrays)
6. Objets de plage (range objects).

2. Prétraitement des données

1. Chaînes (strings) : Une chaîne est un groupe des caractères écrits entre
guillemets simples ou doubles. Les chaînes sont de nature immuable, nous
pouvons donc réaffecter une variable à une nouvelle chaîne, mais nous ne
pouvons apporter aucune modification à la chaîne.


2. Listes (lists) : Les listes Python sont similaires à un tableau mais elles nous
permettent de créer une collection hétérogène d'éléments à l'intérieur d'une liste. Une liste
peut contenir des nombres, des chaînes, des listes, des tuples, des dictionnaires, des objets,
etc. Les listes sont déclarées en utilisant des crochets [ ] autour des éléments séparés par
des virgules. Elles sont mutables de sorte que vous pouvez changer leur longueur, le
nombre d'éléments et les valeurs d'élément.


2. Listes (lists) :
Remarque : Les chaînes ne sont que des listes de caractères. Ainsi, les opérations que vous
pouvez faire sur une liste, vous pouvez faire sur une chaîne.


3. Tuples ou p-uplet (tuples) : Un tuple est une séquence d'objets Python.
Un tuple est créé en séparant les éléments par une virgule. Ils peuvent être
éventuellement mis entre parenthèses ( ) mais il est nécessaire de mettre des
parenthèses dans un tuple vide. Un tuple d'élément unique doit utiliser une
virgule à la fin.
Les tuples sont également immuables comme les chaînes, nous ne pouvons
donc que réaffecter la variable, mais pas modifier, ajouter ou supprimer des
éléments du tuple.


3. Tuples ou p-uplet (tuples)
▪ Les listes et les tuples et les chaînes

peuvent également être accessibles,
comme peuvent l’être les tableaux
dans d'autres langages, en utilisant
l'opérateur de crochets [ ], qui est
appelé l'opérateur d'indexation.


▪ Remarque 1 : Tout comme les listes et les tuples, les dictionnaires contiennent une
collection d'éléments. Toutefois, cette collection est non structurée et par conséquent
n’ont pas d'ordre. Cela signifie que pour chaque valeur dans le dictionnaire il faudra
une clé pour obtenir cette valeur.


▪ Remarque 1 : Exemple d’application sur les dictionnaires :


▪ Remarque 2 : En python, on peut déballer (unpacking) une séquence (list ou
tuples) dans différentes variables via l'affectation dans une instruction.
✓ Par convention, les valeurs inutiles dans un tableau des données peuvent être attribuées à _
(under score) en Python.
✓ Si le nombre de variables est inférieur au nombre
d'éléments, l'ajout d'un astérisque * au nom de la variable
affectera les éléments ensemble sous forme de liste.


4. Séquences d'octets (byte sequences) : La fonction bytes() en Python
est utilisée pour renvoyer une séquence d'octets immuable.


5. Tableaux d'octets (byte arrays) : Les tableaux d'octets sont similaires
aux séquences d'octets. La seule différence c’est que les tableaux d'octets sont
modifiables tandis que les séquences d'octets sont immuables. Il renvoie
également l'objet bytes de la même manière.


6. Objets de plage (range objects) : range() est une fonction intégrée à
Python qui renvoie un objet range. L'objet range n'est rien d'autre qu'une
séquence d'entiers. Il génère les entiers dans la plage de démarrage et d'arrêt
spécifiée.


2.2 Lecture et écriture à partir et dans un fichier CSV
1. Manipulation des fichiers CSV
✓ Apprendre les bases de l'itération dans un fichier CSV pour
créer des dictionnaires et collecter des statistiques
récapitulatives.
✓ Le fichier de données mpgCoursera.csv, sujet de notre cours, contient les

données d'économie (consommation) de carburant pour 234 voitures.
• mpg : miles per gallon
• class : car classification
• cty : city mpg
• cyl : # of cylinders
• displ : engine displacement in liters
• drv : f = front-wheel drive, r = rear wheel drive, 4 = 4wd
• fl : fuel (e = ethanol E85, d = diesel, r = regular, p = premium, c = CNG)
• hwy : highway mpg
• manufacturer : automobile manufacturer
• model : model of car
• trans : type of transmission
• year : model year


mpgCoursera.csv


✓ Ou bien à l’aide de la libraire pandas


▪ Exploration des données
✓ Trouver la consommation moyenne de carburant en ville pour toutes les voitures.
Toutes les valeurs des dictionnaires sont des chaînes, nous devons donc les convertir
en float.


✓ Utilisez set pour trouver les valeurs uniques du nombre de cylindres des voitures
dans la base de données
✓ Regrouper à partir de la base de données mpgCoursera les voitures par nombre de

cylindres et calculer le mpg moyen de cty pour chaque groupe. Afficher le résultat sous
forme de tuple : [ (‘4’, …) , (‘5’, …), …]




2.3 Manipulations sur les données Qualité
Prénom Email Date de Pays Taille
naissance
Prétraitements
personnes.csv
Leila leila@example.com 23/01/1990 France 1,49 m
Samuel samuel_329@example.com 20/09/2001 1,67 m

?
Radia choupipoune@supermail.eu 12 sept. 1984 Côte d'ivoire 153 cm
Marc marco23@example.com, 10/02/1978 France 1,65 m

mc23@supermail.eu
Heri helloworld@supermail.eu 05/03/2008 Madagascar 1,34 m
Hanna hanna2019@supermail.eu 01/01/1970 24 ?

3,45 m
samuël samuel_329@example.com Bénin 1,45 m

?

2.3 Manipulations sur les données
1. Nettoyage des données
▪ Problèmes rencontrés dans les données :
missing completely at random, MCAR

✓ Valeurs manquantes, missing at random, MAR (Voir T 58)
missing not at random, MNAR
✓ Erreur lexicale,
✓ Erreur d'irrégularité,
✓ Erreur de formatage,
✓ Erreur de doublon (Échantillons dupliqués),
✓ Erreur de contradiction,
✓ Outliers.

Prétraitements
▪ Nettoyage et transformation des données
▪ Intégration des données
▪ Discrétisation des données
▪ Réduction des données


▪ Régler le problème des données manquantes :
• Ne pas tenir compte (Suppression)
• Saisie manuelle
• Remplacement par une constante globale. Par exemple, “inconnu”
pour les valeurs nominales ou “0” pour les valeurs numériques.
• Remplacement par la moyenne dans le cas des valeurs numériques,
en préférence de la même classe.
• Remplacement par la valeur la plus fréquente dans le cas des valeurs
nominales.
• Remplacement par la valeur la plus probable.


▪ Régler le problème des échantillons dupliqués

• Suppression
▪ Régler le problème du Bruit (erreur ou variance aléatoire d’une variable

mesurée) :
✓ Binning ou Bucketing (groupement des données par classe),

✓ Clustering pour détecter les exceptions,
✓ Détection automatique des valeurs suspectes et vérification humaine,
✓ Lisser les données par des méthodes de régression,


2.3 Manipulations de données
1. Nettoyage des données : Données bruitées (erronées ou aberrantes)
▪ Exemple des données bruitées :
• {28, 4, 15, 21, 34, 21, 24, 25, 8}

2. Transformation des données :

▪ Lissage de données
• Utilisation de techniques de régression,
• Moyenner
▪ Normalisation de données
• Normaliser les attributs sur [0,1],
▪ Agrégation de données
• Groupement de données pour fournir une vue plus concise
et résumée des informations (groupement des données
journalière par mois …),


2.3 Manipulations de données
3. Intégration des données :
• Fusion de plusieurs sources de données pour créer un ensemble
de données unifié. Il s'agit de combiner des données provenant
de différentes bases de données, fichiers ou systèmes, souvent
avec des schémas différents, afin de créer un ensemble de
données plus complet et cohérent.

4. Discrétisation des données :

▪ C’est le processus de conversion de variables catégorielles ou continues en
variables discrètes en définissant des intervalles ou des catégories spécifiques.
▪ Nominales
✓ Exemple : Pays → Cinq continents
▪ Ordinales
✓ Exemple : notes à un examen →
Appréciation Très bien, bien, assez bien, moyen, faible, très faible
▪ Continus
✓ Exemples :
• Quantification
• Valeurs de température → 3 cas discrets: froid, modéré et chaud
• Prix des actions de la société → 2 cas discrets: au-dessus ou en

dessous de la valeur boursière
4. Discrétisation des données :

Exemple
❑ Données disponibles triées : {4, 8 , 15, 21, 21, 24, 25, 28, 34}
▪ Nombre de données fixes par intervalle (Equi‐profondeur)

• partition 1 : {4, 8 , 15}
• partition 2 : {21, 21, 24}
• partition 3 : {25, 28, 34}
▪ Largeur fixe d’intervalle (Binning à largeur fixe)

• Intervalle 1 [0-9] : {4, 8}
• Intervalle 2 [10 -29] : {15, 21, 21, 24, 25, 28}
• Intervalle 3 [30-39] : {34}
▪ Création de 3 catégories petit, moyen, grand

• 4, 8 ,15 → petit
• 21, 21, 24 → moyen
• 25, 28, 34 → grand

5. Réduction des données :
▪ La réduction des données désigne la technique visant à

diminuer la dimensionnalité d'un ensemble de données :
▪ Réduction en ligne par échantillonnage

✓ Données manquantes
✓ Aléatoire
▪ Réduction en colonne par suppression des attributs

redondants
✓ Analyse de corrélation,
✓ Analyse en composante principales (ACP)

3. Prétraitements des données sous Pandas


1. DataFrame
✓ Cet ensemble de données a été construit dans le but d'aider les étudiants des universités
présélectionnées avec leurs profils. La sortie prévue leur donne une idée juste de leurs
chances pour une université particulière.
✓ Le fichier de données Admission_Predict.csv contient les données des candidats d'un

programme universitaire. Chaque application a un numéro de série unique, qui représente
un étudiant en particulier. L'ensemble de données contient plusieurs paramètres qui sont
considérés comme importants lors de la candidature aux programmes de maîtrise. Les
paramètres inclus sont :
1) Scores GRE (sur 340)
2) Scores TOEFL (sur 120)
3) Note universitaire (sur 5)
4) Déclaration d'intention (Statement of Purpose: SOP) (sur 5)
5) Lettre de recommandation (Letter of Recommendation LOR) Force (sur 5)
6) GPA de premier cycle (sur 10)
7) Expérience en recherche (soit 0 ou 1)
8) Chance d'admission (allant de 0 à 1)


1. DataFrame
Admission_Predict.csv


1. DataFrame


1. DataFrame


1. DataFrame


1. DataFrame


1. DataFrame
✓ supprimer tous les espaces à droite et à gauche d’une chaîne en

utilisant la commande rename() avec le paramètre strip


1. DataFrame
✓ Extraire dans une liste les noms des colonnes à partir de df0, et
les formater en minuscules :


1. DataFrame
✓ En utilisant la commante set_index(), transformer l’index
de df en Serial No. :


1. DataFrame
✓ Nettoyer l’ensemble des colonnes mal nommée, et formatter les noms de
colonnes en minuscules en transformant directement df.columns ?


1. DataFrame
✓ Déterminer l’ensemble des ✓ Lister l’ensemble des attributs des
étudiants (Serial No) admissibles étudiants admissible avec une chance
avec une chance supérieure à 0.7 ? supérieure à 0.7 ? (commande where)
✓ Supprimer les lignes avec des

données NaN ? (commande dropna)


1. DataFrame
✓ Méthode directe pour le nettoyage
de NaN :
✓ Déterminer l’ensemble des étudiants
(Serial No) admissibles avec une
chance supérieure à 0.7 et inférieure à
0.9 ?


1. DataFrame
✓ Extraire un tableau comprenant
✓ Importer le fichier census.csv ? les attributs liés à la population
✓Afficher la dynamique de la variable SUMLEV ? totale et au nombre des nouveaux
nés suivants à partir du dataframe
census ?
✓'STNAME', 'CTYNAME',
'BIRTHS2010', 'BIRTHS2011',
'POPESTIMATE2010',
'POPESTIMATE2011',
'POPESTIMATE2012',
'POPESTIMATE2013',
'POPESTIMATE2014',
'POPESTIMATE2015


1. DataFrame
✓ Importer le fichier census.csv ?
✓Afficher la dynamique de la variable SUMLEV ?


1. DataFrame
✓ Afficher les données relative à la région de
Washtenaw (état de Michigan)?


1. DataFrame
✓ Nettoyer l’ensemble des colonnes mal nommée, et transformer les noms en
miniscules , dans le dataframe df ?


2. Nettoyage des données : Données manquantes
✓ Sous Pandas, les données manquantes sont formatées : NULL, NaN, None, N/A
1. Les données manquantes d’une variable X sont dites manquantes de façon

complètement aléatoire (MCAR) si la probabilité que la valeur de X soit manquante ne
dépend ni de la valeur de X (qui n’est pas observée), ni des valeurs des autres variables.
(Exp. un questionnaire peut être perdu dans le courrier, ou un échantillon de sang peut
être endommagé dans le laboratoire)
2. Les données manquantes de X sont dites données manquantes de façon

aléatoire (MAR) si la probabilité que la valeur de X soit manquante ne dépend pas de la
valeur de X (qui n’est pas observée) une fois qu’on a contrôlé pour les autres variables
(Exp. la note d’un candidat à un examen de rattrapage sera manquante si le candidat a
obtenu une note de passage (connue) à l’examen principal).
3. Les données manquantes de X sont dites manquantes de façon non-aléatoire (MNAR) si

la probabilité que la valeur de X soit manquante dépend de la valeur de X elle-
même(Exp. les gens qui ont un revenu élevé pourraient avoir plus de réticences à
répondre à une question sur leur revenu).


✓ Afficher les infos de base, spécialement pour vérifier

s'il y a des valeurs manquantes dans les données
✓Ainsi, toutes les caractéristiques sont

des nombres et aucune valeur manquante
(puisqu'il y a 400 entrées pour chaque
colonne).


✓ Afficher les infos de base, spécialement pour vérifier
s'il y a des valeurs manquantes dans les données


✓ Nous allons nettoyer le jeu de données personnes.csv :


✓ Nous allons nettoyer le jeu de données class_grades.csv :
1. Importer dans un dataframe df les données depuis le fichiers
des données class_grades.csv ?
2. Créer un masque booléen, à partir du df précédent à l’aide de
la commande isnull(), repérant les emplacement des
données manquantes ?


1. Supprimer les individus qui comportent des données manquantes
✓ Nous allons nettoyer le jeu de données class_grades.csv :
1. Importer dans un dataframe df les données depuis le
fichiers des données class_grades.csv ?
2. Créer un masque booleén ,à partir du précédent df à l’aide
de la commande isnull() , repérant les emplacement
des données manquantes ?
3. Supprimer les lignes des données manquantes
4. Afficher le nombre de valeurs manquantes pour chaque
attributs?


2. Imputation par une valeur simple (fixe, unique)
✓ Nous allons remplacer les données manquantes (Imputer) par :
1. des zéros fillna():
2. la valeur moyenne fillna() dans Assignement:
3. la valeur médiane fillna() dans Tutorial :
4. la valeur la plus fréquente, mode() :


Nous allons remplacer les données manquantes
(Imputer) à partir de la valeur précédente ou la valeur
suivante valides.
Ceci pourrait être utile dans l’exploration d’un fichier

log sur les données relative à la consultation d’une
vidéo dans un MOOC. Dans ce système, le lecteur a
une option, où les statistiques de lecture sont
envoyées au serveur chaque 30 secondes : il s’agit des
infos suivants, le lien vers la vidéo consultée (video),
l'endroit où se trouve la tête de lecture vidéo (playback
position), la vidéo est rendue ou non à l'écran
(paused). A quel niveau le volume est (volume) …
1. Les données relatives aux variables paused
et volume sont particulièrement manquante ?
2. Les données ne sont pas triée selon
horodatage (time) !


1. Charger le dataframe à partir du fichier
log.csv
2. Remettre time comme index du tableau de
données set_index() et ensuite trier les
données sort_index()


log.csv
3. Vérifier bien que l’index choisi dans ce cas
n’est pas unique ? En effet deux utilisateurs
peuvent utiliser la plateforme MOOC au
même temps !


log.csv
même temps !
4. Appliquer un reset à l’index précedent
reset_index()
5. Appliquer un multi-indexage pour le tableau
précédent en considérant les deux index
time et user


log.csv
même temps !
4. Appliquer un reset à l’index précedent
reset_index()
5. Appliquer un multi-indexage pour le tableau
précédent en considérant les deux index
time et user
6. Appliquer fillna() à volume pour remplir
les champs manquants (NaN) par la
méthode forward
7. Appliquer fillna() à paused pour remplir
les champs manquants (NaN) par la
méthode backward

3. Imputation multivariée (Multivariables)
▪ Problématique de l’imputation par la valeur moyenne
Observations
Observations à valeurs
manquantes (ordonnée inconnue)
Imputation par la
valeur moyenne


3. Imputation multivariée (Multivariables)
▪ Imputation à partir du centre du groupe
1. Un algorithme de classification automatique,
par ex. k-moyennes, est appliqué aux
observations complètes (sans données Observations
manquantes).
2.Pour chaque observation à données

manquantes, il faut ensuite : Résultat de classification
a. calculer la distance au centre de chaque
groupe en tenant compte uniquement
des valeurs des variables renseignées
pour cette observation,
b. déterminer le centre le plus proche de
l’observation,
c. donner à chaque variable non Détermination du
renseignée la valeur de la même centre le plus proche
variable pour le centre de groupe trouvé Imputation à partir
comme étant le plus proche. du centre de groupe


3. Imputation multivariée (Multivariable)
▪ Imputation par les k plus proches voisins,
✓ Pour chaque observation à données
manquantes :
• Trouver ses k plus proches voisins Observations
(observations complètes) en tenant
compte, dans les calculs de distances,
uniquement des valeurs des variables
renseignées pour cette observation,
• Donner comme valeur, à chaque

variable non renseignée, la moyenne
Détermination des k plus
des valeurs que prend la même
proches voisins
variable pour ces k voisins.
Imputation à partir des k

plus proches voisins


4. Imputation Multiple
▪ Imputation MICE (Multiple Imputation by Chained Equations),
✓ L’imputation multiple consiste à

imputer plusieurs fois les données
manquantes et à réaliser ensuite
l’analyse de chaque ensemble de
données complétées, puis à intégrer
les résultats de ces différentes
analyses. Ceci permet de diminuer
l’erreur (le bruit) due à l’imputation.
✓ 3 à 5 itérations, en général, sont © Rubin, 1987
nécessaires pour converger vers une

valeur imputée optimale.


4. Imputation Multiple ▪ Exemple Imputation MICE,


2. Nettoyage des données : Données bruitées
▪ Un outlier peut être :
1. une valeur aberrante : c'est une
▪ Un diagramme en boîte (boîte à
valeur qui est manifestement fausse moustaches ou boite de Tukey) met
en évidence cinq des paramètres
2. une valeur atypique : c'est une d'une série statistique :
valeur qui "sort du lot", mais pas a. le minimum (min),
forcément fausse. b. le premier quartile (Q1, la
médiane des
▪ Un outlier peut être détecté par le valeurs strictement
inférieures à la médiane de la
diagramme à moustache (boxplot)
série),
c. la médiane,
d. le troisième quartile (Q3 la
médiane des
valeurs strictement
supérieures à la médiane de la
série),
e. le maximum (max).


▪ Exp : 25, 28, 29, 29, 30, 34, 35, 35, 37, 38
a. min = 25
b. Q1, = médiane(25,28,29,29,30)=29
c. la médiane = (30+34)/2=32,
d. Q3, = médiane(34,35,35,37,38)=35
e. max = 38.


❑ Détection des données aberrantes (outliers)
Upper inner fence
Lower inner fence
• Données aberrantes (faibles ou élevées) Distributions des Données à partir de la comparaison

IQR : Inter Quartile (Q3, - Q1) de la boîte à moustaches et l'histogramme


❑ Détection des données aberrantes (outliers)
✓Soit la série des notes obtenues au
dernier contrôle de mathématiques
d'une classe de 19 élèves :
5, 7, 10, 15, 19, 21, 21, 22, 22, 23, 23, 23
, 23, 23, 24, 24, 24, 24, 25, 242424, 2525
a. min = 5
b. Q1, = 19
c. la médiane = 23,
d. Q3, = 24
e. max = 25
f. IQR = 5
Données aberrantes (faibles)


❑ Imputation des données bruitées (MICE,
lissage, régression, bining)
Transformation des données

catégorielles en numériques

2.4 Manipulations de données sous Pandas

3. Intégration des données
qui sont également du

tous les étudiants
personnel
La population des étudiants La population du personnel

dans une université dans une université


a. Intégration horizontale des DataFrame (merge())


1. Créer les deux datafarame suivants : df_staff
et df_students, avec les index précisés sur la
figure (Name) :


2. Intégrer (Fusionner, union) les deux tableaux staff et students en
utilisant la commande merge() et en considérant les index gauche
et droit comme colonnes d’unions.
3. Déterminer à partir de deux tableaux des données les étudiants qui

sont parmi le personnel de l’université !


4. Déterminer le tableau des données fusionnées listant tous les
employés, qu’ils soient étudiants ou non, avec les détails que leurs
sont relatifs.
5. Déterminer le tableau des données fusionnées listant tous les étudiants
et leurs rôles s'ils sont aussi employés !


4. Déterminer le tableau des données fusionnées listant tous les
employés, qu’ils soient étudiants ou non, avec les détails que leurs
sont relatifs.
5. Déterminer le tableau des données fusionnées listant tous les étudiants
et leurs rôles s'ils sont aussi employés !


6. Appliquer un reset de l’index actuel des deux dataframes staff et
students et appliquer ensuite la fusion selon le paramètre on
(left_on, right_on) de merge() (pareillement que la Q4.).


7. Rajouter un attribut Location au dataframe staff
8. Rajouter un attribut Location au dataframe student


9. Appliquer la fusion de deux dataframes staff et students selon le
paramètre afin de lister tous les employés, qu’ils soient étudiants ou
non, avec les détails que leurs sont relatifs.
À partir de la sortie, nous pouvons voir qu'il y a des colonnes Location_x et

Location_y. Location_x fait référence à la colonne location dans le dataframe de gauche, qui est
le dataframe de staff et Location_y fait référence à la colonne dans le dataframe de droite qui est
le dataframe de student.s


10. Fusion avec multi-indexage : Si on opère une intersection selon l’index Name et qu’on a une
confusion des noms, il faudra prévoir un deuxième attribut pour l’indexage du paramètre on dans
merge().


10. Fusion avec multi-indexage : Si on opère une intersection selon l’index Name et qu’on a une
confusion des noms, il faudra prévoir un deuxième attribut pour l’indexage du paramètre on dans
merge().


b. Intégration verticale des DataFrame (concat())


b. Intégration verticale des DataFrame (concat())


4. Transformation des données ; Feature scaling
a. Normalisation
▪ La normalisation peut- être effectuée par la technique du Min-Max
Scaling. La transformation se fait grâce à la formule suivante :
▪ Xmin : la plus petite valeur observée pour la feature X

▪ Xmax : la plus grande valeur observée pour la feature X
▪ X : La valeur de la feature qu’on cherche à normaliser


b. Standardisation
▪ La standardisation (aussi appelée Z-Score normalisation) peut- être
appliquée quand les input features répondent à des distributions
normales (Distributions Gaussiennes) avec des moyennes et des écart-
types différents.
▪ x : la valeur qu’on veut standardiser (input variable)

▪ µ : la moyenne (mean) des observations pour cette feature
▪ : est l’ecart-type (Standard Deviation) des observations pour cette feature


c. Application


5. Discrétisation des données


5. Discrétisation des données
▪ Exprimer (carto-)graphiquement une information implique souvent sa

simplification. Ainsi en découpant en classes une série de données, la
discrétisation réduit une variable quantitative en variable ordonnée.
▪ La réduction statistique, appelée discrétisation, doit conserver au mieux

l’information tout en la simplifiant.
▪ Le choix d’une méthode de discrétisation et du nombre de classes est

guidé par différentes contraintes


6. Réduction des données
▪ Voir ACP (chapitre V)

98 Ingénierie des données
5. Quiz chapitre 3
1. Les données ouvertes brutes, ou ‘non nettoyées’, posent un problème parce

qu’elles ... :
o ne peuvent pas être reportées sur un graphique
o peuvent donner lieu à des conclusions erronées

o ne peuvent pas être publiées
https://data.europa.eu/elearning

5. Quiz chapitre 3
2. Quels sont les deux outils les plus utiles pour nettoyer l’open data ?
o Microsoft Excel et Open Refine

o Apple Notes et Microsoft Word
o Microsoft Access et Adobe Photoshop.

5. Quiz chapitre 3
3. Lesquels des points suivants sont des erreurs des données qu’il faut nettoyer ?
o Des données redondantes
o Aucune licence
o Une manque de granularité
o Des échelles numériques mixtes
o Des représentations multiples
odata.

5. Quiz chapitre 3
4. Combien de temps devrait-on consacrer au nettoyage et à la préparation des

données pour tout projet centré sur des données ?
o Entre 40% et 60%

o Entre 60% et 80%
o Entre 20% et 40%

5. Quiz chapitre 2
5. A researcher doing a blind experiment got the respondent data coded with
numbers in a column named “Respondent_ID”. What data type is it?
o Ordinal
o Continuous
o Interval
o Nominal

Chap3-Ingénierie Des Données2023

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap3-Ingénierie Des Données2023

Transféré par

Droits d'auteur :

Formats disponibles

1 Ingénierie des données : Chapitre III

Qualité des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données (en double, incohérentes,

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

▪ Comment sélectionner et nettoyer des données,

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

▪ Python prend en charge six types de séquences différents. Ce sont des :

École Supérieure des Communications R. Abdelfattah

2. Prétraitement des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

▪ Les listes et les tuples et les chaînes

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

✓ Le fichier de données mpgCoursera.csv, sujet de notre cours, contient les

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

✓ Ou bien à l’aide de la libraire pandas

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

✓ Regrouper à partir de la base de données mpgCoursera les voitures par nombre de

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

École Supérieure des Communications R. Abdelfattah

2. Prétraitements des données

Leila leila@example.com 23/01/1990 France 1,49 m

Samuel samuel_329@example.com 20/09/2001 1,67 m

Marc marco23@example.com, 10/02/1978 France 1,65 m

Hanna hanna2019@supermail.eu 01/01/1970 24 ?

samuël samuel_329@example.com Bénin 1,45 m