Vous êtes sur la page 1sur 22

1 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

Chapitre III :

Qualité des données

Riadh ABDELFATTAH
École supérieure des Communications
riadh.abdelfattah@supcom.tn

École Supérieure des Communications R. Abdelfattah


2 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

1. TD chapitre 3 ingénierie des données


1. Identifier pour les descriptions suivantes quel facteur de qualité des données parmi exactitude, exhaustivité, et
cohérence, est mis en jeu pour chaque utilisation prévue des données :

a. Le responsable de production dans une entreprise peut ne pas se soucier de l'absence des
informations de l’attribut adresse des clients, tandis qu'un analyste marketing considère les
informations d'adresse comme essentielles à l'analyse.

b. Un gestionnaire de base de données qui fusionne deux grandes bases de données d’informations
sur les films en une seule. Lorsqu’il décide si deux entrées font référence au même film, il peut
vérifier le titre et la date de sortie de l’entrée. Ici, dans les deux bases de données, la date de sortie
doit correspondre avec le titre, sinon il y aura des problèmes de qualité de données ? Mais
lorsqu’un utilisateur recherche des informations sur un film uniquement à des fins de
divertissement en utilisant l’une ou l’autre base de données, la correspondance de la date de sortie
avec le titre n’est pas si importante.

c. On considère un système de recommandation pour l’achat de vêtements en ligne comme projet


d’analyse des données. Pour l’attribut date de naissance, le système peut se soucier uniquement de
l'année de naissance de l'utilisateur, afin de pouvoir proposer les bons choix. Cependant, une
application Facebook qui crée des calendriers d'anniversaire pour les amis doit connaître le jour
exact de la naissance d'un utilisateur pour créer un calendrier crédible.

École Supérieure des Communications R. Abdelfattah


3 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

1. TD chapitre 3 ingénierie des données


2. Quels types de problèmes affectent la qualité des données suivants ?

École Supérieure des Communications R. Abdelfattah


4 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

1. TD chapitre 3 ingénierie des données


3. On considère le groupe de 12 enregistrements de prix de vente ayant été
trié comme suit : 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215. Partitionner
les en trois groupes par chacune des méthodes suivantes. :
a. partitionnement à fréquence égale (équi-profondeur)
b. partitionnement à largeur égale
c. Clustering (Regroupement) sur une échelle de distance

4. On considère les données suivantes pour l'attribut âge :


30, 35, 25, 35, 25, 16, 21, 36, 46, 35, 52, 19, 15, 40, 22, 35, 25, 13, 20, 20, 33, 22, 45,
70, 33, 16, 25.

a. Tracez un histogramme de largeur égale à 10.


b. Utilisez le lissage par binning pour lisser les données ci-dessus, en
utilisant une profondeur de bin de 3. Commentez l’effet de cette technique
pour les données fournies.
c. Comment pourriez-vous déterminer les valeurs aberrantes (les exceptions)
dans les données ?
d. Quelles autres méthodes existe-t-il pour le lissage des données ?

École Supérieure des Communications R. Abdelfattah


5 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

1. TD chapitre 3 ingénierie des données


4. Comment s'appelle chaque étape de transformation des données dans les cas suivants :

(a) (b)

(d)

(c)
(e)

École Supérieure des Communications R. Abdelfattah


6 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

1. TD chapitre 3 ingénierie des données


6. On considère le tableau de données fourni par USArrests.csv. Ce tableau
contient des statistiques sur les arrestations pour 100 000 habitants pour agression
et meurtre, dans chacun des 50 États américains, en 1973. Le pourcentage de la
population vivant dans les zones urbaines est également indiqué.
On se propose d’utiliser les techniques de prétraitements vu en cours pour préparer
l'ensemble de données pour l'analyse :

a. Importer dans un dataframe les données correspondantes.


b. Afficher les états ayant des données manquantes. Proposer une
approche pour corriger toutes les valeurs manquantes.
c. Recherchez les valeurs aberrantes et les données bruitées.
d. Préparez l'ensemble de données pour établir une relation entre une
catégorie de population urbaine et un type de crime. [Discrétiser le
pourcentage de population urbaine en catégories, par exemple petite
(<50 %), moyenne (<60 %), grande (<70 %) et très grande population
urbaine (70 % et plus).]
e. Déterminer les états ayant les populations urbaines très larges.

École Supérieure des Communications R. Abdelfattah


7 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

1. TD chapitre 3 ingénierie des donnée


7. On considère le tableau suivant de données qui représente la
productivité mesurée pour un groupe de professionnels de la science des
données. Certains d’entre eux ont suivi une formation approfondie en
statistique (représentée par « O » dans la colonne Training), tandis que
d’autres ne l’ont pas fait (N). L'ensemble de données contient également
l'expérience professionnelle (notée Experience) de chaque professionnel
en termes de nombre d'heures de travail.
a. Quels types de données correspondent aux attributs Productivity et
Training. Visualiser graphiquement ces données en choisissant le
graphique adapté à chaque fois.
b. Déterminer les données statistiques permettant de visualiser le
diagramme de moustache correspondant à l’attribut Productivity.
c. Trouver les mêmes statistiques pour l’attribut Expérience.
d. Déduire sur la symétrie des distributions des attribut Productivity et
Experience.

École Supérieure des Communications R. Abdelfattah


8 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

1. TD chapitre 3 ingénierie des données


8.
a. Calculer le coefficient de corrélation de Pearson pour les deux
attributs Height et Weight fournis dans le tableau suivant.
b. Décrire la dépendance de ces deux attributs ?
c. Quel intérêt pour trouver une régression linéaire entre les deux
attributs ?

École Supérieure des Communications R. Abdelfattah


9 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

1. TD chapitre 3 ingénierie des donnée


9. La figure suivante affiche deux distributions A et B de deux
jeux de données différents. Indiquer la proposition vraie.
a. A présente un kurtosis plus grand que B.
b. B présente un kurtosis plus grand que A.

A B

École Supérieure des Communications R. Abdelfattah


10 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

1. TD chapitre 3 ingénierie des donnée

École Supérieure des Communications R. Abdelfattah


11 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

2. AED
1. Distinguer les attributs
✓ Exemple : Comment pourrons nous décrire ce qui s’est passé
sur le Titanic à partir de données ?

✓ Quel sexe avait une meilleure chance de survie ?

✓ Quelle classe sociale avait les meilleures chances de survie ?

✓ Quel groupe d'âge avait une meilleure chance de survie?

École Supérieure des Communications R. Abdelfattah


12 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

2. Processus AED
1. Distinguer les attributs
✓ Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.

✓ Survival - Survie (0 = Non; 1 = Oui).


✓ Pclass - - Classe passager (1 = 1er ; 2 = 2e ; 3 = 3e)
✓ Name - Nom
✓ Sex - Sexe
✓ Age - Âge
✓ SibSp - Nombre de frères et sœurs/conjoints à bord
✓ Parch - Nombre de parents/enfants à bord
✓ Ticket - Numéro de billet
✓ Fare - Tarif Passager
✓ Cabin - Cabine
✓ Embarked - Port d'embarquement (C = Cherbourg;
Q = Queenstown; S = Southampton)

École Supérieure des Communications R. Abdelfattah


13 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

2. Processus AED
1. Distinguer les attributs
✓ Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.

✓ Survival - Survie (0 = Non; 1 = Oui). Embarked,Sex et Name


✓ Pclass - - Classe passager (1 = 1er ; 2 = 2e ; 3 = 3e)
✓ Name - Nom
✓ Sex - Sexe
✓ Age - Âge
✓ SibSp - Nombre de frères et sœurs/conjoints à bord Pclass, SibSp et Parch
✓ Parch - Nombre de parents/enfants à bord
✓ Ticket - Numéro de billet
✓ Fare - Tarif Passager
✓ Cabin - Cabine
✓ Embarked - Port d'embarquement (C = Cherbourg;
Q = Queenstown; S = Southampton) Age et Fare

École Supérieure des Communications R. Abdelfattah


14 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

2. Processus AED
1. Distinguer les attributs
✓ Examinez la structure des données : nombre
des échantillons (individus), nombre de
variables (attributs), noms de variables, types
de données, etc.

École Supérieure des Communications R. Abdelfattah


15 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

2. Processus AED
1. Distinguer les attributs
✓ Identifiez ce que les données
signifient (mesures) pour chacun des
échantillons et soyez prudent lors de
l'obtention des métriques.

École Supérieure des Communications R. Abdelfattah


16 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

2. Processus AED
1. Distinguer les attributs
✓ Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)

École Supérieure des Communications R. Abdelfattah


17 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

2. Processus AED
1. Distinguer les attributs
✓ Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)

École Supérieure des Communications R. Abdelfattah


18 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

2. Processus AED
1. Distinguer les attributs
✓ Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)

École Supérieure des Communications R. Abdelfattah


19 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

2. Processus AED
1. Distinguer les attributs

✓ Application :
1. Afficher la matrice de corrélation empirique de Pearson (avec heatmap)
pour le dataset titanic,
2. Afficher le diagramme en boîte (boxplot) pour les variables « Age » et
« Fare »,
a. Détecter les points aberrants
b. Proposer deux méthodes (suppression, valeur moyenne et valeur max
hors valeurs abérrantes)
3. Recalculer les matrices de corrélations empiriques pour les différentes
imputations. Déduire sur la performance des méthode d’imputation.

École Supérieure des Communications R. Abdelfattah


20 Ingénierie des données : TD Chapitre III & IV – Novembre 2023
10. On se propose de réaliser une analyse d’un tableau de
données de N= 250 individus et de P= 4 variables à partir du
résumé des statistiques fournies dans le tableau suivant.
1. Sachant que tous les attributs de la variable Var1 :
• ont une fréquence d’occurrence qui est égal à
Tableau : Résumé statistique de variables.
1, Case … : valeur à calculer, case grise : valeur non significative
• sont ordonnés selon un ordre croissant.
Var1 Var2 Var3 Var4
a. A quel type de variable appartient la variable count 250 236 250 …..
Var1 ? Déduire le justificatif à partir des mean 39.56 40.32 3.54
statistiques fourni pour la Var1 ? std 37.80 48.75 0.96
b. Donner le diagramme en bâton de la variable min 1 10.5 10.50 …..
1 illustrant sa distribution. Déduire alors sur 25% 63.25 29.00 28.75 …..
mode …… 31.00 ….. …..
sa nature et son mode ?
50% 125.5 32.00 30.50 …..
2. 75% 187.75 45.00 44.85 …..
a. Quel problème de données se présente avec la max 250 70.00 380.42 …..
variable Var2 ?
b. Sachant que la variable Var2 est ordonnée
chronologiquement (ordre croissant), proposer
une méthode appropriée uni-variée pour
remédier au problème signalé en 2. a. ?
c. Comparer les statistiques de la variable Var2
et celle de la variable Var3 ? Peut-on penser à
une méthode multi-variée optimale pour
remplacer les variables Var2 et Var3 afin de
remédier au problème signalé en 2. a. ?
Pourquoi ?

École Supérieure des Communications R. Abdelfattah


21 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

3. Nous considérons maintenant la variable Var3 :


a. Tracer la boîte à moustache correspondante
à la 3ème variable. Déduire alors sur la
présence ou non des valeurs
atypiques (outliers) ?
b. Que peut-on déduire sur l’asymétrie de la
distribution de la variable Var3 ? Justifier
votre réponse ?
c. Est-ce que le mode de la variable Var3 peut
être supérieur à 35 ? Justifier

4. Soit la variable Var4 dont la distribution est


illustrée sur la figure suivante :
a. Quel est le type de la variable Var4 ?
b. Compléter les statistiques de la variable
Var4 qui manquent au tableau 3 ?

Figure : Distribution de la variable Var4.

École Supérieure des Communications R. Abdelfattah


22 Ingénierie des données : TD Chapitre III & IV – Novembre 2023

10. Identifier dans les cas suivant la nature de l’approche d’analyse des données adoptée :

a. Contexte : Une entreprise pharmaceutique teste l'efficacité d'un nouveau médicament


dans un essai clinique.
Analyse des données : Les chercheurs utilisent des informations a priori sur l'efficacité
des médicaments similaires et les combinent avec les données de l'essai clinique pour
estimer la distribution de probabilité des bénéfices du nouveau médicament.

b. Contexte : Des chercheurs veulent déterminer si un nouveau traitement médical réduit


significativement la pression artérielle.
Analyse des données : Ils utilisent un test t-statistique pour comparer les moyennes de la
pression artérielle avant et après le traitement, en formulant des hypothèses nulles et
alternatives et en évaluant la significativité statistique.

c. Contexte : Un institut de recherche analyse les résultats d'un sondage sur les
préférences politiques.
Analyse des données : Les analystes utilisent des graphiques tels que des diagrammes en
barres, des histogrammes et des nuages de points pour explorer visuellement les tendances
et les relations entre les variables, sans préjuger des conclusions.

École Supérieure des Communications R. Abdelfattah

Vous aimerez peut-être aussi