Académique Documents
Professionnel Documents
Culture Documents
Chapitre III :
Riadh ABDELFATTAH
École supérieure des Communications
riadh.abdelfattah@supcom.tn
a. Le responsable de production dans une entreprise peut ne pas se soucier de l'absence des
informations de l’attribut adresse des clients, tandis qu'un analyste marketing considère les
informations d'adresse comme essentielles à l'analyse.
b. Un gestionnaire de base de données qui fusionne deux grandes bases de données d’informations
sur les films en une seule. Lorsqu’il décide si deux entrées font référence au même film, il peut
vérifier le titre et la date de sortie de l’entrée. Ici, dans les deux bases de données, la date de sortie
doit correspondre avec le titre, sinon il y aura des problèmes de qualité de données ? Mais
lorsqu’un utilisateur recherche des informations sur un film uniquement à des fins de
divertissement en utilisant l’une ou l’autre base de données, la correspondance de la date de sortie
avec le titre n’est pas si importante.
(a) (b)
(d)
(c)
(e)
A B
2. AED
1. Distinguer les attributs
✓ Exemple : Comment pourrons nous décrire ce qui s’est passé
sur le Titanic à partir de données ?
2. Processus AED
1. Distinguer les attributs
✓ Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.
2. Processus AED
1. Distinguer les attributs
✓ Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.
2. Processus AED
1. Distinguer les attributs
✓ Examinez la structure des données : nombre
des échantillons (individus), nombre de
variables (attributs), noms de variables, types
de données, etc.
2. Processus AED
1. Distinguer les attributs
✓ Identifiez ce que les données
signifient (mesures) pour chacun des
échantillons et soyez prudent lors de
l'obtention des métriques.
2. Processus AED
1. Distinguer les attributs
✓ Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
2. Processus AED
1. Distinguer les attributs
✓ Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
2. Processus AED
1. Distinguer les attributs
✓ Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
2. Processus AED
1. Distinguer les attributs
✓ Application :
1. Afficher la matrice de corrélation empirique de Pearson (avec heatmap)
pour le dataset titanic,
2. Afficher le diagramme en boîte (boxplot) pour les variables « Age » et
« Fare »,
a. Détecter les points aberrants
b. Proposer deux méthodes (suppression, valeur moyenne et valeur max
hors valeurs abérrantes)
3. Recalculer les matrices de corrélations empiriques pour les différentes
imputations. Déduire sur la performance des méthode d’imputation.
10. Identifier dans les cas suivant la nature de l’approche d’analyse des données adoptée :
c. Contexte : Un institut de recherche analyse les résultats d'un sondage sur les
préférences politiques.
Analyse des données : Les analystes utilisent des graphiques tels que des diagrammes en
barres, des histogrammes et des nuages de points pour explorer visuellement les tendances
et les relations entre les variables, sans préjuger des conclusions.