Chap4-Ingénierie Des Donnéesnov2023

1 Ingénierie des données : Chapitre IV
Chapitre IV :
Visualisation des données

en vue de leurs analyse exploratoire
Riadh ABDELFATTAH
École supérieure des Communications
riadh.abdelfattah@supcom.tn
École Supérieure des Communications R. Abdelfattah

Plan
1. Introduction : Analyse exploratoire de données (AED) et
visualisations
2. Processus AED
3. Quiz

1. Introduction
Analyse exploratoire des données et visualisations ?
 La compréhension des données est un processus itératif entre l'équipe des

scientifiques des données et les experts du côté commercial. Cela peut aider
les deux parties à identifier et à construire des fonctionnalités importantes,
puis à créer des modèles d'apprentissage automatique appropriés.
 Par opposition aux tests d’hypothèses traditionnels destinés à vérifier des

hypothèses a priori sur des relations entre variables, l’Analyse Exploratoire
des Données est utilisée pour rechercher et découvrir des relations
systématiques entre variables, en prenant en compte un grand nombre de
variables.

1. Introduction
 Découvrir des relations systématiques entre variables, en prenant en compte
un grand nombre de variables : Analyse des données
 Analyse classique
 Analyse Exploratoire des Données
 Analyse Bayésienne

1. Introduction
 L’analyse exploratoire des données est un outil pour exécuter les phases de
compréhension et préparation. Les données préparées sont ensuite analysées
pour permettre de répondre aux questions découlant de la préparation des
données. Les données fournies sont explorées de manière interactive.
 Les techniques d'exploration de données comprennent à la fois l'analyse

manuelle et des solutions logicielles d'exploration de données automatisées qui
explorent et identifient visuellement les relations entre différentes variables de
données, la structure de l'ensemble de données, la présence de valeurs
aberrantes et la distribution des valeurs de données afin de révéler des modèles
et des points d'intérêt, permettant ainsi aux analystes de données de mieux
comprendre les données brutes.

1. Introduction
 Traduire l’objectif commerciale en des objectifs d'exploration de données !

L’AED permettra de réaliser ces objectifs.
Comment faire ?
Utiliser des visualisations de données

1. Introduction
 La visualisation des données nous permet de comprendre les données
rapidement.
 La visualisation aide les scientifiques des données et les parties prenantes de

l'entreprise à s'aligner facilement sur les processus et la qualité des données. Il
s'agit d'une boucle de rétroaction importante dans la méthodologie CRISP vers
la compréhension du problème.
 La visualisation des données aidera à identifier rapidement les modèles et à

décider de la manière de traiter le problème en question.

1. Introduction
 Certains graphiques couramment utilisés pour l'EDA sont :
 Histogrammes : pour vérifier la distribution d'une variable spécifique

 Nuages de points (scatterplot) : pour vérifier la dépendance entre deux
variables
 Cartes : pour afficher la distribution d'une variable sur une carte régionale
ou mondiale
 Diagramme de corrélation de caractéristiques (heatmap) : pour
comprendre les dépendances entre plusieurs variables
 Graphiques de séries chronologiques : pour identifier les tendances et la
saisonnalité dans les données dépendantes du temps

1. Introduction
 Découvrir les structures et les types des données
 Maximiser les insights dans un jeu de données
 Extraire les variables importantes
 Développer des modèles optimaux

2. Processus AED
 Le processus recommandé pour effectuer une analyse exploratoire des données ?

2. Processus AED
1. Distinguer les attributs
 Exemple : Comment pourrons nous décrire ce qui s’est passé
sur le Titanic à partir de données ?
 Quel sexe avait une meilleure chance de survie ?
 Quelle classe sociale avait les meilleures chances de survie ?
 Quel groupe d'âge avait une meilleure chance de survie?

2. Processus AED
 Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.
 Survival - Survie (0 = Non; 1 = Oui).

 Pclass - - Classe passager (1 = 1er ; 2 = 2e ; 3 = 3e)
 Name - Nom
 Sex - Sexe
 Age - Âge
 SibSp - Nombre de frères et sœurs/conjoints à bord
 Parch - Nombre de parents/enfants à bord
 Ticket - Numéro de billet
 Fare - Tarif Passager
 Cabin - Cabine
 Embarked - Port d'embarquement (C = Cherbourg;
Q = Queenstown; S = Southampton)

2. Processus AED
 Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.
 Survival - Survie (0 = Non; 1 = Oui). Embarked,Sex et Name

 Pclass - - Classe passager (1 = 1er ; 2 = 2e ; 3 = 3e)
 Name - Nom
 Sex - Sexe
 Age - Âge
 SibSp - Nombre de frères et sœurs/conjoints à bord Pclass, SibSp et Parch
 Parch - Nombre de parents/enfants à bord
 Ticket - Numéro de billet
 Fare - Tarif Passager
 Cabin - Cabine
 Embarked - Port d'embarquement (C = Cherbourg;
Q = Queenstown; S = Southampton) Age et Fare

2. Processus AED
 Examinez la structure des données : nombre
des échantillons (individus), nombre de
variables (attributs), noms de variables, types
de données, etc.

2. Processus AED
 Identifiez ce que les données
signifient (mesures) pour chacun des
échantillons et soyez prudent lors de
l'obtention des métriques.

2. Processus AED
 Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)

2. Processus AED
Médiane, Mode)

2. Processus AED
Médiane, Mode)

2. Processus AED
Médiane, Mode)
 La moyenne géométrique est utilisée pour calculer la moyenne des attributs ayant
des donnée atypiques.
 La moyenne harmonique est utilisée lorsqu'on veut déterminer un rapport moyen,

dans un domaine où il existe des liens de proportionnalité inverses.

2. Processus AED
1. Distinguer les attributs  la moyenne arithmétique de taux est de :
(.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%
 La somme principale avec un taux moyen
 Calculer les métriques clés pour chaque (arithmétique) sur 5 ans :
100 000 * (1.066⁵ - 1) = 37 653.11
point de données (analyse récapitulative) : 37 653.11 + 100 000 = 137 653.11
a. Mesures de tendance centrale
 La somme principale avec le taux d’intérêt réel sur 5
(Moyenne, Médiane, Mode) ans : 136,883.70
• La moyenne géométrique peut calculer  1ère année : 100 000 + (100 000 * .01) = 100 000
une moyenne de nombres sur des * 1.01 = 101 000
échelles complètement différentes ou  2ème année : 101 000 * 1.09 = 110 090
ayant une relation multiplicative ou  3ème année : 110 090 * 1.06 = 116 695.40
 4ème année : 116 695.40 * 1.02 = 119 029.31
exponentielle (pour une même  5ème année : 119 029.31 * 1.15 = 136 883.70
variable).  La Moyenne géométrique de taux est de :
1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042
• Exemple : Pour un épargne de 100 000 La racine 5ème de 1.368837042 = 1.064805657
TND qui génère un taux d’intérêt  La somme principale avec un taux moyen
variable chaque année pendant 5 ans : (géométrique) sur 5 ans :
100 000 * (1.0648⁵ - 1) = 36,883.70
1%, 9%, 6%, 2%, 15% 36,883.70 + 100 000 = 136 883.70

2. Processus AED
 Calculer les métriques clés pour chaque point de
données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne m,
Médiane, Mode)
b. Mesures de dispersion (plage (range), écart
quartile, écart moyen, écart type )
 L’écart-type (SD) : Mesure de dispersion autour
de la moyenne. Cette mesure correspond à l’écart
moyen par rapport à la moyenne.
 La variance : Mesure de dispersion qui consiste
en la somme des carrés des écarts par rapport à la
moyenne, divisée par le nombre d’observations.
 L’étendue : L’étendue représente la différence
entre les valeurs extrêmes d’une distribution/d’un
ensemble.
 Le percentile Le rang percentile indique le
pourcentage des données ayant une valeur
inférieure ou égale à la donnée considérée.

2. Processus AED
Médiane, Mode)
moyenne, divisée par le nombre d’observations.
entre les valeurs extrêmes d’une distribution/d’un
ensemble.

2. Processus AED
Médiane, Mode)
moyenne, divisée par le nombre d’observations.  Remarque : L'imputation moyenne
 L’étendue : L’étendue représente la différence convient aux variables continues
entre les valeurs extrêmes d’une distribution/d’un avec une distribution symétrique.
ensemble. L'imputation médiane est appropriée
 Le percentile Le rang percentile indique le lorsque la variable présente des
pourcentage des données ayant une valeur valeurs aberrantes ou une
inférieure ou égale à la donnée considérée. distribution asymétrique.

2. Processus AED
Médiane, Mode)
 L’écart-type : Mesure de dispersion autour de
la moyenne. Cette mesure correspond à l’écart
 La variance : Mesure de dispersion qui
consiste en la somme des carrés des écarts par
rapport à la moyenne, divisée par le nombre
d’observations.
entre les valeurs extrêmes d’une
distribution/d’un ensemble.

1. Distinguer les attributs 2. Processus AED

 Calculer les métriques clés pour chaque point de données
(analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne, Médiane,
Coff. of Skewness:
Mode)
b. Mesures de dispersion (plage, écart quartile, écart
moyen, écart type)
c. Mesures de l'asymétrie (Skewness, moment d’ordre 3)
et de l'aplatissement (kurtosis, moment d’ordre 4).
 Le kurtosis, qui
décrit l'épaisseur de la
queue et la netteté du
pic. Il indique la
probabilité de trouver
des valeurs extrêmes
dans nos données. Des
valeurs plus élevées
rendent les valeurs
aberrantes plus
probables.

2. Processus AED
Médiane, Mode)
b. Mesures de dispersion (plage, écart
quartile, écart moyen, écart type)
c. Mesures de l'asymétrie (Skewness,
moment d’ordre 3) et de l'aplatissement
(kurtosis, moment d’ordre 4).

1. Distinguer les attributs 2. Processus AED

Médiane, Mode)
b. Mesures de dispersion (plage, écart
quartile, écart moyen, écart type)
c. Mesures de l'asymétrie (Skewness,
moment d’ordre 3) et de l'aplatissement
(kurtosis, moment d’ordre 4).

2. Processus AED
 Les mesures de tendance centrale,
de dispersion, d'asymétrie et
d'aplatissement peuvent-elles être
les mêmes pour différents
ensembles de données ?
 Quartet d’Anscombe :
ensembles de données qui ont des
propriétés statistiques simples
presque identiques, mais semblent
très différents lorsqu'ils sont
représentés graphiquement. !
Chaque ensemble de données se
compose de onze points (x,y).
Cet exemple souligne l'importance d'examiner visuellement les données, et pas
seulement leures statistiques récapitulatives.

2. Processus AED

2. Processus AED
2. Analyse univariée
 Etudier les visuels :
a. Histogramme pour chaque variable
 Diagramme de bâtons pour des données nominales

2. Processus AED
 Diagramme de bâtons pour des données nominales

2. Processus AED
 Histogramme pour des données continues

2. Processus AED
 Histogramme pour des données continues

2. Processus AED
 Diagramme circulaire pour des données (Camembert : pie-chart)

2. Processus AED
3. Analyse multi-variée
a. Nuage de points pour corréler
les variables (Scatterplot ou
diagramme de dispersion)

2. Processus AED
 Diagramme de dispersion
a. Nuage de points pour corréler
les variables (Scatterplot ou
diagramme de dispersion)
 Pour utiliser la régression

linéaire pour la modélisation, il est
nécessaire de supprimer les
variables corrélées pour améliorer
votre modèle. On peut trouver des
corrélations à l'aide de la fonction
pandas « .corr() » et peut
visualiser la matrice de corrélation
à l'aide d'une carte thermique dans
Seaborn.

2. Processus AED
 Diagramme de tracé de paires (Pair-Plot)

2. Processus AED
3. Analyse multi-variée 1   -1
 Coefficient de corrélation
 Corrélation : Analyse statistique

utilisée pour mesurer la ressemblance
entre deux variables X et Y.
 Covariance empirique entre 0
deux variables X et Y.
 = 0.5
 Coefficient de corrélation de
Pearson (varie entre -1 et +1) :
 = -0.5

2. Processus AED
 Matrice des coefficients de corrélation (carte thermique – heat map)
 Corrélation : Analyse statistique
utilisée pour mesurer la ressemblance
entre deux variables X et Y.
 Covariance empirique entre
deux variables X et Y.
 Coefficient de corrélation de Pearson

(varie entre -1 et +1) :
 Pour un  significatif (> 0,65) il est

intéressant de trouver la régression
linéaire entre X et Y.
2. Processus AED
 Matrice des coefficients de corrélation (carte thermique – heat map)
 Application :
1. Afficher la matrice de corrélation empirique de Pearson (avec heatmap)
pour le dataset titanic,
2. Afficher le diagramme en boîte (boxplot) pour les variables « Age » et
« Fare »,
a. Détecter les points aberrants
b. Proposer deux méthodes (suppression, valeur moyenne et valeur max
hors valeurs aberrantes)
3. Recalculer les matrices de corrélations empiriques pour les différentes
imputations. Déduire sur la performance des méthode d’imputation.

2. Processus AED
 Graphe de coordonnées parallèle
 Le tracé de coordonnées
parallèles est un moyen
courant pour visualiser et
analyser des ensembles de
données de grande
dimension.
 Un point dans un espace à N

dimensions est représenté
comme une polyligne avec
des sommets sur les axes
parallèles et la position du
sommet correspond à la
coordonnée du point.
 Parallel Sets (jasondavies.com)

2. Processus AED
 Graphe de coordonnées parallèle
 Identification de tendance de corrélation entre plusieurs

variables : Diag. de Coor. parallèle

43 Ingénierie des données
4. Quiz chapitre 4
1. Which of these statements is true about samples and variables?
•A sample is an instance or example of an entity in your data.
•All of these statements are true.
•A sample can have many variables to describe it.
•A variable describes a specific characteristic of an entity in your data.
2. Other names for 'variable' are

•categorical, nominal
•feature, column, attribute
•sample, row, observation
•numerical, quantitative

3. Quiz chapitre 4
3. What is the purpose of exploring data?
•To gain a better understanding of your data.
•To gather your data into one repository.
•To digitize your data.
•To generate labels for your data.
4. What are the two main categories of techniques for exploring data? Choose two.
•Histogram
•Outliers
•Visualization
•Trends
•Correlations
•Summary statistics

3. Quiz chapitre 4
5. Which of the following are NOT examples of summary statistics?
•mean, median, mode
•data sources, data locations
•standard deviation, range, variation
•skewness, kurtosis
6. What are the two measures for measuring shape as mentioned in the lecture? Choose two.
• Kurtosis
• Skewness
• Contingency Table
• Range
• Mode

3. Quiz chapitre 4
7. Which of the following would NOT be a good reason to use a box plot?
•To show and compare distribution values
•To show data distribution shapes such as asymmetry and skewness.
•To show correlations between two variables.
8. All of the following are true about data visualization EXCEPT

• Is more important than summary statistics for data exploration
• Should be used with summary statistics for data exploration.
• Is useful for communicating results.
• Provides an intuitive way to look at data.

3. Quiz chapitre 4
9. Which is the correct sequence of steps in data analysis and data
visualization of Exploratory Data Analysis?
• Data Exploration -> Data Cleaning -> Present Results -> Model Building
• Data Exploration -> Data Cleaning -> Model Building -> Present Results
• Data Exploration -> Model Building -> Present Results -> Data Cleaning
• Data Exploration -> Model Building -> Data Cleaning -> Present Results
10. What are the objectives of exploratory data analysis?

• Check for missing data and other mistakes.
• Gain maximum insight into the data set and its underlying structure.
• Uncover a parsimonious model, one which explains the data with a minimum number of
predictor variables.
• All of the above

3. Quiz chapitre 4
11. Which of the following is not true about Exploratory Data Analysis?
• Generates a posteriori hypothesis.
• Discovers new knowledge.
• Does not provide insight into the data.
• Deals with unknowns.
12. Exploratory Data Analysis is majorly performed using the following methods:
• Univariate
• Bivariate
• Both A and B
• None of the above

3. Quiz chapitre 4
13. Which of the following is not a component of Exploratory Data Analysis?
• Accounting and Summarizing
• Anomaly Detection
• Statistical Analysis and Clustering
• Hyperparameter tuning
14. Which of the following statements accurately describes a key difference

between wide and long data?
• Every wide data subject has a single column that holds the values of subject
attributes. Every long data subject has multiple columns.
• Wide data subjects can have data in multiple columns. Long data subjects can have
multiple rows that hold the values of subject attributes.
• Wide data subjects can have multiple rows that hold the values of subject attributes.
Long data subjects can have data in multiple columns.
• Every wide data subject has multiple columns. Every long data subject has data in a
single column.

4. Quiz chapitre 4
15. Data transformation enables you to do what with your data?
• Change the structure of the data
• Retrieve the data faster
• Inspect the data for accuracy
• Restore the data after it has been lost
16. The distribution is positively skewed if

• Both AM > Mode and AM > Median
• AM < Mode
• AM > Mode
• AM > Median

3. Quiz chapitre 4
17. In symmetrical distribution if Q1=4,Q3=12 then median is
• 0
• 8
• 6
• 4
18. The degree to which numerical data tend to spread out about an
average value is called
• Variation
• Flatness
• Constant
• Skewness

3. Quiz chapitre 4
19. When a distribution is symmetrical and has one mode, the
highest point on the curve is called the
• Mean
• Mode
• All of the options
• Median
20. If the 4th moment Ratio = 3 then the distribution is

• Platykurtic
• Symmetrical
• Mesokurtic
• Positively skewed

3. Quiz chapitre 4
6. In Symmetrical distribution Q3−Q1=20, Median = 15, Q3 is equal to

• 5
• 20
• 25
• 15
7. The first three moments of a distribution about the mean m are 1, 4, and 0.
The distribution is
• Skewed to the right
• Normal
• Skewed to the left
• Symmetrical

Chap4-Ingénierie Des Donnéesnov2023

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap4-Ingénierie Des Donnéesnov2023

Transféré par

Droits d'auteur :

Formats disponibles

1 Ingénierie des données : Chapitre IV

Visualisation des données

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

 La compréhension des données est un processus itératif entre l'équipe des

 Par opposition aux tests d’hypothèses traditionnels destinés à vérifier des

École Supérieure des Communications R. Abdelfattah

 Analyse Exploratoire des Données

École Supérieure des Communications R. Abdelfattah

 Les techniques d'exploration de données comprennent à la fois l'analyse

École Supérieure des Communications R. Abdelfattah

 Traduire l’objectif commerciale en des objectifs d'exploration de données !

École Supérieure des Communications R. Abdelfattah

 La visualisation aide les scientifiques des données et les parties prenantes de

 La visualisation des données aidera à identifier rapidement les modèles et à

École Supérieure des Communications R. Abdelfattah

 Certains graphiques couramment utilisés pour l'EDA sont :

 Histogrammes : pour vérifier la distribution d'une variable spécifique

École Supérieure des Communications R. Abdelfattah

 Découvrir les structures et les types des données

 Maximiser les insights dans un jeu de données

 Extraire les variables importantes

 Développer des modèles optimaux

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

 Quel sexe avait une meilleure chance de survie ?

 Quelle classe sociale avait les meilleures chances de survie ?

 Quel groupe d'âge avait une meilleure chance de survie?

École Supérieure des Communications R. Abdelfattah

 Survival - Survie (0 = Non; 1 = Oui).

École Supérieure des Communications R. Abdelfattah

 Survival - Survie (0 = Non; 1 = Oui). Embarked,Sex et Name

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

 La moyenne harmonique est utilisée lorsqu'on veut déterminer un rapport moyen,

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

1. Distinguer les attributs 2. Processus AED

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

1. Distinguer les attributs 2. Processus AED

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah

 Diagramme de bâtons pour des données nominales

École Supérieure des Communications R. Abdelfattah

 Diagramme de bâtons pour des données nominales

École Supérieure des Communications R. Abdelfattah

 Histogramme pour des données continues

École Supérieure des Communications R. Abdelfattah

 Histogramme pour des données continues

École Supérieure des Communications R. Abdelfattah

 Diagramme circulaire pour des données (Camembert : pie-chart)

École Supérieure des Communications R. Abdelfattah

École Supérieure des Communications R. Abdelfattah