Vous êtes sur la page 1sur 53

1 Ingénierie des données : Chapitre IV

Chapitre IV :

Visualisation des données


en vue de leurs analyse exploratoire

Riadh ABDELFATTAH
École supérieure des Communications
riadh.abdelfattah@supcom.tn

École Supérieure des Communications R. Abdelfattah


2 Ingénierie des données : Chapitre IV

Plan
1. Introduction : Analyse exploratoire de données (AED) et
visualisations

2. Processus AED

3. Quiz

École Supérieure des Communications R. Abdelfattah


3 Ingénierie des données : Chapitre IV

1. Introduction
Analyse exploratoire des données et visualisations ?

 La compréhension des données est un processus itératif entre l'équipe des


scientifiques des données et les experts du côté commercial. Cela peut aider
les deux parties à identifier et à construire des fonctionnalités importantes,
puis à créer des modèles d'apprentissage automatique appropriés.

 Par opposition aux tests d’hypothèses traditionnels destinés à vérifier des


hypothèses a priori sur des relations entre variables, l’Analyse Exploratoire
des Données est utilisée pour rechercher et découvrir des relations
systématiques entre variables, en prenant en compte un grand nombre de
variables.

École Supérieure des Communications R. Abdelfattah


4 Ingénierie des données : Chapitre IV

1. Introduction
Analyse exploratoire des données et visualisations ?
 Découvrir des relations systématiques entre variables, en prenant en compte
un grand nombre de variables : Analyse des données
 Analyse classique

 Analyse Exploratoire des Données

 Analyse Bayésienne

École Supérieure des Communications R. Abdelfattah


5 Ingénierie des données : Chapitre IV

1. Introduction
Analyse exploratoire des données et visualisations ?
 L’analyse exploratoire des données est un outil pour exécuter les phases de
compréhension et préparation. Les données préparées sont ensuite analysées
pour permettre de répondre aux questions découlant de la préparation des
données. Les données fournies sont explorées de manière interactive.

 Les techniques d'exploration de données comprennent à la fois l'analyse


manuelle et des solutions logicielles d'exploration de données automatisées qui
explorent et identifient visuellement les relations entre différentes variables de
données, la structure de l'ensemble de données, la présence de valeurs
aberrantes et la distribution des valeurs de données afin de révéler des modèles
et des points d'intérêt, permettant ainsi aux analystes de données de mieux
comprendre les données brutes.

École Supérieure des Communications R. Abdelfattah


6 Ingénierie des données : Chapitre IV

1. Introduction
Analyse exploratoire des données et visualisations ?

 Traduire l’objectif commerciale en des objectifs d'exploration de données !


L’AED permettra de réaliser ces objectifs.

Comment faire ?
Utiliser des visualisations de données

École Supérieure des Communications R. Abdelfattah


7 Ingénierie des données : Chapitre IV

1. Introduction
Analyse exploratoire des données et visualisations ?
 La visualisation des données nous permet de comprendre les données
rapidement.

 La visualisation aide les scientifiques des données et les parties prenantes de


l'entreprise à s'aligner facilement sur les processus et la qualité des données. Il
s'agit d'une boucle de rétroaction importante dans la méthodologie CRISP vers
la compréhension du problème.

 La visualisation des données aidera à identifier rapidement les modèles et à


décider de la manière de traiter le problème en question.

École Supérieure des Communications R. Abdelfattah


8 Ingénierie des données : Chapitre IV

1. Introduction
Analyse exploratoire des données et visualisations ?

 Certains graphiques couramment utilisés pour l'EDA sont :

 Histogrammes : pour vérifier la distribution d'une variable spécifique


 Nuages de points (scatterplot) : pour vérifier la dépendance entre deux
variables
 Cartes : pour afficher la distribution d'une variable sur une carte régionale
ou mondiale
 Diagramme de corrélation de caractéristiques (heatmap) : pour
comprendre les dépendances entre plusieurs variables
 Graphiques de séries chronologiques : pour identifier les tendances et la
saisonnalité dans les données dépendantes du temps

École Supérieure des Communications R. Abdelfattah


9 Ingénierie des données : Chapitre IV

1. Introduction
Analyse exploratoire des données et visualisations ?

 Découvrir les structures et les types des données

 Maximiser les insights dans un jeu de données

 Extraire les variables importantes

 Développer des modèles optimaux

École Supérieure des Communications R. Abdelfattah


10 Ingénierie des données : Chapitre IV

2. Processus AED
 Le processus recommandé pour effectuer une analyse exploratoire des données ?

École Supérieure des Communications R. Abdelfattah


11 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Exemple : Comment pourrons nous décrire ce qui s’est passé
sur le Titanic à partir de données ?

 Quel sexe avait une meilleure chance de survie ?

 Quelle classe sociale avait les meilleures chances de survie ?

 Quel groupe d'âge avait une meilleure chance de survie?

École Supérieure des Communications R. Abdelfattah


12 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.

 Survival - Survie (0 = Non; 1 = Oui).


 Pclass - - Classe passager (1 = 1er ; 2 = 2e ; 3 = 3e)
 Name - Nom
 Sex - Sexe
 Age - Âge
 SibSp - Nombre de frères et sœurs/conjoints à bord
 Parch - Nombre de parents/enfants à bord
 Ticket - Numéro de billet
 Fare - Tarif Passager
 Cabin - Cabine
 Embarked - Port d'embarquement (C = Cherbourg;
Q = Queenstown; S = Southampton)

École Supérieure des Communications R. Abdelfattah


13 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.

 Survival - Survie (0 = Non; 1 = Oui). Embarked,Sex et Name


 Pclass - - Classe passager (1 = 1er ; 2 = 2e ; 3 = 3e)
 Name - Nom
 Sex - Sexe
 Age - Âge
 SibSp - Nombre de frères et sœurs/conjoints à bord Pclass, SibSp et Parch
 Parch - Nombre de parents/enfants à bord
 Ticket - Numéro de billet
 Fare - Tarif Passager
 Cabin - Cabine
 Embarked - Port d'embarquement (C = Cherbourg;
Q = Queenstown; S = Southampton) Age et Fare

École Supérieure des Communications R. Abdelfattah


14 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Examinez la structure des données : nombre
des échantillons (individus), nombre de
variables (attributs), noms de variables, types
de données, etc.

École Supérieure des Communications R. Abdelfattah


15 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Identifiez ce que les données
signifient (mesures) pour chacun des
échantillons et soyez prudent lors de
l'obtention des métriques.

École Supérieure des Communications R. Abdelfattah


16 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)

École Supérieure des Communications R. Abdelfattah


17 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)

École Supérieure des Communications R. Abdelfattah


18 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)

École Supérieure des Communications R. Abdelfattah


19 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
 La moyenne géométrique est utilisée pour calculer la moyenne des attributs ayant
des donnée atypiques.

 La moyenne harmonique est utilisée lorsqu'on veut déterminer un rapport moyen,


dans un domaine où il existe des liens de proportionnalité inverses.

École Supérieure des Communications R. Abdelfattah


20 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs  la moyenne arithmétique de taux est de :
(.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%
 La somme principale avec un taux moyen
 Calculer les métriques clés pour chaque (arithmétique) sur 5 ans :
100 000 * (1.066⁵ - 1) = 37 653.11
point de données (analyse récapitulative) : 37 653.11 + 100 000 = 137 653.11
a. Mesures de tendance centrale
 La somme principale avec le taux d’intérêt réel sur 5
(Moyenne, Médiane, Mode) ans : 136,883.70
• La moyenne géométrique peut calculer  1ère année : 100 000 + (100 000 * .01) = 100 000
une moyenne de nombres sur des * 1.01 = 101 000
échelles complètement différentes ou  2ème année : 101 000 * 1.09 = 110 090
ayant une relation multiplicative ou  3ème année : 110 090 * 1.06 = 116 695.40
 4ème année : 116 695.40 * 1.02 = 119 029.31
exponentielle (pour une même  5ème année : 119 029.31 * 1.15 = 136 883.70
variable).  La Moyenne géométrique de taux est de :
1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042
• Exemple : Pour un épargne de 100 000 La racine 5ème de 1.368837042 = 1.064805657
TND qui génère un taux d’intérêt  La somme principale avec un taux moyen
variable chaque année pendant 5 ans : (géométrique) sur 5 ans :
100 000 * (1.0648⁵ - 1) = 36,883.70
1%, 9%, 6%, 2%, 15% 36,883.70 + 100 000 = 136 883.70

École Supérieure des Communications R. Abdelfattah


21 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Calculer les métriques clés pour chaque point de
données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne m,
Médiane, Mode)
b. Mesures de dispersion (plage (range), écart
quartile, écart moyen, écart type )
 L’écart-type (SD) : Mesure de dispersion autour
de la moyenne. Cette mesure correspond à l’écart
moyen par rapport à la moyenne.
 La variance : Mesure de dispersion qui consiste
en la somme des carrés des écarts par rapport à la
moyenne, divisée par le nombre d’observations.
 L’étendue : L’étendue représente la différence
entre les valeurs extrêmes d’une distribution/d’un
ensemble.
 Le percentile Le rang percentile indique le
pourcentage des données ayant une valeur
inférieure ou égale à la donnée considérée.

École Supérieure des Communications R. Abdelfattah


22 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Calculer les métriques clés pour chaque point de
données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne m,
Médiane, Mode)
b. Mesures de dispersion (plage (range), écart
quartile, écart moyen, écart type )
 L’écart-type (SD) : Mesure de dispersion autour
de la moyenne. Cette mesure correspond à l’écart
moyen par rapport à la moyenne.
 La variance : Mesure de dispersion qui consiste
en la somme des carrés des écarts par rapport à la
moyenne, divisée par le nombre d’observations.
 L’étendue : L’étendue représente la différence
entre les valeurs extrêmes d’une distribution/d’un
ensemble.
 Le percentile Le rang percentile indique le
pourcentage des données ayant une valeur
inférieure ou égale à la donnée considérée.

École Supérieure des Communications R. Abdelfattah


23 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Calculer les métriques clés pour chaque point de
données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne m,
Médiane, Mode)
b. Mesures de dispersion (plage (range), écart
quartile, écart moyen, écart type )
 L’écart-type (SD) : Mesure de dispersion autour
de la moyenne. Cette mesure correspond à l’écart
moyen par rapport à la moyenne.
 La variance : Mesure de dispersion qui consiste
en la somme des carrés des écarts par rapport à la
moyenne, divisée par le nombre d’observations.  Remarque : L'imputation moyenne
 L’étendue : L’étendue représente la différence convient aux variables continues
entre les valeurs extrêmes d’une distribution/d’un avec une distribution symétrique.
ensemble. L'imputation médiane est appropriée
 Le percentile Le rang percentile indique le lorsque la variable présente des
pourcentage des données ayant une valeur valeurs aberrantes ou une
inférieure ou égale à la donnée considérée. distribution asymétrique.

École Supérieure des Communications R. Abdelfattah


24 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Calculer les métriques clés pour chaque point de
données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne m,
Médiane, Mode)
b. Mesures de dispersion (plage (range), écart
quartile, écart moyen, écart type )
 L’écart-type : Mesure de dispersion autour de
la moyenne. Cette mesure correspond à l’écart
moyen par rapport à la moyenne.
 La variance : Mesure de dispersion qui
consiste en la somme des carrés des écarts par
rapport à la moyenne, divisée par le nombre
d’observations.
 L’étendue : L’étendue représente la différence
entre les valeurs extrêmes d’une
distribution/d’un ensemble.
 Le percentile Le rang percentile indique le
pourcentage des données ayant une valeur
inférieure ou égale à la donnée considérée.

École Supérieure des Communications R. Abdelfattah


25 Ingénierie des données : Chapitre IV

1. Distinguer les attributs 2. Processus AED


 Calculer les métriques clés pour chaque point de données
(analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne, Médiane,
Coff. of Skewness:
Mode)
b. Mesures de dispersion (plage, écart quartile, écart
moyen, écart type)
c. Mesures de l'asymétrie (Skewness, moment d’ordre 3)
et de l'aplatissement (kurtosis, moment d’ordre 4).

 Le kurtosis, qui
décrit l'épaisseur de la
queue et la netteté du
pic. Il indique la
probabilité de trouver
des valeurs extrêmes
dans nos données. Des
valeurs plus élevées
rendent les valeurs
aberrantes plus
probables.

École Supérieure des Communications R. Abdelfattah


26 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
b. Mesures de dispersion (plage, écart
quartile, écart moyen, écart type)
c. Mesures de l'asymétrie (Skewness,
moment d’ordre 3) et de l'aplatissement
(kurtosis, moment d’ordre 4).

École Supérieure des Communications R. Abdelfattah


27 Ingénierie des données : Chapitre IV

1. Distinguer les attributs 2. Processus AED


 Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
b. Mesures de dispersion (plage, écart
quartile, écart moyen, écart type)
c. Mesures de l'asymétrie (Skewness,
moment d’ordre 3) et de l'aplatissement
(kurtosis, moment d’ordre 4).

École Supérieure des Communications R. Abdelfattah


28 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs
 Les mesures de tendance centrale,
de dispersion, d'asymétrie et
d'aplatissement peuvent-elles être
les mêmes pour différents
ensembles de données ?

 Quartet d’Anscombe :
ensembles de données qui ont des
propriétés statistiques simples
presque identiques, mais semblent
très différents lorsqu'ils sont
représentés graphiquement. !
Chaque ensemble de données se
compose de onze points (x,y).
Cet exemple souligne l'importance d'examiner visuellement les données, et pas
seulement leures statistiques récapitulatives.

École Supérieure des Communications R. Abdelfattah


29 Ingénierie des données : Chapitre IV

2. Processus AED
1. Distinguer les attributs

École Supérieure des Communications R. Abdelfattah


30 Ingénierie des données : Chapitre IV

2. Processus AED
2. Analyse univariée
 Etudier les visuels :
a. Histogramme pour chaque variable

 Diagramme de bâtons pour des données nominales

École Supérieure des Communications R. Abdelfattah


31 Ingénierie des données : Chapitre IV

2. Processus AED
2. Analyse univariée
 Etudier les visuels :
a. Histogramme pour chaque variable

 Diagramme de bâtons pour des données nominales

École Supérieure des Communications R. Abdelfattah


32 Ingénierie des données : Chapitre IV

2. Processus AED
2. Analyse univariée
 Etudier les visuels :
a. Histogramme pour chaque variable

 Histogramme pour des données continues

École Supérieure des Communications R. Abdelfattah


33 Ingénierie des données : Chapitre IV

2. Processus AED
2. Analyse univariée
 Etudier les visuels :
a. Histogramme pour chaque variable

 Histogramme pour des données continues

École Supérieure des Communications R. Abdelfattah


34 Ingénierie des données : Chapitre IV

2. Processus AED
2. Analyse univariée
 Etudier les visuels :
a. Histogramme pour chaque variable

 Diagramme circulaire pour des données (Camembert : pie-chart)

École Supérieure des Communications R. Abdelfattah


35 Ingénierie des données : Chapitre IV

2. Processus AED
3. Analyse multi-variée
 Etudier les visuels :
a. Nuage de points pour corréler
les variables (Scatterplot ou
diagramme de dispersion)

École Supérieure des Communications R. Abdelfattah


36 Ingénierie des données : Chapitre IV

2. Processus AED
3. Analyse multi-variée
 Diagramme de dispersion
 Etudier les visuels :
a. Nuage de points pour corréler
les variables (Scatterplot ou
diagramme de dispersion)

 Pour utiliser la régression


linéaire pour la modélisation, il est
nécessaire de supprimer les
variables corrélées pour améliorer
votre modèle. On peut trouver des
corrélations à l'aide de la fonction
pandas « .corr() » et peut
visualiser la matrice de corrélation
à l'aide d'une carte thermique dans
Seaborn.

École Supérieure des Communications R. Abdelfattah


37 Ingénierie des données : Chapitre IV

2. Processus AED
3. Analyse multi-variée
 Diagramme de tracé de paires (Pair-Plot)

École Supérieure des Communications R. Abdelfattah


38 Ingénierie des données : Chapitre IV

2. Processus AED
3. Analyse multi-variée 1   -1
 Coefficient de corrélation

 Corrélation : Analyse statistique


utilisée pour mesurer la ressemblance
entre deux variables X et Y.
 Covariance empirique entre 0
deux variables X et Y.

 = 0.5

 Coefficient de corrélation de
Pearson (varie entre -1 et +1) :

 = -0.5

École Supérieure des Communications R. Abdelfattah


39 Ingénierie des données : Chapitre IV

2. Processus AED
3. Analyse multi-variée
 Matrice des coefficients de corrélation (carte thermique – heat map)
 Corrélation : Analyse statistique
utilisée pour mesurer la ressemblance
entre deux variables X et Y.
 Covariance empirique entre
deux variables X et Y.

 Coefficient de corrélation de Pearson


(varie entre -1 et +1) :

 Pour un  significatif (> 0,65) il est


intéressant de trouver la régression
linéaire entre X et Y.
École Supérieure des Communications R. Abdelfattah
40 Ingénierie des données : Chapitre IV

2. Processus AED
3. Analyse multi-variée
 Matrice des coefficients de corrélation (carte thermique – heat map)
 Application :
1. Afficher la matrice de corrélation empirique de Pearson (avec heatmap)
pour le dataset titanic,
2. Afficher le diagramme en boîte (boxplot) pour les variables « Age » et
« Fare »,
a. Détecter les points aberrants
b. Proposer deux méthodes (suppression, valeur moyenne et valeur max
hors valeurs aberrantes)
3. Recalculer les matrices de corrélations empiriques pour les différentes
imputations. Déduire sur la performance des méthode d’imputation.

École Supérieure des Communications R. Abdelfattah


41 Ingénierie des données : Chapitre IV

2. Processus AED
3. Analyse multi-variée
 Graphe de coordonnées parallèle
 Le tracé de coordonnées
parallèles est un moyen
courant pour visualiser et
analyser des ensembles de
données de grande
dimension.

 Un point dans un espace à N


dimensions est représenté
comme une polyligne avec
des sommets sur les axes
parallèles et la position du
sommet correspond à la
coordonnée du point.

 Parallel Sets (jasondavies.com)

École Supérieure des Communications R. Abdelfattah


42 Ingénierie des données : Chapitre IV

2. Processus AED
3. Analyse multi-variée
 Graphe de coordonnées parallèle

 Identification de tendance de corrélation entre plusieurs


variables : Diag. de Coor. parallèle

École Supérieure des Communications R. Abdelfattah


43 Ingénierie des données

4. Quiz chapitre 4
1. Which of these statements is true about samples and variables?
•A sample is an instance or example of an entity in your data.
•All of these statements are true.
•A sample can have many variables to describe it.
•A variable describes a specific characteristic of an entity in your data.

2. Other names for 'variable' are


•categorical, nominal
•feature, column, attribute
•sample, row, observation
•numerical, quantitative

École Supérieure des Communications R. Abdelfattah


44 Ingénierie des données

3. Quiz chapitre 4
3. What is the purpose of exploring data?
•To gain a better understanding of your data.
•To gather your data into one repository.
•To digitize your data.
•To generate labels for your data.

4. What are the two main categories of techniques for exploring data? Choose two.
•Histogram
•Outliers
•Visualization
•Trends
•Correlations
•Summary statistics

École Supérieure des Communications R. Abdelfattah


45 Ingénierie des données

3. Quiz chapitre 4
5. Which of the following are NOT examples of summary statistics?
•mean, median, mode
•data sources, data locations
•standard deviation, range, variation
•skewness, kurtosis

6. What are the two measures for measuring shape as mentioned in the lecture? Choose two.
• Kurtosis
• Skewness
• Contingency Table
• Range
• Mode

École Supérieure des Communications R. Abdelfattah


46 Ingénierie des données

3. Quiz chapitre 4

7. Which of the following would NOT be a good reason to use a box plot?
•To show and compare distribution values
•To show data distribution shapes such as asymmetry and skewness.
•To show correlations between two variables.

8. All of the following are true about data visualization EXCEPT


• Is more important than summary statistics for data exploration
• Should be used with summary statistics for data exploration.
• Is useful for communicating results.
• Provides an intuitive way to look at data.

École Supérieure des Communications R. Abdelfattah


47 Ingénierie des données

3. Quiz chapitre 4
9. Which is the correct sequence of steps in data analysis and data
visualization of Exploratory Data Analysis?
• Data Exploration -> Data Cleaning -> Present Results -> Model Building
• Data Exploration -> Data Cleaning -> Model Building -> Present Results
• Data Exploration -> Model Building -> Present Results -> Data Cleaning
• Data Exploration -> Model Building -> Data Cleaning -> Present Results

10. What are the objectives of exploratory data analysis?


• Check for missing data and other mistakes.
• Gain maximum insight into the data set and its underlying structure.
• Uncover a parsimonious model, one which explains the data with a minimum number of
predictor variables.
• All of the above

École Supérieure des Communications R. Abdelfattah


48 Ingénierie des données

3. Quiz chapitre 4

11. Which of the following is not true about Exploratory Data Analysis?
• Generates a posteriori hypothesis.
• Discovers new knowledge.
• Does not provide insight into the data.
• Deals with unknowns.

12. Exploratory Data Analysis is majorly performed using the following methods:
• Univariate
• Bivariate
• Both A and B
• None of the above

École Supérieure des Communications R. Abdelfattah


49 Ingénierie des données

3. Quiz chapitre 4
13. Which of the following is not a component of Exploratory Data Analysis?
• Accounting and Summarizing
• Anomaly Detection
• Statistical Analysis and Clustering
• Hyperparameter tuning

14. Which of the following statements accurately describes a key difference


between wide and long data?
• Every wide data subject has a single column that holds the values of subject
attributes. Every long data subject has multiple columns.
• Wide data subjects can have data in multiple columns. Long data subjects can have
multiple rows that hold the values of subject attributes.
• Wide data subjects can have multiple rows that hold the values of subject attributes.
Long data subjects can have data in multiple columns.
• Every wide data subject has multiple columns. Every long data subject has data in a
single column.

École Supérieure des Communications R. Abdelfattah


50 Ingénierie des données

4. Quiz chapitre 4
15. Data transformation enables you to do what with your data?
• Change the structure of the data
• Retrieve the data faster
• Inspect the data for accuracy
• Restore the data after it has been lost

16. The distribution is positively skewed if


• Both AM > Mode and AM > Median
• AM < Mode
• AM > Mode
• AM > Median

École Supérieure des Communications R. Abdelfattah


51 Ingénierie des données

3. Quiz chapitre 4
17. In symmetrical distribution if Q1=4,Q3=12 then median is
• 0
• 8
• 6
• 4

18. The degree to which numerical data tend to spread out about an
average value is called
• Variation
• Flatness
• Constant
• Skewness

École Supérieure des Communications R. Abdelfattah


52 Ingénierie des données

3. Quiz chapitre 4
19. When a distribution is symmetrical and has one mode, the
highest point on the curve is called the
• Mean
• Mode
• All of the options
• Median

20. If the 4th moment Ratio = 3 then the distribution is


• Platykurtic
• Symmetrical
• Mesokurtic
• Positively skewed

École Supérieure des Communications R. Abdelfattah


53 Ingénierie des données

3. Quiz chapitre 4

6. In Symmetrical distribution Q3−Q1=20, Median = 15, Q3 is equal to


• 5
• 20
• 25
• 15

7. The first three moments of a distribution about the mean m are 1, 4, and 0.
The distribution is
• Skewed to the right
• Normal
• Skewed to the left
• Symmetrical

École Supérieure des Communications R. Abdelfattah

Vous aimerez peut-être aussi