Académique Documents
Professionnel Documents
Culture Documents
Introduction
https://colab.research.google.com/d
rive/1OIRKLERB1WpdzynX5bpK20
O2eQLou0-
j#scrollTo=CFCTEBZEufAl
www.itabacademy.com
MathPlotlib &
Seaborn
Matplotlib & Seaborn:
https://colab.research.google.c
om/notebooks/charts.ipynb#scr
ollTo=QSMmdrrVLZ-N
www.itabacademy.com
Other examples
from colab
https://colab.research.google.c
om/notebooks/snippets/altair.i
pynb#scrollTo=jbE5VZ_Tp2fX
www.itabacademy.com
Data Visualization
1- Line chart
2- Bar chart & Heatmap
3- Scatter Plots
4- Distributions
5- Pairplot
6- Boxplot
The notebook:
https://colab.research.google.com/drive/1OIR
KLERB1WpdzynX5bpK20O2eQLou0-
j#scrollTo=dr5nSgNlxIRb
www.itabacademy.com
Introduction • Data Visualization -
Introduction
✔ La visualisation de données
est la discipline qui consiste à
essayer de comprendre les
données en les plaçant dans • Data visualization is the
un contexte visuel afin de
mettre en évidence des
discipline of trying to
modèles, des tendances et des understand data by placing it in
corrélations qui ne seraient
pas détectés autrement. a visual context so that
patterns, trends and
correlations that might not
otherwise be detected can be
exposed.
www.itabacademy.com
Data Visualization
1- Line chart
www.itabacademy.com
• Data Visualization – Line chart
Diagramme linéaire
www.itabacademy.com
• Data Visualization – Line chart
Diagramme linéaire
– "Shape of You"
– "Despacito"
– "Something Just Like This"
– "HUMBLE"
– "Unforgettable"
www.itabacademy.com
• Data Visualization – Line chart
Diagramme linéaire
• Notice that the first date that
appears is January 6, 2017,
corresponding to the release date of
"The Shape of You", by Ed Sheeran.
www.itabacademy.com
Diagramme linéaire • Data Visualization – Line chart
www.itabacademy.com
• Data Visualization – Line chart
Diagramme linéaire
• Seaborn is a Python data visualization
✔ Seaborn est une bibliothèque library based on matplotlib.
de visualisation de données • We need only one line of code to make
Python basée sur matplotlib. a line chart!
✔ Nous n'avons besoin que
d'une ligne de code pour faire
un graphique linéaire !
www.itabacademy.com
Diagramme linéaire • Data Visualization – Line chart
www.itabacademy.com
Diagramme linéaire • Data Visualization – Line
chart
www.itabacademy.com
Diagramme linéaire • Data Visualization – Line chart
www.itabacademy.com
Diagramme linéaire • Data Visualization – Line chart
✔ Here, we select only two
columns that we would like to
show in the line chart.
www.itabacademy.com
Diagramme linéaire
• Data Visualization – Line chart
Data Visualization
Lab 1 – Line Charts - Los Angeles
City Museums
www.itabacademy.com
• Data Visualization – Los Angeles City
Museums
Ecrivez le code
Vous avez récemment été • You have recently been hired to manage the
embauché(e) pour gérer les museums in the City of Los Angeles.
musées de la ville de Los
Angeles.
Problème 1 :
www.itabacademy.com
https://itabacademy.com/bigdata/museum_visitors.csv
Vous comprenez que si vous pouvez • You realize that if you can predict these
prédire ces périodes de forte affluence et high and low seasons, you can plan ahead
de faible affluence, vous pouvez planifier to hire some additional seasonal employees
à l'avance l'embauche de quelques
employés saisonniers supplémentaires
to help out with the extra work.
pour aider à faire face à la charge de
travail supplémentaire.
www.itabacademy.com
https://itabacademy.com/bigdata/museum_visitors.csv
www.itabacademy.com
https://itabacademy.com/bigdata/museum_visitors.csv
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ We notice indeed that in 2014
the firehouse museum
received a lot of visitors.
• Correction
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ We noticed also that there are
some months or seasons
where the museums receive
many visitors. • Correction
✔ Nous avons également
remarqué qu'il existe certains
mois ou saisons pendant
lesquels les musées reçoivent
de nombreux visiteurs.
www.itabacademy.com
Data Visualization
2- Bar chart
&
Heatmap www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart
www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart
www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart
www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart
✔ We conclude that for NK
airport the delay is high
in month 6, followed by 5
and 8.
www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart
Le code comporte trois éléments
principaux : • The code has three main
✔ sns.barplot : Cela indique au
notebook que nous voulons
components:
créer un diagramme à barres. ✔sns.barplot : This tells the
✔ x=flight_data.index : Cela notebook that we want to
détermine ce qui sera utilisé
sur l'axe horizontal. (dans ce create a bar chart.
cas, la colonne contenant les
mois).
✔x=flight_data.index : This
✔ y=flight_data [NK] : Cela determines what to use on the
définit la colonne dans les horizontal axis. (in this case,
données qui sera utilisée pour the column containing the
déterminer la hauteur de
chaque barre. Dans ce cas, months).
nous sélectionnons
colonne 'NK'.
la ✔y=flight_data['NK'] : This sets
the column in the data that
will be used to determine the
height of each bar. In this case,
we select the 'NK' column.
www.itabacademy.com
Heatmap • Data Visualization – Heatmap
www.itabacademy.com
Heatmap • Data Visualization – Heatmap
✔ What do you notice from this
graph?
www.itabacademy.com
Heatmap • Data Visualization – Heatmap
www.itabacademy.com
• Data Visualization – Heatmap
Heatmap
• The cells from months 9 to 11 are dark, it
● Les cellules des mois 9 à 11 sont means low delay.
●
sombres, ce qui signifie un faible retard.
Le retard le plus élevé se trouve dans la
• Highest delay is in (NK, 6) combination
combinaison (NK, 6). • AS is the perfect airport in terms of delay.
● AS semble être l'aéroport parfait en
termes de retard.
www.itabacademy.com
Heatmap • Data Visualization – Heatmap
Ce code a trois composants
principaux :
✔ sns.heatmap : Cela indique au
• This code has three main
notebook que nous voulons components:
✔sns.heatmap : This tells the
créer un heatmap
✔ data=flight_data : Ce code
indique au notebook d'utiliser notebook that we want to
toutes les entrées de
flight_data pour créer le create a heatmap.
heatmap.
✔ annot=True : Ceci garantit que
✔data=flight_data : This tells
les valeurs de chaque cellule the notebook to use all of
apparaissent sur la carte.
the entries in flight_data to
create the heatmap.
✔annot=True : This ensures
that the values for each cell
appear on the chart.
www.itabacademy.com
Just Enough Pyhton
Data Visualization
Lab 2 – Bar chart & Heatmap
www.itabacademy.com
• Data Visualization – Write the code
Ecrivez le code
• You've recently decided to create
✔ Vous avez récemment your very own video game! As an
décidé de créer votre propre avid reader of IGN Game Reviews,
jeu vidéo ! En tant que you hear about all of the most
lecteur assidu des critiques recent game releases, along with the
de jeux d'IGN, vous êtes
informé de toutes les
ranking they've received from
sorties de jeux les plus experts.
récentes, ainsi que de leur
classement par les experts.
www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
★ Le fichier que vous allez
analyser contient des
évaluations de jeux pour
chaque plateforme.
• The file that you will be
analyzing contains reviews of
game category for each
platform.
www.itabacademy.com
• Data Visualization – Write the code
Ecrivez le code
● Supposons que vous • Problem:
soyez plus intéressé par
les jeux de course.
● Maintenant, nous devons • Let’s suppose you are more
savoir quelle plateforme interested in racing games.
est la meilleure pour les
jeux de course.
● Nous devons trouver la • Now we need to know which
meilleure et la pire platform is the best for racing
combinaison de games.
genre/plateforme.
www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔ Créez un diagramme à
barres qui montre la note
moyenne des jeux de • Create a bar chart that shows
course pour chaque
plateforme. Votre the average score
graphique devrait avoir une for racing games, for each
barre pour chaque
plateforme. platform. Your chart should
have one bar for each platform.
www.itabacademy.com
• Data Visualization – Write the
Correction code
● Nous remarquons que la
meilleure plateforme est • Correction
la Xbox One.
• We notice that the best
platform in xbox one.
www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔ Utilisez les données pour
créer une carte thermique
(heatmap) de la note • Use the data to create a
moyenne par genre et par
plateforme. heatmap of average score by
genre and platform.
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ What do you notice ?
• Correction
www.itabacademy.com
• Data Visualization – Write the code
• Correction
Correction
✔ The best combination is
simulation/playstation4.
✔ The worst combination is
gameboycolor/fighting.
✔ La meilleure combinaison
est simulation/PlayStation
4.
✔ La pire combinaison est
Game Boy Color/fighting
www.itabacademy.com
Data Visualization
3- Scatter Plots
www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
Nous allons travailler avec un
ensemble de données
• We'll work with a (synthetic)
sur les frais dataset of insurance charges, to
d'assurance, afin de see if we can understand why
comprendre pourquoi some customers pay more than
certains clients paient plus others.
que d'autres.
www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
Pour créer un simple nuage de
point (scatter plot), nous utilisons • To create a simple scatter plot,
la commande sns.scatterplot et we use
spécifions les valeurs de: the sns.scatterplot command and
specify the values for:
✔ l'axe horizontal des x
(x=données_d'assurance['bmi'
]) ✔ the horizontal x-axis
✔ l'axe vertical y
(y=données_d'assurance
(x=insurance_data['bmi'])
[charges]). ✔ the vertical y-axis
(y=insurance_data['charges']).
www.itabacademy.com
Les nuages de points • Data Visualization – Scatter
✔ We create a scatter plot of Plots
columns bmi and charges.
www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
✔Nous créons un nuage de
points avec les colonnes BMI et
charges.
✔Le nuage de points suggère
que l'indice de masse corporelle
(BMI) et les frais d'assurance
(charges) sont positivement
corrélés.
✔Les clients avec un (BMI) plus
élevé ont tendance à payer
davantage en frais d'assurance.
(Ce schéma a du sens, car un
BMI élevé est généralement
associé à un risque plus élevé de
maladies chroniques.)
www.itabacademy.com
Les nuages de points • Data Visualization – Scatter
Plots
✔ We might like to add
a regression line, or the line
that best fits the data. We do
this by changing the command
to sns.regplot.
www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
• We can use scatter plots to display the
✔ Nous pouvons utiliser des relationships between three variables.
diagrammes de dispersion
pour afficher les relations
entre trois variables. • For instance, to understand how
smoking affects the relationship
✔ Par exemple, pour between BMI and insurance costs, we
comprendre comment le can color-code the points by 'smoker',
tabagisme affecte la
relation entre BMI et les and plot the other two columns
coûts d'assurance, nous ('bmi', 'charges') on the axes.
pouvons coder les points
par couleur en fonction de
la variable 'smoker', et
représenter les deux autres
colonnes ('bmi', 'charges')
sur les axes.
www.itabacademy.com
Les nuages de points
• Data Visualization – Scatter Plots
✔ Ce graphique de dispersion
montre que, bien que les non-
fumeurs aient tendance à payer
• This scatter plot shows that while
légèrement plus avec nonsmokers tend to pay slightly
l'augmentation de BMI, les
fumeurs paient BEAUCOUP more with increasing BMI,
plus. smokers pay MUCH more.
www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
✔ Pour souligner davantage • We can use the sns.lmplot command to
ce fait, nous pouvons add two regression lines, corresponding
utiliser la commande to smokers and nonsmokers.
sns.lmplot pour ajouter
deux lignes de régression,
correspondant aux
fumeurs et aux non-
fumeurs. Nous
remarquerons que la ligne
de régression pour les
fumeurs a une pente
beaucoup plus raide par
rapport à celle des non-
fumeurs !
www.itabacademy.com
Les nuages de points • Data Visualization – Scatter Plots
La commande sns.lmplot
fonctionne légèrement The sns.lmplot command works slightly
différemment des commandes que differently than the commands you have
vous avez apprises jusqu'à présent
:
learned about so far:
✔ Au lieu de définir
x=insurance_data['bmi'] pour
sélectionner la colonne 'bmi'
dans insurance_data, nous • Instead of
définissons x="bmi" pour setting x=insurance_data['bmi'] to select
spécifier uniquement le nom de the 'bmi' column in insurance_data, we
la colonne.
set x="bmi" to specify the name of the
✔ De même, y="charges" et
hue="smoker" contiennent column only.
également les noms des • Similarly, y="charges" and hue="smoker"
colonnes. also contain the names of columns.
✔ Nous spécifions le jeu de
données avec • We specify the dataset
data=insurance_data. with data=insurance_data.
www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
✔Enfin, il y a un autre type de ● Finally, there's one more plot that you'll
graphique que vous allez learn about, that might look slightly
apprendre, qui pourrait paraître
different from how you're used to seeing
légèrement différent de ce à
quoi vous êtes habitué à voir scatter plots.
avec les nuages de points.
● Usually, we use scatter plots to highlight
the relationship between two continuous
✔Généralement, nous utilisons variables (like "bmi" and "charges").
des nuages de points pour
mettre en évidence la relation
entre deux variables continues
(comme "bmi" et "charges").
www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
✔Cependant, nous pouvons
adapter la conception du ● However, we can adapt the design of the
nuage de points pour mettre
scatter plot to feature a categorical
en avant une variable
catégorique (comme variable (like "smoker") on one of the
"smoker") sur l'un des axes main axes.
principaux.
● We'll refer to this plot type as a
categorical scatter plot, and we build it
✔Nous désignerons ce type de with the sns.swarmplot command.
graphique sous le nom de
nuage de points catégorique,
et nous le construirons avec la
commande sns.swarmplot.
www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
www.itabacademy.com
Just Enough Pyhton
Data Visualization
Lab 3 – Scatter plots
www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔ Vous travaillez pour un
grand producteur de
bonbons, et votre objectif • You work for a major candy
est de rédiger un rapport
que votre entreprise producer, and your goal is to
pourra utiliser pour
orienter la conception de write a report that your
son prochain produit. company can use to guide the
✔ Ici on a transformé
quelque valeur en design of its next product.
poucentage: sugar,price et
win percent, on divide par
la valeur maximal.
www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔Nous voulons savoir s'il
existe une corrélation entre
'sugarpercent' et 'winpercent'.
• We want to know if there is a
correlation between
'sugarpercent' and 'winpercent‘.
✔Créez un graphique de
dispersion montrant la
• Make a scatter plot showing the
relation entre 'sugarpercent'
et 'winpercent'.
relationship between
'sugarpercent' and 'winpercent'
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Nous chargeons le csv puis
nous montrons les 5
premières lignes du dataset.
• Correction
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Nous dessinons le nuage de
points.
• Correction
• We draw the scatter plot.
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Le nuage de points montre-t-il
une forte corrélation entre les
deux variables?
• Does the scatter plot show
a strong correlation between
the two variables?
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Le nuage de points montre-t-il
une forte corrélation entre les
deux variables?
• Does the scatter plot show
a strong correlation between
the two variables?
www.itabacademy.com
• Data Visualization – Write the code
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Créez le même nuage de
points que vous avez créé à
l'étape 3, mais maintenant
avec une ligne de régression. • Create the same scatter plot
you created in Step 3, but now
with a regression line.
www.itabacademy.com
• Data Visualization – Write the code
Correction
✔ Selon le graphique, y a-t-il • According to the plot, is there
une légère corrélation a slight correlation
entre 'winpercent' et
'sugarpercent'? Que cela between 'winpercent' and 'sugarper
vous indique-t-il sur les cent'? What does this tell you about
bonbons que les gens ont the candy that people tend to
tendance à préférer ?
prefer?
www.itabacademy.com
• Data Visualization – Write the code
Correction
• Since the regression line has a slightly
✔Étant donné que la ligne de positive slope, this tells us that there is
régression a une pente
a slightly positive correlation
légèrement positive, cela
between 'winpercent' and 'sugarpercen
nous indique qu'il existe une
corrélation légèrement
t. Thus, people have a slight preference
positive entre 'winpercent' et
for candies containing relatively more
'sugarpercent'. Ainsi, les gens
sugar.
ont une légère préférence
pour les bonbons contenant
relativement plus de sucre.
www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔ Créer un nuage de points
montrant la relation entre
'pricepercent', 'winpercent', et • Make a scatter plot showing
'chocolate'
the relationship between
'pricepercent', 'winpercent',
and 'chocolate'
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Que pouvons-nous conclure
de ce graphique?
www.itabacademy.com
• Data Visualization – Write the
Correction code
Pas beaucoup!
• Not much!
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Ajoutons les lignes de
régression.
www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Que pouvons-nous conclure
de ce graphique?
www.itabacademy.com
• Data Visualization – Write the
Correction code
⮚ Pour les bonbons au chocolat:
• For candies with chocolate:
✔ Il existe une corrélation
positive entre le pricepercent
et le winpercent. – There is a positive correlation
✔ Plus le prix est élevé, plus between pricepercent and
l'entreprise gagne.
winpercent.
– The more the price is high, the
more the company wins.
www.itabacademy.com
• Data Visualization – Write the
Correction code
Pour les bonbons sans
chocolat : • For candies without chocolate:
✔Il existe une corrélation
négative entre le pricepercent
et winpercent. – There is a negative correlation
✔Plus le prix est élevé, moins between pricepercent and
l'entreprise gagne.
winpercent.
– The more the price is high, the
less the company wins.
www.itabacademy.com
• Data Visualization – Write the code
Correction
• Une note importante, • One important note, however, is
cependant, est que
l'ensemble de données est
that the dataset is quite small so we
assez petit. Par shouldn't invest too much trust in
conséquent, nous ne these patterns! To inspire more
devrions pas investir trop
de confiance dans ces
confidence in the results, we should
modèles ! Pour renforcer la add more candies to the dataset.
fiabilité des résultats, nous
devons ajouter davantage
de bonbons à l'ensemble de
données.
www.itabacademy.com