Vous êtes sur la page 1sur 79

Data Visualization

Introduction
https://colab.research.google.com/d
rive/1OIRKLERB1WpdzynX5bpK20
O2eQLou0-
j#scrollTo=CFCTEBZEufAl

www.itabacademy.com
MathPlotlib &
Seaborn
Matplotlib & Seaborn:
https://colab.research.google.c
om/notebooks/charts.ipynb#scr
ollTo=QSMmdrrVLZ-N

www.itabacademy.com
Other examples
from colab
https://colab.research.google.c
om/notebooks/snippets/altair.i
pynb#scrollTo=jbE5VZ_Tp2fX

www.itabacademy.com
Data Visualization

1- Line chart
2- Bar chart & Heatmap
3- Scatter Plots
4- Distributions
5- Pairplot
6- Boxplot
The notebook:
https://colab.research.google.com/drive/1OIR
KLERB1WpdzynX5bpK20O2eQLou0-
j#scrollTo=dr5nSgNlxIRb
www.itabacademy.com
Introduction • Data Visualization -
Introduction
✔ La visualisation de données
est la discipline qui consiste à
essayer de comprendre les
données en les plaçant dans • Data visualization is the
un contexte visuel afin de
mettre en évidence des
discipline of trying to
modèles, des tendances et des understand data by placing it in
corrélations qui ne seraient
pas détectés autrement. a visual context so that
patterns, trends and
correlations that might not
otherwise be detected can be
exposed.

www.itabacademy.com
Data Visualization

1- Line chart
www.itabacademy.com
• Data Visualization – Line chart
Diagramme linéaire

✔ Matplotlib est la bibliothèque • The dataset for this tutorial tracks


de tracé python la plus global daily streams of videos or data
populaire. C'est une
bibliothèque de bas niveau streaming service. We focus on five
avec une interface de type products from 2017 and 2018:
Matlab qui offre beaucoup de
liberté au prix d'avoir à écrire
plus de code.
– "Shape of You", by Ed Sheeran
– "Despacito", by Luis Fonzi
– "Something Just Like This", by The
Chainsmokers and Coldplay
– "HUMBLE.", by Kendrick Lamar
– "Unforgettable", by French
Montana

www.itabacademy.com
• Data Visualization – Line chart
Diagramme linéaire

✔ Matplotlib est la bibliothèque • Le jeu de données de ce tutoriel suit


de tracé python la plus les flux mondiaux quotidiens de
populaire. C'est une
bibliothèque de bas niveau vidéos ou de services de streaming
avec une interface de type de données. Nous nous concentrons
Matlab qui offre beaucoup de sur cinq produits des années 2017 et
liberté au prix d'avoir à écrire
plus de code. 2018 :

– "Shape of You"
– "Despacito"
– "Something Just Like This"
– "HUMBLE"
– "Unforgettable"

www.itabacademy.com
• Data Visualization – Line chart
Diagramme linéaire
• Notice that the first date that
appears is January 6, 2017,
corresponding to the release date of
"The Shape of You", by Ed Sheeran.

• And, using the table, you can see


that "The Shape of You" was
streamed 12,287,078 times globally
on the day of its release.

• Notice that the other songs have


missing values in the first row,
because they weren't released until
later!Montana

www.itabacademy.com
Diagramme linéaire • Data Visualization – Line chart

✔ Maintenant, nous chargeons


les données • Now, we load the data

www.itabacademy.com
• Data Visualization – Line chart
Diagramme linéaire
• Seaborn is a Python data visualization
✔ Seaborn est une bibliothèque library based on matplotlib.
de visualisation de données • We need only one line of code to make
Python basée sur matplotlib. a line chart!
✔ Nous n'avons besoin que
d'une ligne de code pour faire
un graphique linéaire !

www.itabacademy.com
Diagramme linéaire • Data Visualization – Line chart

✔ Parfois, il y a des détails


supplémentaires que nous • Sometimes there are additional
aimerions modifier, comme la
taille de la figure et le titre du details we'd like to modify, like
tableau. the size of the figure and the
title of the chart.

www.itabacademy.com
Diagramme linéaire • Data Visualization – Line
chart

www.itabacademy.com
Diagramme linéaire • Data Visualization – Line chart

✔ Jusqu'à présent, nous avons


appris à tracer une ligne pour
chaque colonne de l'ensemble
• So far, we've learned how to
de données. Maintenant, nous plot a line for every column in
allons apprendre à tracer un
sous-ensemble de colonnes. the dataset. Now, we'll learn
how to plot a subset of the
columns.

www.itabacademy.com
Diagramme linéaire • Data Visualization – Line chart
✔ Here, we select only two
columns that we would like to
show in the line chart.

www.itabacademy.com
Diagramme linéaire
• Data Visualization – Line chart

✔ Au lieu de définir • Instead of


data=spotify_data, nous
définissons setting data=spotify_data, we
data=spotify_data['Shape of
You']. En général, pour ne
set data=spotify_data['Shape of
tracer qu'une seule colonne, You']. In general, to plot only a
nous utilisons ce format en
mettant le nom de la colonne single column, we use this format
entre guillemets simples et en
le mettant entre crochets.
with putting the name of the
column in single quotes and
✔ Nous ajoutons également enclosing it in square brackets.
label="Shape of You" pour
faire apparaître la ligne dans
la légende et lui donner le
label correspondant. • We also add label="Shape of
You" to make the line appear in
the legend and set its
corresponding label.
www.itabacademy.com
Just Enough Pyhton

Data Visualization
Lab 1 – Line Charts - Los Angeles
City Museums

www.itabacademy.com
• Data Visualization – Los Angeles City
Museums
Ecrivez le code
Vous avez récemment été • You have recently been hired to manage the
embauché(e) pour gérer les museums in the City of Los Angeles.
musées de la ville de Los
Angeles.

Problème 1 :

Le musée firehouse affirme avoir


organisé un événement en 2014 qui a
attiré un nombre remarquable de
visiteurs, et ils demandent un budget • Prob1:
supplémentaire pour organiser à nouveau
un événement similaire. Cependant, • The Firehouse Museum claims they ran an
d'autres musées estiment que ce type event in 2014 that brought an incredible
d'événements n'est pas aussi crucial, et
les budgets devraient être répartis
number of visitors, and that they should get
uniquement en fonction du nombre extra budget to run a similar event again.
moyen de visiteurs récents lors d'une The other museums think these types of
journée ordinaire.
events aren't that important, and budgets
should be split purely based on recent
visitors on an average day.

www.itabacademy.com
https://itabacademy.com/bigdata/museum_visitors.csv

• Data Visualization – Los Angeles City


Museums
Ecrivez le code
Problème 2 : • Prob2:
Lors d'une réunion avec les employés du
• When meeting with the employees at Avila
musée Avila Adobe, vous réalisez que Adobe museum, you realize that in some
dans certaines saisons, les employés seasons the employees are stressed due the
sont stressés en raison du grand nombre great number of visitors and huge amount
de visiteurs et de la quantité importante of work they have.
de travail à accomplir.

Vous comprenez que si vous pouvez • You realize that if you can predict these
prédire ces périodes de forte affluence et high and low seasons, you can plan ahead
de faible affluence, vous pouvez planifier to hire some additional seasonal employees
à l'avance l'embauche de quelques
employés saisonniers supplémentaires
to help out with the extra work.
pour aider à faire face à la charge de
travail supplémentaire.

www.itabacademy.com
https://itabacademy.com/bigdata/museum_visitors.csv

• Data Visualization – Los Angeles City


Ecrivez le code Museums

• Load the CSV file from this location:


https://itabacademy.com/bigdata/m
useum_visitors.csv
• The file contains museums’ number
of visits for each month.

www.itabacademy.com
https://itabacademy.com/bigdata/museum_visitors.csv

• Data Visualization – Los Angeles City


Museums
Ecrivez le code
● Maintenant, vous devez afficher • Now you need to show the first 5
les 5 premières et les 5 dernières
lignes du fichier CSV.
and last 5 rows of the CSV.
● Affichez les graphiques linéaires
pour toutes les colonnes.
• Show the line charts for all the
● Affichez le graphique linéaire du columns.
musée Avila Adobe.
● Résolvez les deux problèmes. • Show line chart of the Avila Adobe
museum.
• Solve the two problems.

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ We notice indeed that in 2014
the firehouse museum
received a lot of visitors.
• Correction

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ We noticed also that there are
some months or seasons
where the museums receive
many visitors. • Correction
✔ Nous avons également
remarqué qu'il existe certains
mois ou saisons pendant
lesquels les musées reçoivent
de nombreux visiteurs.

www.itabacademy.com
Data Visualization

2- Bar chart
&
Heatmap www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart

● Dans ce tutoriel, nous travaillerons


avec un ensemble de données du
Département des transports des • In this tutorial, we'll work with
États-Unis qui présente les retards
de vols. a dataset from the US
Department of Transportation
that tracks flight delays.

www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart

• We first gonna load the data.


And display the first 5 lines of
the file.

www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart

✔ Supposons que nous


voulions créer un
graphique à barres
indiquant le retard moyen
à l'arrivée des vols de Spirit
Airlines (code de la
compagnie aérienne : NK),
par mois.

✔ Say we'd like to create a


bar chart showing the
average arrival delay for
Spirit Airlines (airline
code: NK) flights, per
month.

www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart
✔ We conclude that for NK
airport the delay is high
in month 6, followed by 5
and 8.

✔ Nous concluons que


pour l'aéroport NK, les
retards sont élevés au
cours du mois 6, suivi
des mois 5 et 8.

www.itabacademy.com
Diagramme à barres • Data Visualization – Bar chart
Le code comporte trois éléments
principaux : • The code has three main
✔ sns.barplot : Cela indique au
notebook que nous voulons
components:
créer un diagramme à barres. ✔sns.barplot : This tells the
✔ x=flight_data.index : Cela notebook that we want to
détermine ce qui sera utilisé
sur l'axe horizontal. (dans ce create a bar chart.
cas, la colonne contenant les
mois).
✔x=flight_data.index : This
✔ y=flight_data [NK] : Cela determines what to use on the
définit la colonne dans les horizontal axis. (in this case,
données qui sera utilisée pour the column containing the
déterminer la hauteur de
chaque barre. Dans ce cas, months).
nous sélectionnons
colonne 'NK'.
la ✔y=flight_data['NK'] : This sets
the column in the data that
will be used to determine the
height of each bar. In this case,
we select the 'NK' column.
www.itabacademy.com
Heatmap • Data Visualization – Heatmap

✔ Maintenant, nous créons une


carte thermique (heatmap) • Now, we create a heatmap to
pour visualiser rapidement les
les tendances dans quickly visualize patterns
flight_data. in flight_data.
✔ Chaque cellule est codée en
couleur en fonction de sa
valeur correspondante. • Each cell is color-coded
according to its corresponding
value.

www.itabacademy.com
Heatmap • Data Visualization – Heatmap
✔ What do you notice from this
graph?

www.itabacademy.com
Heatmap • Data Visualization – Heatmap

• What do you notice ?


• Is there any pattern ?

www.itabacademy.com
• Data Visualization – Heatmap
Heatmap
• The cells from months 9 to 11 are dark, it
● Les cellules des mois 9 à 11 sont means low delay.

sombres, ce qui signifie un faible retard.
Le retard le plus élevé se trouve dans la
• Highest delay is in (NK, 6) combination
combinaison (NK, 6). • AS is the perfect airport in terms of delay.
● AS semble être l'aéroport parfait en
termes de retard.

www.itabacademy.com
Heatmap • Data Visualization – Heatmap
Ce code a trois composants
principaux :
✔ sns.heatmap : Cela indique au
• This code has three main
notebook que nous voulons components:
✔sns.heatmap : This tells the
créer un heatmap
✔ data=flight_data : Ce code
indique au notebook d'utiliser notebook that we want to
toutes les entrées de
flight_data pour créer le create a heatmap.
heatmap.
✔ annot=True : Ceci garantit que
✔data=flight_data : This tells
les valeurs de chaque cellule the notebook to use all of
apparaissent sur la carte.
the entries in flight_data to
create the heatmap.
✔annot=True : This ensures
that the values for each cell
appear on the chart.
www.itabacademy.com
Just Enough Pyhton

Data Visualization
Lab 2 – Bar chart & Heatmap

www.itabacademy.com
• Data Visualization – Write the code
Ecrivez le code
• You've recently decided to create
✔ Vous avez récemment your very own video game! As an
décidé de créer votre propre avid reader of IGN Game Reviews,
jeu vidéo ! En tant que you hear about all of the most
lecteur assidu des critiques recent game releases, along with the
de jeux d'IGN, vous êtes
informé de toutes les
ranking they've received from
sorties de jeux les plus experts.
récentes, ainsi que de leur
classement par les experts.

www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
★ Le fichier que vous allez
analyser contient des
évaluations de jeux pour
chaque plateforme.
• The file that you will be
analyzing contains reviews of
game category for each
platform.

www.itabacademy.com
• Data Visualization – Write the code
Ecrivez le code
● Supposons que vous • Problem:
soyez plus intéressé par
les jeux de course.
● Maintenant, nous devons • Let’s suppose you are more
savoir quelle plateforme interested in racing games.
est la meilleure pour les
jeux de course.
● Nous devons trouver la • Now we need to know which
meilleure et la pire platform is the best for racing
combinaison de games.
genre/plateforme.

• We need to find best and worst


combination of genre/platform.

www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code

• Load the file:


https://itabacademy.com/big
data/ign_scores.csv

www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code

• Show the first and last 5 lines


of the CSV.

www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code

• Print the entire dataset.

www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔ Créez un diagramme à
barres qui montre la note
moyenne des jeux de • Create a bar chart that shows
course pour chaque
plateforme. Votre the average score
graphique devrait avoir une for racing games, for each
barre pour chaque
plateforme. platform. Your chart should
have one bar for each platform.

www.itabacademy.com
• Data Visualization – Write the
Correction code
● Nous remarquons que la
meilleure plateforme est • Correction
la Xbox One.
• We notice that the best
platform in xbox one.

www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔ Utilisez les données pour
créer une carte thermique
(heatmap) de la note • Use the data to create a
moyenne par genre et par
plateforme. heatmap of average score by
genre and platform.

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ What do you notice ?
• Correction

www.itabacademy.com
• Data Visualization – Write the code
• Correction

Correction
✔ The best combination is
simulation/playstation4.
✔ The worst combination is
gameboycolor/fighting.

✔ La meilleure combinaison
est simulation/PlayStation
4.
✔ La pire combinaison est
Game Boy Color/fighting

www.itabacademy.com
Data Visualization

3- Scatter Plots

www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
Nous allons travailler avec un
ensemble de données
• We'll work with a (synthetic)
sur les frais dataset of insurance charges, to
d'assurance, afin de see if we can understand why
comprendre pourquoi some customers pay more than
certains clients paient plus others.
que d'autres.

Body Mass Index (Indice de Masse


Corporelle) : C'est une mesure qui évalue
la relation entre la masse et la taille d'une
personne. Elle est souvent utilisée pour
estimer si une personne a un poids
corporel sain par rapport à sa taille. www.itabacademy.com
Les nuages de points • Data Visualization – Scatter Plots

• First we will load the file and


show the first 5 rows.

• Then we display the first 5 rows.

www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
Pour créer un simple nuage de
point (scatter plot), nous utilisons • To create a simple scatter plot,
la commande sns.scatterplot et we use
spécifions les valeurs de: the sns.scatterplot command and
specify the values for:
✔ l'axe horizontal des x
(x=données_d'assurance['bmi'
]) ✔ the horizontal x-axis
✔ l'axe vertical y
(y=données_d'assurance
(x=insurance_data['bmi'])
[charges]). ✔ the vertical y-axis
(y=insurance_data['charges']).

www.itabacademy.com
Les nuages de points • Data Visualization – Scatter
✔ We create a scatter plot of Plots
columns bmi and charges.

✔ The scatterplot above


suggests that body mass
index (BMI) and insurance
charges are positively
correlated.

✔ The customers with higher


BMI typically also tend to pay
more in insurance costs. (This
pattern makes sense, since
high BMI is typically
associated with higher risk of
chronic disease.)

www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
✔Nous créons un nuage de
points avec les colonnes BMI et
charges.
✔Le nuage de points suggère
que l'indice de masse corporelle
(BMI) et les frais d'assurance
(charges) sont positivement
corrélés.
✔Les clients avec un (BMI) plus
élevé ont tendance à payer
davantage en frais d'assurance.
(Ce schéma a du sens, car un
BMI élevé est généralement
associé à un risque plus élevé de
maladies chroniques.)

www.itabacademy.com
Les nuages de points • Data Visualization – Scatter
Plots
✔ We might like to add
a regression line, or the line
that best fits the data. We do
this by changing the command
to sns.regplot.

✔ Nous pourrions ajouter une


ligne de régression, ou la ligne
qui correspond le mieux aux
données.

www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
• We can use scatter plots to display the
✔ Nous pouvons utiliser des relationships between three variables.
diagrammes de dispersion
pour afficher les relations
entre trois variables. • For instance, to understand how
smoking affects the relationship
✔ Par exemple, pour between BMI and insurance costs, we
comprendre comment le can color-code the points by 'smoker',
tabagisme affecte la
relation entre BMI et les and plot the other two columns
coûts d'assurance, nous ('bmi', 'charges') on the axes.
pouvons coder les points
par couleur en fonction de
la variable 'smoker', et
représenter les deux autres
colonnes ('bmi', 'charges')
sur les axes.

www.itabacademy.com
Les nuages de points
• Data Visualization – Scatter Plots
✔ Ce graphique de dispersion
montre que, bien que les non-
fumeurs aient tendance à payer
• This scatter plot shows that while
légèrement plus avec nonsmokers tend to pay slightly
l'augmentation de BMI, les
fumeurs paient BEAUCOUP more with increasing BMI,
plus. smokers pay MUCH more.

www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
✔ Pour souligner davantage • We can use the sns.lmplot command to
ce fait, nous pouvons add two regression lines, corresponding
utiliser la commande to smokers and nonsmokers.
sns.lmplot pour ajouter
deux lignes de régression,
correspondant aux
fumeurs et aux non-
fumeurs. Nous
remarquerons que la ligne
de régression pour les
fumeurs a une pente
beaucoup plus raide par
rapport à celle des non-
fumeurs !

www.itabacademy.com
Les nuages de points • Data Visualization – Scatter Plots
La commande sns.lmplot
fonctionne légèrement The sns.lmplot command works slightly
différemment des commandes que differently than the commands you have
vous avez apprises jusqu'à présent
:
learned about so far:
✔ Au lieu de définir
x=insurance_data['bmi'] pour
sélectionner la colonne 'bmi'
dans insurance_data, nous • Instead of
définissons x="bmi" pour setting x=insurance_data['bmi'] to select
spécifier uniquement le nom de the 'bmi' column in insurance_data, we
la colonne.
set x="bmi" to specify the name of the
✔ De même, y="charges" et
hue="smoker" contiennent column only.
également les noms des • Similarly, y="charges" and hue="smoker"
colonnes. also contain the names of columns.
✔ Nous spécifions le jeu de
données avec • We specify the dataset
data=insurance_data. with data=insurance_data.

www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
✔Enfin, il y a un autre type de ● Finally, there's one more plot that you'll
graphique que vous allez learn about, that might look slightly
apprendre, qui pourrait paraître
different from how you're used to seeing
légèrement différent de ce à
quoi vous êtes habitué à voir scatter plots.
avec les nuages de points.
● Usually, we use scatter plots to highlight
the relationship between two continuous
✔Généralement, nous utilisons variables (like "bmi" and "charges").
des nuages de points pour
mettre en évidence la relation
entre deux variables continues
(comme "bmi" et "charges").

www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points
✔Cependant, nous pouvons
adapter la conception du ● However, we can adapt the design of the
nuage de points pour mettre
scatter plot to feature a categorical
en avant une variable
catégorique (comme variable (like "smoker") on one of the
"smoker") sur l'un des axes main axes.
principaux.
● We'll refer to this plot type as a
categorical scatter plot, and we build it
✔Nous désignerons ce type de with the sns.swarmplot command.
graphique sous le nom de
nuage de points catégorique,
et nous le construirons avec la
commande sns.swarmplot.

www.itabacademy.com
• Data Visualization – Scatter Plots
Les nuages de points

www.itabacademy.com
Just Enough Pyhton

Data Visualization
Lab 3 – Scatter plots

www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔ Vous travaillez pour un
grand producteur de
bonbons, et votre objectif • You work for a major candy
est de rédiger un rapport
que votre entreprise producer, and your goal is to
pourra utiliser pour
orienter la conception de write a report that your
son prochain produit. company can use to guide the
✔ Ici on a transformé
quelque valeur en design of its next product.
poucentage: sugar,price et
win percent, on divide par
la valeur maximal.

www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔Nous voulons savoir s'il
existe une corrélation entre
'sugarpercent' et 'winpercent'.
• We want to know if there is a
correlation between
'sugarpercent' and 'winpercent‘.
✔Créez un graphique de
dispersion montrant la
• Make a scatter plot showing the
relation entre 'sugarpercent'
et 'winpercent'.
relationship between
'sugarpercent' and 'winpercent'

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Nous chargeons le csv puis
nous montrons les 5
premières lignes du dataset.
• Correction

• We load the csv and then we


show 5 lines of the dataset.

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Nous dessinons le nuage de
points.
• Correction
• We draw the scatter plot.

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Le nuage de points montre-t-il
une forte corrélation entre les
deux variables?
• Does the scatter plot show
a strong correlation between
the two variables?

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Le nuage de points montre-t-il
une forte corrélation entre les
deux variables?
• Does the scatter plot show
a strong correlation between
the two variables?

www.itabacademy.com
• Data Visualization – Write the code

Correction • The scatter plot does not show a


✔ Le nuage de points ne montre strong correlation between the two
pas une forte corrélation variables. Since there is no clear
entre les deux variables.
Puisqu'il n'y a pas de relation
relationship between the two
claire entre les deux variables, variables, this tells us that sugar
cela nous indique que la content does not play a strong role
teneur en sucre ne joue pas in candy popularity.
un rôle important dans la
popularité des bonbons.

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Créez le même nuage de
points que vous avez créé à
l'étape 3, mais maintenant
avec une ligne de régression. • Create the same scatter plot
you created in Step 3, but now
with a regression line.

www.itabacademy.com
• Data Visualization – Write the code
Correction
✔ Selon le graphique, y a-t-il • According to the plot, is there
une légère corrélation a slight correlation
entre 'winpercent' et
'sugarpercent'? Que cela between 'winpercent' and 'sugarper
vous indique-t-il sur les cent'? What does this tell you about
bonbons que les gens ont the candy that people tend to
tendance à préférer ?
prefer?

www.itabacademy.com
• Data Visualization – Write the code
Correction
• Since the regression line has a slightly
✔Étant donné que la ligne de positive slope, this tells us that there is
régression a une pente
a slightly positive correlation
légèrement positive, cela
between 'winpercent' and 'sugarpercen
nous indique qu'il existe une
corrélation légèrement
t. Thus, people have a slight preference
positive entre 'winpercent' et
for candies containing relatively more
'sugarpercent'. Ainsi, les gens
sugar.
ont une légère préférence
pour les bonbons contenant
relativement plus de sucre.

www.itabacademy.com
• Data Visualization – Write the
Ecrivez le code code
✔ Créer un nuage de points
montrant la relation entre
'pricepercent', 'winpercent', et • Make a scatter plot showing
'chocolate'
the relationship between
'pricepercent', 'winpercent',
and 'chocolate'

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Que pouvons-nous conclure
de ce graphique?

• Can you tell anything about this


graph?

www.itabacademy.com
• Data Visualization – Write the
Correction code
Pas beaucoup!

• Not much!

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Ajoutons les lignes de
régression.

• Let’s add the regression lines.

www.itabacademy.com
• Data Visualization – Write the
Correction code
✔ Que pouvons-nous conclure
de ce graphique?

• What can we conclude from


this graph?

www.itabacademy.com
• Data Visualization – Write the
Correction code
⮚ Pour les bonbons au chocolat:
• For candies with chocolate:
✔ Il existe une corrélation
positive entre le pricepercent
et le winpercent. – There is a positive correlation
✔ Plus le prix est élevé, plus between pricepercent and
l'entreprise gagne.
winpercent.
– The more the price is high, the
more the company wins.

www.itabacademy.com
• Data Visualization – Write the
Correction code
Pour les bonbons sans
chocolat : • For candies without chocolate:
✔Il existe une corrélation
négative entre le pricepercent
et winpercent. – There is a negative correlation
✔Plus le prix est élevé, moins between pricepercent and
l'entreprise gagne.
winpercent.
– The more the price is high, the
less the company wins.

www.itabacademy.com
• Data Visualization – Write the code
Correction
• Une note importante, • One important note, however, is
cependant, est que
l'ensemble de données est
that the dataset is quite small so we
assez petit. Par shouldn't invest too much trust in
conséquent, nous ne these patterns! To inspire more
devrions pas investir trop
de confiance dans ces
confidence in the results, we should
modèles ! Pour renforcer la add more candies to the dataset.
fiabilité des résultats, nous
devons ajouter davantage
de bonbons à l'ensemble de
données.

www.itabacademy.com

Vous aimerez peut-être aussi