Vous êtes sur la page 1sur 27

Acervo Lima

Visualisation des données avec Python Seaborn


Laisser un commentaire / Data Visualization, Python, Python-pandas, Python-Seaborn, Technical
Scripter, Technical Scripter 2020 / Par Acervo Lima

La visualisation de données est la présentation de données sous forme d’images. C’est


extrêmement important pour l’analyse des données, principalement en raison du fantastique
écosystème des packages Python centrés sur les données. Et cela aide à comprendre les données,
quelle que soit leur complexité, leur importance en résumant et en présentant une énorme quantité
de données dans un format simple et facile à comprendre et aide à communiquer les informations
de manière claire et efficace.

Pandas and Seaborn est l’un de ces packages et facilite l’importation et l’analyse des données. Dans
cet article, nous utiliserons Pandas et Seaborn pour analyser les données.

Pandas
Pandas propose des outils pour nettoyer et traiter vos données. C’est la bibliothèque Python la plus
populaire utilisée pour l’analyse de données. Chez les pandas, une table de données s’appelle une
trame de données.

Commençons donc par créer le bloc de données Pandas :

Exemple 1:

# Python code demonstrate creating

import pandas as pd

# initialise data of lists.

data = {'Name':[ 'Mohe' , 'Karnal' , 'Yrik' , 'jack' ],

'Age':[ 30 , 21 , 29 , 28 ]}

# Create DataFrame

df = pd.DataFrame( data )

# Print the output.

df

Sortir:

Exemple 2 : chargez les données CSV du système et affichez-les via des pandas.

# import module

import pandas

# load the csv

data = pandas.read_csv("nba.csv")

# show first 5 column

data.head()

Sortir:
Seaborn
Seaborn est une bibliothèque de visualisation étonnante pour le traçage de graphiques statistiques
en Python. Il est construit au-dessus de la bibliothèque matplotlib et est également étroitement
intégré aux structures de données de pandas .

Installation

Pour l’environnement python : 

pip install seaborn

Pour l’environnement conda : 

conda install seaborn

Créons quelques parcelles de base en utilisant seaborn :

# Importing libraries

import numpy as np

import seaborn as sns

# Selecting style as white,

# dark, whitegrid, darkgrid

# or ticks

sns.set( style = "white" )

# Generate a random univariate

# dataset

rs = np.random.RandomState( 10 )

d = rs.normal( size = 50 )

# Plot a simple histogram and kde

# with binsize determined automatically

sns.distplot(d, kde = True, color = "g")

Sortir:

Seaborn : visualisation de données statistiques


Seaborn aide à visualiser les relations statistiques. Pour comprendre comment les variables d’un
ensemble de données sont liées les unes aux autres et comment cette relation dépend d’autres
variables, nous effectuons une analyse statistique. Cette analyse statistique permet de visualiser
les tendances et d’identifier divers modèles dans l’ensemble de données.

Ce sont l’intrigue qui aidera à visualiser:

Graphique linéaire
Nuage de points
Box plot
Diagramme de points
Comptage de comptage
Complot de violon
Parcelle d’essaim
Diagramme à barres
Tracé de KDE

Graphique linéaire:

Lineplot Est le tracé le plus populaire pour tracer une relation entre x et y avec la possibilité de
plusieurs regroupements sémantiques.

Syntaxe : sns.lineplot(x=Aucun, y=Aucun)

Paramètres:

x, y : variables de données d’entrée ; doit être numérique. Peut transmettre des


données directement ou référencer des colonnes dans les données.

Visualisons les données avec un tracé linéaire et des pandas :

Exemple 1:

# import module

import seaborn as sns

import pandas

# loading csv

data = pandas.read_csv("nba.csv")

# ploting lineplot

sns.lineplot( data['Age'], data['Weight'])

Sortir:
Exemple 2 : utilisez le paramètre de teinte pour tracer le graphique.

# import module

import seaborn as sns

import pandas

# read the csv data

data = pandas.read_csv("nba.csv")

# plot

sns.lineplot(data['Age'],data['Weight'], hue =data["Position"])

Sortir:
Nuage de points :

Nuage de points Peut être utilisé avec plusieurs groupements sémantiques qui peuvent aider à bien
comprendre dans un graphique par rapport à des données continues/catégorielles. Il peut tracer un
graphique à deux dimensions.

Syntaxe : seaborn.scatterplot(x=Aucun, y=Aucun)

Paramètres :

x, y : Variables de données d’entrée qui doivent être numériques.

Retours : Cette méthode renvoie l’objet Axes avec le tracé tracé dessus.

Visualisons les données avec un nuage de points et des pandas :

Exemple 1:

# import module

import seaborn

import pandas

# load csv

data = pandas.read_csv("nba.csv")

# plotting

seaborn.scatterplot(data['Age'],data['Weight'])

Sortir:

Exemple 2 : utilisez le paramètre de teinte pour tracer le graphique.

import seaborn

import pandas

data = pandas.read_csv("nba.csv")

seaborn.scatterplot( data['Age'], data['Weight'], hue =data["Position"])

Sortir:
Boîte à moustaches :

Une boîte à moustaches (ou boîte à moustaches) s est la représentation visuelle des groupes de
données numériques à travers leurs quartiles par rapport aux données continues/catégorielles.

Une boîte à moustaches se compose de 5 choses.

Le minimum
Premier quartile ou 25 %
Médiane (deuxième quartile) ou 50 %
Troisième quartile ou 75 %
Maximum

Syntaxe: 

seaborn.boxplot(x=Aucun, y=Aucun, teinte=Aucun, data=Aucun)

Paramètres: 

x, y, teinte : entrées pour tracer des données de forme longue.


data : ensemble de données pour le traçage. Si x et y sont absents, cela est
interprété comme une forme large.

Retours : Il renvoie l’objet Axes avec le tracé tracé dessus. 


Dessinez la boîte à moustaches avec Pandas :

Exemple 1:

# import module

import seaborn as sns

import pandas

# read csv and ploting

data = pandas.read_csv( "nba.csv" )

sns.boxplot( data['Age'] )

Sortir:

Exemple 2 :

# import module

import seaborn as sns

import pandas

# read csv and ploting

data = pandas.read_csv( "nba.csv" )

sns.boxplot( data['Age'], data['Weight'])

Sortir:

L’intrigue de Voilin :

Un voilin plot est similaire à un boxplot. Il montre plusieurs données quantitatives sur une ou
plusieurs variables catégorielles de sorte que ces distributions peuvent être comparées. 

Syntaxe : seaborn.violinplot(x=None, y=None, hue=None, data=None)

Paramètres: 

x, y, teinte : entrées pour tracer des données de forme longue. 


data : ensemble de données pour le traçage. 

Dessinez l’intrigue du violon avec Pandas :

Exemple 1:
# import module

import seaborn as sns

import pandas

# read csv and plot

data = pandas.read_csv("nba.csv")

sns.violinplot(data['Age'])

Sortir:

Exemple 2 :

# import module

import seaborn

seaborn.set(style = 'whitegrid')

# read csv and plot

data = pandas.read_csv("nba.csv")

seaborn.violinplot(x ="Age", y ="Weight",data = data)

Sortir:
Parcelle d’essaim :

Un diagramme en essaim est similaire à un diagramme en bande. Nous pouvons dessiner un


diagramme en essaim avec des points qui ne se chevauchent pas par rapport aux données
catégorielles.

Syntaxe : seaborn.swarmplot(x=None, y=None, hue=None, data=None)

Paramètres: 

x, y, teinte : entrées pour tracer des données de forme longue. 


data : ensemble de données pour le traçage. 

Dessinez le diagramme de l’essaim avec Pandas :

Exemple 1:

# import module

import seaborn

seaborn.set(style = 'whitegrid')

# read csv and plot

data = pandas.read_csv( "nba.csv" )

seaborn.swarmplot(x = data["Age"])

Sortir:

Exemple 2 :

# import module

import seaborn

seaborn.set(style = 'whitegrid')

# read csv and plot

data = pandas.read_csv("nba.csv")

seaborn.swarmplot(x ="Age", y ="Weight",data = data)

Sortir:
Diagramme à barres :

Barplot représente une estimation de la tendance centrale pour une variable numérique avec la
hauteur de chaque rectangle et fournit une indication de l’incertitude autour de cette estimation à
l’aide de barres d’erreur. 

Syntaxe : seaborn.barplot(x=None, y=None, hue=None, data=None)

Paramètres :

x, y : Ce paramètre prend des noms de variables dans des données ou des


données vectorielles, entrées pour tracer des données de forme longue.
hue : (facultatif) Ce paramètre prend le nom de la colonne pour l’encodage
des couleurs.
data : (facultatif) Ce paramètre prend DataFrame, array ou liste de array,
ensemble de données pour le traçage. Si x et y sont absents, cela est
interprété comme une forme large. Sinon, il devrait être long.

Returns : Renvoie l’objet Axes avec le tracé tracé dessus. 

Dessinez le diagramme à barres avec Pandas :


Exemple 1:

# import module

import seaborn

seaborn.set(style = 'whitegrid')

# read csv and plot

data = pandas.read_csv("nba.csv")

seaborn.barplot(x =data["Age"])

Sortir:

Exemple 2 :

# import module

import seaborn

seaborn.set(style = 'whitegrid')

# read csv and plot

data = pandas.read_csv("nba.csv")

seaborn.barplot(x ="Age", y ="Weight", data = data)

Sortir:

Diagramme de points :

Diagramme ponctuel utilisé pour afficher des estimations ponctuelles et des intervalles de
confiance à l’aide de glyphes de nuage de points. Un graphique ponctuel représente une estimation
de la tendance centrale pour une variable numérique par la position des points du nuage de points
et fournit une indication de l’incertitude autour de cette estimation à l’aide de barres d’erreur.

Syntaxe : seaborn.pointplot(x=None, y=None, hue=None, data=None)

Paramètres:

x, y : entrées pour tracer des données de forme longue.


hue : (facultatif) nom de la colonne pour l’encodage des couleurs.
data : cadre de données en tant que jeu de données pour le traçage.

Retour : L’objet Axes avec le tracé dessiné dessus.


Dessinez le tracé de points avec Pandas :

Exemple:

# import module

import seaborn

seaborn.set(style = 'whitegrid')

# read csv and plot

data = pandas.read_csv("nba.csv")

seaborn.pointplot(x = "Age", y = "Weight", data = data)

Sortir:

Comptage graphique :

Diagramme de comptage utilisé pour afficher le nombre d’observations dans chaque casier
catégoriel à l’aide de barres.

Syntaxe : seaborn.countplot(x=None, y=None, hue=None, data=None)

Paramètres :
x, y : ce paramètre prend les noms des variables dans les données ou les
données vectorielles, facultatif, les entrées pour tracer les données de
forme longue.
hue : (facultatif) Ce paramètre prend le nom de la colonne pour l’encodage
des couleurs.
data : (facultatif) Ce paramètre prend DataFrame, array ou liste de array,
ensemble de données pour le traçage. Si x et y sont absents, cela est
interprété comme une forme large. Sinon, il devrait être long.

Returns : renvoie l’objet Axes sur lequel est tracé le tracé.

Dessinez le diagramme de comptage avec Pandas :

Exemple:

# import module

import seaborn

seaborn.set(style = 'whitegrid')

# read csv and plot

data = pandas.read_csv("nba.csv")

seaborn.countplot(data["Age"])

Sortir:
Tracé de KDE :

KDE Plot décrit comme Kernel Density Estimate est utilisé pour visualiser la densité de probabilité
d’une variable continue. Il représente la densité de probabilité à différentes valeurs dans une
variable continue. Nous pouvons également tracer un seul graphique pour plusieurs échantillons, ce
qui permet une visualisation plus efficace des données.

Syntaxe : seaborn.kdeplot(x=Aucun, *, y=Aucun, vertical=False, palette=Aucun,


**kwargs)

Paramètres:

x, y : vecteurs ou clés dans les données

vertical : booléen (True ou False)

data : pandas.DataFrame, numpy.ndarray, mapping ou séquence

Dessinez le tracé de KDE avec Pandas :

Exemple 1:
# importing the required libraries

from sklearn import datasets

import pandas as pd

import seaborn as sns

# Setting up the Data Frame

iris = datasets.load_iris()

iris_df = pd.DataFrame(iris.data, columns=['Sepal_Length',

'Sepal_Width', 'Patal_Length', 'Petal_Width'])

iris_df['Target'] = iris.target

iris_df['Target'].replace([0], 'Iris_Setosa', inplace=True)

iris_df['Target'].replace([1], 'Iris_Vercicolor', inplace=True)

iris_df['Target'].replace([2], 'Iris_Virginica', inplace=True)

# Plotting the KDE Plot

sns.kdeplot(iris_df.loc[(iris_df['Target'] =='Iris_Virginica'),

'Sepal_Length'], color = 'b', shade = True, Label ='Iris_Virg

Sortir:

Exemple 2 :
# import module

import seaborn as sns

import pandas

# read top 5 column

data = pandas.read_csv("nba.csv").head()

sns.kdeplot( data['Age'], data['Number'])

Sortir:

Données bivariées et univariées utilisant seaborn et pandas :

Avant de commencer, faisons une petite introduction aux données bivariées et univariées :

Données bivariées : Ce type de données implique deux variables différentes . L’analyse de ce type
de données traite des causes et des relations et l’analyse est effectuée pour découvrir la relation
entre les deux variables.

Données univariées : Ce type de données se compose d’ une seule variable . L’analyse de données
univariées est donc la forme d’analyse la plus simple puisque l’information porte sur une seule
grandeur qui change. Il ne traite pas des causes ou des relations et l’objectif principal de l’analyse
est de décrire les données et de trouver des modèles qui y existent.
Voyons un exemple de perturbation des données bivariées :

Exemple 1 : Utilisation de la boîte à moustaches.

# import module

import seaborn as sns

import pandas

# read csv and ploting

data = pandas.read_csv( "nba.csv" )

sns.boxplot( data['Age'], data['Height'])

Sortir:

Exemple 2 : utilisation de KDE plot.

# import module

import seaborn as sns

import pandas

# read top 5 column

data = pandas.read_csv("nba.csv").head()

sns.kdeplot( data['Age'], data['Weight'])

Sortir:

Voyons un exemple de distribution de données univariée :

Exemple : Utilisation du tracé de dist

# import module

import seaborn as sns

import pandas

# read top 5 column

data = pandas.read_csv("nba.csv").head()

sns.distplot( data['Age'])

Sortir:
 Attention geek ! Renforcez vos bases avec le Python Programming Foundation Course et apprenez
les bases.  

\n

Article écrit par kumar_satyam et traduit par Acervo Lima de Data Visualization with Python
Seaborn. Licence: CCBY-SA

Articles Similaires:
1. Compter des valeurs uniques avec Pandas par groupes
2. Filtrer Pandas DataFrame par heure
3. Échantillonnage systématique chez les pandas
4. Trier Dataframe en fonction de la fréquence des lignes dans Pandas

← Article précédent

Laisser un commentaire
Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *
Écrivez ici…

Nom*

E-mail*

Site Internet

Enregistrer mon nom, mon e-mail et mon site dans le navigateur pour mon prochain
commentaire.

Saisissez votre réponse en chiffres

vingt − 9 =

Publier un commentaire »

Articles récents

Python | Façons de concaténer un booléen en string

Python | Index des pandas.searchsorted()

Python | Méthode Numpy np.herm2poly

Python | Tranche de plage alternative dans la liste

numpy.diag_indices() en Python
Commentaires récents

MiKalem898 dans Comment déclencher un téléchargement de fichier en cliquant sur un bouton


HTML ou JavaScript ?

MiKalem898 dans Comment déclencher un téléchargement de fichier en cliquant sur un bouton


HTML ou JavaScript ?

FRANC SERRES dans Héritage conditionnel en Python

lachi dans Python | Pandas dataframe.select_dtypes()

Cerumno dans Python | Utilisation de PIL ImageGrab et PyTesseract

Archives

septembre 2021

février 2021

© 2022 Acervo Lima, Certains droits réservés.

Vous aimerez peut-être aussi