Vous êtes sur la page 1sur 5

L’analyse de données avec pandas

3EG1,2,3
L’analyse de données avec pandas
Avec l’éditeur « Thonny »
I- Installation de la bibliothèque pandas :
Ecrire la commande : python -m pip install pandas
Ou
Dans le menu « Outils » choisir la commande « Gérer les paquets », écrire la bibliothèque à rechercher
et cliquer sur « Trouver les paquets sur PyPl » puis cliquer sur installer.
II- Importation de la bibliothèque pandas :
import pandas as alias
ou bien
import pandas
 Importation des fichiers csv :
import pandas as ps
df=ps.read_csv(¢¢chemin¢¢,sep=¢¢;¢¢, encoding="ANSI")
 Importation des fichiers Excel :
L’importation des fichiers Excel se fait avec la fonction read_excel () du module pandas. Mais avant
d’utiliser cette fonction, il faut installer la bibliothèque xlrd (qui permet la lecture d’un fichier Excel en
utilisant la commande : python -m pip install xlrd ou l’installer dans le menu Outils –gérer les paquets).
import pandas as ps
df=ps.read_excel("chemin", sep= ";")
Exemple concernant notre fichier Excel :
import pandas as ps
df=ps.read_excel ("salaires.xlsx","Feuil1",sep= ";")

Commandes Description
Read_excel Lecture du fichier Excel
Chemin\Nom_Fichier.xls Chemin : Le chemin physique du fichier sur le lecteur
ou bien Nom_Fichier : Le nom du fichier
Chemin\Nom_Fichier.xlsx L’extension : xls ou xlsx
sep = ′′séparateur′′ Elle permet d’indiquer le séparateur qui sépare les données.
Les séparateurs les plus utilisés sont :
 ′′\t′′ : Les données seront séparées par une tabulation
(séparateur par défaut en cas d’omission).
 ′′,′′ : Les données seront séparées par une virgule.
 ′′;′′ : Les données seront séparées par un point-virgule.

III- Manipulation d’un data frame :

Enseignante : Hkimi Karima Page 1


L’analyse de données avec pandas
3EG1,2,3
1- Affichage des noms des colonnes dans un dataframe :
Pour afficher les noms des les colonnes, on peut utiliser les instructions suivantes :
import pandas as ps
df=ps.read_excel("salaires.xlsx","Feuil1")
print(df.columns)

2- Affichage de tout le tableau dans un dataframe :


import pandas as ps
df=ps.read_excel("salaires.xlsx","Feuil1")
print(df)
3- Ajout d’une colonne dans un dataframe :
Pour ajouter une colonne remplie par des données dans un dataframe, on utilise l’instruction :
Dataframe["Nom_Colonne"]=valeur
Exemple : Ajouter la colonne Age pour chaque salariés sachant que : Age= Ancienneté+40
df["age"]=df.Ancienneté+40
4- Renommage des libellés d’une ou de plusieurs colonnes :
Renommer la colonne « Matricule» par « Mat », il faut :
df.rename(columns={"Matricule": 'Mat'},inplace=True)
print(df)
5- Suppression d’une colonne :
del dataframe["Nom_Colonne"]
Exemple : del df['Titre']
print (df)
6- Création et remplissage des colonnes suite à une condition simple :
Pour ajouter une colonne remplie par des données dans un dataframe avec une condition, on utilise la
commande :
dataframe["Nom_Colonne_Resultat"]= numpy.where(dataframe ["Nom_Colonne]
opérateur_comparaison valeur, Valeur1_Si_vrai, Valeur2_si_Faux)
Exemple : Ajouter une colonne nommée « Décision » sachant que : si Salaire >=600 alors
Décision = « Parfait » sinon Décision = « Faible »

import pandas as ps
import numpy
df=ps.read_excel("salaires.xlsx","Feuil1")
df["Age"]=df.Ancienneté+40
df["Décision"]=numpy.where(df["Salaire"]>=600,"Parfait", "Faible")
print(df)

7- Les fonctions statistiques sur les dataframes :

Enseignante : Hkimi Karima Page 2


L’analyse de données avec pandas
3EG1,2,3

Question1: Afficher la somme des salaires :


Excel :
E20= Somme (E2 : E19)
Python :
print(df.Salaire.sum())
Question2: Afficher la moyenne des salaires :
print (df.Salaire.mean() )

print ("La moyenne des salaires %.2f " %df.Salaire.mean ())

NB:

#%.xf c'est à dire afficher un nombre sur x chiffres après le point décimal.

Question3: Afficher la valeur maximale des salaires :

print (df.Salaire.max ()) ou

print ("La valeur maximale des salaires ", df.Salaire.max ()) ou

print ("La valeur maximale des dépenses %.2f " %df.dépense.max ())

Question4: Afficher la valeur minimale des salaires :

print (df.Salaire.min ()) ou

print ("La valeur minimale des salaires ", df.Salaire.min ()) ou

print ("La valeur minimale des dépenses %.2f " %df.dépense.min ())

Question5: Afficher la liste des employés qui ont le sexe « M » :

print (df[df['Sexe']=='M'])
ou
print ("La liste des employé qui ont le sexe « M » : ", df[df['Sexe']=='M'])
Question6: Afficher le nombre des employés qui ont le sexe « M » :

df_se=df[df['Sexe']=='M']

print ("Le nombre des employés qui ont le sexe « M » :", len(df_se))

Question7: Afficher la liste des employés qui ont un salaire supérieur à 600 :

print(df[df.Salaire>600])

Enseignante : Hkimi Karima Page 3


L’analyse de données avec pandas
3EG1,2,3

Question8: Trier le tableau dans l’ordre décroissant des prénoms :

Si on veut que la colonne soit trié croissant on met : ascending = [True], sinon :ascending = [False]

df= df.sort_values (by = ["Prénom"], ascending = [True])

print(df)

Question9:Un graphique illustrant le pourcentage (%) des employés Homme et femme :

Tout d’abord il faut installer la bibliothèque « matplotlib », puis taper :

import matplotlib.pyplot as plt


list0=df['Sexe'].value_counts()
list0.plot.pie(autopct = lambda list0: str(round(list0)) + '%')
plt.show()

Rq : plt.show( )permet l’affichage du graphique

Question10: Créer un graphique en histogramme qui permet de représenter les salaires :

import matplotlib.pyplot as plt

plt.hist(df["Salaire"],bins=18, color='red',label="Salaire")

plt.show()

Enseignante : Hkimi Karima Page 4


L’analyse de données avec pandas
3EG1,2,3

Question11:Un graphique illustrant le pourcentage des salaires avec les prénoms des employés :

import matplotlib.pyplot as plt

list0=df["Salaire"]

plt.pie(list0, labels=df.Prénom, autopct = lambda list0: str(round(list0)) + '%',shadow = True,

pctdistance = 0.7, labeldistance = 1.2)

plt.show()

Enseignante : Hkimi Karima Page 5

Vous aimerez peut-être aussi