Vous êtes sur la page 1sur 37

Formation Python

Le module pandas et les fichiers CSV


Formateur
Yassine Ben Salah
Formation Python
Le module pandas
et
les fichiers CSV

Formateur : Yassine Ben Salah 2


Le module pandas en Python
Le module pandas et les fichiers CSV

Ecriture d’un DataFrame dans un


fichier csv

La méthode .to_csv() permet de


sauvegarder un DataFrame dans un
fichier .csv
ID_DataFrame.to_csv('nom-fichier.csv' )

Formateur : Yassine Ben Salah 3


Le module pandas en Python
Le module pandas et les fichiers CSV

# Ecriture d'un DataFrame dans un fichier csv


import pandas as pd # importation de la bibliothèque pandas
df = pd.DataFrame ([[6,7,8],
[9,12,14],
[8,10,6]], columns = ['a','b','c'])
print(df) # Affichage des données
# Ecriture d’un DataFrame dans le fichier data.csv
df.to_csv("data.csv")

Formateur : Yassine Ben Salah 4


Le module pandas en Python
Le module pandas et les fichiers CSV

# Ecriture d'un DataFrame dans un fichier csv – index=False


import pandas as pd # importation de la bibliothèque pandas
df = pd.DataFrame ([[6,7,8],
[9,12,14],
[8,10,6]], columns = ['a','b','c'])
print(df) # Affichage des données
# Ecriture d’un DataFrame dans le fichier data.csv
df.to_csv("data.csv" , index = False )
N.B. : index=False : permet de supprimer les
indices des lignes

Formateur : Yassine Ben Salah 5


Le module pandas en Python
Le module pandas et les fichiers CSV

# Ecriture d'un DataFrame dans un fichier csv – sep


import pandas as pd # importation de la bibliothèque pandas
df = pd.DataFrame ([[6,7,8],
[9,12,14],
[8,10,6]], columns = ['a','b','c'])
print(df) # Affichage des données
# Ecriture d’un DataFrame dans le fichier data.csv
df.to_csv("data.csv" , index = False , sep = '\t')

N.B. : sep = '\t' : permet d’ajouter une tabulation


comme séparateur (le défaut est une virgule)

Formateur : Yassine Ben Salah 6


Le module pandas en Python
Le module pandas et les fichiers CSV

# Ecriture d'un DataFrame dans un fichier csv – header


import pandas as pd # importation de la bibliothèque pandas
df = pd.DataFrame ([[6,7,8],
[9,12,14],
[8,10,6]], columns = ['a','b','c'])
print(df) # Affichage des données
# Ecriture d’un DataFrame dans le fichier data.csv
df.to_csv("data.csv" , index = False , header = False)

N.B. : header = False : permet de supprimer le header


des colonnes

Formateur : Yassine Ben Salah 7


Le module pandas en Python
Le module pandas et les fichiers CSV
# Ecriture d'un DataFrame dans un fichier csv – index_label
import pandas as pd # importation de la bibliothèque pandas
df = pd.DataFrame ([[6,7,8],
[9,12,14],
[8,10,6]], columns = ['a','b','c'])
print(df) # Affichage des données
# Ecriture d’un DataFrame dans le fichier data.csv
df.to_csv("data.csv" , index = True, index_label = 'firstColumn')

N.B. : index_label = 'firstColumn‘ : pour mettre un


titre à la colonne d'index
Formateur : Yassine Ben Salah 8
Le module pandas en Python
Le module pandas et les fichiers CSV

Lecture d’un DataFrame à partir


d’un un fichier csv

La méthode .read_csv permet de lire


un DataFrame à partir d’un fichier .csv
ID_DataFrame = pandas.read_csv('nom-fichier.csv')

Formateur : Yassine Ben Salah 9


Le module pandas en Python
Le module pandas et les fichiers CSV

# Lecture d'un DataFrame à partir d'un fichier csv


import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier data.csv
df = pd.read_csv("data.csv")
print(df) # Affichage des données du DataFrame

Formateur : Yassine Ben Salah 10


Le module pandas en Python
Le module pandas et les fichiers CSV

Lecture des n lignes d’un DataFrame dans


un fichier CSV – nrows()
''' Lecture des n lignes d’un DataFrame dans un
fichier CSV – nrows() '''
import pandas as pd # importation de la bibliothèque pandas
# Lecture des 100 lignes d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv', nrows=100)
print(df)

Formateur : Yassine Ben Salah 11


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage des dimensions d'un


DataFrame - shape
# Affichage des dimensions d'un DataFrame - shape
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.shape) # (614, 13)

Formateur : Yassine Ben Salah 12


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage du nombre d’éléments d’un


DataFrame - size
# Affichage du nombre d’éléments d’un DataFrame - size
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.size) # 7982

Formateur : Yassine Ben Salah 13


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage des informations concernant un


DataFrame – info()
# Affichage des informations concernant un DataFrame – info()
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.info())

Formateur : Yassine Ben Salah 14


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage du résumé rapide d’un


DataFrame - describe()
# Affichage du résumé rapide d’un DataFrame - describe()
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.describe())

Formateur : Yassine Ben Salah 15


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage des noms des colonnes d’un


DataFrame - columns
# Affichage des noms des colonnes d’un DataFrame - columns
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.columns) # Afficher les noms des colonnes d’un DataFrame

Formateur : Yassine Ben Salah 16


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage du contenu d’une colonne d’un


DataFrame
# Affichage du contenu d’une colonne d’un DataFrame
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.Gender) # Afficher le contenu du colonne Gender
# ou bien
print(df["Gender"]) # Afficher le contenu du colonne Gender

Formateur : Yassine Ben Salah 17


Le module pandas en Python
Le module pandas et les fichiers CSV
Affichage du contenu d’une colonne d’un
DataFrame entre une position initiale et une
position finale – 1
'''Affichage du contenu d’une colonne entre une
position initiale et une position finale – 1 '''
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
''‘ Affichage le contenu du colonne Gendre entre la
position 3 et la position 7 '''
print(df.Gender[3 : 8])

Formateur : Yassine Ben Salah 18


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage du contenu de certaines colonnes


d’un DataFrame
''' Affichage du contenu de certaines colonnes d’un
DataFrame ''‘
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
# Ensuite sélectionner certaines colonnes
datacols = df[['Gender','Married']]
print(datacols)

Formateur : Yassine Ben Salah 19


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage du contenu de certaines colonnes


d’un DataFrame - usecols

''' Affichage du contenu de certaines colonnes d’un


DataFrame - usecols ''‘
import pandas as pd # importation de la bibliothèque pandas
# Lecture des données des colonnes d'index 1, 2 et 3 du fichier train.csv
datacols = pd.read_csv('train.csv',usecols=[1,2,3])
print(datacols)

Formateur : Yassine Ben Salah 20


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage des n premières lignes d’un


DataFrame – head()
''' Affichage des n premières lignes d’un
DataFrame – head() '''
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.head()) # Renvoie un dataframe avec les 5 premières lignes
print(df.head(n=2)) # Renvoie un dataframe avec les 2 premières lignes
# ou bien
print(df.head(2)) # Renvoie un dataframe avec les 2 premières lignes

Formateur : Yassine Ben Salah 21


Le module pandas en Python
Le module pandas et les fichiers CSV
Affichage des n dernières lignes d’un
DataFrame – tail()
''' Affichage des n dernières lignes d’un
DataFrame – tail() '''
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.tail()) # Renvoie un dataframe avec les 5 dernières lignes
print(df.tail(n=2)) # Renvoie un dataframe avec les 2 dernières lignes
# ou bien
print(df.tail(2)) # Renvoie un dataframe avec les 2 dernières lignes

Formateur : Yassine Ben Salah 22


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage du contenu d’une ligne d’un


DataFrame – iloc
''' Affichage du contenu d’une ligne d’un
DataFrame – iloc '''
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.iloc[3]) # Affichage du contenu de la ligne d’indice 3

Formateur : Yassine Ben Salah 23


Le module pandas en Python
Le module pandas et les fichiers CSV

Affichage du contenu d’une cellule d’un


DataFrame - iloc
''' Affichage du contenu d’une cellule d’un
DataFrame - iloc '''
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
''' Affichage du contenu de la cellule de la ligne
d’indice 3 et de la colonne d’indice 4 '''
print(df.iloc[3, 4])

Formateur : Yassine Ben Salah 24


Le module pandas en Python
Le module pandas et les fichiers CSV

Saut des n premières lignes d’un


DataFrame d’un fichier CSV
# Saut des n premières lignes d'un dataframe d’un fichier CSV
import pandas as pd # importation de la bibliothèque pandas
# Sauter les 5 premières lignes du fichier train.csv
df = pd.read_csv('train.csv' , skiprows = 5)
print(df)
print(df.shape) # (609, 13)

Formateur : Yassine Ben Salah 25


Le module pandas en Python
Le module pandas et les fichiers CSV

Saut des n dernières lignes d’un


DataFrame d’un fichier CSV
# Saut des n dernières lignes d'un DataFrame d’un fichier CSV

import pandas as pd # importation de la bibliothèque pandas


df = pd.read_csv('train.csv' , skipfooter=10 , engine='python')
print(df)
print(df.shape) # (604, 13)

Formateur : Yassine Ben Salah 26


Le module pandas en Python
Le module pandas et les fichiers CSV
Renommage des libellés d’une ou de plusieurs
colonnes d’un DataFrame - rename()
La méthode rename() permet de renommer
des libellés d’une ou de plusieurs colonnes
d’un DataFrame
Id_DataFrame.rename (columns =
{"colonne1" :"nouveau_nom_colonne1" ,
…,
"colonneN":"nouveau_nom_colonneN" } ,
inplace=True / False)

Formateur : Yassine Ben Salah 27


Le module pandas en Python
Le module pandas et les fichiers CSV
''' Renommage des libellés d’une ou de plusieurs
colonnes d’un DataFrame - rename() '''
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df)
''' Renommer les colonnes Loan_ID et Gender par
Code et Sexe '''
df.rename(columns = {'Loan_ID' : 'Code', 'Gender' :
'Sexe'} , inplace=True)
print(df)

Formateur : Yassine Ben Salah 28


Le module pandas en Python
Le module pandas et les fichiers CSV

Modification du contenu d’une cellule d’un


DataFrame
# Modification du contenu d’une cellule d’un DataFrame
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df)
# Modification de la cellule d'indices 4 et "Married" par Yes
df.loc[4, "Married"] = 'Yes'
print(df)

Formateur : Yassine Ben Salah 29


Le module pandas en Python
Le module pandas et les fichiers CSV

Modification des données d’une ligne


d’un DataFrame
# Modification des données d’une ligne d’un DataFrame
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.loc[1]) # Afficher le contenu de la ligne d'indice 1
# Modification des données de la ligne d'indice 1
df.loc[1]=["LP001003", "Female", "No", 1, "Graduate",
"Yes" , 4500 , 1508.0, 120, 400, 1.0, "Rural", "N"]
print(df.loc[1])

Formateur : Yassine Ben Salah 30


Le module pandas en Python
Le module pandas et les fichiers CSV
Ajout d’une colonne dans un
DataFrame
# Ajout d’une colonne dans un DataFrame
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier data.csv
df = pd.read_csv("data.csv")
print(df) # Affichage des données du DataFrame
# Ajout de la colonne d
df["d"]= [25 , 30, 15]
# Affichage des données du DataFrame après ajout
print(df)
# Sauvegarde dans le fichier data.csv
df.to_csv("data.csv")
Formateur : Yassine Ben Salah 31
Le module pandas en Python
Le module pandas et les fichiers CSV
Ajout d’un DataFrame dans un fichier
CSV existant
# Ajout d'un DataFrame dans un fichier CSV existant
import pandas as pd # importation de la bibliothèque pandas
df = pd.DataFrame ([[16,27,98],
[29,132,144]], columns = ['a','b','c'])
# Ouverture du fichier data1.csv en mode ajout ('a') = append
with open('data1.csv', 'a') as f :
df.to_csv(f, header=False, index = False)

Formateur : Yassine Ben Salah 32


Le module pandas en Python
Le module pandas et les fichiers CSV

Suppression d’une colonne d’un


DataFrame - del
# Suppression d’une colonne d’un DataFrame - del
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.shape) # (614, 13)
# Supprimer la colonne Dependents
del df["Dependents"]
print(df)
print(df.shape) # (614, 12)

Formateur : Yassine Ben Salah 33


Le module pandas en Python
Le module pandas et les fichiers CSV

Suppression des colonnes d’un


DataFrame - drop
# Suppression des colonnes d’un DataFrame – drop
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.shape) # (614, 13)
# Supprimer les colonnes Married et Dependents
df.drop(['Married', 'Dependents'], axis = 1, inplace = True)
print(df)
print(df.shape) # (614, 11)

Formateur : Yassine Ben Salah 34


Le module pandas en Python
Le module pandas et les fichiers CSV

Suppression des colonnes d’un


DataFrame – drop – autre
# Suppression des colonnes d’un DataFrame – drop
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.shape) # (614, 13)
# Supprimer les colonnes Married et Dependents
df.drop(columns = ['Married', 'Dependents'], inplace = True)
print(df)
print(df.shape) # (614, 11)

Formateur : Yassine Ben Salah 35


Le module pandas en Python
Le module pandas et les fichiers CSV
Suppression des lignes d’un
DataFrame - drop
# Suppression des lignes d’un DataFrame – drop
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.shape) # (614, 13)
# Supprimer les lignes d’indice 2 et 8
df.drop([2, 8] , inplace = True)
print(df)
print(df.shape) # (612, 13)

Formateur : Yassine Ben Salah 36


Le module pandas en Python
Le module pandas et les fichiers CSV
Suppression des lignes d’un
DataFrame – drop - autre
# Suppression des lignes d’un DataFrame – drop
import pandas as pd # importation de la bibliothèque pandas
# Lecture d’un DataFrame à partir du fichier train.csv
df = pd.read_csv('train.csv')
print(df.shape) # (614, 13)
# Supprimer les lignes d’indice 2 et 8
df.drop(index = [2, 8], inplace = True)
print(df)
print(df.shape) # (612, 13)

Formateur : Yassine Ben Salah 37

Vous aimerez peut-être aussi