Formateur Yassine Ben Salah Formation Python Le module pandas et les fichiers CSV
Formateur : Yassine Ben Salah 2
Le module pandas en Python Le module pandas et les fichiers CSV
Ecriture d’un DataFrame dans un
fichier csv
La méthode .to_csv() permet de
sauvegarder un DataFrame dans un fichier .csv ID_DataFrame.to_csv('nom-fichier.csv' )
Formateur : Yassine Ben Salah 3
Le module pandas en Python Le module pandas et les fichiers CSV
# Ecriture d'un DataFrame dans un fichier csv
import pandas as pd # importation de la bibliothèque pandas df = pd.DataFrame ([[6,7,8], [9,12,14], [8,10,6]], columns = ['a','b','c']) print(df) # Affichage des données # Ecriture d’un DataFrame dans le fichier data.csv df.to_csv("data.csv")
Formateur : Yassine Ben Salah 4
Le module pandas en Python Le module pandas et les fichiers CSV
# Ecriture d'un DataFrame dans un fichier csv – index=False
import pandas as pd # importation de la bibliothèque pandas df = pd.DataFrame ([[6,7,8], [9,12,14], [8,10,6]], columns = ['a','b','c']) print(df) # Affichage des données # Ecriture d’un DataFrame dans le fichier data.csv df.to_csv("data.csv" , index = False ) N.B. : index=False : permet de supprimer les indices des lignes
Formateur : Yassine Ben Salah 5
Le module pandas en Python Le module pandas et les fichiers CSV
# Ecriture d'un DataFrame dans un fichier csv – sep
import pandas as pd # importation de la bibliothèque pandas df = pd.DataFrame ([[6,7,8], [9,12,14], [8,10,6]], columns = ['a','b','c']) print(df) # Affichage des données # Ecriture d’un DataFrame dans le fichier data.csv df.to_csv("data.csv" , index = False , sep = '\t')
N.B. : sep = '\t' : permet d’ajouter une tabulation
comme séparateur (le défaut est une virgule)
Formateur : Yassine Ben Salah 6
Le module pandas en Python Le module pandas et les fichiers CSV
# Ecriture d'un DataFrame dans un fichier csv – header
import pandas as pd # importation de la bibliothèque pandas df = pd.DataFrame ([[6,7,8], [9,12,14], [8,10,6]], columns = ['a','b','c']) print(df) # Affichage des données # Ecriture d’un DataFrame dans le fichier data.csv df.to_csv("data.csv" , index = False , header = False)
N.B. : header = False : permet de supprimer le header
des colonnes
Formateur : Yassine Ben Salah 7
Le module pandas en Python Le module pandas et les fichiers CSV # Ecriture d'un DataFrame dans un fichier csv – index_label import pandas as pd # importation de la bibliothèque pandas df = pd.DataFrame ([[6,7,8], [9,12,14], [8,10,6]], columns = ['a','b','c']) print(df) # Affichage des données # Ecriture d’un DataFrame dans le fichier data.csv df.to_csv("data.csv" , index = True, index_label = 'firstColumn')
N.B. : index_label = 'firstColumn‘ : pour mettre un
titre à la colonne d'index Formateur : Yassine Ben Salah 8 Le module pandas en Python Le module pandas et les fichiers CSV
Lecture d’un DataFrame à partir
d’un un fichier csv
La méthode .read_csv permet de lire
un DataFrame à partir d’un fichier .csv ID_DataFrame = pandas.read_csv('nom-fichier.csv')
Formateur : Yassine Ben Salah 9
Le module pandas en Python Le module pandas et les fichiers CSV
# Lecture d'un DataFrame à partir d'un fichier csv
import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier data.csv df = pd.read_csv("data.csv") print(df) # Affichage des données du DataFrame
Formateur : Yassine Ben Salah 10
Le module pandas en Python Le module pandas et les fichiers CSV
Lecture des n lignes d’un DataFrame dans
un fichier CSV – nrows() ''' Lecture des n lignes d’un DataFrame dans un fichier CSV – nrows() ''' import pandas as pd # importation de la bibliothèque pandas # Lecture des 100 lignes d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv', nrows=100) print(df)
Formateur : Yassine Ben Salah 11
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage des dimensions d'un
DataFrame - shape # Affichage des dimensions d'un DataFrame - shape import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.shape) # (614, 13)
Formateur : Yassine Ben Salah 12
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage du nombre d’éléments d’un
DataFrame - size # Affichage du nombre d’éléments d’un DataFrame - size import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.size) # 7982
Formateur : Yassine Ben Salah 13
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage des informations concernant un
DataFrame – info() # Affichage des informations concernant un DataFrame – info() import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.info())
Formateur : Yassine Ben Salah 14
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage du résumé rapide d’un
DataFrame - describe() # Affichage du résumé rapide d’un DataFrame - describe() import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.describe())
Formateur : Yassine Ben Salah 15
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage des noms des colonnes d’un
DataFrame - columns # Affichage des noms des colonnes d’un DataFrame - columns import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.columns) # Afficher les noms des colonnes d’un DataFrame
Formateur : Yassine Ben Salah 16
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage du contenu d’une colonne d’un
DataFrame # Affichage du contenu d’une colonne d’un DataFrame import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.Gender) # Afficher le contenu du colonne Gender # ou bien print(df["Gender"]) # Afficher le contenu du colonne Gender
Formateur : Yassine Ben Salah 17
Le module pandas en Python Le module pandas et les fichiers CSV Affichage du contenu d’une colonne d’un DataFrame entre une position initiale et une position finale – 1 '''Affichage du contenu d’une colonne entre une position initiale et une position finale – 1 ''' import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') ''‘ Affichage le contenu du colonne Gendre entre la position 3 et la position 7 ''' print(df.Gender[3 : 8])
Formateur : Yassine Ben Salah 18
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage du contenu de certaines colonnes
d’un DataFrame ''' Affichage du contenu de certaines colonnes d’un DataFrame ''‘ import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') # Ensuite sélectionner certaines colonnes datacols = df[['Gender','Married']] print(datacols)
Formateur : Yassine Ben Salah 19
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage du contenu de certaines colonnes
d’un DataFrame - usecols
''' Affichage du contenu de certaines colonnes d’un
DataFrame - usecols ''‘ import pandas as pd # importation de la bibliothèque pandas # Lecture des données des colonnes d'index 1, 2 et 3 du fichier train.csv datacols = pd.read_csv('train.csv',usecols=[1,2,3]) print(datacols)
Formateur : Yassine Ben Salah 20
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage des n premières lignes d’un
DataFrame – head() ''' Affichage des n premières lignes d’un DataFrame – head() ''' import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.head()) # Renvoie un dataframe avec les 5 premières lignes print(df.head(n=2)) # Renvoie un dataframe avec les 2 premières lignes # ou bien print(df.head(2)) # Renvoie un dataframe avec les 2 premières lignes
Formateur : Yassine Ben Salah 21
Le module pandas en Python Le module pandas et les fichiers CSV Affichage des n dernières lignes d’un DataFrame – tail() ''' Affichage des n dernières lignes d’un DataFrame – tail() ''' import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.tail()) # Renvoie un dataframe avec les 5 dernières lignes print(df.tail(n=2)) # Renvoie un dataframe avec les 2 dernières lignes # ou bien print(df.tail(2)) # Renvoie un dataframe avec les 2 dernières lignes
Formateur : Yassine Ben Salah 22
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage du contenu d’une ligne d’un
DataFrame – iloc ''' Affichage du contenu d’une ligne d’un DataFrame – iloc ''' import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.iloc[3]) # Affichage du contenu de la ligne d’indice 3
Formateur : Yassine Ben Salah 23
Le module pandas en Python Le module pandas et les fichiers CSV
Affichage du contenu d’une cellule d’un
DataFrame - iloc ''' Affichage du contenu d’une cellule d’un DataFrame - iloc ''' import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') ''' Affichage du contenu de la cellule de la ligne d’indice 3 et de la colonne d’indice 4 ''' print(df.iloc[3, 4])
Formateur : Yassine Ben Salah 24
Le module pandas en Python Le module pandas et les fichiers CSV
Saut des n premières lignes d’un
DataFrame d’un fichier CSV # Saut des n premières lignes d'un dataframe d’un fichier CSV import pandas as pd # importation de la bibliothèque pandas # Sauter les 5 premières lignes du fichier train.csv df = pd.read_csv('train.csv' , skiprows = 5) print(df) print(df.shape) # (609, 13)
Formateur : Yassine Ben Salah 25
Le module pandas en Python Le module pandas et les fichiers CSV
Saut des n dernières lignes d’un
DataFrame d’un fichier CSV # Saut des n dernières lignes d'un DataFrame d’un fichier CSV
import pandas as pd # importation de la bibliothèque pandas
Le module pandas en Python Le module pandas et les fichiers CSV Renommage des libellés d’une ou de plusieurs colonnes d’un DataFrame - rename() La méthode rename() permet de renommer des libellés d’une ou de plusieurs colonnes d’un DataFrame Id_DataFrame.rename (columns = {"colonne1" :"nouveau_nom_colonne1" , …, "colonneN":"nouveau_nom_colonneN" } , inplace=True / False)
Formateur : Yassine Ben Salah 27
Le module pandas en Python Le module pandas et les fichiers CSV ''' Renommage des libellés d’une ou de plusieurs colonnes d’un DataFrame - rename() ''' import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df) ''' Renommer les colonnes Loan_ID et Gender par Code et Sexe ''' df.rename(columns = {'Loan_ID' : 'Code', 'Gender' : 'Sexe'} , inplace=True) print(df)
Formateur : Yassine Ben Salah 28
Le module pandas en Python Le module pandas et les fichiers CSV
Modification du contenu d’une cellule d’un
DataFrame # Modification du contenu d’une cellule d’un DataFrame import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df) # Modification de la cellule d'indices 4 et "Married" par Yes df.loc[4, "Married"] = 'Yes' print(df)
Formateur : Yassine Ben Salah 29
Le module pandas en Python Le module pandas et les fichiers CSV
Modification des données d’une ligne
d’un DataFrame # Modification des données d’une ligne d’un DataFrame import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.loc[1]) # Afficher le contenu de la ligne d'indice 1 # Modification des données de la ligne d'indice 1 df.loc[1]=["LP001003", "Female", "No", 1, "Graduate", "Yes" , 4500 , 1508.0, 120, 400, 1.0, "Rural", "N"] print(df.loc[1])
Formateur : Yassine Ben Salah 30
Le module pandas en Python Le module pandas et les fichiers CSV Ajout d’une colonne dans un DataFrame # Ajout d’une colonne dans un DataFrame import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier data.csv df = pd.read_csv("data.csv") print(df) # Affichage des données du DataFrame # Ajout de la colonne d df["d"]= [25 , 30, 15] # Affichage des données du DataFrame après ajout print(df) # Sauvegarde dans le fichier data.csv df.to_csv("data.csv") Formateur : Yassine Ben Salah 31 Le module pandas en Python Le module pandas et les fichiers CSV Ajout d’un DataFrame dans un fichier CSV existant # Ajout d'un DataFrame dans un fichier CSV existant import pandas as pd # importation de la bibliothèque pandas df = pd.DataFrame ([[16,27,98], [29,132,144]], columns = ['a','b','c']) # Ouverture du fichier data1.csv en mode ajout ('a') = append with open('data1.csv', 'a') as f : df.to_csv(f, header=False, index = False)
Formateur : Yassine Ben Salah 32
Le module pandas en Python Le module pandas et les fichiers CSV
Suppression d’une colonne d’un
DataFrame - del # Suppression d’une colonne d’un DataFrame - del import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.shape) # (614, 13) # Supprimer la colonne Dependents del df["Dependents"] print(df) print(df.shape) # (614, 12)
Formateur : Yassine Ben Salah 33
Le module pandas en Python Le module pandas et les fichiers CSV
Suppression des colonnes d’un
DataFrame - drop # Suppression des colonnes d’un DataFrame – drop import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.shape) # (614, 13) # Supprimer les colonnes Married et Dependents df.drop(['Married', 'Dependents'], axis = 1, inplace = True) print(df) print(df.shape) # (614, 11)
Formateur : Yassine Ben Salah 34
Le module pandas en Python Le module pandas et les fichiers CSV
Suppression des colonnes d’un
DataFrame – drop – autre # Suppression des colonnes d’un DataFrame – drop import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.shape) # (614, 13) # Supprimer les colonnes Married et Dependents df.drop(columns = ['Married', 'Dependents'], inplace = True) print(df) print(df.shape) # (614, 11)
Formateur : Yassine Ben Salah 35
Le module pandas en Python Le module pandas et les fichiers CSV Suppression des lignes d’un DataFrame - drop # Suppression des lignes d’un DataFrame – drop import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.shape) # (614, 13) # Supprimer les lignes d’indice 2 et 8 df.drop([2, 8] , inplace = True) print(df) print(df.shape) # (612, 13)
Formateur : Yassine Ben Salah 36
Le module pandas en Python Le module pandas et les fichiers CSV Suppression des lignes d’un DataFrame – drop - autre # Suppression des lignes d’un DataFrame – drop import pandas as pd # importation de la bibliothèque pandas # Lecture d’un DataFrame à partir du fichier train.csv df = pd.read_csv('train.csv') print(df.shape) # (614, 13) # Supprimer les lignes d’indice 2 et 8 df.drop(index = [2, 8], inplace = True) print(df) print(df.shape) # (612, 13)