Académique Documents
Professionnel Documents
Culture Documents
import pandas as pd
#On importe le fichier contenant les données sous format csv avec la
fonction read_csv() de pandas
df=pd.read_csv("nomdufichier.csv")
df.head()
df.tail()
len(df)
df.shape
df.info()
IHEC Carthage - Institut des Hautes Etudes Commerciales
df.describe()
df.duplicated().sum()
df.drop_duplicates()
df.isnull()
df.isna()
df.isnull().sum()
df.dropna()
#On peut imputer les valeurs manquantes avec la valeur moyenne ou encore
avec la valeur la plus présente dans la colonne.
df.fillna(df.mean()) #moyenne
df.fillna(df.mode()) #valeur la plus présente
sns.boxplot(df['nomdelacolonne'])
IHEC Carthage - Institut des Hautes Etudes Commerciales
q1=df["nomdelacolonne"].quantile(q=0.25)
#On calcule Q3
q3=df["nomdelacolonne"].quantile(q=0.75)
IQR=q3-q1
borne_inf = q1-1.5*IQR
borne_sup = q3 +1.5*IQR
df= df[df["nomdelacolonne"]<borne_sup]
df=df[df["nomdelacolonne"]>borne_inf]
syntaxe:
pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False,
utc=None, box=True, format=None, exact=True, unit=None,
infer_datetime_format=False, origin='unix', cache=False)
Paramètres:
arg: Un entier, une chaîne, un flotteur, une liste ou un objet à
convertir en objet d’heure de date.
dayfirst: Valeur boolean, place le premier jour si vrai.
yearfirst: Valeur boolean, place l’année d’abord si vrai.
utc: Valeur Boolean, Retournes time in UTC si vrai.
format : Entrée de chaîne pour indiquer la position du jour, du mois
et de l’année.