Vous êtes sur la page 1sur 6

FOUILLE DE DONNÉES

TP RÉVISION
PRÉSENTÉ PAR

M. Taoufik BEN ABDALLAH M. Ali BEN MRAD


 taoufik.benabdallah@iit.ens.tn  benmradali2@gmail.com
2022-2023 ⚫
TP révision

Importation des bibliothèques

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt


import seaborn as sns

Assemblage Drive dans Colab

from google.colab import drive


drive.mount('/content/drive')

IIT-Sfax
T. Ben Abdallah & A. Ben Mrad 2
TP révision

1) Importer le jeu de données produits.xls dans un dataframe, nommé 𝒅𝒇_𝒑𝒓𝒐𝒅 .


Afficher lignes de 𝒅𝒇_𝒑𝒓𝒐𝒅 .

df_prod= pd.read_excel('/content/drive/MyDrive/produits.xlsx’)

df_prod

Afficher la taille de 𝒅𝒇_𝒑𝒓𝒐𝒅

df_prod.shape

IIT-Sfax
T. Ben Abdallah & A. Ben Mrad 3
TP révision

2) Afficher la ou les transaction(s) qui supporte(nt) le produit B

df_prod[df_prod['B']==1]

3) Déterminer l’histogramme de répartition de vente du produit P (0,1) de 𝒅𝒇_𝒑𝒓𝒐𝒅.


Nommer la figure par "Répartition des ventes de P"

#Solution1 seaborn #Solution2 mathplotlib


plt.figure(figsize=(5, 3)) plt.figure(figsize=(5, 3))
plt.title("Répartition des ventes de P") h=plt.hist(df_prod["P"], bins=2, rwidth=0.5)
positions = np.linspace(0.25, 0.75, 2) #?
#sns.histplot(x="P", data=df_prod) ? labels=('0','1')
sns.countplot(x="P", data=df_prod) plt.xticks(positions, labels)
plt.show() plt.title("Répartition des ventes de P")
plt.xlabel("P")
plt.ylabel("count")
plt.show()

IIT-Sfax
T. Ben Abdallah & A. Ben Mrad 4
TP révision

4) Modifier 𝒅𝒇_𝒑𝒓𝒐𝒅 de sorte que E=0 pour la 3ème et la 4ème transactions. Afficher 𝒅𝒇_𝒑𝒓𝒐𝒅

df_prod.loc[[2,3], "E"]=0
df_prod

5) Ajouter une colonne nommée supp qui présente le support de tous les produits
achetés dans chaque transaction. Afficher 𝒅𝒇_𝒑𝒓𝒐𝒅

ser_supp=df_prod.sum(axis=1)/5 4/5=0.8

df_supp=ser_supp.to_frame(name="supp")

df_prod=pd. concat([df_prod,df_supp], axis=1)

df_prod

IIT-Sfax
T. Ben Abdallah & A. Ben Mrad 5
TP révision

6) Trier les lignes de 𝒅𝒇_𝒑𝒓𝒐𝒅 selon l’ordre décroissant de la colonne supp


(réinitialiser les indices de lignes de 𝒅𝒇_𝒑𝒓𝒐𝒅 ). Afficher 𝒅𝒇_𝒑𝒓𝒐𝒅
df_prod.sort_values(by="supp", ascending=False,
inplace=True, ignore_index=True)

df_prod

7) Transformer 𝒅𝒇_𝒑𝒓𝒐𝒅 en deux tableaux ndarray 𝑿 et 𝒀 : 𝑿 contient les valeurs de cinq


premières colonnes, et 𝒀 contient les valeurs de la colonne supp. Afficher 𝑿 et 𝒀
X = df_prod.iloc[:,:-1].values

Y= df_prod.iloc[:,-1].values

print(X)
print(Y)

IIT-Sfax
T. Ben Abdallah & A. Ben Mrad 6

Vous aimerez peut-être aussi