Académique Documents
Professionnel Documents
Culture Documents
L’association « Faune et Flore » veut améliorer la gestion des visites aux différents parcs nationaux afin
d’assurer la découverte des espèces naturelles (animale et végétale). L’informaticien responsable de ce projet au
sein de cette association propose d’utiliser la base de données intitulée « Gestion_Parc » décrite par le schéma
textuel suivant :
N.B. : L’association ne peut programmer qu’une seule visite par jour à un parc donné. Toutefois, elle peut
programmer, pour la même journée, plusieurs visites à des parcs différents.
A) À l’aide du logiciel de gestion de base de données disponible :
1) Ouvrir la base de données, intitulée « Gestion_Parc » située dans votre dossier de travail.
2) Créer dans cette base de données la table « Parc_Espece » décrite précédemment tout en respectant les
types et les propriétés cités dans la description ci-dessus.
3) Créer les relations entre les différentes tables de cette base de données.
Page 1 sur 5
4) Importer les données de table « Parc » à partir du fichier « Parc.csv » situé dans votre dossier de travail
(point-virgule en séparateur de champ, point en séparateur décimal, page de codes : Unicode (UTF-8) et
sans les noms des champs sur la première ligne).
5) Importer le fichiers « Visite.csv » situé dans votre dossier de travail dans une nouvelle table à nommer
« VisiteImport » (point-virgule en séparateur de champ, point en séparateur décimal, guillemet (double
quottes) en délimiteur de texte, page de codes : Unicode (UTF-8) et sans les noms des champs sur la
première ligne).
6) Remplir la table « Parc_Espece » par les données représentées dans le tableau suivant :
Parc_Espece
CodeParc CodeEspece
P001 FL01
P003 FL01
P003 FN01
P003 FN02
P004 FL02
P017 FN06
P017 FN08
Page 2 sur 5
4) Afficher les noms des colonnes de ce DataFrame.
5) Afficher les données de la première ligne de ce DataFrame.
6) Afficher les données de la dernière ligne de ce DataFrame.
7) Afficher les données qui existent entre la ligne N° 3 et la ligne N° 6 de ce DataFrame.
8) Afficher le nombre d’éléments de ce DataFrame.
9) Afficher les champs de ce DataFrame DataFrame ainsi que leurs types.
10) Supprimer la colonne qui présente le code de la ville dans ce DataFrame puis vérifier que la suppression
est effectuée avec succès.
11) Supprimer les deux premières lignes de ce DataFrame puis vérifier que la suppression est effectuée avec
succès.
12) Supprimer les doublons de ce DataFrame puis vérifier que la suppression est effectuée avec succès.
13) Supprimer les lignes vides de ce Dataframe puis vérifier que la suppression est effectuée avec succès.
14) Renommer les colonnes contenant le nombre total des participants et le total des frais de participation
respectivement par « Nbparticipants » et par « TotalFrais » puis vérifier que l’opération est effectuée
avec succès.
15) Afficher, à partir de ce Dataframe, les noms des parcs suivis du nombre total de participants et du total de
frais de participants.
16) Afficher, à partir de ce Dataframe, les huit premiers noms des parcs suivis du nombre total de participants
et du total de frais de participants
17) Calculer et afficher, pour tous les parcs le nombre total des participants.
18) Afficher les noms et les années de création des parcs situés dans le gouvernorat de « Jandouba ».
19) Afficher les noms et les années de création des parcs crées après 1990 et ayant une superficie supérieure
ou égale à 8000 hectares.
20) Trier le DataFrame « parcs » dans un nouveau DataFrame nommé « parcs_tri » selon l’ordre croissant
des années de création et l’ordre décroissant des superficies puis afficher le DataFrame trié.
21) Créer un nouveau DataFrame à nommer « parcs2 » qui contient les données ci-dessous puis vérifier que
l’opération est effectuée avec succès. :
CodeParc NomParc AnneeCreation Superficie NomVille Nbparticipants TotalFrais
P001 Bouhedma 1980 16448 Gafsa 120 3282
P002 Boukornine 1987 1939 Ben Arous 120 3155
22) Ajouter les données du DataFrame « parcs2 » à la fin du DataDrame « parcs ».
23) Calculer et afficher, pour chaque parc, la moyenne des frais dans une nouvelle colonne à nommer
« MoyenneFrais », sachant que :
MoyenneFrais = TotalFrais / Nbparticipants
24) Afficher les noms des parcs les plus visités.
25) Réaliser un graphique en lignes représentant le nombre des participants en fonction des noms des parcs.
Page 3 sur 5
Les méthodes et les propriétés utilisées avec la bibliothèque pandas
Catégorie Syntaxe
Création d’un
IdDataFrame = pandas.DataFrame ({"Id_Colonne1":["Val1",…,"ValN"],…, "Id_ColonneM":[Val1,…,ValN]})
DataFrame
Importation des
IdDataFrame = pandas.read_excel ("Chemin/ Nom_Fichier.extension", "Nom_Feuille")
données dans un
IdDataFrame = pandas.read_csv ("Chemin/Nom_Fichier.extension", sep = "séparateur")
DataFrame
Affichage des dimensions d’un DataFrame : IdDataFrame.shape ou bien print (IdDataFrame.shape)
Affichage du nombre d’éléments d’un DataFrame : IdDataFrame.size ou bien print (IdDataFrame.size)
Affichage des informations concernant un DataFrame : IdDataFrame.info ( ) ou bien print ( IdDataFrame.info ( ) )
Affichage du résumé rapide d’un DataFrame : IdDataFrame.describe ( ) ou bien print ( IdDataFrame.describe ( ) )
Manipulation Affichage des noms des colonnes d’un DataFrame : IdDataFrame.columns ou bien print ( IdDataFrame.columns )
d’un DataFrame Renommage des libellés d’une ou de plusieurs colonnes :
Resultat = IdDataFrame.rename (columns = {"NomColonne1": "NouveauNomColonne1", "NomColonne2": "NouveauNomColonne2", … })
Suppression des lignes : Resultat = IdDataFrame.drop ( [ N° Ligne1, … , N° LigneN ] )
Suppression de lignes consécutives : Resultat = IdDataFrame.drop ( IdDataFrame.index [ N° LigneInitial : N° LigneFinal ] )
Suppression des colonnes : Resultat = IdDataFrame.drop ( columns = [ "NomColonne1",…,"NomColonneN" ] )
Affichage du contenu d’un DataFrame : IdDataFrame ou bien print ( IdDataFrame )
Affichage du contenu d’une colonne : IdDataFrame [ "NomColonne" ] ou bien print ( IdDataFrame [ "NomColonne" ] )
Affichage du contenu de plusieurs colonnes :
Id_DataFrame [ ["Id_Colonne1","Id_Colonne2",…] ] ou bien print ( Id_DataFrame [ ["Id_Colonne1","Id_Colonne2",…] ] )
Affichage du contenu d’une colonne entre une position initiale et une position finale – 1 :
Affichage des IdDataFrame ["NomColonne"] [ N° LigneInitial : N° LigneFinal ] ou bien print ( IdDataFrame ["NomColonne"] [ N° LigneInitial : N°
données d’un LigneFinal ])
DataFrame Affichage du contenu d’une ligne : IdDataFrame.iloc [ N° Ligne ] ou bien print ( IdDataFrame.iloc [ N° Ligne ] )
Affichage des n premières lignes d’un DataFrame : IdDataFrame.head ( n ) ou bien print ( IdDataFrame.head ( n ) )
Affichage des n dernières lignes d’un DataFrame : IdDataFrame.tail ( n ) ou bien print ( IdDataFrame.tail ( n ) )
Affichage du contenu des lignes entre une position initiale et une position finale – 1 :
IdDataFrame.iloc [ N° LigneInitial : N° LigneFinal ] ou bien print ( IdDataFrame.iloc [ N° LigneInitial : N° LigneFinal ] )
Affichage du contenu d’une cellule : IdDataFrame.iloc [ N° Ligne , N° Colonne ] ou bien print ( IdDataFrame.iloc [ N° Ligne , N° Colonne ] )
Page 4 sur 5
Modification et Modification du contenu d’une cellule d’un DataFrame : IdDataFrame.loc [ N° ligne , "NomColonne" ] = Valeur (ou formule)
ajout des Modification des données d’une ligne d’un DataFrame : Id_DataFrame.loc [ N° ligne ] = [ Liste_Valeur ]
données d’un Ajout d’une colonne dans un DataFrame : Id_DataFrame [ "Id_Colonne" ] = Valeur (ou formule)
DataFrame
Supprimer les doublons d’un DataFrame : Resultat = Id_DataFrame.drop_duplicates ( )
Nettoyage d’un
Supprimer toutes les lignes contenant des valeurs nulles : Resultat = Id_DataFrame.dropna ( )
DataFrame
Supprimer toutes les colonnes contenant des valeurs nulles : Resultat = Id_DtaFrame.dropna ( axis = 1 )
Les fonctions
mean ( ) – min ( ) – max ( ) – sum ( ) – count ( )
statistiques
Affichage des données d’un DataFrame selon une condition
IdDataFrame [ IdDataFrame [ "NomColonne" ] OperateurComparaison Valeur ]
Les opérateurs de comparaison
== < <= > >= != isin
Affichage des Affichage des données d’un DataFrame selon plusieurs conditions
données d’un IdDataFrame [( IdDataFrame ["NomColonne"] OperateurComp Valeur)
DataFrame selon OperateurLogique ( IdDataFrame ["NomColonne"] OperateurComp Valeur )]
une ou plusieurs
conditions Les opérateurs logiques
Opérateur Nomination Rôle
| OU logique Vérifie qu'une des conditions est réalisée
& ET logique Vérifie que toutes les conditions sont réalisées
Page 5 sur 5
Gestion & Analyse
des données
Formateur: MAKHZOUMI Abdelhalim Janvier 2023
Objectifs
Gestion de données
Analyse de données
Analyse de données (pandas)
import pandas as pd
parcs=pd.read_csv("statistique2023.csv", sep=";")
2 Afficher le contenu de ce DataFrame
print(parcs)
3 Afficher les dimensions de ce DataFrame
print(parcs.shape)
4 Afficher les noms des colonnes de ce DataFrame
print(parcs. columns)
5 Afficher les données de la première ligne de ce
DataFrame.
print(parcs.head(1))
ou
print(parcs.iloc[0:1])
6 Afficher les données de la dernière ligne de ce
DataFrame
print(parcs.tail(1))
7 Afficher les données qui existent entre la ligne
N° 3 et la ligne N° 6 de ce DataFrame
print(parcs.iloc[3:7])
8 Afficher le nombre d’éléments de ce DataFrame
print(parcs.size)
9 Afficher les champs de ce DataFrame
DataFrame ainsi que leurs types
print(parcs.info())
Supprimer la colonne qui présente de code de la
ville dans ce DataFrame puis vérifier que la
suppression est effectuée avec succès
parcs=parcs.drop(columns=["CodeVille"])
print(parcs)())
Supprimer les deux premières lignes de ce
DataFrame puis vérifier que la suppression est
effectuée avec succès
parcs=parcs.drop(parcs.index[0:2])
ou
parcs=parcs.drop([0,1])
print(parcs)())
Supprimer les doublons de ce DataFrame puis
vérifier que la suppression est effectuée avec
succès
parcs=parcs.drop_duplicates()
print(parcs)
Supprimer les lignes vides de ce Dataframe puis
vérifier que la suppression est effectuée avec
succès
parcs=parcs.dropna()
print(parcs)
Renommer les colonnes contenant le nombre total des participants et
le total des frais de participation respectivement par «Nbparticipants
» et par « TotalFrais » puis vérifier que l’opération est effectuée avec
succès.
parcs=parcs.rename(columns={"SommeDeNb
Participants":"Nbparticipants","SommeDeFr
ais": "TotalFrais"})
print(parcs.columns)
Afficher, à partir de ce Dataframe, les noms des
parcs suivis du nombre total de participants et
du total de frais de participants
print(parcs[["NomParc","Nbparticipants","T
otalFrais"]])
Afficher, à partir de ce Dataframe, les huit premiers
noms des parcs suivis du nombre total de participants
et du total de frais de participants
print(parcs[["NomParc","Nbparticipants","T
otalFrais"]].head(8))
Calculer et afficher, pour tous les parcs le nombre
total des participants
print(parcs["Nbparticipants"].sum())
Afficher les noms et les années de création des parcs
situés dans le gouvernorat de « Jandouba »
print(parcs[parcs["NomVille"]=="Jandouba"]
[["NomParc","AnneeCreation"]])
Afficher les noms et les années de création des parcs
crées après 1990 et ayant une superficie supérieure ou
égale à 8000 hectares
print(parcs[(parcs["AnneeCreation"]>1990) &
(parcs["Superficie"]>=8000)][["NomParc","A
nneeCreation"]])
Trier le DataFrame « parcs » dans un nouveau DataFrame
nommé « parcs_tri » selon l’ordre croissant des années de
création et l’ordre décroissant des superficies puis afficher le
DataFrame trié.
parcs_tri=parcs.sort_values(by=["AnneeCreati
on","Superficie"] , ascending=[True,False])
print(parcs_tri)
Créer un nouveau DataFrame à nommer « parcs2 » qui contient
les données suivantes
parcs2=pd.DataFrame({"CodeParc":["P001","P002"],"
NomParc":["Bouhedma",
"Boukornine"],"AnneeCreation":[1980,1987],"Superfici
e":[16448,1939],"NomVille":["Gafsa","Ben
Arous"],"Nbparticipants":[120,120],"TotalFrais":[3282,
3155]})
print(parcs2)
Ajouter les données du DataFrame « parcs2 » à la fin du
DataDrame « parcs »
parcs.loc[16]=parcs2.iloc[0]
parcs.loc[17]=parcs2.iloc[1]
Calculer et afficher, pour chaque parc, la moyenne des frais dans
une nouvelle colonne à nommer « MoyenneFrais », sachant que :
MoyenneFrais = TotalFrais / Nbparticipants
parcs["MoyenneFrais"]=parcs["TotalFrais"]/parcs
["Nbparticipants"]
print(parcs["MoyenneFrais"])
Afficher les noms des parcs les plus visités
print(parcs[(parcs["Nbparticipants"]==parcs["Nbp
articipants"].max()) ]["NomParc"])
Réaliser un graphique à barres représentant le
nombre des participants en fonction des noms
des parcs