Traitement_de_données_en_tables (2)

Lycée Saint Rémy Numérique et Sciences Informatiques 2023-2024
Traitement de Données En Tables
I) Le format CSV
On trouve énormément de données sur internet. Une partie de ces données sont publiques, par exemple le site data.gouv.fr
recense un grand nombre de données publiques. Ces données sont librement réutilisables.
À faire vous-même 1 :
Afin de découvrir ce qu’est « l’open data », allez sur le site data.gouv.fr. En haut de la page d’accueil, cliquez
sur « Commencer sur data.gouv.fr » puis sur « Qu’est-ce que data.gouv.fr ? ». Résumez en quelques lignes ce que
vous aurez appris en lisant cette page.
Explorez pendant quelques minutes le site data.gouv.fr. Recherchez les données « Opérations coordonnées par les
CROSS » à l’aide du moteur de recherche proposé par le site.
Vous pouvez constater que ces données sont au format CSV.
Le format CSV est très courant sur internet.

Voici ce que nous dit Wikipédia sur le format CSV :
Comma-separated values, connu sous le sigle CSV, est un format informatique ouvert représentant des données tabulaires
sous forme de valeurs séparées par des virgules.
Un fichier CSV est un fichier texte, par opposition aux formats dits « binaires ». Chaque ligne du texte correspond à une
ligne du tableau et les virgules correspondent aux séparations entre les colonnes. Les portions de texte séparées par une
virgule correspondent ainsi aux contenus des cellules du tableau.
Voici un exemple du contenu d’un fichier CSV :
nom , prenom , d a t e _ n a i s s a n c e
Durand , Jean−P i e r r e , 2 3 / 0 5 / 1 9 8 5
Dupont , C h r i s t o p h e , 1 5 / 1 2 / 1 9 6 7
Terta , Henry , 1 2 / 0 6 / 1 9 7 8
Nous avons ici 3 personnes :
• Jean-Pierre Durand qui est né le 23/05/1985
• Christophe Dupont qui est né le 15/12/1967
• Henry Terta qui est né le 12/06/1978
« nom », « prenom » et « date_naissance » sont appelés des descripteurs alors que, par exemple, « Durand », « Dupont »
et « Terta » sont les valeurs du descripteur « nom ».
Donnez les différentes valeurs du descripteur « date_naissance ».
Remarque
La virgule est un standard pour les données anglo-saxonnes, mais pas pour les données aux normes françaises. En
effet, en français, la virgule est le séparateur des chiffres décimaux. Il serait impossible de différencier les virgules
des décimaux et les virgules de séparation des informations. C’est pourquoi on utilise un autre séparateur : le
point-virgule ( ;). Dans certains cas cela peut engendrer quelques problèmes, vous devrez donc rester vigilants sur
le type de séparateur utilisé.
1re Générale Page 1/ 7 Traitement de Données En Tables

Les tableurs, tels que « Calc » (Libre Office), sont normalement capables de lire les fichiers au format CSV. On précise
« normalement » car certains tableurs gèrent mal le séparateur CSV « point-virgule » et le séparateur des chiffres décimaux
« virgule ».
Dans le cloud se trouvent plusieurs fichiers qui vont être utilisés tout au long de cette séquence.. Copiez ce
répertoire « CSV » dans votre répertoire personnel puis ouvrez le fichier ident_pointVirgule.csv à l’aide d’un
tableur.
Si par hasard votre tableur ne gère pas correctement le fichier avec le séparateur « point-virgule », il y a une
version « séparateur virgule » du fichier : ident_virgule.csv.
Dans la suite, gardez toujours cet éventuel problème à l’esprit (surtout avec des données « made in France »).
Vous devriez obtenir ceci :

A B C
1 nom prenom date_naissance
2 Durand Jean-Pierre 23/05/1985
3 Dupont Christophe 15/12/1967
4 Terta Henry 12/06/1978
Vous pouvez constater que les données sont bien "rangées" dans un tableau avec des lignes et des colonnes (voilà pourquoi
on parle de données tabulaires.
Il est possible de trouver sur le web des données beaucoup plus intéressantes à traiter que celles contenues dans le fichier
« ident_pointVirgule.csv » (ou « ident_virgule.csv »). Par exemple, le site sql.sh, propose un fichier csv contenant des
informations sur l’ensemble des communes françaises.
Ouvrez le fichier ville_point_virgule.csv à l’aide d’un tableur (c’est une version légèrement modifiée de celle
disponible sur le site sql.sh, ont notamment été ajoutés des entêtes). En cas de problème avec votre tableur, voici
une version « séparateur virgule » : ville_virgule.csv (attention le séparateur « décimal » est ici le point)
Comme vous pouvez le constater, nous avons 12 colonnes (et 36700 lignes si on ne compte pas l’entête !), voici la
signification de ces colonnes :
• dep : numéro de département
• nom : nom de la commune
• cp : code postal
• nb_hab_2010 : nombre d’habitants en 2010
• nb_hab_1999 : nombre d’habitants en 1999
• nb_hab_2012 : nombre d’habitants en 2012 (approximatif)
• dens : densité de la population (habitants par kilomètre carré)
• surf : superficie de la commune en kilomètre carré
• long : longitude
• lat : latitude
• alt_min : altitude minimale de la commune (il manque des données pour certains territoires d’outre-mer)
• alt_max : altitude maximale de la commune (il manque des données pour certains territoires d’outre-mer)
En vous aidant du fichier ouvert précédemment, déterminez l’altitude maximale et l’altitude minimale de votre
commune.

II) Le traitement de données structurées

Après avoir découvert le format CSV, nous allons maintenant, à l’aide de Python, apprendre à effectuer des traitements
sur ces données.
Pour traiter des données, nous allons utiliser la bibliothèque Python Pandas. Une bibliothèque Python permet de rajouter
des fonctionnalités par rapport au langage de base. La bibliothèque Pandas est donc très utilisée pour tout ce qui touche
au traitement des données.
Pour nos premiers pas avec Pandas, nous allons utiliser des données très simples au format CSV : ces données sont
contenues dans le fichier ident_virgule.csv.
Dans le fichier csv01.py, vous trouverez le code Python suivant :
import pandas
i d e n=pandas . read_csv ( " i d e n t _ v i r g u l e . c s v " )
Enregistrez ce fichier dans le même répertoire que le fichier ident_virgule.csv.
Le code ci-dessus est très simple :

• Avec la première ligne, nous importons la bibliothèque pandas afin de pouvoir l’utiliser.
• À la deuxième ligne, nous créons une variable « iden » qui va contenir les données présentes dans le fichier
ident_virgule.csv.
Exécutez ce programme.
Placez vous ensuite dans la console. Tapez alors « iden ».
Vous devriez voir apparaître les données contenues dans la variable iden rangées sous la forme d’un tableau, un
peu comme ce que nous obtenions en ouvrant le fichier ident_virgule.csv » avec un tableur.
nom prenom date_naissance

0 Durand Jean-Pierre 23/05/1985
1 Dupont Christophe 15/12/1967
2 Terta Henry 12/06/1978
Vous avez peut-être remarqué qu’une colonne a été ajoutée par rapport à ce que nous obtenions avec le tableur.
Les nombres présents dans cette colonne sont appelés des index. Chaque ligne du tableau a un index (première ligne :
index 0, deuxième ligne index 1 . . .)
ATTENTION : les index commencent à 0 et pas à 1
Les colonnes possèdes également des index, dans notre exemple ces index correspondent au « nom" » (index de la première
colonne), au « prenom » (index de la deuxième colonne) et à « date_naissance » (index de la troisième colonne)
En résumé : les lignes possèdent des index (0,1,2..), les colonnes possèdent aussi des index (« nom », « prenom »,...)
Il est possible de récupérer certaines données du tableau, par exemple, certaines lignes, certaines colonnes ou bien
encore des valeurs uniques. Pour cela, il suffit d’utiliser l’instruction « loc » avec les index des lignes et les index des
colonnes. Le principe de fonctionnement de « loc" est relativement simple puisque l’on aura une instruction de la forme
« loc[index_ligne,index_colonne] ».
Testez le programme suivant :
import pandas
i n f o=i d e n . l o c [ 1 , ’ prenom ’ ]
Vérifiez que la variable « info » contient bien le prénom « Christophe ».
Modifiez le programme précédent pour que la variable info contienne « 12/06/1978 ».

Il est possible de récupérer plusieurs toutes les lignes d’une colonne, il suffit de remplacer la partie « index_ligne » de
« loc » par « : ».
import pandas
i n f o=i d e n . l o c [ : , ’nom ’ ]
Vérifiez que la variable info contient bien toutes les données de la colonne d’index « nom », autrement dit, tous
les noms.
Il est possible de récupérer toutes les colonnes d’une ligne particulière, cette fois en remplaçant la partie « index_colonne »
de « loc » par « : ».
import pandas
i n f o=i d e n . l o c [ 2 , : ]
Vérifiez que la variable info contient bien toutes les données de la dernière ligne (index 2).
Il est aussi possible de récupérer seulement certaines lignes et certaines colonnes en utilisant la notation suivante :
loc[[index_ligne_1,index_ligne_2,...],[index_colonne_1,index_colonne_2,...]]
import pandas
i n f o=i d e n . l o c [ [ 0 , 1 ] , [ ’nom ’ , ’ d a t e _ n a i s s a n c e ’ ] ]
Vérifiez que la variable info contient bien un tableau avec uniquement les colonnes « nom » et « date_naissance »
de la première ligne (index 0) et de la deuxième ligne (index 1).
Afin d’avoir des exemples plus complexes à traiter, dans la suite, nous allons travailler sur les données contenues dans le
fichier ville_virgule.csv.
import pandas
i n f o _ v i l l e s=pandas . read_csv ( " v i l l e s _ v i r g u l e . c s v " )
Vérifiez que la variable info_villes contient bien les données contenues dans le fichier ville_virgule.csv.
Comme vous pouvez le constater, il manque des données dans le tableau qui s’affiche dans la console (les données
manquantes sont symbolisées par des ...), en effet, le tableau contient trop données pour qu’il soit entièrement
affiché dans la console.
Vous devriez, notamment dans les colonnes l’altitude mini et maxi, voir apparaitre un étrange « nan » pour les dernières
villes du tableau. « nan » signifie « not a number », ici, cela veut tout simplement dire que certaines données sont
manquantes.
Nous allons maintenant introduire des conditions dans la sélection des villes. Imaginez par exemple que vous désirez
obtenir un tableau contenant toutes les villes qui ont une altitude minimum supérieure à 1500 m :

Analysez et testez le programme suivant :
import pandas
nom_alt=i n f o _ v i l l e s . l o c [ i n f o _ v i l l e s [ " alt_min " ] > 1 5 0 0 , [ "nom" , " alt_min " ] ]
Dans le « loc », l’expression « info_villes["alt_min"]>1500 » est bien avant la virgule, elle concerne donc les index des
lignes du tableau. On sélectionnera uniquement les lignes qui auront la valeur du descripteur « alt_min » supérieure à
1500. Nous allons donc bien sélectionner les villes qui ont une altitude minimum supérieure à 1500 m.
En vous inspirant de ce qui a été fait précédemment, écrivez un programme qui permettra d’avoir les villes qui
ont une densité d’habitant inférieure à 50 (dans le tableau ainsi créé, on aura 3 colonnes : le nom de la ville, la
densité de la population et l’altitude minimum)
Il est possible de combiner plusieurs facteurs de sélection en utilisant un « et » (« & ») ou un « ou » (« | »).
import pandas
nom_alt=i n f o _ v i l l e s . l o c [ ( i n f o _ v i l l e s [ " alt_min " ] >1500) &
( i n f o _ v i l l e s [ " dens " ] > 5 0 ) , [ "nom" , " dens " , " alt_min " ] ]
Vous devriez constater qu’il y a, en France, une seule ville avec une densité de population supérieure à 50 et une
altitude minimum supérieure à 1500 m.
Il est aussi possible d’effectuer des calculs sur des colonnes, par exemple des moyennes. Il suffit d’utiliser l’instruction
« mean » pour effectuer une moyenne :
import pandas
moyenne_alt_min=i n f o _ v i l l e s . l o c [ : , " alt_min " ] . mean ( )
Vous devriez constater que l’altitude minimum moyenne est de 193 m en France. Rappellons que dans « loc[ :,"alt_min"] »
le « : » signifie que l’on considère toutes les lignes du tableau. De plus le « alt_min » fait que le calcul de la moyenne
porte bien sur les données du descripteur « alt_min ».
Écrivez un programme permettant de calculer le nombre moyen d’habitants en 2012.
Pour l’instant nous avons calculé une moyenne sur l’ensemble des lignes, il est aussi possible d’imposer une condition sur
les lignes qui seront utilisées pour le calcul.
import pandas
nbe_hab=i n f o _ v i l l e s . l o c [ i n f o _ v i l l e s [ " alt_min " ] >1500 , "nb_hab_2012" ] . mean ( )
print ( nbe_hab )
Vous devriez constater que les villes ayant une altitude minimum supérieure à 1500 m avaient en moyenne 350
habitants en 2012.

Il est aussi possible de trier le tableau en fonction des valeurs d’un descripteur. Il suffit d’utiliser l’instruction « sort_values »
import pandas
tri_alt_min=i n f o _ v i l l e s . s o r t _ v a l u e s ( by=[" alt_min " ] )
Vous devriez obtenir un nouveau tableau de données « tri_alt_min » trié dans l’ordre croissant des altitudes
minimums. Quelle est la ville ayant l’altitude minimum la plus faible de France ?
Il est aussi possible de trier par ordre décroissant en ajoutant « ascending=False » :
import pandas
tri_alt_min=i n f o _ v i l l e s . s o r t _ v a l u e s ( by=[" alt_min " ] , a s c e n d i n g=F a l s e )
Quelle est la ville ayant l’altitude minimum la plus importante de France ?
Écrivez un programme permettant de répondre à la question suivante : quelle est la ville ayant la densité de
population la plus forte ?
Il est possible de fusionner 2 tableaux de données qui ont une colonne commune :
Afin de travailler sur cette fusion, nous allons travailler avec 2 fichiers au format CSV : fiches_client.csv et fiches_com.csv.
import pandas
c l i e n t=pandas . read_csv ( " f i c h e s _ c l i e n t . c s v " )
commande=pandas . read_csv ( " fiches_com . c s v " )
Vérifiez le contenu des variables « client » et « commande » dans la console.
Rien de bien complexe, nous avons un tableau qui référence les clients (nom, prénom, ville), chaque client possède un
numéro de client. Le deuxième tableau référence des commandes : pour chaque commande, nous avons un numéro de
commande, une date et le numéro du client qui a passé la commande, ce numéro de client correspond évidemment au
numéro de client que l’on trouve dans le premier tableau.
Sachant que nous avons deux colonnes contenant les mêmes types d’information (numéros de client), nous allons pouvoir
fusionner les deux tableaux en un seul :
Testez le code suivant contenu dans csv02.py :
import pandas
cl_com=pandas . merge ( c l i e n t , commande )
Que contient la variable « cl_com » ?

Prenons l’exemple de Mme Julie Gabriaux qui habite à Bordeaux (n° de client 2454) et de la commande effectuée le
02/02/2012 par le client ayant le n° 2454 (commande n° 45). La cliente qui a passé cette commande n° 45 est bien Mme
Gabriaux, nous avons une ligne dans notre tableau « cl-com » :
2 2454 Gabriaux Julie Bordeaux 45 02/02/12
Nous avons bien fusionné les 2 tableaux "client" et "commande" en un seul tableau « cl_com » qui regroupe les infor-
mations pour chaque commande. Quand on effectue ce genre de fusion, on dit souvent que l’on effectue une jointure.
Il faut prendre garde à l’ordre des arguments de la fonction « merge » :
Testez le code suivant :
import pandas
com_cl=pandas . merge ( commande , c l i e n t )
Affichez le contenu de la variable « com_cl ». Que constatez-vous ?
1. Que se passe-t-il pour Mme Ila Neufville ? Pourquoi ?
2. Vous avez peut-être remarqué que Mme Élodie Gaulin (n° de client 895) bien que présente dans le tableau
« client », est absente du tableau « com_cl » (ou « cl_com »). Pourquoi d’après vous ?
3. De la même manière, aucun trace de la commande n° 1324 du 01/02/2017 dans le tableau « com_cl » (ou
« cl_com »), pourquoi d’après vous ?

Traitement_de_données_en_tables (2)

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Traitement_de_données_en_tables (2)

Transféré par

Droits d'auteur :

Formats disponibles

Lycée Saint Rémy Numérique et Sciences Informatiques 2023-2024

Traitement de Données En Tables

Le format CSV est très courant sur internet.

1re Générale Page 1/ 7 Traitement de Données En Tables

Vous devriez obtenir ceci :

1re Générale Page 2/ 7 Traitement de Données En Tables

II) Le traitement de données structurées

Le code ci-dessus est très simple :

nom prenom date_naissance

1re Générale Page 3/ 7 Traitement de Données En Tables

1re Générale Page 4/ 7 Traitement de Données En Tables

Il est possible de combiner plusieurs facteurs de sélection en utilisant un « et » (« & ») ou un « ou » (« | »).

1re Générale Page 5/ 7 Traitement de Données En Tables

Il est aussi possible de trier par ordre décroissant en ajoutant « ascending=False » :

1re Générale Page 6/ 7 Traitement de Données En Tables

2 2454 Gabriaux Julie Bordeaux 45 02/02/12

1re Générale Page 7/ 7 Traitement de Données En Tables

Vous aimerez peut-être aussi