Vous êtes sur la page 1sur 18

Python Data Science Handbook

Compte Rendu (10 premiers NOTEBOOKS)


Alaa Belhadj
INDP3 – AIM
Notebook1 : 03.01-Introducing-Pandas-Objects
Creating a series from Lists:
Afin de créer une série à partir de la liste, nous devons d'abord créer une liste, après
quoi nous pouvons créer une série à partir de la liste.

Pour accéder à un élément de la série, nous devons définir des valeurs par étiquette
d'index. Une série est comme un dictionnaire de taille fixe dans la mesure où vous
pouvez obtenir et définir des valeurs par étiquette d'index.
Series as specialized dictionary
L'objet Pandas Series peut également être créé à partir du dictionnaire
!!!: au lieu de créé le dictionnaire moi-même j’ai utilisé un fichier csv
Nous pouvons utiliser l'étiquette d'index pour récupérer la valeur correspondante

PANDAS DATAFRAME OBJECT

Si une série est analogue à un tableau à une dimension avec des indices flexibles, un
DataFrame est analogue à un tableau à deux dimensions avec à la fois des indices
de ligne flexibles et des noms de colonne flexibles Tout comme vous pourriez penser
à un tableau 2D comme une séquence ordonnée d'alignement (partage même index)
colonnes 1D, vous pouvez considérer un DataFrame comme une séquence d'objets
Series alignés (partageant le même index)
Notebook2 : 03.02-Data-Indexing-and-Selection
Ce notebook traitait l’indexation et le slicing des data frames sous pandas et comment
en extraire des colonnes ou des lignes bien particulières. Comment les visualiser et
comment les localiser selon une condition ou une autre.

DataFrame as a dictionary
Dans la paire clé-valeur du dictionnaire, la valeur peut être un autre dictionnaire.

les clés fournies sous pd.DataFrame() sont utilisées comme étiquettes de colonne
les clés fournies sous les dictionnaires assignés, sont utilisées comme étiquettes d'index
Notebook3: 03.03-Operations-in-Pandas

Ce notebook a mis en relief la différence entre DataFrame et Serie et a énuméré les


opérations mathématiques sur Pandas pouvant s’appliquer sur les séries.
Notebook4: 03.04-Missing-Values
Panda a choisi d'utiliser des sentinelles pour les données manquantes , et a en outre
choisi d'utiliser deux valeurs nulles Python déjà existantes : la valeur NaN à virgule
flottante spéciale et l'objet Python None.

None : Pythonic Missing Data : None étant un objet Python, il ne peut pas être utilisé
dans un tableau NumPy arbitraire, mais uniquement dans des tableaux avec le type de
données « objet » (c'est-à-dire des tableaux d'objets Python)
NaN : Données numériques manquantes : NaN (acronyme de Not a Number) est
différent ; il s'agit d'une valeur à virgule flottante spéciale reconnue par tous les
systèmes qui utilisent la représentation à virgule flottante standard IEEE
Pour remédier à ce problème, j’ai ajouté ces lignes de code.

Operating on Null Values


Notebook5: 03.05-Hierarchical-Indexing

CREATING MULTI-INDEXED SERIES

Tout d'abord, créons des données multi-index à partir des tuples

Deuxièmement, fournissez les données multi-index ci-dessus à la fonction Pandas


pd.MultiIndex.from_tuples()

Troisièmement, définissez les données, pop pour notre série multi-index, sous forme
de liste :
Quatrièmement, utilisez le constructeur pd.Series avec des données et un index
comme arguments

MultiIndex as extra dimension

Stack and Unstack


Nous aurions facilement pu stocker les mêmes données à l'aide d'un simple DataFrame
avec des étiquettes d'index et de colonne. La méthode unstack () convertira rapidement
une série multi-indexée en une série indexée de manière conventionnelle

La méthode stack () fournit l'opération opposée à unstack () - convertit DataFrame en


série multi-indexée
Notebook6: 03.06-Concat-And-Append

Dans ce notebook, on a exploité les possibilités de joindre les datasets. Comment, sur
quelle axe se faisait la jointure et comment la visualiser ?
Tout fonctionne normalement sauf pour cette cellule qui nous affiche cette erreur et qui
est en principe liée à un problème de mise à jour de l’environnement.
Notebook7: 03.07-Merge-and-Join

Avec ce notebook, on commence le travail sur les datasets. How to merge and join and
some other manipulations.

Dans cette partie, il va utiliser US data set pour voir les manipulations sur une base de
données de la vie réelle.
On a changé le dataset utilisé et on l’a remplacé par des datasets pris du site :
https://www.data.gouv.fr/fr/datasets/population/
J’ai pris Naissance et décés en 2019, Naissance et décés en 2016 et Séries
chronologiques actives issues de la BDM.
Notebook8: 03.08.Aggregation-and-Grouping

Pour faire ces manipulations, il a utilisé « Planet Dataset », mais je l’ai remplacé par :
puisque il y a 17 datasets prets à être utilisés dans SEABORN.
Voilà le resultat:
Notebook9: 03.09-Pivot-Table
Ce notebook a fait recours à la base de données des Passenger de Titanic et j’ai utilisé
la base de données des « flights » du même site « SEABORN »
Notebook10: 03.10-Working-With-Strings

Tout a bien fonctionné sauf pour cette erreur :

J’ai du donc ajouté quelques lignes de code et ça a fonctionné.

Une autre partie du notebook où il a importé une base de données de recettes pour y
appliquer les manipulations précédentes
je l’ai donc remplacé par : https://www.kaggle.com/kaggle/recipe-ingredients-
dataset/home une base de données de recettes sur Kaggle

Vous aimerez peut-être aussi