Académique Documents
Professionnel Documents
Culture Documents
Pour accéder à un élément de la série, nous devons définir des valeurs par étiquette
d'index. Une série est comme un dictionnaire de taille fixe dans la mesure où vous
pouvez obtenir et définir des valeurs par étiquette d'index.
Series as specialized dictionary
L'objet Pandas Series peut également être créé à partir du dictionnaire
!!!: au lieu de créé le dictionnaire moi-même j’ai utilisé un fichier csv
Nous pouvons utiliser l'étiquette d'index pour récupérer la valeur correspondante
Si une série est analogue à un tableau à une dimension avec des indices flexibles, un
DataFrame est analogue à un tableau à deux dimensions avec à la fois des indices
de ligne flexibles et des noms de colonne flexibles Tout comme vous pourriez penser
à un tableau 2D comme une séquence ordonnée d'alignement (partage même index)
colonnes 1D, vous pouvez considérer un DataFrame comme une séquence d'objets
Series alignés (partageant le même index)
Notebook2 : 03.02-Data-Indexing-and-Selection
Ce notebook traitait l’indexation et le slicing des data frames sous pandas et comment
en extraire des colonnes ou des lignes bien particulières. Comment les visualiser et
comment les localiser selon une condition ou une autre.
DataFrame as a dictionary
Dans la paire clé-valeur du dictionnaire, la valeur peut être un autre dictionnaire.
les clés fournies sous pd.DataFrame() sont utilisées comme étiquettes de colonne
les clés fournies sous les dictionnaires assignés, sont utilisées comme étiquettes d'index
Notebook3: 03.03-Operations-in-Pandas
None : Pythonic Missing Data : None étant un objet Python, il ne peut pas être utilisé
dans un tableau NumPy arbitraire, mais uniquement dans des tableaux avec le type de
données « objet » (c'est-à-dire des tableaux d'objets Python)
NaN : Données numériques manquantes : NaN (acronyme de Not a Number) est
différent ; il s'agit d'une valeur à virgule flottante spéciale reconnue par tous les
systèmes qui utilisent la représentation à virgule flottante standard IEEE
Pour remédier à ce problème, j’ai ajouté ces lignes de code.
Troisièmement, définissez les données, pop pour notre série multi-index, sous forme
de liste :
Quatrièmement, utilisez le constructeur pd.Series avec des données et un index
comme arguments
Dans ce notebook, on a exploité les possibilités de joindre les datasets. Comment, sur
quelle axe se faisait la jointure et comment la visualiser ?
Tout fonctionne normalement sauf pour cette cellule qui nous affiche cette erreur et qui
est en principe liée à un problème de mise à jour de l’environnement.
Notebook7: 03.07-Merge-and-Join
Avec ce notebook, on commence le travail sur les datasets. How to merge and join and
some other manipulations.
Dans cette partie, il va utiliser US data set pour voir les manipulations sur une base de
données de la vie réelle.
On a changé le dataset utilisé et on l’a remplacé par des datasets pris du site :
https://www.data.gouv.fr/fr/datasets/population/
J’ai pris Naissance et décés en 2019, Naissance et décés en 2016 et Séries
chronologiques actives issues de la BDM.
Notebook8: 03.08.Aggregation-and-Grouping
Pour faire ces manipulations, il a utilisé « Planet Dataset », mais je l’ai remplacé par :
puisque il y a 17 datasets prets à être utilisés dans SEABORN.
Voilà le resultat:
Notebook9: 03.09-Pivot-Table
Ce notebook a fait recours à la base de données des Passenger de Titanic et j’ai utilisé
la base de données des « flights » du même site « SEABORN »
Notebook10: 03.10-Working-With-Strings
Une autre partie du notebook où il a importé une base de données de recettes pour y
appliquer les manipulations précédentes
je l’ai donc remplacé par : https://www.kaggle.com/kaggle/recipe-ingredients-
dataset/home une base de données de recettes sur Kaggle