Vous êtes sur la page 1sur 4
Analyse des données Introduction Y Lanalyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques Y Lonalyse des données permet de traiter un nombre tres important Y L'analyse des données est utllis¢e dans tous les domaines L'intérét de 'analyse de données @chercher des réponses a des qu = Proposer des solutions 4 des problémes Ob systeme enir des renseignements sur les lacunes de disfonctionnement d'un Aider 4 la prise ¢ Les étapes de l'analyse des données ¥_ Définition de linformation recherchée : specifier les problémes posés Y Collecte des données. (Les méthodes (Quantitative, Qualitative)) Y Analyse des données collectées ¥ Préseni tion des résultats Y Laprise de décision Outils d’analyses de données ¥ Logiciels/ applications ¥ Outils et langage de programmation © Microsoft Excel © Pandas (Python) © Tableau © Langage R o Ete. o Ete. Manipuler les données avec Pandas (9) Pandas est une librairie Python spécialisée dans analyse des Se données Pandas permet de : Y Manipuler des tableaux de données avec des étique s de variables (colonnes) et diindividus (lignes). Y Lire et écrire ces DataFrames & partir ou vers un fichier Y Tracer des graphes 4 partir de ces DataFrames grace 4 matplotlib (librairie Python) Structures de données Dans pandas, il y « 2 structures de données principales v Série ¥ DataFrame Série A Série B DataFrame Pays Habitant Pays _| Habitant oO Russ 0 | 146781095 o RUSS 146781095 4] conada | 4 | 4] 37560207] = [4] Canada | 37560207 2] UsA 2 | 331883986 2| USA | 331883986 3) Chine 3) 1394112547 3| Chine | 1394112547 index \ Séries Activité 1.0n veut manipuler le tableau des pays 2.£n utilisant Microsoft Excel saisir le suivant, avec pandas tableau précédant et lenregistrer sous le aa sper habltant nom pays dans votre dossier de travail Russ 17098242 __| 1467810 Canada | 331883986 | 37560207 USA 982667 351883986 3.changer le nom de la feville feuill par Chine 9596961 1394112547 Populations Bresil 8514877 21030151 4 Lancer le logiciel thonny et créer un Australie 774122 25105503 nouveau fichier nommeé tp1 5..Taper la ligne suivante 6.Pour charger le fichier paysxlsx par oandas, ns") 7. Pour afficher les données du dataframe pays print (pays) 8. Pour afficher les informations concernant le datatrame pays, on utilse la méthode info), taper la ligne suivante print (pays.info) nN) 9. Ajouter la colonne densité dans le dataframe pays, sachant que Densité = Nombre d’habitant/Superfici Pour cela toper Ia ligne suivante paysf"densité"] = pays.habitant / pays.superficie 10. pour renornmer la colonne pays taper la ligne suivante co pays.rename(columns={"pays": ‘Nom_Pays'),inplace=Trve) 11. Pour supprimer la colonne densité taper la ligne suivante I del pays{‘densité’) Les indices Les colonnes i iy er * 17038242 ~ 146781095 1} Canada 331883986 37560207 2! USA 9826675 331883986 3! chine 9596961 1394112547 4! Brésil 8514877 210301591 S| Australie 774122 "25105503 RangeIndex 6 entries, 0 to 5 Data columns (total 3 columns): Non-Null Count 4 Column 0 pave object 1 superficie 6 non intea 2 habitant 6 non-null —inté4 atypes: int64(2), object (1) menory usage: 184.0+ bytes pays superficie habitant | pensité! @ fuss" 17098242 46761095 | 8.584572! 1 Canada 331883986 37560207 | 0.113173! 2 USA 9826675 331863986 | 33.773783! [a3 chine 9596961 304112547 !145.256083! 4 arésil. 9524877 210301501 | 24.698136!, 5 Australie 774122 25105503 | 32.430939! : ‘superficie habitant —_bensité rho 17038242 146781095 8.584572 1 Canada 331863986 37560207 0.113173 2 USA 9826675 331863986 33.773783 3 chine 9596961 1394112547 145.2608 4 arésil 8514877 210301591 24.098136 5 fustralie 774122 25105503 32.430939 7. pays superficie —_habitant "~} ° Russ 17098242 146781095! | 1 Canada 331883986 37560207! 2 Usa 9826675 331883986! | 3 Chine 9596961 1394112547! | 4 Brésil 8514877 210301591! | 5 Australie 774122 25105503! | 12 Afficher les pays print (pays.head()) 1B Afficher les 5 derniéres lignes du dataframe pays print(pays.tail()) ‘aframe remiéres lignes du 14 Pour afficher les données des colonnes Nom_Pays et superficie on tape I'instruction suivante : pays[["Nom_Pays", "superficie"]] 15 Afficher le nombre des habitants de chaque pays : 16 Pour afficher les lignes qui se trouvent entre deux indices indice_initial et indice_final on utilise instruction suivante dataFrame.iloc[ indice initial : indice_final+1] Exemple : Afficher les pays qui se trouvent entre les indices 2 et 5 ——EEEE_EE) 17 Pour modifier le contenu d'une cellule dans un dataframe, on utilise instruction suivante dataFrame.loc[indice_ligne, "Nom_Colonne"] Exemple pays. loc[, "Nom Pays”]="Russie” pays. loc[3,"Nom_Pays"]="Canada" __.Nom_Pays superficie — habitant {0} Russ 17098242 146781095 ‘1! Canada 331883986 37560207 12} UsA 9826675 331883986 13! NaN 9596861 1394112547 fa} Brésil 8514877 210301591 Nom_Pays superficie — habitant 1 Canada331883986 37560207 2 UsA 9826675 331883986 3 NaN 9596961 1394112547 4 Brésil 8514877 210301591 5 774122” 25105503 Loe 1 Canada 331883986 2 Usd 9826675 3 NaN 9596961 4 Brésil 8514877 5 Australie 778122 fo eee @ 146781095 1 37560207 2 331883986 3 1394112547 4 210301591 5 25105503 { Indice initial Nom_Pays superficie _habitant USA 9826675 331883986 NaN 9596961 1394112547 : Brésil 8514877 210301591 {Sjaustralie 774122 25105503 \— inaice final - superficie _habitant 17098242 145781095 331883986 37560207 9826675 331883986 9596961 1394112547 8514877 210301591 australie 774122 25105503

Vous aimerez peut-être aussi