Matplotlib - Pyplot Pour Dessiner Des Graphiques. Il S'agit Dans Ce TP, de Suivre Les Étapes, Les Exécuter Et D'interpréter Les Résultats

Ecole Mohammadia d’Ingénieurs
TP : Data Science et machine Learning

Analyse des passagers du Titanic
Nous allons analyser dans ce travail les données des passagers du paquebot Titanic qui a fait
naufrage dans l’océan Atlantique Nord en 1912 à la suite d’une collision avec un iceberg.
Pour cela, nous allons utiliser pandas une bibliothèque Python d’analyse et de manipulation
des données (inspection, modification et statistiques) et sklearn une bibliothèque pour
l’apprentissage automatique. Nous utiliserons également la bibliothèque numpy pour la
manipulation des tableaux multidimensionnels et leurs opérations ainsi que la bibliothèque
matplotlib.pyplot pour dessiner des graphiques.
Il s’agit dans ce TP, de suivre les étapes, les exécuter et d’interpréter les résultats.
I Téléchargement du Dataset et importation/installation des bibliothèques
1. Télécharger le Dataset du Titanic et le mettre dans le projet courant de Pycharm avec

l’extension xlsx. Il peut être récupéré du lien (avec un click si vous avez la version
électronique de ce TP) : https://github.com/MachineLearnia/Python-Machine-
Learning/blob/master/Dataset/titanic3.xls
2. Importer les modules suivants et les renommer afin de simplifier leur utilisation :
import pandas as pd
import sklearn.neighbors as sk
import numpy as np
import matplotlib.pyplot as plt
3. Si ces bibliothèques ne sont pas encore installées, vous pourriez le faire de trois
manières différentes :
• Dans l’éditeur se positionner sur la bibliothèque et lancer install package.
• Lancer File/Settings/Python Interpreter (sous Windows) ou
Pycharm/Preferences/Python Interpreter (sous MacOS), puis cliquer sur le symbole
+ puis spécifier la bibliothèque.
• Lancer Tools/Python or Debug Console et lancer sur Terminal pip install
«bibliothèque».
II Chargement et affichage du Dataset
4. Chargement du Dataset dans la variable data qui est un dataframe qui se comporte comme
un dictionnaire dont les clefs sont les noms des colonnes et les valeurs sont des séries :
data = pd.read_excel(‘titanic3.xls’)
5. Si c’est nécessaire, installer la bibliothèque openpyxl (sous Windows) ou xlrd (sous

MacOS) pour lire les fichiers excel.
6. Affichage du Dataset ou d’une colonne de ce Dataset :

print(data)
print(data[‘age’])
1
III Analyse des données (Data Science)
7. Observation du Dataset :
data.shape
data.columns
data.head()
8. Statistiques sur les valeurs numériques

describe()
9. Comptage des valeurs d’une colonne (caractéristique) :

data['pclass'].value_counts()
10. Dessiner des graphiques du Dataset en utilisant la bibliothèque matplotlib.pyplot

data['pclass'].value_counts().plot.bar()
plt.show()
data['age'].plot.hist()
plt.show()
11. Sélection des attributs ou caractéristiques

print(data.groupby(['sex']).mean())
print(data.groupby(['sex','pclass']).mean())
IV Apprentissage automatique (Machine Learning)
12. Définition du dataframe

titanic = data[['survived', 'pclass', 'sex', 'age']]
print(titanic)
13. Eliminer du Dataset les colonnes inutiles dans l’analyse

titanic = titanic.dropna(axis=0)
print(titanic)
14. Remplacement des chaînes de caractères par des valeurs numériques :

titanic['sex'].replace(['male', 'female'], [0,1], inplace=True)
print(titanic)
print(titanic.head())
15. Modèle basé sur l'estimateur de classification du voisinage :

model = ks.KNeighborsClassifier()
16. Caractéristiques X et étiquètes y :

y = titanic['survived']
X = titanic.drop('survived', axis=1)
print(X)
print(y)
2
17. Apprentissage automatique :
model.fit(X,y) # entrainement le modèle sur les données
print(model.score(X,y)) # évaluation du modèle
print(model.predict(X)) # utilisation du modèle
18. Soit la méthode suivante :

def survivre(model, pclass, sex, age):
x = np.array([pclass, sex, age]).reshape(1,3)
print("prédiction=",model.predict(x))
print("probabilité=",model.predict_proba(x))
19. Prédictions à l’aide de l’apprentissage automatique :

survivre(model,2,0,62)

Matplotlib - Pyplot Pour Dessiner Des Graphiques. Il S'agit Dans Ce TP, de Suivre Les Étapes, Les Exécuter Et D'interpréter Les Résultats

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Matplotlib - Pyplot Pour Dessiner Des Graphiques. Il S'agit Dans Ce TP, de Suivre Les Étapes, Les Exécuter Et D'interpréter Les Résultats

Transféré par

Droits d'auteur :

Formats disponibles

Ecole Mohammadia d’Ingénieurs

TP : Data Science et machine Learning

I Téléchargement du Dataset et importation/installation des bibliothèques

1. Télécharger le Dataset du Titanic et le mettre dans le projet courant de Pycharm avec

II Chargement et affichage du Dataset

5. Si c’est nécessaire, installer la bibliothèque openpyxl (sous Windows) ou xlrd (sous

6. Affichage du Dataset ou d’une colonne de ce Dataset :

8. Statistiques sur les valeurs numériques

9. Comptage des valeurs d’une colonne (caractéristique) :

10. Dessiner des graphiques du Dataset en utilisant la bibliothèque matplotlib.pyplot

11. Sélection des attributs ou caractéristiques

IV Apprentissage automatique (Machine Learning)

12. Définition du dataframe

13. Eliminer du Dataset les colonnes inutiles dans l’analyse

14. Remplacement des chaînes de caractères par des valeurs numériques :

15. Modèle basé sur l'estimateur de classification du voisinage :

16. Caractéristiques X et étiquètes y :

18. Soit la méthode suivante :

19. Prédictions à l’aide de l’apprentissage automatique :

Vous aimerez peut-être aussi