Vous êtes sur la page 1sur 3

Ecole Mohammadia d’Ingénieurs

TP : Data Science et machine Learning


Analyse des passagers du Titanic

Nous allons analyser dans ce travail les données des passagers du paquebot Titanic qui a fait
naufrage dans l’océan Atlantique Nord en 1912 à la suite d’une collision avec un iceberg.
Pour cela, nous allons utiliser pandas une bibliothèque Python d’analyse et de manipulation
des données (inspection, modification et statistiques) et sklearn une bibliothèque pour
l’apprentissage automatique. Nous utiliserons également la bibliothèque numpy pour la
manipulation des tableaux multidimensionnels et leurs opérations ainsi que la bibliothèque
matplotlib.pyplot pour dessiner des graphiques.

Il s’agit dans ce TP, de suivre les étapes, les exécuter et d’interpréter les résultats.

I Téléchargement du Dataset et importation/installation des bibliothèques

1. Télécharger le Dataset du Titanic et le mettre dans le projet courant de Pycharm avec


l’extension xlsx. Il peut être récupéré du lien (avec un click si vous avez la version
électronique de ce TP) : https://github.com/MachineLearnia/Python-Machine-
Learning/blob/master/Dataset/titanic3.xls

2. Importer les modules suivants et les renommer afin de simplifier leur utilisation :
import pandas as pd
import sklearn.neighbors as sk
import numpy as np
import matplotlib.pyplot as plt

3. Si ces bibliothèques ne sont pas encore installées, vous pourriez le faire de trois
manières différentes :
• Dans l’éditeur se positionner sur la bibliothèque et lancer install package.
• Lancer File/Settings/Python Interpreter (sous Windows) ou
Pycharm/Preferences/Python Interpreter (sous MacOS), puis cliquer sur le symbole
+ puis spécifier la bibliothèque.
• Lancer Tools/Python or Debug Console et lancer sur Terminal pip install
«bibliothèque».

II Chargement et affichage du Dataset

4. Chargement du Dataset dans la variable data qui est un dataframe qui se comporte comme
un dictionnaire dont les clefs sont les noms des colonnes et les valeurs sont des séries :
data = pd.read_excel(‘titanic3.xls’)

5. Si c’est nécessaire, installer la bibliothèque openpyxl (sous Windows) ou xlrd (sous


MacOS) pour lire les fichiers excel.

6. Affichage du Dataset ou d’une colonne de ce Dataset :


print(data)
print(data[‘age’])

1
III Analyse des données (Data Science)

7. Observation du Dataset :
data.shape
data.columns
data.head()

8. Statistiques sur les valeurs numériques


describe()

9. Comptage des valeurs d’une colonne (caractéristique) :


data['pclass'].value_counts()

10. Dessiner des graphiques du Dataset en utilisant la bibliothèque matplotlib.pyplot


data['pclass'].value_counts().plot.bar()
plt.show()
data['age'].plot.hist()
plt.show()

11. Sélection des attributs ou caractéristiques


print(data.groupby(['sex']).mean())
print(data.groupby(['sex','pclass']).mean())

IV Apprentissage automatique (Machine Learning)

12. Définition du dataframe


titanic = data[['survived', 'pclass', 'sex', 'age']]
print(titanic)

13. Eliminer du Dataset les colonnes inutiles dans l’analyse


titanic = titanic.dropna(axis=0)
print(titanic)

14. Remplacement des chaînes de caractères par des valeurs numériques :


titanic['sex'].replace(['male', 'female'], [0,1], inplace=True)
print(titanic)
print(titanic.head())

15. Modèle basé sur l'estimateur de classification du voisinage :


model = ks.KNeighborsClassifier()

16. Caractéristiques X et étiquètes y :


y = titanic['survived']
X = titanic.drop('survived', axis=1)
print(X)
print(y)

2
17. Apprentissage automatique :
model.fit(X,y) # entrainement le modèle sur les données
print(model.score(X,y)) # évaluation du modèle
print(model.predict(X)) # utilisation du modèle

18. Soit la méthode suivante :


def survivre(model, pclass, sex, age):
x = np.array([pclass, sex, age]).reshape(1,3)
print("prédiction=",model.predict(x))
print("probabilité=",model.predict_proba(x))

19. Prédictions à l’aide de l’apprentissage automatique :


survivre(model,2,0,62)
survivre(model,1,1,20)
survivre(model,3,0,70)

Vous aimerez peut-être aussi