Académique Documents
Professionnel Documents
Culture Documents
Nous allons analyser dans ce travail les données des passagers du paquebot Titanic qui a fait
naufrage dans l’océan Atlantique Nord en 1912 à la suite d’une collision avec un iceberg.
Pour cela, nous allons utiliser pandas une bibliothèque Python d’analyse et de manipulation
des données (inspection, modification et statistiques) et sklearn une bibliothèque pour
l’apprentissage automatique. Nous utiliserons également la bibliothèque numpy pour la
manipulation des tableaux multidimensionnels et leurs opérations ainsi que la bibliothèque
matplotlib.pyplot pour dessiner des graphiques.
Il s’agit dans ce TP, de suivre les étapes, les exécuter et d’interpréter les résultats.
2. Importer les modules suivants et les renommer afin de simplifier leur utilisation :
import pandas as pd
import sklearn.neighbors as sk
import numpy as np
import matplotlib.pyplot as plt
3. Si ces bibliothèques ne sont pas encore installées, vous pourriez le faire de trois
manières différentes :
• Dans l’éditeur se positionner sur la bibliothèque et lancer install package.
• Lancer File/Settings/Python Interpreter (sous Windows) ou
Pycharm/Preferences/Python Interpreter (sous MacOS), puis cliquer sur le symbole
+ puis spécifier la bibliothèque.
• Lancer Tools/Python or Debug Console et lancer sur Terminal pip install
«bibliothèque».
4. Chargement du Dataset dans la variable data qui est un dataframe qui se comporte comme
un dictionnaire dont les clefs sont les noms des colonnes et les valeurs sont des séries :
data = pd.read_excel(‘titanic3.xls’)
1
III Analyse des données (Data Science)
7. Observation du Dataset :
data.shape
data.columns
data.head()
2
17. Apprentissage automatique :
model.fit(X,y) # entrainement le modèle sur les données
print(model.score(X,y)) # évaluation du modèle
print(model.predict(X)) # utilisation du modèle