Vous êtes sur la page 1sur 6

Application sous Python

Duvérier DJIFACK ZEBAZE


Introduction au Machine Learning
Application sous Python

Duvérier DJIFACK ZEBAZE


Table des matières

1 Initiation au Machine Learning 1


1.1 Qu’est - ce que le machine learning ? . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Comment apprendre ? . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Apprentissage supervisé : les 4 notions fondamentales . . . . . . . 5
1.2 Machine learning avec sklearn . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Régression Linéaire 8
2.1 La méthode du Gradient Descent . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Modèle de régression linéaire simple : Rappel . . . . . . . . . . . . 8
2.1.2 Implémentation du Gradient Descent . . . . . . . . . . . . . . . . 11
2.1.3 Fonction coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.4 Modèle de régression de type polynomiale . . . . . . . . . . . . . . 20
2.2 Régression linéaire avec sklearn . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1 Gradient Descent sous sklearn . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Méthode des équations normales . . . . . . . . . . . . . . . . . . . 28

3 K Nearest Neighbors (KNN) 33


3.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.1 Tableau des données . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.2 Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.3 Train set - Test set . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Mise en oeuvre de l’algorithme KNN . . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Algorithme KNN et entraînement . . . . . . . . . . . . . . . . . . . 37
3.2.2 Échantillon de validation . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.3 Les courbes d’apprentissage . . . . . . . . . . . . . . . . . . . . . . 46

i
4 Naive Bayes Classifier 47
4.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.1 Tableau de données . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2 Préprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.1.3 Train set - Test set . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Implémentation de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.1 Instanciation et entrainement . . . . . . . . . . . . . . . . . . . . . 49
4.2.2 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.3 GaussianNB avec probabilités à priori égales . . . . . . . . . . . . 50

5 Arbres de décision 52
5.1 Discrimination par arbre . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.2 Principe de la segmentation . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Construction et représentation d’un arbre avec scikit-learn . . . . . . . . 54
5.2.1 Donéees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2 Instanciation et modélisation . . . . . . . . . . . . . . . . . . . . . 56
5.2.3 Importance des variables . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.4 Evaluation en test . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.5 Modification des paramètres d’apprentissage . . . . . . . . . . . . 61

6 Comparaison de méthodes 63
6.1 Régression logistique avec LogisticRegression . . . . . . . . . . . . . . . . 63
6.1.1 Le module LogisticRegression . . . . . . . . . . . . . . . . . . . . . 63
6.1.2 Quelques indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1.3 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.1.4 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 Régression logistique avec SGDClassifier . . . . . . . . . . . . . . . . . . 71
6.2.1 Le classifieur SGDClassifier . . . . . . . . . . . . . . . . . . . . . . 71
6.2.2 Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.2.3 Courbe LIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

7 Analyse en Composantes Principales 78


7.1 Données et problématique de l’étude . . . . . . . . . . . . . . . . . . . . . 79
7.1.1 Description des données . . . . . . . . . . . . . . . . . . . . . . . . 79
7.1.2 Mise en œuvre de l’ACP avec scientisttools . . . . . . . . . . . . . . 80
7.2 Outils pour l’interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . 84

ii
7.2.1 Représentation des individus . . . . . . . . . . . . . . . . . . . . . 84
7.2.2 Représentation des variables . . . . . . . . . . . . . . . . . . . . . 90
7.2.3 Traitement des individus et variables illustratifs . . . . . . . . . . 93

Bibliographie 100

iii
Introduction au Machine Learning :
Application sous Python

L’apprentissage automatique est considéré comme un sous – ensemble de


l’intelligence artificielle qui s’intéresse principalement au développement
d’algorithmes permettant à un ordinateur d’apprendre par lui – même à
partir de données et d’expériences passées.

Cet ouvrage présente des techniques liées au Machine Learning. Il met


l’accent sur les méthodes basiques indispensables à tout étudiant ou tout
praticien désireux d’appliquer les méthodes du Méthode Learning. Il
s’adresse aux étudiants de Licence et Master de mathématiques appliquées,
d’économie et d’économétrie, ainsi qu’aux élèves des écoles d’ingénieurs.

Duvérier DJIFACK ZEBAZE est ingénieur en Data Science et gestion des


risques de l’école nationale de la statistique et de l’analyse de l’information
(ENSAI) de Rennes en France et Ingénieur Statisticien Economiste (ISE) de
l’école nationale de la statistique et de l’analyse économique (ENSAE) de
Dakar au Sénégal. Par ailleurs, il est titulaire d’un master recherche en
économie quantitative obtenu à la faculté des sciences économiques et de
gestion appliquée de l’Université de Douala au Cameroun. Sa carrière débute
en tant qu’ingénieur quantitatif au sein de l’équipe de modélisation de la
Business Unit GLBA (Global Banking and Advisory) du groupe Société
Générale.

Vous aimerez peut-être aussi