Académique Documents
Professionnel Documents
Culture Documents
2 Régression Linéaire 8
2.1 La méthode du Gradient Descent . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Modèle de régression linéaire simple : Rappel . . . . . . . . . . . . 8
2.1.2 Implémentation du Gradient Descent . . . . . . . . . . . . . . . . 11
2.1.3 Fonction coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.4 Modèle de régression de type polynomiale . . . . . . . . . . . . . . 20
2.2 Régression linéaire avec sklearn . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1 Gradient Descent sous sklearn . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Méthode des équations normales . . . . . . . . . . . . . . . . . . . 28
i
4 Naive Bayes Classifier 47
4.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.1 Tableau de données . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2 Préprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.1.3 Train set - Test set . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Implémentation de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.1 Instanciation et entrainement . . . . . . . . . . . . . . . . . . . . . 49
4.2.2 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.3 GaussianNB avec probabilités à priori égales . . . . . . . . . . . . 50
5 Arbres de décision 52
5.1 Discrimination par arbre . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.2 Principe de la segmentation . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Construction et représentation d’un arbre avec scikit-learn . . . . . . . . 54
5.2.1 Donéees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.2 Instanciation et modélisation . . . . . . . . . . . . . . . . . . . . . 56
5.2.3 Importance des variables . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.4 Evaluation en test . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.5 Modification des paramètres d’apprentissage . . . . . . . . . . . . 61
6 Comparaison de méthodes 63
6.1 Régression logistique avec LogisticRegression . . . . . . . . . . . . . . . . 63
6.1.1 Le module LogisticRegression . . . . . . . . . . . . . . . . . . . . . 63
6.1.2 Quelques indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1.3 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.1.4 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 Régression logistique avec SGDClassifier . . . . . . . . . . . . . . . . . . 71
6.2.1 Le classifieur SGDClassifier . . . . . . . . . . . . . . . . . . . . . . 71
6.2.2 Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.2.3 Courbe LIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
ii
7.2.1 Représentation des individus . . . . . . . . . . . . . . . . . . . . . 84
7.2.2 Représentation des variables . . . . . . . . . . . . . . . . . . . . . 90
7.2.3 Traitement des individus et variables illustratifs . . . . . . . . . . 93
Bibliographie 100
iii
Introduction au Machine Learning :
Application sous Python