Académique Documents
Professionnel Documents
Culture Documents
Master MLDS
Université ParisDescartes
Lazhar.labiod@parisdescartes.fr
1 Université de Paris
Déroulement du cours
2 Université de Paris
Objectif du cours
3 Université de Paris
Quelques Références
c Breiman L., Friedman J., Olshen R., Stone C., Classification and Regression Trees,
Chapman & Hall, 1984, 1993, 1998.
c Hardle W., Simar L., Applied Multivariate Statistical Analysis, Springer, 2003.
4 Université de Paris
Ressources
c Cours
c Machine Learning, Andrew Ng (Stanford University) :
https://www.coursera.org/course/ml
c WikiStat : http://wikistat.fr/
c Logiciels
c R + RStudio : http://www.rstudio.com/
c Python + scikit-learn : http://scikit-learn.org/
c Jeux de donnees
c UC Irvine Machine Learning Repository : http://archive.ics.uci.edu/ml/
c Challenges industriels
c Kaggle : https://www.kaggle.com/
c Datascience.net : https://datascience.net/
c Conferences
c ICML : http://icml.cc/
c NIPS : http://nips.cc/
5 Université de Paris
Plan du cours
c Introduction
• Définitions
• Données
• Démarche
• Méthodes
• Evaluation et comparaison de méthodes
• Exemples sous R
7 Université de Paris
Qu'est-ce que l'apprentissage automatique
c Arthur Samuel (1959) : "Domaine d‘ étude qui donne
aux ordinateurs la capacité d‘apprendre sans être
explicitement programmés".
8 Université de Paris
Notations
c x : variables explicatives (espace associé X)
c y : variable à expliquer (espace associé Y)
c un modèle f : une fonction de X dans Y
c f(x) est la prédiction/prévision du modèle pour l’entrée x
c l’ensemble des données à partir desquelles on construit le
modèle est l’ensemble d’apprentissage
c collisions Français et Anglais :
c Français Anglais
c Classification Clustering
c Classement Classification ou ranking
c Discrimination Classification
9 Université de Paris
Apprentissage supervisé
10
10 Université de Paris
Apprentissage supervise
c Ce sont des méthodes prédictives
c Classement : la variable a expliquer (ou cible , réponse, dépendante )
est qualitative
11 Université de Paris
Apprentissage supervisé vs non-supervisé
12 Université de Paris
Quelques exemples
c Reconnaissance de la parole
c Credit scoring
14 Paris
Université de Descartes
Paris
Présentation des données
c n individus, p variables (variables explicatives ou co-variables), 1
variable qualitative (variable expliquée ou label).
c A chaque individu i sont associées p valeurs x1i , . . ., xpi ,
correspondant aux valeurs prises par les variables explicatives X1i , .
. . ,Xpi , et une valeur yi, correspondant à la valeur prise par la
variable expliquée Yi. Les couples (Xi, Yi), (i=1,..,n) sont supposés
indépendants.
c • Présentation sous forme de tableau à double entrée, avec en général
la variable expliquée sur la première colonne :
15
15 Université Paris
Université de Descartes
Paris
Objectif
16 Paris
Université de Descartes
Paris
Une variable Y à expliquer
c Le tableau de données contient une variable particulière Y qui
doit être expliqué (ou prédite) en termes des autres variables
Xi
c Y est une variable catégorielle => problème de classification
supervisée (discrimination)
c Y est une variable numérique => problème de régression
classification
régression
17 Université de Paris
Deux aspects : descriptive vs prédictive
c Il y a deux aspects principaux:
c - Un aspect descriptif: le modèle tente d'expliquer Y (la réponse ou
la cible, la variable dépendante) en termes de variables aléatoires
xi et leurs réalisations (les données disponibles)
18 Université de Paris
On cherche un modèle fiable
c L'objectif de la classification supervisée est principalement de définir des règles
permettant de classer des objets dans des classes à partir de variables
qualitatives ou quantitatives caractérisant ces objets. Les méthodes
s'étendent souvent à des variables Y quantitatives (régression).
c Il est nécessaire d'étudier la fiabilité de ces règles pour les comparer et les
appliquer, évaluer les cas de sous apprentissage ou de sur apprentissage
(complexité du modèle). On utilise souvent un deuxième échantillon
indépendant, dit de validation ou de test.
19 Université de Paris
Sur-apprentissage en régression
20
20 Université de Paris
Sur-apprentissage en classification
21 Université de Paris
Taux d’ erreur en fonction de la complexité
du modèle
22 Université de Paris
Démarche
23 Université de Paris
Quatre étapes
c Apprentissage : construction du modèle sur un 1er échantillon
pour lequel on connait la valeur de la variable a expliquer
24 Université de Paris
Démarche
25 Université de Paris
Démarche
c On dispose de différentes stratégies d'apprentissage :
26 Université de Paris
Méthodes
27 Université de Paris
Quelques méthodes classiques
c Régression logistique
c Sans hypothèse sur les lois Xi/Y, Xi peut être discret, nécessaire absence
de colinéarité entre les Xi
c Méthode très souvent performante
c Méthode la plus utilisée en scoring
c Arbres de décision
c Règles complètement explicites
c Traitent les données hétérogènes, éventuellement manquantes, sans
hypothèses de distribution
c Détection d’interactions et de phénomènes non linéaires
c Mais moindre robustesse
28 Université de Paris
Quelques méthodes classiques
29 Université de Paris
Evaluation et comparaison de méthodes
30 Université de Paris
Evaluation des méthodes de Classification
c Taux de bon classement: le taux d’erreur doit être le plus bas
possible, et l’aire sous la courbe ROC la plus proche possible
de 1
31 Université de Paris
Evaluation des méthodes de Classification
c Des résultats explicites : les règles du modelé doivent être
accessibles et compréhensibles
32 Université de Paris
Comparaison de méthodes
c Comment comparer différentes méthodes de classification supervisée?
c On utilisera un échantillon test : le taux de bon classement sera évalué sur un
échantillon test n’ayant pas servi à estimer les règles de classement (découpage éch.
existant en 2/3 apprentissage 1/3 test)
c la prédiction de la classe du ième individu est obtenue sans utiliser cet individu pour
estimer les paramètres du modèle
33 Université de Paris
Comparaison de méthodes
34 Université de Paris
Matrice de Confusion
Prédit Total
Y=0 Y=1
Y=0 VN FP N
Réel Y=1 FN VP P
Total N1 P1 n
VP VN
Se(s)= . 1Sp(s)=1 .
VP+FN VN+FP
35 Université de Paris
Taux de bon classement (accuracy)
VP VN
accuracy = .
VP + FN VN FP
VP VN
erreur = 1 . erreur 1 accuracy
VP + FN VN FP
36 Université de Paris
Sensibilité et Spécificité
c Sensibilité = capacité à diagnostiquer les malades parmi les
malades
37 Université de Paris
Mesures de précision et de rappel
VP VP
p= . r= .
VP+FP VP+FN
38 Université de Paris
Un exemple
39 Université de Paris
Courbe ROC
40
40 Université de Paris
r ROC – The receiver operating curve, also noted ROC, is the plot of TPR versus FPR by
varying the threshold. These metrics are are summed up in the table below:
r Confusion matrix – The confusion matrix is used to have a more complete picture when
assessing the performance of a model. It is defined as follows:
Predicted class
+ –
TP FN
+ False Negatives Regression
True Positives
Type II error r Basic metrics – Given a regression model f , the following metrics are commonly used to
Actual class assess the performance of the model:
FP TN
– False Positives Total sum of squares Explained sum of squares Residual sum of squares
True Negatives
Type I error m
X m
X m
X
SStot = (yi − y)2 SSreg = (f (xi ) − y)2 SSres = (yi − f (xi ))2
r Main metrics – The following metrics are commonly used to assess the performance of
i=1 i=1 i=1
classification models:
r Model selection – Train model on training set, then evaluate on the development set, then
pick best performance model on the development set, and retrain all of that model on the whole
training set.
r Cross-validation – Cross-validation, also noted CV, is a method that is used to select a
model that does not rely too much on the initial training set. The different types are summed
up in the table below:
Diagnostics
k-fold Leave-p-out
r Bias – The bias of a model is the difference between the expected prediction and the correct
- Training on k − 1 folds and - Training on n − p observations and model that we try to predict for given data points.
assessment on the remaining one assessment on the p remaining ones
r Variance – The variance of a model is the variability of the model prediction for given data
- Generally k = 5 or 10 - Case p = 1 is called leave-one-out points.
r Bias/variance tradeoff – The simpler the model, the higher the bias, and the more complex
The most commonly used method is called k-fold cross-validation and splits the training data the model, the higher the variance.
into k folds to validate the model on one fold while training the model on the k − 1 other folds,
all of this k times. The error is then averaged over the k folds and is named cross-validation
error.
Underfitting Just right Overfitting
- High training error - Training error - Low training error
Symptoms - Training error close slightly lower than - Training error much
to test error test error lower than test error
- High bias - High variance
Regression
r Regularization – The regularization procedure aims at avoiding the model to overfit the
data and thus deals with high variance issues. The following table sums up the different types
of commonly used regularization techniques:
Classification