Apprentissage Supervisé - Introduction - vf23

Apprentissage supervisé
Master MLDS
Université ParisDescartes
Lazhar.labiod@parisdescartes.f
1 Université de Paris
Déroulement du cours
❑8 Séances de cours/ TP (3h/Séance)

❑ Présentation de plusieurs modèles/algorithmes pour
l'apprentissage supervisé
❑ Application de ces algorithmes sur différents jeux
de données réelles
❑ TP sous R/Python
❑ Evaluation
❑ Projet sur données réelles
Objectif du cours
❑ Initier
les étudiants aux méthodes d’apprentissage
supervisé et leurs mises en application sous
R/Python. ❑ à l’issue du cours, l’étudiant doit
❑Connaître le principe de base et les limites des
différentes méthodes
❑ Savoir les mettre en œuvre
❑ Savoir interpréter les résultats
❑ Savoir choisir la méthode la plus adaptée à l’objectif de l’étude et
à la nature des données
Quelques Références
c Larry Wasserman (2004). All of statistics - A concise course in Statistical Inference

Springer Texts in Statistics. http://www.stat.cmu.edu/~larry/all-of-statistics/
c Trevor Hastie, Robert Tibshirani et Jerome Friedman (2009). The Elements of

Statistical Learning Springer Series in Statistics.
http://statweb.stanford.edu/~tibs/ElemStatLearn/
c Christopher M. Bishop (2009). Pattern recognition and machine learning. Springer.

http://research.microsoft.com/en-us/um/people/cmbishop/prml/
c BreimanL., Friedman J., Olshen R., Stone C., Classification and Regression Trees,
Chapman & Hall, 1984, 1993, 1998.
c Tufféry S., Data Mining et statistique décisionnelle, Technip, 2005. c
Hardle W., Simar L., Applied Multivariate Statistical Analysis, Springer, 2003. c
Saporta G., Probabilit és, ADD et statistique, Technip, 1990.
Ressources
c Cours
c Machine Learning, Andrew Ng (Stanford University) :
https://www.coursera.org/course/ml
c WikiStat : http://wikistat.fr/
c Logiciels
cR + RStudio : http://www.rstudio.com/
c Python + scikit-learn : http://scikit-learn.org/
c Jeux de donnees
c UC Irvine Machine Learning Repository : http://archive.ics.uci.edu/ml/
c Challenges industriels
c Kaggle: https://www.kaggle.com/
c Datascience.net : https://datascience.net/
c Conferences
c ICML : http://icml.cc/
c NIPS : http://nips.cc/
Plan du cours
c Introduction
• Définitions
• Données
• Démarche
• Méthodes
• Evaluationet comparaison de méthodes
• Exemples sous R
• Fonctions discriminantes - cas gaussien

• Méthodes de classification supervisée
o Analyse Discriminante, LDA,QDA, FDA
o Régression Logistique
o Arbre de décision
o SVM, KNN, BN
• Régression linéaire simple – multiple -
régularisée • Méthodes d'ensemble
• Données déséquilibrées
• Projet
Généralités - Rappels 7 Université de Paris
Qu'est-ce que l'apprentissage automatique

c Arthur Samuel (1959) : "Domaine d‘ étude qui donne
aux ordinateurs la capacité d‘apprendre sans être
explicitement programmés".
c Tom M. Mitchell (1997):"On dit qu'un programme

informatique apprend de l‘ expérience E par rapport a un type
de tâches T et une mesure de P, si sa
performance
performance aux tâches de T, telle par P, s‘
que mesurée
améliore avec l‘ expérience E".
c En quelques mots
c 1. observations d’unphénomène
c 2. construction d’un modèle de cephénomène
c 3. prévisions et analyse du phénomène grâce au modèle
c le tout automatiquement (sans intervention humaine)
Notations
cx : variables explicatives (espace associé X)
c y : variable à expliquer (espace associé Y)
c un modèle f : une fonction de X dans Y

c f(x) est la prédiction/prévision du modèle pour l’entrée x c
l’ensemble des données à partir desquelles on construit le
modèle est l’ensemble d’apprentissage
c collisions Français et Anglais :
c Français
Anglais
c Classification c Classement c Clustering
Discrimination Classification ou ranking Classification
Apprentissage supervisé
c Objectifs : A partir d’un ensemble d’observation X= {x1,x2,.., xn} et de

mesures Y= {yi}, on cherche à estimer les dépendances entre l’ensemble
X et Y.
c Exemple : on cherche à estimer les liens entre les habitudes

alimentaires et le risque d’infarctus. xi est un patient décrit par p
caractéristiques concernant son régime et yi une catégorie (risque, pas
risque).
c Onparle d’apprentissage supervisé car les yi permettent de guider le
processus d’estimation
c Exemples de méthodes : Méthode du plus proche voisin, réseaux de

neurones, Séparateurs à Vastes Marges etc..
c Exemples d’applications : détection de fraude, marketing téléphonique,
changement d’opérateurs téléphonique etc...
10
Apprentissage supervise
c Ce sont des méthodes prédictives
c Classement : la variable a expliquer (ou cible , réponse, dépendante )
est qualitative
c on parle aussi de classification (en anglais) ou discrimination c

Prédiction : la variable a expliquer est quantitative
c on parle aussi de régression
c exemple : le prix d’un appartement (en fonction de sa superficie,

de l’ étage et du quartier)
c Scoring : classement applique a une problématique d’entreprise
(variable a expliquer souvent binaire)
c chaque individu est affecté a une classe (risque ou non risque, par
exemple) en fonction de ses caractéristiques
Apprentissage supervisé vs non-supervisé
c Apprentissage supervisé pour les n individus.

(Classement) expliquée est connue : la variable k classes sont
construites suivant les modalités des p+1 variables en
présence afin d’affecter une valeur à la variable expliquée
lorsque celle-ci est inconnue (prédicteur).
c• Remarque : la différence entre classification et régression vient du type

du caractèreY :
c Classification :Y est qualitative ou quantitative discrète.
c Régression :Y est quantitative continue.
c Les deux cas utilisent des méthodes quelque peu différentes.
c Apprentissage non-supervisé (Classification) : pas de variable
expliquée. k classes sont construites suivant les modalités des p variables
explicatives afin de représenter les données.
Quelques exemples
c Reconnaissance de la parole
c Identification d’empreinte digitale
c Identification de séquences ADN
c Credit scoring
c prédire l’achat d’un produit ou service

c prédire les impayés ou la fraude
c prédire en temps réel les impayés
c prédire le départ du client vers un concurrent
c Enmédecine : diagnostic (bonne santé: oui / non) en fonction du dossier du
patient et des analyses médicales
c Courriels: spam (oui / non) en fonction des caractéristiques du message
(fréquence des mots…)
Données
14 Université de Paris Université Paris Descartes
Présentation des données

cn individus, p variables (variables explicatives ou co-variables), 1 variable
qualitative (variable expliquée ou label).
cA chaque individu i sont associées p valeurs x1i , . . ., xpi , correspondant
aux valeurs prises par les variables explicatives X1i , . . . ,Xpi , et une
valeur yi, correspondant à la valeur prise par la variable expliquée Yi.
Les couples (Xi, Yi), (i=1,..,n) sont supposés indépendants.
c• Présentation sous forme de tableau à double entrée, avec en général la
variable expliquée sur la première colonne :
15 Université Paris Descartes

Objectif
16 Université de Paris Université Paris Descartes
Une variable Y à expliquer

c Letableau de données contient une variable particulière Y qui
doit être expliqué (ou prédite) en termes des autres variables
Xi
cY est une variable catégorielle => problème de classification
supervisée (discrimination)
c Y est une variable numérique => problème de régression
classification
régression
Deux aspects : descriptive vs prédictive

c Il y a deux aspects principaux:
c- Un aspect descriptif: le modèle tente d'expliquer Y (la réponse ou
la cible, la variable dépendante) en termes de variables aléatoires
xi et leurs réalisations (les données disponibles)
c- Un aspect prédictif: le modèle tente de prédire la valeur de Y en

termes de variables aléatoires Xi; données dans le vecteur
d'observations x = [x1, x2, ..., xp] T
c La valeur prédite fournie par le modèle sera notée y

c Label yi connu pour toutes les données xi.
c Problème : prévoir une sortie y pour toute nouvelle entrée x = (x1, . . . ,
xp).
c Méthode : Apprendre un prédicteur f sur les données connues afin
d’assigner le label y=f(x) à toute nouvelle entrée x.
On cherche un modèle fiable

c L'objectif de la classification supervisée est principalement de définir des règles
permettant de classer des objets dans des classes à partir de variables
qualitatives ou quantitatives caractérisant ces objets. Les méthodes s'étendent
souvent à des variables Y quantitatives (régression).
c On dispose au départ d'un échantillon dit d'apprentissage dont le classement

est connu. Cet échantillon est utilisé pour l'apprentissage des règles de
classement.
c Il est nécessaire d'étudier la fiabilité de ces règles pour les comparer et les
appliquer, évaluer les cas de sous apprentissage ou de sur apprentissage
(complexité du modèle). On utilise souvent un deuxième échantillon
indépendant, dit de validation ou de test.
19 Université de
Paris
Sur-apprentissage en régression
c Un modèle trop poussé dans la phase d’apprentissage : c épousetoutes
les fluctuations de l’ échantillon d’apprentissage, c détecte ainsi de fausses liaisons,
c et les applique a tort sur d’autres échantillons
c On parle de sur-apprentissage ou sur-ajustement 20 Université de Paris 20
Sur-apprentissage en classification
21
Université de Paris
Taux d’ erreur en fonction de la complexité du

modèle
22
Université de Paris
Démarche
Quatre étapes
c Apprentissage : construction du modèle sur un 1er échantillon
pour lequel on connait la valeur de la variable a expliquer
c Test : vérification du modèle sur un 2d échantillon pour lequel on

connait la valeur de la variable a expliquer, que l’on compare a la
valeur prédite par le modèle
c si le résultat du test est insuffisant (d’ après la matrice de confusion ou la
courbe ROC), on recommence l’apprentissage
c Validation du modèle sur un 3e échantillon, éventuellement ≪ out

of time ≫, pour avoir une idée du taux d’erreur non biaise du
modèle
c Application du modèle a l’ensemble de la population c Application

du meilleur modèle pour les nouveaux cas: {(xi,?)} (yi inconnue) =
Phase de production
Démarche
Démarche
c On dispose de différentes stratégies d'apprentissage :
c• Règle majoritaire : à tout objet, on associe la classe k telle que
P(k) est maximale.
c• Règle du maximum de vraisemblance : à tout objet on associe k

telle que P(d/k) maximale.
c• Règle de Bayes : à tout objet on associe k telle que P(k/d)

maximale.
Méthodes
27 Université de Paris 27
Quelques méthodes classiques
c Analyse discriminante linéaire

c Résultat
explicite P(Y/ X1,… ,Xp) sous forme d’une formule c
Requiert des Xi continues et des lois Xi/Y multi-normales et
homoscédastiques (attention aux individus hors norme)
c Optimale si les hypothèses sont remplies
c Régression logistique
c Sans hypothèse sur les lois Xi/Y, Xi peut être discret, nécessaire absence de
colinéarité entre les Xi
c Méthode très souvent performante
c Méthode la plus utilisée en scoring
c Arbres de décision
c Règles complètement explicites
c Traitent les données hétérogènes, éventuellement manquantes, sans
hypothèses de distribution
c Détection d’interactions et de phénomènes non linéaires
c Mais moindre robustesse
Quelques méthodes classiques
cK plus proche voisins (KNN)

c choix de K crucial : CV, AUC, éch. test...
c plus n est grand, plus on peut se permettre de prend un K grand
c Séparateurs à Vastes Marges (SVM)

c Efficace dans de nombreux domaines d’application c
Utilise l’astuce noyau
c Un bon paramétrage est nécessaire
Evaluation et comparaison de méthodes 30 Université de
Paris
Evaluation des méthodes de Classification

c Tauxde bon classement: le taux d’erreur doit être le plus bas
possible, et l’aire sous la courbe ROC la plus proche possible
de 1
c La
robustesse : la méthode être le moins sensible possible
aux fluctuations aléatoires d’apprentissage utilisé et
de certaines variables et aux échantillons
valeurs manquantes, ne pas dépendre de l’échantillon bien
se généraliser a d’autres
c La concision : les règles du modèle doivent être les plus
simples et les moins nombreuses possible
Evaluation des méthodes de Classification

c Des résultats explicites : les règles du modelé doivent être
accessibles et compréhensibles
c La diversité des types de données manipulées : toutes les

méthodes ne sont pas aptes a traiter les données qualitatives,
discrètes, continues et… manquantes
c La rapidité de calcul du modèle : un apprentissage trop long

limite le nombre d’essais possibles
c Les possibilités de paramétrage : dans un classement, il est

parfois intéressant de pouvoir pondérer les erreurs de
classement, pour signifier, par exemple, qu’il est plus grave de
classer un patient malade en ≪ non-malade ≫ que l’inverse
Comparaison de méthodes
c Comment comparer différentes méthodes de classification supervisée?
c On utilisera un échantillon test : le taux de bon classement sera évalué sur un
échantillon test n’ayant pas servi à estimer les règles de classement (découpage éch.
existant en 2/3 apprentissage 1/3 test)
c la validation croisée (cross validation - CV) Leave One Out
c la prédiction de la classe du ième individu est obtenue sans utiliser cet individu pour
estimer les paramètres du modèle
c la validation croisée K-fold où l’échantillon d’apprentissage est découpé en K partie,

chaque partie servant tour à tour d’échantillon test (leave one out = n-fold)
c un critère de choix de modèles (BIC) pour les méthodes probabilistes

Comparaison de méthodes
c Comment comparer
différentes méthodes de classification
supervisée ?
c Les pièges à éviter

c erreur apparente : comparer des méthodes en terme de taux de
bon classement sur l’échantillon d’apprentissage ayant servi à
estimer les paramètres favorisera toujours les méthodes les
plus complexes.
c Dans la classification des données déséquilibrées , par exemple,

intrusions sur un réseau ou la détection de fraudes financières,
on s’intéresse seulement à la classe minoritaire. Un taux de
bon classement élevé ne signifie pas que toute intrusion est
détectée.
c Par exemple, si on a 1% d’intrusions. On obtient 99% de taux de

bon classement (sans rien faire).
Matrice de Confusion
Prédit Total
Y=0 Y=1
Réel Y=0 VN FP N
Y=1 FN VP P
Total N1 P1 n
c Positif: relatif à une modalité de référence (Z = 1, malade, achat...)

c s : seuil tel que Y = 1 si p(Y = 1)>= s
c Se(s) : sensibilité (taux de vrais positifs)

c 1-Sp(s) = : 1-spécificité (taux de faux positifs)
VP VN
Se(s)= . 1−Sp(s)=1−
.
VP+FN VN+ FP
Taux de bon classement (accuracy)
VP +VN
accuracy= .
VP+ FN +VN + FP
erreur =1− VP+ FN +VN + FP . erreur = 1− accuracy
VP +VN
Sensibilité et Spécificité
c Sensibilité = capacité à diagnostiquer les malades parmi les malades
c Spécificité = capacité à reconnaître les non-malades parmi les non-

malades
c1- Spécificité = risque de diagnostiquer un malade chez les non-

malades.
Trouver un compromis acceptable

entre forte sensibilité et forte spécificité. 37 Université de Paris
Mesures de précision et de rappel

p= VP . r= VP .
VP+FP VP+ FN
c Précision p : est le nombre d'exemples positifs correctement

classés divisé par le nombre total d'exemples qui sont classés
comme positifs.
c Rappel r : est le nombre d'exemples positifs correctement
classés, divisé par le nombre total d'exemples positifs réels
dans l'ensemble de test.
Un exemple
c Cettematrice de confusion donne
p = précision de 100% et
rappel r = 1%
c Parceque un seul exemple positif a été classé correctement et

pas d'exemples négatifs mal classés.
c Remarque: la précision et le rappel mesurent uniquement la

classification de la classe positive.
Courbe ROC
c sur l’axe Y
: sensibilité = Se(s)
c sur l’axe X : 1 - spécificité = 1 - Sp(s)
c proportion y de vrais positifs en fonction de la proportion x de faux c positifs,

lorsque l'on fait varier le seuil s du score
c Aire AUC sous la courbe
c AUC = 0,5 ⇒ modèle pas meilleur qu'une notation aléatoire 40 Université de Paris 40
Metrics
Given a set of data points {x(1), ..., x(m)}, where each x(i) has n features, associated to a set of outcomes {y(1), ..., y(m)}, we want to assess a given classifier that learns how to predict y from x.
Classification
In a context of a binary classification, here are the main metrics that are important to track to assess the performance of the model.
❒ Confusion matrix – The confusion matrix is used to have a more complete picture when assessing the performance of a model. It is defined as follows:
Predicted class
+–
❒ ROC – The receiver operating curve, also noted ROC, is the plot of TPR versus FPR by varying the threshold. These metrics are are summed up in the table below:
Metric Formula Equivalent
True Positive TP Recall, sensitivity

Rate TPR TP + FN
False Positive FP 1-specificity

Rate FPR TN + FP
❒ AUC – The area under the receiving operating curve, also noted AUC or AUROC, is the area below the ROC as shown in the following figure:
Actual class
TP FN
False
True Positives
Negatives
Type II error
FP TN
False
True Negatives
Positives
Type I error
–
Regression
❒ Basic metrics – Given a regression model f, the following metrics are commonly used to assess the performance of the model:
Total sum of squares Explained sum of squares Residual sum of squares
Xm Xm Xm
2 2
(yi − y) (f(xi) − y) (yi − f(xi))2
SStot = SSreg = SSres =
i=1 i=1 i=1
❒ Main metrics – The following metrics are commonly used to assess the performance of classification models:
Metric Formula Interpretation
Accuracy TP + TN Overall performance of model

TP + TN + FP + FN
Precision TP How accurate the positive predictions are

TP + FP
Recall TP Coverage of actual positive sample
Sensitivity TP + FN
Specificity TN Coverage of actual negative sample

TN + FP
F1 score 2TP Hybrid metric useful for unbalanced classes

2TP + FP + FN
❒ Coefficient of determination – The coefficient of determination, often noted R2 or r2, provides a measure of how well the observed outcomes are replicated by the model and is defined as follows:
R2 = 1 −SSres
S
St
ot
regression models, by taking into account the number of variables n that they take into consid
❒ Main metrics – The following metrics are commonly used to assess the performance of eration:
Mallow’s Cp AIC BIC Adjusted R2
SSres + 2(n + log(m)(n + 2) − 2 log(L) 2

1 −(1 − R )(m − 1)
1)bσ2 m m−n−1
2
(n + 2) − log(L)
where L is the likelihood and bσ2is an estimate of the variance associated with each response.
Model selection
❒ Vocabulary – When selecting a model, we distinguish 3 different parts of the data that we have as follows:
Training set Validation set Testing set
- Model is trained - Model is assessed - Model gives

- Usually 80% of the dataset - Usually 20% of the dataset predictions - Unseen
- Also called hold-out data
or development set
Once the model has been chosen, it is trained on the entire dataset and tested on the unseen test set. These are represented in the figure below:
❒ Cross-validation – Cross-validation, also noted CV, is a method that is used to select a model that does not rely too much on the initial training set. The different types are summed up in the table below:
k-fold Leave-p-out
- Training on k − 1 folds and - Training on n − p observations and

assessment on the remaining assessment on the p remaining ones
one - Generally k = 5 or 10 - Case p = 1 is called leave-one-out
The most commonly used method is called k-fold cross-validation and splits the training data into k folds to validate the model on one fold while training the model on the k − 1 other folds, all of this k times. The error
is then averaged over the k folds and is named cross-validation error.
❒ Regularization – The regularization procedure aims at avoiding the model to overfit the data and thus deals with high variance issues. The following table sums up the different types of commonly used
regularization techniques:
LASSO Ridge Elastic Net
- Shrinks coefficients to 0 - Makes coefficients smaller Tradeoff between variable

Good for variable selection selection and small
coefficients
hi
... + λ||θ||1 ... + λ||θ||22

λ∈R λ∈R
(1 − α)||θ||1 + α||θ||22
... + λ
λ ∈ R, α ∈ [0,1]
❒ Model selection – Train model on training set, then evaluate on the development set, then pick best performance model on the development set, and retrain all of that model on the whole training set.
Diagnostics
❒ Bias – The bias of a model is the difference between the expected prediction and the correct model that we try to predict for given data points.
❒ Variance – The variance of a model is the variability of the model prediction for given data points.
❒ Bias/variance tradeoff – The simpler the model, the higher the bias, and the more complex the model, the higher the variance.
Underfitting Just right Overfitting
Symptoms - High training error - Training error - Low training error -

- Training error slightly lower Training error much
close to test error than test error lower than test error
- High bias - High variance
Regression
Classification

Apprentissage Supervisé - Introduction - vf23

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apprentissage Supervisé - Introduction - vf23

Transféré par

Droits d'auteur :

Formats disponibles

Apprentissage supervisé

❑8 Séances de cours/ TP (3h/Séance)

❑ Projet sur données réelles

c Larry Wasserman (2004). All of statistics - A concise course in Statistical Inference

c Trevor Hastie, Robert Tibshirani et Jerome Friedman (2009). The Elements of

c Christopher M. Bishop (2009). Pattern recognition and machine learning. Springer.

Saporta G., Probabilit és, ADD et statistique, Technip, 1990.

• Fonctions discriminantes - cas gaussien

Généralités - Rappels 7 Université de Paris

Qu'est-ce que l'apprentissage automatique

c Tom M. Mitchell (1997):"On dit qu'un programme

c un modèle f : une fonction de X dans Y

c Objectifs : A partir d’un ensemble d’observation X= {x1,x2,.., xn} et de

c Exemple : on cherche à estimer les liens entre les habitudes

c Exemples de méthodes : Méthode du plus proche voisin, réseaux de

c on parle aussi de classification (en anglais) ou discrimination c

c exemple : le prix d’un appartement (en fonction de sa superficie,

Apprentissage supervisé vs non-supervisé

c Apprentissage supervisé pour les n individus.

c• Remarque : la différence entre classification et régression vient du type

c Identification d’empreinte digitale

c Identification de séquences ADN

c prédire l’achat d’un produit ou service

14 Université de Paris Université Paris Descartes

Présentation des données

15 Université Paris Descartes

Une variable Y à expliquer

Deux aspects : descriptive vs prédictive

c- Un aspect prédictif: le modèle tente de prédire la valeur de Y en

c La valeur prédite fournie par le modèle sera notée y

On cherche un modèle fiable

c On dispose au départ d'un échantillon dit d'apprentissage dont le classement

c On parle de sur-apprentissage ou sur-ajustement 20 Université de Paris 20

Taux d’ erreur en fonction de la complexité du

c Test : vérification du modèle sur un 2d échantillon pour lequel on

c Validation du modèle sur un 3e échantillon, éventuellement ≪ out

c Application du modèle a l’ensemble de la population c Application

c• Règle du maximum de vraisemblance : à tout objet on associe k

c• Règle de Bayes : à tout objet on associe k telle que P(k/d)

Quelques méthodes classiques

c Analyse discriminante linéaire

cK plus proche voisins (KNN)

c Séparateurs à Vastes Marges (SVM)

Evaluation des méthodes de Classification

Evaluation des méthodes de Classification

c La diversité des types de données manipulées : toutes les

c La rapidité de calcul du modèle : un apprentissage trop long

c Les possibilités de paramétrage : dans un classement, il est

c la validation croisée (cross validation - CV) Leave One Out

c la validation croisée K-fold où l’échantillon d’apprentissage est découpé en K partie,

c un critère de choix de modèles (BIC) pour les méthodes probabilistes

c Les pièges à éviter

c Dans la classification des données déséquilibrées , par exemple,

c Par exemple, si on a 1% d’intrusions. On obtient 99% de taux de

c Positif: relatif à une modalité de référence (Z = 1, malade, achat...)

c Se(s) : sensibilité (taux de vrais positifs)

Taux de bon classement (accuracy)

erreur =1− VP+ FN +VN + FP . erreur = 1− accuracy

c Spécificité = capacité à reconnaître les non-malades parmi les non-

c1- Spécificité = risque de diagnostiquer un malade chez les non-

Trouver un compromis acceptable

Mesures de précision et de rappel

c Précision p : est le nombre d'exemples positifs correctement