Rappel du Sommaire
1 Introduction
Apprentissage automatique
2 Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...)
Julien Ah-Pine (julien.ah-pine@univ-lyon2.fr)
3 Les machines à vecteurs supports (“Support Vector Machines”)
Université Lyon 2
4 Les arbres de décisions (“Decision Trees”)
M2 DM 2018/2019
5 Décider en comité (“Ensemble Learning”)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 1 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 2 / 358
L’apprentissage automatique (AA) (“Machine Learning”) est à la Quelques références et domaines d’application faisant intervenir l’AA :
croisée de plusieurs disciplines : I Les statistiques (“Statistical Machine Learning”) : modèles d’AA
I Les statistiques : pour l’inférence de modèles à partir de données. traités sous l’angle des statistiques [Hastie et al., 2011, Dreyfus, 2008].
I Les probabilités : pour modéliser l’aspect aléatoire inhérent aux I L’intelligence artificielle (“Artifical Intelligence”) : modèles d’AA
données et au problème d’apprentissage. mettant l’accent sur le raisonnement, l’inférence et la représentation
I L’intelligence artificielle : pour étudier les tâches simples de des connaissances
reconnaissance de formes que font les humains (comme la [Cornuéjols and Miclet, 2003, Mitchell, 1997, Alpaydin, 2010].
reconnaissance de chiffres par exemple), et parce qu’elle fonde une I La fouille de données (“Data Mining”) : lorsque les objets étudiés
branche de l’AA dite symbolique qui repose sur la logique et la sont stockés dans des bases de données volumineuses
représentation des connaissances. [Han and Kamber, 2006].
I L’optimisation : pour optimiser un critère de performance afin, soit I La reconnaissance de formes (“Pattern Recognition”) : lorsque les
d’estimer des paramètres d’un modèle, soit de déterminer la meilleure objets concernés sont de type “signal” comme les images, les vidéos ou
décision à prendre étant donné une instance d’un problème. le son [Bishop, 2006].
I L’informatique : puisqu’il s’agit de programmer des algorithmes et I Le traitement automatique du langage - TAL (“Natural Langage
qu’en AA ceux-ci peuvent être de grande complexité et gourmands en Processing” - NLP) : lorsque les problèmes concernent l’analyse
termes de ressources de calcul et de mémoire. linguistique de textes [Manning and Schütze, 1999, Clark et al., 2010].
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 5 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 6 / 358
Apprentissage automatique :
I Supervisé : on dispose d’un ensemble d’objets et pour chaque objet
Plus récemment :
une valeur cible associée ; il faut apprendre un modèle capable de
I La science des données (“Data science”) : approche(s) prédire la bonne valeur cible d’un objet nouveau.
pluri-disciplinaire pour l’extraction de connaissances à partir de données I Non supervisé : on dispose d’un ensemble d’objets sans aucune valeur
hétérogènes [Cleveland, 2001, Abiteboul et al., 2014]. cible associée ; il faut apprendre un modèle capable d’extraire les
I Les données massives (“Big data”) : mettant l’accent sur les régularités présentes au sein des objets pour mieux visualiser ou
problématiques “4V” (volume, variété, vélocité, véracité) et des appréhender la structure de l’ensemble des données.
éléments de solutions issus du stockage/calcul distribué I Par renforcement : on dispose d’un ensemble de séquences de
[Leskovec et al., 2014]. décisions (politiques ou stratégiques) dans un environnement
dynamique, et pour chaque action de chaque séquence une valeur de
I Pour plus de ressources, consultez le site récompense (la valeur de récompense de la séquence est alors la
http://www.kdnuggets.com. somme des valeurs des récompenses des actions qu’elle met en
oeuvre) ; il faut apprendre un modèle capable de prédire la meilleure
décision à prendre étant donné un état de l’environnement.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 7 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 8 / 358
Introduction L’apprentissage automatique Introduction L’apprentissage automatique
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 9 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 10 / 358
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 11 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 12 / 358
Introduction L’apprentissage automatique Introduction L’apprentissage automatique
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 13 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 14 / 358
FEATURE
MATRIX
Dans ce qui suit nous présentons des exemples simples de régression
et de catégorisation qui sont à vocation pédagogique. DATABASE
(numerical NUMERICAL CLASSIFI- CLASSIFI-
data, texts, REPRESENTA -CATION -CATION
images, TION ALGORITHM OUTPUT
networks, …)
Nous présentons également quelques méthodes relativement simples
PROXIMITY
qui nous permettront de mettre en lumière certains concepts et MATRIX
sous-problèmes traités en apprentissage supervisé.
CLASSIFI-
-CATION
ASSESSMENT
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 21 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 22 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Introduction
1.0
1
L’apprentissage automatique
Quelques méthodes simples en guise d’illustration
0.5
Différentes caractéristiques des méthodes d’apprentissage supervisé
(Quelques) Problèmes théoriques en apprentissage automatique
Evaluation et comparaison de modèles en apprentissage supervisé
0.0
y
−0.5
−1.0
−2 −1 0 1 2 3
x
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 23 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 24 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Régression linéaire simple (suite) Régression linéaire multiple (polynôme de degré > 1)
Régression linéaire simple
La régression linéaire simple fait l’hypothèse que la fonction f est un
polynôme de degré 1 et clairement ceci n’est pas une hypothèse
1.0
f (X ) = a + bX + cX 2
Dans ce cas P = {a, b, c} et on cherche à minimiser :
0.0
y
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 27 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 28 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
ˆ
f (x) = Pi=1
n
i=1 Kλ (x, xi )
−1.0
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 29 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 30 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
appartient au voisinage de x.
Les estimateurs à noyau généralisent la méthode précédente en
donnant des poids différents aux plus proches voisins xi de x selon la
0.0
y
λ 2π 2 λ
−2 −1 0 1 2 3
x Pour toute fonction noyau, λ est un paramètre important qui permet
de préciser la notion de voisinage autour de x.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 31 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 32 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
1.0
0.5
0.8
●
●
● ●
●
●
0.6
0.0
●
● ●● ● ●
y
●●● ●●
● ●
X^2
● ● ● ●
● ● ● ● ●● ●
● ● ●
●●● ●
● ● ● ●
0.4
● ●● ●●
●
−0.5
● ● ●
● ● ● ●
● ●● ● ●
● ● ● ●● ●
● ● ●●● ●
● ●
● ● ● ●
0.2
● ● ●
● ●
●
●● ●
● ●
−1.0
● ●
● ● ● ●
●
● ●
0.0
−2 −1 0 1 2 3 ●
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 33 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 34 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Régression linéaire multiple avec variables artificielles Régression linéaire multiple (suite)
On attribue des valeurs numériques à chacune des deux classes Hypothèse : Z = g (X ) = a + bX 1 + cX 2 (polynôme de degré 1 des
comme par exemple C1 ↔ 1 et C2 ↔ −1. {X j }2j=1 )
En vert on a tracé la frontière de décision.
On remplace Y variable discrète par Z une variable numérique
remplie de −1 et 1.
1.0
On traite le problème comme une régression linéaire multiple :
Z = g (X ).
0.8
Pour un nouveau x on applique la règle de décision suivante : ● ●
●
●
●
●
0.6
●
● ●● ● ●
●●
C1 si ĝ (x) ≥ 0 ● ●●● ●
X^2
● ● ●
ˆ
f (x) = ● ●
● ● ●●
● ●
●●● ●● ●
●
C2 si ĝ (x) < 0 ● ● ● ●
0.4
● ●● ●●
● ● ●
● ●● ●
● ●● ● ● ●
● ● ● ●● ●
● ● ●●● ●
● ●
● ● ● ●
0.2
● ● ●
● ●
La ligne de niveau {x ∈ R2 : ĝ (x) = 0} est la frontière de décision. ● ●
●
●● ●
●
● ● ●
●
●
●
● ●
0.0
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 35 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 36 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Régression linéaire multiple (suite) Méthode des k plus proches voisins (k-ppv)
Hypothèse : Z = g (X ) = a + bX 1 + cX 2 + dX 1 X 2 (polynôme de Nous avons utilisé la régression linéaire associée à des variables
degré 2 des {X j }2j=1 ). artificielles pour un problème de catégorisation.
En bleu on a tracé la frontière de décision. Nous voyons une autre approche simple qui est un modèle non
paramétrique : les k plus proches voisins.
1.0
● ●
●
● relative afin de déterminer la classe de x.
●
●
Formellement nous avons la fonction de prédiction suivante :
0.6
●
●● ● ● ●
●●● ●●
● ●
X^2
● ● ● ●
● ● ● ● ●● ● ●
● ●
● ●
●●● ●
|{xi ∈ Vk (x) : yi = Cl }|
fˆ(x) = arg max
● ●
0.4
● ●● ●●
● ● ●
● ● ●
● ● ●
● ●
●
●●● ●
● ●
● ●● ●
●
Cl ∈Y k
● ● ●
● ● ● ● ●
0.2
● ● ●
● ●
●
où Vk (x) est l’ensemble des k plus proches xi de x et |{xi ∈Vk (x):yi =Cl }|
●● ●
● ● ●
● ● ● ●
●
●
●
● k
0.0
●
est la proportion d’objets appartenant à la classe Cl parmi les k plus
0.0 0.2 0.4 0.6 0.8 1.0
X^1
proches voisins.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 37 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 38 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
1.0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.8
0.8
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ●
● ●
0.6
0.6
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●● ●
● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●● ●
● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●●● ●●●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
X^2
X^2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
●● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
●● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ●● ● ● ●● ●●
●●●
● ●●●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●●● ●●●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
0.4
0.4
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●●
● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●●
● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
●
● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
●
● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●● ● ●●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●
●● ●
● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●
●● ●
● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ● ● ●
●● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ● ● ●
●● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●●● ● ● ● ●●● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
0.2
● 0.2 ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ●
● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ●
● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ● ● ●
● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ● ● ●
● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.0
0.0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
X^1 X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 39 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 40 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 41 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 42 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
En d’autres termes, le biais inductif est l’ensemble des hypothèses Lorsque les données n’ont pas toutes une importance uniforme, une
implicites que l’on fait lorsque l’on utilise une méthode façon de généraliser le scr est l’utilisation de concepts issus de la
d’apprentissage supervisé pour résoudre un problème de régression ou décision statistique.
de catégorisation.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 45 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 46 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Fonction de performance et décision statistique (suite) Fonction de perte quadratique et fonction de régression
Etudions plus particulièrement EX ,Y (`) dans le cas d’une fonction de
Etant donné E, il s’agit de déterminer f qui minimise l’espérance
perte quadratique :
empirique de la perte mesurée sur l’ensemble d’apprentissage. Z Z
min EX ,Y (`2 ) = (f (x) − y )2 P(x, y )dxdy
f
La régression linéaire multiple par MCO est un cas particulier puisqu’il X Y
s’agit de minimiser EX ,Y (`) en prenant : En écrivant P(X , Y ) = P(Y |X )P(X ) on peut réécrire :
I une fonction de perte quadratique : `2 (f (X ), Y ) = (Y − f (X ))2 ,
EX ,Y (`2 ) = EX (EY |X (`2 |X ))
I une distribution uniforme pour le couple (X , Y ),
I une fonction de prédiction polynomiale de degré 1 des {X j }pj=1 : On a le problème équivalent :
Z Z
p 2
f (X ) = a0 +
X
aj X j
min EX (EY |X (`2 |X )) = (f (x) − y ) P(y |x)dy P(x)dx
f X Y
j=1
Pour minimiser EX ,Y (`2 ) il suffit de résoudre le problème suivant :
Z
On peut généraliser et utiliser d’autres types de fonction de perte ou ∀x ∈ X : min EY |X (`2 |X = x) = (f (x) − y )2 P(y |x)dy
en donnant différents poids selon P(X , Y ). f Y
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 49 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 50 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Fonction de perte quadratique et fonction de régression Fonction de perte quadratique et fonction de régression
(suite) (suite)
f (x) étant un élément de Y on peut alors écrire : En somme, nous obtenons la solution générique suivante que l’on
Z appelle fonction de régression :
∀x ∈ X : min EY |X ((z − y ) |X = x) = (z − y )2 P(y |X = x)dy
2 f ∗ (x) = EY |X (Y |X = x)
z∈Y Y
Autrement dit la fonction qui minimise au point x l’espérance d’une
Pour résoudre ces problèmes, on cherche les points critiques : fonction de perte quadratique, EX ,Y (`2 ), est l’espérance de Y sous la
probabilité conditionnelle P(Y |X = x).
∂
E ((z − y )2 |X = x) = 0 La fonction de perte quadratique est un sous-cas de la famille de
∂z Y |X
fonction de perte suivante dite de Minkowski :
OnRobtient alors ∀x ∈ X les équations normales suivantes :
Z Z
2 Y (zR − y )P(y |X = x)dy = EX ,Y (`r (f (X ), Y )) = |f (x) − y |r P(x, y )dxdy
R 0 X Y
⇔ Y zP(y |X = x)dy = Y yP(y |X = x)dy
R Le cas de `2 est souvent utilisé car elle conduit à la solution simple
⇔ z = Y yP(y |X = x)dy
que nous venons de voir mais le principe d’espérance de fonction de
⇔ z = EY |X (Y |X = x)
perte permet d’avoir plusieurs types de fonction de performance.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 51 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 52 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Fonction de performance pour la catégorisation (suite) Fonction de perte binaire et classifieur bayésien
L’espérance de perte s’écrit alors : Pour des données discrètes, la fonction de perte la plus simple est
celle associée à la matrice de perte suivante :
Z X
EX ,Y (L) = L(Cl , f (X ))P(X , Cl )dx
1 si l 6= l 0
X C ∈Y
l
Lll 0 =
Comme précédemment, on peut considérer l’espérance conditionnelle 0 si l = l 0
et obtenir l’écriture équivalente suivante : Dans ce cas, nous avons :
X
EX EY |X (L|X ) ∀x ∈ X : f ∗ (x) = arg min Lll 0 P(Cl |X = x)
Cl 0 ∈Y C ∈Y
Puis, pour minimiser l’espérance de la fonction de perte, il suffit de l
minimiser en chaque point x ∈ X et on obtient le problème équivalent = arg min(1 − P(Cl 0 |X = x))
Cl 0 ∈Y
suivant :
= arg max P(Cl 0 |X = x)
∀x ∈ X : min EY |X (L|X = x) Cl 0 ∈Y
f
La solution est alors : Autrement dit, la fonction de prédiction est telle que : f ∗ (x) = Cl ssi
X P(Cl |X = x) = maxCl 0 ∈Y P(Cl 0 |X = x). Cette approche est appelée
∀x ∈ X : f ∗ (x) = arg min L(Cl , Cl 0 )P(Cl |X = x)
Cl 0 ∈Y C ∈Y classifieur bayésien.
l
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 55 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 56 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Rappelons que X = (X 1 , . . . , X p )
est un vecteur aléatoire de L’estimation de P(X = x) n’est pas nécessaire car c’est un
dimension p. En utilisant successivement les probabilités dénominateur commun aux probabilités a posteriori de chaque classe.
conditionnelles (P(A, B) = P(A|B)P(B)) on a : La fonction de décision pour x = (x1 , . . . , xp ) est f ∗ (x) = Cl ssi
P(X |Y ) = P(X 1 , . . . , X p |Y ) P(Cl |X = x) = maxCl 0 ∈Y P(Cl 0 |X = x) où :
= P(X 1 |Y , X 2 , . . . , X p )P(X 2 , . . . , X p |Y ) P(Cl 0 |X = x) ∝ P(Cl 0 )P(X 1 = x1 |Cl 0 ) . . . P(X p = xp |Cl 0 )
1 2 p p−1 p p
= P(X |Y , X , . . . , X ) . . . P(X |Y , X )P(X |Y )
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 57 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 58 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 61 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 62 / 358
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
1.0
0.5
0.5
0.0
0.0
y
y
−0.5
−0.5
−1.0
−1.0
−2 −1 0 1 2 3 −2 −1 0 1 2 3
x x
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 63 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 64 / 358
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Dans l’exemple de régression, la complexité d’un modèle ou d’une Dans ce qui suit, nous étudions des propriétés qui font appel à des
classe d’hypothèses H est l’ordre du polynôme. outils probabilistes. Nous rappelons quelques propriétés de linéarité de
l’opérateur espérance E.
Si l’ordre est trop petit, il y a sous-apprentissage et s’il est trop grand
il y a sur-apprentissage. Supposons que X soit une variable aléatoire et que b et a soient deux
Pour le polynôme de degré 1 : réels alors :
I la complexité des données et celle du modèle ne coı̈ncident pas,
I l’erreur mesurée sur les données E est très grande,
EX (aX + b) = aEX (X ) + EX (b)
I mais la fonction de prédiction étant une droite la variance du modèle = aEX (X ) + b
est faible (si on change E la “droite changera peu”).
Pour le polynôme de degré 12 : Supposons que X soit un vecteur aléatoire et que b et A soient
I la complexité des données et celle du modèle ne coı̈ncident pas, respectivement un vecteur et une matrice carrée qui nous sont donnés
I l’erreur mesurée sur les données E est très faible, alors :
I mais la fonction de prédiction est instable et donc la variance du modèle
est très grande (si on change E la “courbe changera beaucoup”). EX (AX + b) = AEX (X ) + b
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 65 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 66 / 358
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Erreur de prédiction
polynôme de degré 1.
1.0
modèle et implique une meilleure généralisation.
0.5
0.5
Mais une trop grande complexité donne parfois trop de flexibilité : sur
E l’erreur diminue mais la variance du modèle sera plus forte. Ainsi, si
0.0
0.0
y
y
les données de test sortent de la région des données E, le
−0.5
−0.5
−1.0 comportement de la fonction de prédiction risque d’être chaotique.
Ce problème est moins fort lorsque n est grand comme on vient de le
−1.0
−2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x voir mais jusqu’à un certain point.
Bien sûr plus on a de données meilleure est l’estimation !
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 73 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 74 / 358
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Pour rappel, une fonction indicatrice ind est telle que ind(A) = 1 si la
proposition A est vraie ; ind(A) = 0 sinon.
−0.5
Exemple : la dimension VC de Soit u1 , . . . , up , v ∈ R où au moins un des ui est non nul. Rappelons
H = {f : R2 → R : f (X ) = a0 + a1 X 1 + a2 X 2 } (polynôme de degré que l’ensemble des points x = (x1 , . . . , xp ) ∈ Rp qui satisfait
1) est vc(H) = 3 l’équation linéaire suivante est appelé un hyperplan de Rp :
u1 x1 + . . . + un xn = v ce qui est équivalent à hu, xi = v
où hu, vi = u> v est le produit scalaire canonique de Rp .
Les hyperplans généralisent dans Rp , le point dans R, la droite dans
R2 et le plan dans R3 .
Nous pouvons alors généraliser la dimension VC de l’exemple
précédent :
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
FEATURE
1 Introduction MATRIX
CLASSIFI-
-CATION
ASSESSMENT
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 87 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 88 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Mesures d’évaluation pour le problème de régression (code Mesures d’évaluation pour le problème de catégorisation
R) binaire
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Mesures d’évaluation pour le problème de catégorisation Mesures d’évaluation pour le problème de catégorisation
binaire (suite) binaire (suite)
En statistique on interprète souvent une classe comme étant la classe fˆ(x)
“positive” (C1 par exemple) et l’autre classe comme étant la classe Total
C1 C2
“négative” (resp. C2 ). Par exemple C1 =“Malade” et C2 =“Sain”. C1 a b a+b
Dans ce cas, les différentes valeurs du tableau de contingence sont y
C2 c d c +d
aussi connues sous les vocables suivants : Total a+c b+d a+b+c +d =n
fˆ(x)
Total
C1 C2
Taux d’erreur (“Error rate” ou “Misclassification Rate”) :
C1 a b a+b
y b+c
C2 c d c +d
err (fˆ) =
Total a + c b + d a + b + c + d = n n
a =Vrais positifs (“True Positive”, tp) Taux de réussite ou de reconnaissance (“Accuracy Rate”) :
b =Faux négatifs (“False Negative”, fn)
a+d
c =Faux positifs (“False Positive”, fp) acc(fˆ) = = 1 − err (fˆ)
d =Vrais négatifs (“True Negative”, tn) n
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 99 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 100 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Mesures d’évaluation pour le problème de catégorisation Mesures d’évaluation pour le problème de catégorisation
binaire (suite) binaire (code R)
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
1.0
●
● ●
● ● ● ●
0.8
● ●●● ● ● ●
0.8
● ● ● ●
●
● ● ●●●
● ● ●
● ● ●
● ● ●
● ● ●● ● ● ● ● ●
● ●
●● ● ● ● ● ● ●● ● ● ● ●
● ● ● ●
●● ● ● ●
●
0.6
● ● ● ● ●
0.6
● ●●● ● ● ●
● ●● ● ●● ● ● ●●● ●
● ● ● ● ●● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
X^2
● ● ●
● ● ● ● ● ● ●●● ● ●
● ● ● ● ●● ●
X^2
● ● ● ● ● ●● ● ●
● ● ● ●
●●● ●
● ● ● ● ● ● ●●● ● ●
●● ● ● ● ● ● ● ●
● ● ●● ● ● ● ●● ● ●●
● ●
0.4
● ●● ●● ● ● ●● ● ● ●
0.4
● ● ● ● ● ●● ●●
● ● ● ● ● ● ●
● ●● ●● ● ● ● ● ●
● ● ● ● ●● ● ●● ●● ●
● ●● ● ● ● ● ● ● ● ●
●● ● ● ●● ● ● ●
● ● ●●● ● ● ●● ●
● ●
● ● ● ●
● ●
● ●●● ● ●
● ● ● ●● ●
0.2
● ● ● ● ●
● ● ● ●● ●
0.2
● ●
●●● ● ●● ● ●
●● ● ● ● ●● ● ● ●●
● ● ●● ● ● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●
● ● ●
0.0
● ●
0.0
● ● ●
● ●
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
X^1 X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 105 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 106 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
1.0
1.0
0.8
●
●
● ● ●
0.8
●
● ● ●●●
● ●
●
● ●
●
0.6
● ● ● ●
● ●● ● ●
● ● ●
0.6
● ● ●
● ●●● ●
● ●● ● ●●
● ● ●●● ● ● ●
● ● ● ●
X^2
● ● ●● ● ●
● ● ● ● ●●●
0.4
● ● ● ● ●●
●● ●
●●● ●
● ●
● ● ●● ● ● ●
0.4
● ● ● ●● ●●
● ● ●
● ●
● ●● ●● ● ●
● ● ● ● ● ● ●
● ● ● ● ●● ●
● ● ● ●●● ● 0.2
● ● ● ●
● ● ● ● ●● ●
0.2
● ●
● ●●
●●● ●
●
●● ● ●
● ● ●
●
0.0
● ● ● ● ●
●
● ●
●
0.0
X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 107 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 108 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
1.0
●
0.8
0.8
●
True positive rate
0.6
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0
False positive rate 0.0 0.2 0.4 0.6 0.8 1.0
False positive rate
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 109 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 110 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Courbe ROC et AUC “Area Under the Curve” Mesures d’évaluation pour le problème de catégorisation
multiclasse
Pour qu’un modèle soit intéressant il faut qu’il soit meilleur qu’un
classifieur aléatoire : la courbe ROC du modèle doit pour cela être Quand Y = {C1 , C2 , . . . , Cq } avec q > 2, on parle d’un problème de
au-dessus de la diagonale. catégorisation multiclasse.
La matrice de confusion est alors une matrice carrée N d’ordre q.
On peut comparer deux types de fonction de prédiction en utilisant
Le terme N(l, l 0 ) = Nll 0 indique le nombre d’objets x de T
les courbes ROC : le modèle dont la courbe est au-dessus de l’autre
appartenant à la classe Cl et ayant été affecté à la classe Cl 0 par fˆ(x).
est le meilleur.
Idéalement, il faudrait que les termes hors diagonale ne contiennent
La courbe ROC permet une évaluation graphique des performances que des 0 ce qui conduirait à un taux d’erreur nul.
d’un classifieur. On peut par aussi résumer le graphique par un Le taux de reconnaissance est la somme des termes de la diagonale
nombre appelé “Area Under the Curve” qui est l’indice auc. auc(fˆ) divisée par le cardinal de T.
est la mesure de la surface sous la courbe ROC.
L’analyse de la matrice de confusion permet de déterminer les paires
Idéalement on souhaite déterminer un modèle fˆ tel que auc(fˆ) = 1. de classes les plus difficiles à séparer.
Le modèle fˆ est meilleur que fˆ0 si auc(fˆ) > auc(fˆ0 ). Des tests statistiques permettent également de comparer les résultats
Le modèle fˆ est meilleur que le classifieur aléatoire si auc(fˆ) > 0.5. de plusieurs modèles et sur plusieurs bases de données
[Alpaydin, 2010, Cornuéjols and Miclet, 2003].
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 111 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 112 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Mesures d’évaluation pour le problème de catégorisation Autres critères pour comparer deux modèles
multiclasse (suite)
Au-delà des critères de performances de type erreur de prédiction ou
en généralisation, il faut également tenir compte de plusieurs autres
Dans le cas multiclasses on a la matrice de confusion N de taille critères lorsque l’on compare des algorithmes d’apprentissage
(q × q) : supervisé :
I La complexité en termes de temps de traitement et en termes
fˆ(x)
d’espace mémoire : on parle d’algorithmes ou de modèles scalables ou
C1 . . . Cq non.
N= C1 I L’inteprétabilité du modèle estimé : au-delà d’une simple prédiction
y .. de valeurs ou de classe, est-ce que le modèle estimé permet une
.
meilleure connaissance sur le processus génératif qui engendre les
Cq
observations (X , Y ) ou s’agit-il d’une “boı̂te noire” ?
On généralise au cas multiclasses (avec un coût uniforme) le taux I La capacité des modèles à s’adapter à des données qui peuvent être
hétérogènes et/ou manquantes et/ou aberrantes et/ou non
d’erreur (“Error rate” ou “Misclassification Rate”) et le taux de
pertinentes vis à vis du problème considéré.
reconnaissance (“Accuracy rate”) :
P Principe de simplicité dit du rasoir d’Occam : à erreur de prédiction
l6=l 0 Nll 0 comparable, on préfèrera le modèle de complexité la moindre
err (fˆ) = P et acc(fˆ) = 1 − err (fˆ)
l,l 0 Nll 0 permettant l’interprétation la plus simple du phénomène étudié.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 113 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 114 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 117 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 118 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression linéaire multiple et MCO (suite) Régression linéaire multiple et MCO (suite)
L’étape d’induction consiste à estimer les paramètres P étant données Nous avons :
les données d’entraı̂nement E. a0 1 x11 x12 . . . x1p y1
La méthode classique est les Moindres Carrés Ordinaires (MCO) : a1 1 x21 x22 . . . x1p y2
a=. ; X = . ; y=.
.. ..
n
X .. .. . ... ... . ..
scr (f ) = (yi − f (xi ))2 ap 1 xn1 xn2 . . . xnp yn
i=1
n p Notons par ailleurs X> la matrice transposée de X.
Nous avons alors l’écriture matricielle suivante :
X X
= (yi − (a0 + aj xij ))2
i=1 j=1 scr (f ) = (y − Xa)> (y − Xa)
Du point de vue statistique, l’utilisation de ce modèle suppose que les On cherche à déterminer les paramètres P = {aj }pj=0 représentés par
observations yi sont des réalisations de v.a. Yi i.i.d.. le vecteur a qui minimise scr (f ) : c’est un problème d’optimisation
Introduisons les notations suivantes : quadratique non contraint :
I a, le vecteur colonne de taille p + 1 contenant les paramètres.
âmco = arg min (y − Xa)> (y − Xa)
I X, la matrice des données de taille (n × (p + 1)) à laquelle on a ajouté a∈Rp+1
une 1ère colonne remplie de 1.
La solution s’obtient en recherchant les points a tel que ∇scr (a) = 0.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 119 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 120 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Si f : Rp+1 → R est différentiable, alors la fonction ∇f défini par : On développe scr (f ) de la manière suivante :
∂f
∂a0 (a)
∂f scr (f ) = (y − Xa)> (y − Xa)
∂a1 (a)
∇f (a) = .
= y> − (Xa)> (y − Xa)
..
∂f
∂ap (a) = y> y − y> Xa − (Xa)> y + (Xa)> Xa
est appelé gradient de f . = y> y − y> Xa − a> X> y + a> X> Xa
∇f est une fonction de Rp+1 dans Rp+1 et peut être vue comme un
champ de vecteurs (fonction qui associe à tout point un vecteur).
Quelques formules de dérivations dans le cas multivarié. La dérivée est On a donc la solution suivante :
calculée par rapport à la variable x. A est une matrice de réels de
taille (m × n) et y un vecteur de réels de taille (m × 1) : ∇scr (f ) = 0 ⇔ 2X> Xa − 2X> y = 0
−1
I Si f (x) = y> Ax ou si f (x) = x> A> y alors ∇f (x) = A> y. ⇔ âmco = X> X X> y
I Si A est carrée et f (x) = x> Ax alors ∇f (x) = (A + A> )x.
I Si A est carrée symétrique et f (x) = x> Ax alors ∇f (x) = 2Ax.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 121 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 122 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression linéaire multiple et MCO (suite) Régression linéaire multiple et MCO (suite)
Une fois estimé âmco on peut calculer les prédictions du modèle pour Interprétation géométrique :
un quelconque x ∈ X :
y
−1
> > >
ˆ
f (x) = x âmco = x X X X> y x1
0 −1
Pour calculer l’erreur de prédiction on regarde ce que prédit le modèle
ŷ = X X> X X> y
estimé pour les données E données par les lignes de X :
ŷ | {z }
−1 Opérateur de projection
ŷ = Xâmco = X X> X X> y
Régression linéaire multiple et MCO (suite) Régression linéaire multiple et MCO (suite)
Les MCO supposent que la matrice X> X est non singulière Pour apprécier la plus ou moins grande adéquation du modèle linéaire
(inversible). On suppose donc que X est de plein rang. En pratique, vis à vis des données, on peut calculer l’erreur quadratique relative
ce sont les variables colinéaires qui rendent la matrice X> X singulière. et/ou le coefficient de détermination :
On pourra alors supprimer ces redondances au préalable. Pn
(yi − ŷi )2
scrrel (f ) = Pi=1
n ; coefdet (f ) = 1 − scrrel
Par ailleurs, les MCO supposent également que n > p, càd le nombre i=1 (yi − y)
2
de données est supérieur au nombre de variables explicatives. Dans le
cas contraire, (comme cela se produit pour les problèmes de grandes coefdet (f ) est également appelé le “R 2 ” : s’il est proche de 0 cela veut
dimensions), on pourra réduire l’espace de représentation X au dire que le modèle estimé ne marche pas mieux que la moyenne y.
préalable (ACP par exemple, régression sur composantes principales). Attention ! Le “R 2 ” augmente naturellement si le nombre de
variables explicatives augmente donc il ne permet pas de comparer
Si X> X est singulière alors il existe une infinité de âmco : les
des modèles linéaires n’ayant pas le même nombre de variables. Dans
coefficients ne sont pas uniques et le problème n’est pas identifiable.
ce cas, on utilsera le “R 2 ajusté”.
Nous verrons plus loin qu’au-delà des artefacts que nous venons de Par ailleurs, il existe d’autres procédures statistiques permettant de
mentionner pour régler le problème de singularité de X> X, il exsite valider ou non le modèle estimé notamment lorsque nous nous
des méthodes élégantes permettant de pallier à ce problème. plaçons dans un cadre gaussien.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 125 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 126 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression linéaire multiple et modèle gaussien Régression linéaire multiple et modèle gaussien (suite)
Nous réinterprétons la régression linéaire multiple dans un cadre La vraisemblance (“likelihood”) est la probabilité d’observer
probabiliste. Nous avons le modèle suivant pour tout i = 1, . . . , n : l’échantillon :
vr (a, σ 2 ) = P(Y1 , . . . , Yn |X1 , . . . , Xn ; a, σ 2 )
Yi = Xi> a + i
Les Yi sont supposés i.i.d. nous avons alors :
Nous faisons de plus l’hypothèse que le vecteur Yn
= (1 , . . . , n ) ∼ N (0, σ 2 In ) où In est la matrice identité d’ordre n. 2
vr (a, σ ) = P(Yi |Xi ; a, σ 2 )
Autrement dit les i sont i.i.d. selon N (0, σ 2 ). i=1
2 !
Yi − Xi> a
On en déduit la relation suivante : 1 1
= √ exp −
2πσ 2 2 σ
2 > 2
P(Y |X ; a, σ ) ∼ N (X a, σ )
L’estimateur du MV est la valeur des paramètres qui maximise la
L’étude de la régression linéaire multiple dans un cadre probabiliste probabilité d’observer l’échantillon. On résoud donc le problème :
nous permet d’introduire le principe d’inférence de maximum de Y n
vraisemblance (MV) et des propriétés statistiques des estimateurs max P(Yi |Xi ; a, σ 2 )
(a,σ 2 )∈Rp+1 ×R
associés. i=1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 127 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 128 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression linéaire multiple et modèle gaussien (suite) Régression linéaire multiple et modèle gaussien (suite)
Il est plus commode de maximiser, de manière équivalente, le Estimateur du MV :
logarithme de la vraisemblance : n
X
n n amv = arg max log(P(Yi |Xi ; a, σ 2 ))
a∈Rp+1 i=1
Y X
2 2
lvr (a, σ ) = log( P(Yi |Xi ; a, σ )) = log(P(Yi |Xi ; a, σ 2 ))
i=1 i=1 On a la solution analytique :
Dans le modèle gaussien cela se réduit à : −1
amv = X> X X> Y
n > a 2
!!
X 1 Y i − X 1
lvr (a, σ 2 ) = log √ exp − i
Espérance de amv :
2πσ 2 2 σ
i=1 −1
n 1 Y − X > a 2 > >
!
√ EY |X (amv |X) = EY |X X X X Y |X
i
X
i
= − log 2πσ 2 −
2 σ −1
i=1
n = X> X X> EY |X (Y |X)
n n 1 X 2
= − log(2π) − log(σ 2 ) − 2 Yi − Xi> a
>
−1
2 2 2σ
i=1
= X X X> Xa = a
Nous avons la propriété suivante : max lvr (a, σ 2 ) ⇔ min scr (f ) L’estimateur du MV est donc sans biais.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 129 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 130 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
L’écriture matricielle de la fonction objectif devient : Supposons que âmco est l’estimation des MCO sur X et y. Nous
n
> >
o avons donc : amco = (X> X)−1 X> Y , EY |X (amco |X) = a et
âridge = arg min (y − Xa) (y − Xa) + λa a −1
a∈Rp VY |X (amco |X) = σ 2 X> X
On a la solution analytique suivante : Espérance de aridge :
−1 −1
> >
âridge = X> X + λIp X> y EY |X (aridge |X) = EY |X X X + λIp X Y |X
−1
Les prédictions sont alors données par : = EY |X >
X X + λIp >
X Xamco |X
ŷ = y 1 + Xâridge et fˆ(x) = y +x> âridge −1
|{z} n
|{z} = X> X + λIp X> XEY |X (amco |X)
âridge,0 âridge,0
−1
où x est un vecteur quelconque de taille (p × 1) et x est de terme = X> X + λIp X> Xa
xj −xj
général : xj = σ̂xj .
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 141 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 142 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 143 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 144 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Interprétation à partir de la décomposition en valeurs singulières de X. Dans le cas de l’estimateur ridge la prédiction vaut ŷ = Xâridge :
Soit X = UDV> la svd de X où : −1
ŷ = X(X> X + λIp )−1 X> y = UD D2 + λIp DU> y
I U de taille (n × p) comporte en colonnes les vecteurs représentant une p
base orthonormée du sous-espace engendré par les colonnes de X. X dj2
V de taille (p × p) comporte en colonnes les vecteurs représentant une
= uj (uj )> y
I
dj2 + λ
base orthonormée du sous-espace engendré par les lignes de X. j=1
I D de taille (p × p) comporte sur sa diagonale les valeurs singulières de Le terme (uj )> y est la jème coordonnée de y dans la base U.
X : d1 ≥ d2 ≥ . . . ≥ dp ≥ 0.
La régression ridge diminue cette coordonnée d’un facteur
La prédiction par l’estimateur des MCO est ŷ = Xâmco : dj2 /(dj2 + λ) ≤ 1 par rapport à la régression classique.
ŷ = X(X> X)−1 X> y Plus dj2 est petit plus le ratio dj2 /(dj2 + λ) est petit. Par ailleurs,
= UDV> (UDV> )> UDV>
−1
(UDV> )> y rappelons que uj est le vecteur propre orthonormée de X> X associé à
−1 la valeur propre dj2 . Ainsi, les coordonnées sur les axes de variance
UDV> VDU> UDV> VDU> y
=
= UU > remarquant que U> U = Ip ) petite (dj2 petit) sont davantage pénalisées par la régression ridge.
Pp y (en
j j > j Remarque : l’expression précédente utilisant la SVD de X permet de
= j=1 u (u ) y (où u est la jème colonne de U)
calculer facilement les estimations du modèle quand λ varie.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 145 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 146 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
> cv_ridge_fit$lambda.min 8 8 8 8 8 8 8
[1] 1.411404
12
> coef(cv_ridge_fit,s = "lambda.min")
9 x 1 sparse Matrix of class "dgCMatrix"
10
1
(Intercept) 2.4751813
8
nb_bathrooms 12.2056258
area_site 0.3146111
Coefficients
6
size_living_space 9.9314174
nb_garages 1.9833801
4
nb_rooms 0.7228990
nb_bedrooms -0.1651591
2
age_in_years -0.1319908
nb_fire_places 3.1537881
0
0 5 10 15 20 25 30
L1 Norm
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 149 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 150 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
log(Lambda)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 151 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 152 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
2
n p
a2
X
0
X
âlasso = arg min yi − aj xij + λkak`1
a∈Rp
−1
i=1 j=1
−2
−4 −2 0 2 4
ŷ = y 1 + Xâlasso et fˆ(x) = y +x> âlasso
a1
|{z} n |{z}
âlasso,0 âlasso,0
En vert la frontière ridge : a12 + a22 = 4. où x est un objet quelconque et x est un vecteur de taille (p × 1) et
xj −xj
En orange la frontière lasso : |a1 | + |a2 | = 2. de terme général : xj = σ̂xj .
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 155 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 156 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
où kâmco k`1 est une constante pré-calculée. d’améliorer le plus un critère de sélection de modèles,
F descendante : on part du modèle avec p variables et on enlève
Une méthode consiste alors à faire varier τ de 0 à 1. On voit que
itérativement la variable qui permet d’améliorer le plus un critère
lorsque τ vaut 1 on a âlasso = âmco .
de sélection de modèles.
On peut alors procéder par validation croisée comme pour ridge.
Les critères de selection de modéles sont de plusieurs sortes :
Cependant, le problème n’ayant pas de solution analytique la I R 2 ajusté,
détermination du chemin de régularisation semble plus ardue. I Cp de Mallows,
Néanmoins, l’étude des propriétés du problème lasso a permis de I le critère AIC (Akaı̈ke Information Criterion),
mettre en place des algorithmes efficaces I le critère BIC (Bayesian Information Criterion) . . .
[Efron et al., 2004, Friedman et al., 2010].
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 157 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 158 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
> cv_lasso_fit$lambda.min 0 2 2 2 2 5 6 7
[1] 0.1118513
15
> coef(cv_lasso_fit,s = "lambda.min")
9 x 1 sparse Matrix of class "dgCMatrix"
1
10
(Intercept) 5.09977407
nb_bathrooms 12.29607390
area_site 0.05614472
Coefficients
size_living_space 13.17482462
5
nb_garages 2.19026979
nb_rooms .
nb_bedrooms -0.64604491
age_in_years -0.12713019
0
nb_fire_places 3.09783476
0 5 10 15 20 25 30 35
L1 Norm
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 161 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 162 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression lasso (code R) Petite synthèse des régressions pénalisées ridge et lasso
plot(cv_lasso_fit) Les régressions ridge et lasso tentent de diminuer la variance des
estimateurs (au prix d’un biais) afin d’obtenir une plus faible erreur en
7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6 6 6 5 2 2 2 2 2 2 2 2 2 2
généralisation.
300
parcimonieuse.
−3 −2 −1 0 1 2
En pratique, elle est performante mais connaı̂t des limites dans
log(Lambda) certaines situations.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 163 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 164 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 165 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 166 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
L’estimateur elasticnet vu jusqu’à présent est dit “naı̈f”. On peut écrire la fonction objectif de l’estimateur lasso comme suit :
En théorie, il permet de tenir compte des limites du lasso identifiées âlasso = arg min a> (X> X)a − 2y> Xa + λ1 kak`1
précédemment. a∈Rp
En pratique, il ne donne satisfaction que lorsqu’il est proche de On montre que celle de l’estimateur elasticnet peut s’écrire :
l’estimateur ridge ou de l’estimateur lasso. >
> X X + λ2 Ip
Ce comportement est en fait dû à un double effet de âen = arg min a a − 2y> Xa + λ1 kak`1
a∈Rp 1 + λ2
rétrécissement qui porte atteinte au modèle (on a une faible
diminution de la variance pour une forte augmentation du biais). Les variables étant centrées-réduites, X> X = Σ̂ la matrice
L’estimateur elasticnet âen retenu est alors un ré-échelonnement variance-covariance empirique. On a par ailleurs :
de la solution précédente : X> X + λ2 Ip
= (1 − γ)Σ̂ + γIp
p 1 + λ2
âen = (1 + λ2 )ânen = 1 + λ2 â∗
en posant γ = λ2 /(1 + λ2 ).
En pratique, l’estimateur ré-échelonné âen donne de meilleurs Elasticnet peut donc être vu comme un lasso où la matrice de
résultats pour 0 < α < 1 et peut ainsi surpasser le lasso. variance-covariance est rétrécie càd proche de la matrice identité.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 171 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 172 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
plot(cv_eln_fit)
cv_eln_fit$lambda.min
coef(cv_eln_fit,s = "lambda.min")
> cv_eln_fit$lambda.min
10
[1] 0.4708726
> coef(cv_eln_fit,s = "lambda.min")
Coefficients
9 x 1 sparse Matrix of class "dgCMatrix"
1
5
(Intercept) 4.4651671
nb_bathrooms 12.5107837
area_site 0.1169648
size_living_space 11.9379818
nb_garages 1.9046787
0
nb_rooms .
nb_bedrooms .
age_in_years -0.1231138 0 5 10 15 20 25 30 35
nb_fire_places 2.9517174 L1 Norm
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 173 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 174 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
nouvelles composantes.
I Régression sur composantes principales (“Principal Component
250
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 175 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 176 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 177 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 178 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 183 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 184 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Fonction discriminante basée sur les MCO Fonction discriminante basée sur les MCO (suite)
Nous avons vu en introduction comment utiliser les MCO pour un Formules de dérivation de l’opérateur trace :
∂tr (AX)
problème de catégorisation binaire en utilisant des variables I
∂X = A>
>
artificielles. ∂tr (X A)
I
∂X =A
>
Dans le cas général des problèmes multiclasses, on représente les I
∂tr (X AX)
= AX + A> X
∂X
différentes classes par des vecteurs binaires qui aboutit à la matrice En développant scr (tr est un opérateur linéaire) on obtient :
binaire Y introduite précédemment.
Dans ce contexte, le critère scr est défini par : scr (g ) = tr (A> X> XA) − tr (A> X> Y) − tr (Y> XA) + tr (Y> Y)
2
n X
X q Xp En appliquant les formules de dérivation on obtient :
scr (g ) = yil − xij alj ∂scr (g )
i=1 l=1 j=0 = 2X> XA − 2X> Y
∂A
L’écriture matricielle de la fonction de perte est : ∂scr (g )
En posant ∂A = 0 on détermine les points critiques et il vient :
scr (g ) = tr (Y − XA)> (Y − XA) −1
 = X> X X> Y
où tr est l’opérateur trace d’une matrice carrée.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 185 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 186 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Fonction discriminante basée sur les MCO (exemple) Fonction discriminante basée sur les MCO (code R)
> #estimation utilisant lm
> X=data.frame(x1=X[,1],x2=X[,2])
1.0
> lm_disc_fit=lm(y~x1+x2,data=X)
> #estimation utilisant la solution analytique
> XX=as.matrix(cbind(rep(1,n),X))
0.8
> a=solve(t(XX)%*%XX)%*%t(XX)%*%y
> a
0.6
> y_hat
[,1] [,2] [,3]
0.0
Fonction discriminante basée sur les MCO (exemple) Fonction discriminante basée sur les MCO (suite)
1.0
L’avantage du critère des MCO est qu’il permet de déterminer une
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
solution analytique.
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.8
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
I Elle est sensible aux données aberrantes.
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
I Quand q est grand et p est petit, il arrive souvent que les frontières de
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
plusieurs classes. Dans ces cas, utiliser des hyperplans dans X comme
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
X^2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
frontière n’est pas suffisant il faut utiliser des expansions de base
0.4
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
[Hastie et al., 2011].
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●