Vous êtes sur la page 1sur 37

Fouilles de données

Master 2 MIAGE-GI

armel yodé
Table des matières

1 Introduction 4
1.1 Machine learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Différents types de machine learning . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Apprentissage non supervisé ou clustering . . . . . . . . . . . . . . . . . 5
1.2.3 Apprentissage semi-supervisé . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.4 Apprentissage par renforcement . . . . . . . . . . . . . . . . . . . . . . . 5

2 Apprentissage supervisé 6
2.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Règles de prédiction, fonctions de décision, frontières de décision . . . 6
2.2.2 Qualité d’une règle de prédiction . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Minimisation du risque empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Algorithmes d’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Principe de minimisation du risque empirique . . . . . . . . . . . . . . . 12
2.3.3 Sur-apprentissage, sous-apprentissage . . . . . . . . . . . . . . . . . . . . 13
2.3.4 Compromis biais-variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Selection de modèles et évaluation 17


3.1 Théorie de l’apprentissage de Vapnik-Chervonenkis. . . . . . . . . . . . . . . . . 17
3.1.1 Cas où H est fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2 Dimension de Vapnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.3 Lemme de Glivenko-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Estimation empirique de l’erreur de généralisation . . . . . . . . . . . . . . . . . 24
3.2.1 Echantillon d’entraı̂nement, échantillon test . . . . . . . . . . . . . . . . 24
3.2.2 Echantillon de validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.3 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.3.1 Validation croisée stratifiée . . . . . . . . . . . . . . . . . . . . . 25
3.2.4 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Critères de performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.1 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.2 Evaluation de méthodes de classification binaire retournant un score . 27
3.3.3 Erreur de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Régularisation 29

5 Régression logistique 30

6 Régression polynômiale 31

2
TABLE DES MATIÈRES 3
7 Réseaux de neurones 32

8 Méthode des plus proches voisins 33

9 Arbres et forêts 34

10 Machines à vecteurs supports 35

11 Clustering 36
Chapitre

1 Introduction

1.1 Machine learning


La définition proposée par Fabien Benureau (2015) du machine learning est : ”L’ap-
prentissage est une modification d’un comportement sur la base d’une expérience”. Pour un
programme informatique, on parle d’apprentissage automatique ou machine learning, quand
ce programme a la capacité d’apprendre sans que cette modification ne soit explicitement
programmée. On peut ainsi opposer un programme classique, qui utilise une procédure et les
données qu’il reçoit en entrée pour produire en sortie des réponses, à un programme d’ap-
prentissage automatique, qui utilise les données et les réponses afin de produire la procédure
qui permet d’obtenir les secondes à partir des premières.

Exemple 1.1.1. Supposons qu’une entreprise veuille connaı̂tre le montant total dépensé par
un client à partir de ses factures. Il suffit d’appliquer un algorithme classique, à savoir une
simple addition. Supposons maintenant que l’on veuille utiliser ces factures pour déterminer
quels produits le client est le plus susceptible d’acheter dans un mois. Bien que cela soit vrai-
semblablement lié, nous n’avons manifestement pas toutes les informations nécessaires pour
le faire. Cependant, si nous disposons de l’historique d’achat d’un grand nombre d’individus,
il devient possible d’utiliser un algorithme de machine learning pour qu’il en tire un modèle
prédictif nous permettant d’apporter une réponse à notre question.

Le machine learning est utilisé lorsqu’il est difficile ou impossible de définir les instruc-
tions explicites à donner à un ordinateur pour résoudre un problème, mais que l’on dispose
de nombreux exemples illustratifs. Il repose d’une part sur les mathématiques, et en parti-
culier les statistiques, pour ce qui est de la construction de modèles et de leur inférence à
partir de données, et d’autre part sur l’informatique, pour ce qui est de la représentation des
données et de l’implémentation efficace d’algorithmes d’optimisation. Le machine learning
peut être vu comme une branche de l’intelligence artificielle.

1.2 Différents types de machine learning


Les algorithmes de machine learning peuvent être divisés selon la nature du problème
qu’ils cherchent à résoudre, en apprentissage supervisé, non supervisé, semi-supervisé, et par
renforcement.

4
1.2. DIFFÉRENTS TYPES DE MACHINE LEARNING 5
1.2.1 Apprentissage supervisé
Un problème d’apprentissage
n supervisé
o peut être formalisé de la façon suivante : étant
données n observations x1 , x2 , . . . , xn , où chaque observation x i est un élément de l’espace
n o
des observations X , et leurs étiquettes y1 , y2 , . . . , yn , où chaque étiquette yi appartient à
l’espace des étiquettes Y , le but de l’apprentissage supervisé est de trouver une fonction
f : X −→ Y telle que f ( x) = y, pour toutes
n les paires ( x, y) ∈o X × Y ayant la même relation
que les paires observées. L’ensemble D = ( x i , yi ), i = 1, . . . , n forme le jeu d’apprentissage.

1.2.2 Apprentissage non supervisé ou clustering


Dans le cadre de l’apprentissage non supervisé, les données ne sont pas étiquetées. L’ap-
prentissagen non supervisé o peut être formalisé de la façon suivante : étant données n ob-
servations x i , i = 1, . . . , n décrites dans un espace X , il s’agit d’identifier les classes dans
lesquelles se regroupent ces observations, soit en construisant une hierachie de classes (algo-
rithme CAH), soit par partitionnement (Kmeans).
Exemple 1.2.1. — La segmentation de marché consiste à identifier des groupes d’usagers
ou de clients ayant un comportement similaire. Cela permet de mieux comprendre leur
profil, et cibler une campagne de publicité, des contenus ou des actions spécifiquement
vers certains groupes.
— Identifier des groupes de documents ayant un sujet similaire, sans les avoir au préa-
lable étiquetés par sujet. Cela permet d’organiser de larges banques de textes.
— Identifier des groupes parmi les patients présentant les mêmes symptômes permet
d’identifier des sous-types d’une maladie, qui pourront être traités différemment.

1.2.3 Apprentissage semi-supervisé


L’apprentisage semi-supervisé utilise un ensemble de données étiquetées et non-étiquetées.
Il se situe ainsi entre l’apprentissage supervisé qui n’utilise que des données étiquetées et
l’apprentissage non-supervisé qui n’utilise que des données non-étiquetées. Il est souvent
coûteux d’obtenir les étiquettes alors qu’en général, il est peu coûteux d’obtenir les données
sans étiquettes.

1.2.4 Apprentissage par renforcement


Dans le cadre de l’apprentissage par renforcement, le système d’apprentissage peut in-
teragir avec son environnement et accomplir des actions. En retour de ces actions, il obtient
une récompense, qui peut être positive si l’action était un bon choix, ou négative dans le
cas contraire. La récompense peut parfois venir aprs̀ une longue suite d’actions. Ainsi, l’ap-
prentissage consiste dans ce cas à définir une politique, c’est-à-dire une stratégie permettant
d’obtenir systématiquement la meilleure récompense possible. Les applications principales
de l’apprentissage par renforcement se trouvent dans les jeux (échecs, go, etc) et la robotique.
Chapitre

2 Apprentissage supervisé

2.1 Données
n o
Soient n observations x1 , x2 , . . . , xn , où chaque observation x i ∈ X ⊂ Rd avec d ≥ 1,
n o n
et leurs étiquettes y1 , y2 , . . . , yn , où chaque étiquette yi ∈ Y . L’ensemble D = ( x i , yi ), i =
o
1, . . . , n forme la base d’exemples. Lorsque
— Y = {0, 1} ou {−1, 1}, on parle de classification binaire ;
Exemple 2.1.1. • Identifier si un email est un spam ou non.
• Identifier si une image contient ou non un pont.
• Identifier si une transaction financière est frauduleuse ou non.
— Y = {0, . . . , K − 1} avec K ≥ 3, on parle de classification multi-classe ;
Exemple 2.1.2. • Identifier en quelle langue un texte est écrit.
• Identifier lequel des 10 chiffres est un chiffre manuscrit.
• Identifier l’expression d’un visage parmi une liste prédéfinie de possibilités (colère,
tristesse, joie, etc.).
• Classification d’images entre voiture, vélo, bus de ville, piéton, scooter.
— Y = R, on parle de régression.
Exemple 2.1.3. • Prédire le nombre de clics sur un lien.
• Prédrie le nombre d’utilisateurs d’un service en ligne à un moment
• Prédire le prix d’une action en bourse.

Modélisation : on suppose que ( x1 , y1 ), . . . , ( xn , yn ) est une réalisation de variables aléatoires


( X 1 , Y1 ), . . . , ( X n , Yn ) i.i.d. de loi de probabilité P inconnue.

2.2 Décision
En se basant sur D , il s’agit ici d’induire une fonction qui prédise les réponses associées
à de nouvelles observations en commettant une erreur de prédiction la plus faible possible.

2.2.1 Règles de prédiction, fonctions de décision, frontières de décision


Définition 2.2.1. Une règle de prédiction est une fonction mesurable f définie sur X à
valeurs dans Y qui associe la sortie f ( x) à l’entrée x ∈ X .

6
2.2. DÉCISION 7
Dans le cas d’un problème de classification, on peut utiliser une fonction intermédiaire g à
valeurs réelles. On obtient alors la règle de prédiction f en seuillant g ; g est appelée fonction
de décision.
Définition 2.2.2. Classification binaire. On appelle fonction de décision ou fonction discri-
minante, une fonction g : X −→ R telle que f ( x) = 0 si et seulement si g( x) < 0 et f ( x) = 1 si
et seulement si g( x) > 0.
Cette définition se généralise au cas de la classification multi-classe : on dispose alors de K
fonctions de décision g k : X −→ R telle que
f ( x) = arg min g k ( x).
k=0,...,K −1

Le concept de fonction de décision permet de partitionner l’espace X en régions de déci-


sion. Dans le cas d’un problème de classification binaire, la fonction de décision partitionne
l’espace des observations X en deux régions de décision R 0 et R 1 telles que :
n o n o
R 0 = x ∈ X | g ( x) < 0 R 1 = x ∈ X | g ( x) > 0 .

Dans le cas multi-classe, on a alors K régions de décision :


n o
R K = x ∈ X | g K ( x) = max g k ( x) .
k=0,...,K −1

Les régions de décision sont séparées par des frontières de décision.


Définition 2.2.3. Dans le cadre d’un problème de classification, on appelle frontière de déci-
sion ou discriminant, l’ensemble des points de X où une fonction de décision s’annule.
Tout algorithme de classification binaire peut être utilisé pour résoudre un problème de
classifition à K classes :
- approche ”une contre toute” : elle consiste à entraı̂ner K classifieurs binaires ; le kème
de ces classifieurs utilise tous les exemples de la classe k comme exemples positifs
et toutes les autres exemples comme exemple négatifs pour apprendre une fonction
g k ; ainsi, chaque classifieur apprend à distinguer une classe de toutes les autres ;
l’étiquette de x est donnée par celle des fonctions de décision qui retourne le score le
plus élevé :
f ( x) = arg max g k ( x);
k=0,...,K −1
8 CHAPITRE 2. APPRENTISSAGE SUPERVISÉ
- approche ”une contre une” : l’approche qui consiste à créer K (K2−1) classifieurs binaires
séparant chacun une classe d’une autre, en ignorant tous les autres exemples ; soit
g kc la fonction de décision du classifieur binaire qui sépare la classe k de la classe c ;

³X ´
l’étiquette de x est déterminé par : f ( x) = arg max g kc ( x) ou vote de la
k=0,1,...,K −1 k̸= c
majorité (la classe prédite est celle retournée par le plus grand nombre de classifieurs)
Pour poser un problème d’apprentissage supervisé, il nous faut décider du type de règles de
décision que nous allons considérer.
Définition 2.2.4. On appelle espace des hypothèses, l’espace de fonctions F ⊆ Y X décrivant
les règles de prédiction que nous allons considérer.
Cet espace est choisi en fonction de nos convictions par rapport au problème. Le choix de
l’espace des hypothèses est fondamental. En effet, si cet espace ne contient pas la ”bonne”
fonction, il sera impossible de trouver une bonne fonction de décision.

2.2.2 Qualité d’une règle de prédiction


Etant donnés un jeu de n observations étiquetées D = {( x i , yi ), i = 1, . . . , n} et un espace
d’hypothèses F , la tâche d’apprentissage supervisé consiste à supposer que les étiquettes
yi ont été calculées grâce à une fonction φ : X −→ Y , et à trouver une hypothèse f ∈ F qui
approche au mieux la fonction cible φ. Pour réaliser une telle tâche, nous avons besoin de
deux outils supplémentaires.
— une façon de quantifier la qualité d’une hypothèse, afin de pouvoir déterminer si une
hypothèse satisfaisante a été trouvée (fonction de perte).
— une façon de chercher une hypothèse optimale dans F (optimisation).
Définition 2.2.5. Toute fonction ℓ : Y ×Y −→ R+ telle que ℓ( y, y) = 0 et ℓ( y, y′ ) > 0 pour y ̸= y′
est appelée fonction de perte ; ℓ(Y , f ( X )) mesure l’erreur entre la réponse réelle Y et la
réponse prédite f ( X ) pour une donne d’entrée X ; ℓ(Y , f ( X )) est d’autant plus grande que
l’étiquette f ( X ) est éloignée de la vraie valeur Y .
Comment mesure-t-on la qualité d’une règle de prédiction ? La qualité d’une fonction de
prédiction f ∈ F est mesurée par son erreur de généralisation.
2.2. DÉCISION 9
Définition 2.2.6. Etant donnée une fonction de perte ℓ, l’erreur de généralisation d’une
règle de prédiction f est définie par :
R P ( f ) = EP [ℓ(Y , f ( X ))];

l’espérance mathématique EP est prise par rapport à la loi de probabilité P.


La généralisation, c’est la capacité d’un algorithme à faire des prédictions non seulement sur
les données que vous avez utilisées pour le construire, mais surtout sur de nouvelles données.
Définition 2.2.7. La ”meilleure” règle de prédiction f ∗ appelée fonction cible vérifie :
f ∗ ∈ arg min R P ( f ).
f ∈F

Remarque 2.2.1. f ∗ dépend de P et n’est pas utilisable car P inconnue.


Comme d P( x, y) = d P X d P( y | X = x), nous avons
R P ( f ) = EP [ℓ(Y , f ( X ))]
Z
= ℓ( y, f ( x)) d P( x, y)
ZX ×Y
hZ i
= ℓ( y, f ( x)) d P( y| X = x) d P X ( x)
ZX Y h i
= EP ℓ(Y , f ( X ))| X = x) d P X ( x)
X

Théorème 2.2.1. Supposons que pour tout x ∈ X , l’infimum


h i
inf EP ℓ(Y , z)| X = x)
z∈Y

est atteint.
h Alors unei fonction f : X −→ Y telle que pour tout x ∈ X , f ∗ ( x) minimise

z 7−→ EP ℓ(Y , z)| X = x) , est une fonction cible :


h i
∀ x ∈ X , f ∗ ( x) := arg min EP ℓ(Y , z)| X = x)
z∈Y

⇒ f := arg min R P ( f ).
f ∈F

Démonstration. Nous avons


R P ( f ) = EP (ℓ(Y , f ( X ))
= EP X EPY | X (ℓ(Y , f ( X ))
£ ¤
· ¸
≥ EP( X ) min EP(Y | X ) ℓ(Y , y)
y∈Y

= EP( X ) EP(Y | X ) (ℓ(Y , f ∗ ( X ))


£ ¤

= EP (ℓ(Y , f ∗ ( X ))
= RP ( f ∗ )

Exemple 2.2.1. Posons ℓ( y, f ( x)) = ( y − f ( x))2 . Une fonction cible est


f ∗ ( x) = E(Y | X = x).

EP(Y | x) (Y − y)2 = EP (Y | x) (Y − E(Y ))2 + (EP (Y | x) Y − y)2 .


Le premier terme étant indépendant de la valeur de y, l’infimum pour y ∈ Y de E(Y − y)2 est
atteint pour y = E(Y | X = x). On a donc bien f ∗ ( x) = E(Y | X = x) comme fonction cible.
10 CHAPITRE 2. APPRENTISSAGE SUPERVISÉ
Exemple 2.2.2. Posons ℓ( y, f ( x)) = 1 y̸= f ( x) . La fonction cible est la fonction f ∗ satisfaisant

f ∗ ( x) ∈ arg max P(Y = y| X = x) pour tout x ∈ X .


y∈Y

Lorsque Y = {0, 1}, posons η( x) = P (Y = 1| X = x)


(
∗ 1 si η( x) > 1/2
f ( x) =
0 si η( x) ≤ 1/2

est la fonction cible. En effet, en classification, on a |Y | < +∞, l’infimum recherché est donc
bien atteint. Nous avons

f ∗ ( x) = arg min EP(Y | x) (1Y ̸= y )


y∈Y

= arg min P(Y ̸= y| X = x)


y∈Y

= arg max P(Y = y| X = x)


y∈Y

Lorsque Y = {0, 1},


(
∗ 1 si P(Y = 1| X = x) > P(Y = 0| X = x)
f ( x) =
0 si P(Y = 1| X = x) ≤ P(Y = 0| X = x)

2.3 Minimisation du risque empirique


2.3.1 Algorithmes d’apprentissage
Les règles de prédiction optimale dépendent de P. Il est donc nécessaire de construire
des algorithmes d’apprentissage.

Définition 2.3.1. Un algorithme d’apprentissage est une application fbn qui à tout ensemble
d’apprentissage {( X 1 , Y1 ), . . . , ( X n , Yn )} renvoie une règle de prédiction.

fbn : (X × Y )n −→ Y X
³ ´
( X 1 , Y1 ), . . . , ( X n , Yn ) 7−→ fbn ·, ( X 1 , Y1 ), . . . , ( X n , Yn ) .

La performance d’un algorithme d’apprentissage est caractérisée l’excès de risque défini par :
³ ´ ³ ´
R P fbn − R P f ∗ .

Puisque cette différence est une variable aléatoire, on introduit d’autres mesures de perfor-
mance déterministes telles que :
³ ¢´ ³ ´
- E RP fbn − RP f ∗ ; l’espérance est prise par rapport à la loi de l’ensemble d’appren-
¡

tissage.
³ ´
- P RP fbn − RP f ∗ > ε pour un ε > 0 quelconque.
¡ ¢ ¡ ¢

Définition 2.3.2. Un algorithme d’apprentissage fbn est dit fortement consistant par rapport
à P si
¡ ¢ p.s
R P fbn −−−−−→ R P ( f ∗ ).
n→+∞
2.3. MINIMISATION DU RISQUE EMPIRIQUE 11
Définition 2.3.3. Un algorithme d’apprentissage fbn est dit faiblement consistant par rapport
à P si
E(R P ( fbn )) −−−−−→ R P ( f ∗ ).
n→+∞

La consistance garantit la capacité de généralisation.


Définition 2.3.4. On appelle généralisation la capacité d’un algorithme à faire des prédictions
correctes sur de nouvelles données, qui n’ont pas été utilisées pour le construire.
Définition 2.3.5. Un algorithme d’apprentissage est dit faiblement consistant par rapport à
une famille de lois de probabilité P s’il est consistant par rapport à tout P ∈ P .
Définition 2.3.6. Un algorithme d’apprentissage est dit faiblement universellement consistant
s’il est consistant par rapport à toute probabilité P sur X × Y .
Les résultats de consistance universelle ne disent pas le nombre de données nécessaires pour
avoir une garantie du type

E(R P ( fbn )) ≤ R P ( f ∗ ) + ε ε > 0 fixé.

Pour que ce nombre existe, il faudrait un résultat de consistance uniformement universelle.


Définition 2.3.7. Un algorithme d’apprentissage est dit uniformement universellement consis-
tant si
lim sup{E(R P ( fbn )) − R P ( f ∗ )} = 0.
n→+∞ P

En général, ce nombre n’existe pas.


Théorème 2.3.1. (Devroye, Györfi, Lugosi [3]). On considère la fonction de perte ℓ( y, f ( x)) =
1 y̸= f ( x) en classification binaire et l’on suppose que X est infini. Alors, pour tout n ∈ N et
toute règle d’apprentissage fbn , nous avons
1
sup{E(R P ( fbn )) − R P ( f ∗ )} ≥ > 0,
P 2
le sup étant pris sur l’ensemble de toutes les lois de probabilité sur X ×Y . En particulier, au-
cun algorithme d’apprentissage de classification ne peut être uniformément universellement
consistant lorsque X est infini.
Par conséquent, sans faire d’hypothèses sur la classe de distributions qui pourrait générer
les données, on ne peut obtenir des garanties sur l’erreur de généralisation de notre règle de
classification pour un n fini donné. Ainsi, l’absence d’algorithme universellement uniformé-
ment consistant nous amène à définir un ”bon” algorithme d’apprentissage comme étant un
algorithme universellement consistant et ayant une propriété de convergence uniforme sur
une classe P de lois de probabilités paraissant pertinente pour le problème à traiter.
Définition 2.3.8. Soit P une classe de lois de probabilité sur X ×Y . On dit qu’un algorithme
d’apprentissage est uniformement consistant sur P si

lim sup {E(R P ( fbn )) − R P ( f ∗ )} = 0.


n→+∞ P∈P

De plus, il faudra avoir une suite

sup {E(R P ( fbn )) − R P ( f ∗ )}


P∈P

décroissant le plus vite possible vers 0 pour que peu de données soient nécessaires à l’algo-
rithme pour prédire efficacement dans le cas où P ∈ P .
12 CHAPITRE 2. APPRENTISSAGE SUPERVISÉ
Définition 2.3.9. Soit ε > 0. On appelle complexité en quantité de données de P pour l’algo-
rithme fbn , le plus petit nombre n(P , ε, fbn ) tel que pour tout n ≥ n(P , ε, fbn ), on a

sup {E(R P ( fbn )) − R P ( f ∗ )} < ε.


P∈P

En d’autres termes, n(P , ε, fbn ) est la taille minimale necessaire pour garantir un excès de
risque en espérance inferieur à ε pour tout P ∈ P .
Définition 2.3.10. La complexité en données intrinsèque de P est

n(P , ε) = inf n(P , ε, fbn )


fbn

où inf est pris sur l’ensemble de tous les algorithmes d’apprentissage possibles.

2.3.2 Principe de minimisation du risque empirique


Soit f ∈ F ⊂ G une règle de prédiction. L’erreur de généralisation de f est définie par :
³ ´
R P ( f ) = EP ℓ(Y , f ( X )) .

La distribution P étant inconnue, RP ( f ) est inconnu. Elle peut être estimée par
1X n
Rn( f ) = ℓ(Yi , f ( X i )).
n i=1

Le risque empirique exprime la qualité de la fonction de prédiction f sur l’échantillon observé.


Définition 2.3.11. Etant donné un sous-ensemble F ⊂ G , l’algorithme de minimisation
du risque empirique sur F est défini par

fbn ∈ arg min R n ( f ). (2.3.1)


f ∈F

Selon le choix de F , l’équation (2.3.1) peut avoir une solution analytique explicite. La mini-
misation du risque empirique est généralement un problème mal posé au sens de Hadamard,
c’est à dire qu’il n’admet pas une solution unique dépendant de façon continue des condi-
tions initiales. Il se peut par exemple qu’un nombre infini de solutions minimise le risque
empirique à zéro.
2.3. MINIMISATION DU RISQUE EMPIRIQUE 13
La loi des grands nombres nous garantit que le risque empirique converge vers l’erreur
de généralisation :

P
R n ( f ) −−−−−→ R P ( f ) ∀f ∈ F.
n→+∞

Cela ne suffit pas à garantir que le minimum du risque empirique converge vers le minimum
de l’erreur de généralisation. En effet, si F est l’espace des fonctions mesurables, min R n ( f )
f ∈F
vaut généralement 0, ce qui n’est pas le cas de RP ( f ). Il n’y a donc aucune garantie que
la fonction qui minimise R n ( f ) soit un bon estimateur de la fonction cible. La consistance
de la minimisation du risque empirique dépend de l’espace des hypothèses F . L’étude de
cette consistance est un des principaux éléments de la théorie de l’apprentissage de Vapnik-
Chervonenkis.

2.3.3 Sur-apprentissage, sous-apprentissage

Considérons un algorithme qui, pour prédire l’étiquette d’une observation x, retourne


son étiquette si x appartient aux données dont l’étiquette est connue, et une valeur aléatoire
sinon. Cet algorithme aura une erreur empirique minimale quelle que soit la fonction de
perte choisie, mais fera de très mauvaises prédictions pour toute nouvelle observation. Ainsi,
évaluer un algorithme d’apprentissage sur les données sur lesquelles il a appris ne nous
permet absolument pas de savoir comment il se comportera sur de nouvelles données.
— Sur-apprentissage ou overfitting : on dit d’un modèle qui, plutôt que de capturer
la nature des objets à étiqueter, modélise aussi le bruit et ne sera pas en mesure de
généraliser qu’il sur-apprend. Un modèle qui sur-apprend est généralement un modèle
trop complexe, qui ”colle” trop aux données et capture donc aussi leur bruit.
— Sous-apprentissage ou underfitting : on dit d’un modèle qui est trop simple pour
avoir de bonnes performances même sur les données utilisées pour le construire qu’il
sous-apprend.
14 CHAPITRE 2. APPRENTISSAGE SUPERVISÉ

Un modèle qui surapprend est un modèle qui est trop complexe par rapport à la réalité
qu’il essaie de représenter. Nous avons tendance à préférer des modèles simples. Par ailleurs,
coller de trop près aux données est une mauvaise idée car elles sont inévitablement bruitées :

— Par des erreurs de mesure (les appareils que nous utilisons pour mesurer les variables
qui représentent nos données peuvent faire des erreurs techniques) ;
— Par des erreurs d’étiquetage (l’erreur est humaine, et il se peut que certaines des
étiquettes ne soient pas les bonnes) ;
— Parce que nous n’avons pas mesuré les variables les plus pertinentes, soit parce qu’on
ne les connaı̂t pas, soit parce qu’elles sont très compliquées à mesurer.

Il faut néanmoins aussi éviter les modèles trop simples, qui ne parviendront pas à bien
représenter le phénomène qui nous intéresse, et qui ne feront pas de bonnes prédictions. On
parle dans ce cas de ”sous-apprentissage”.
2.3. MINIMISATION DU RISQUE EMPIRIQUE 15

2.3.4 Compromis biais-variance


Pour mieux comprendre l’erreur de généralisation d’un algorithme d’apprentissage fbn ,
on peut la comparer à l’erreur de généralisation de la fonction cible.
Définition 2.3.12. On appelle excès de risque de fbn :
³ ´ ³ ´
R P fb − R P f ∗

où ³ ´ ³ ´
R P f ∗ = min R P f .
f ∈G

On peut décomposer l’excès de la façon suivante :


³ ´ ³ ´ ³ ³ ´ ³ ´´ ³ ³ ´ ³ ´´
R P fb − R P f ∗ = R P fb − min R P f + min R P f − R P f ∗ .
f ∈F f ∈F
³ ´ ³ ´
— Le premier terme RP fb − min RP f quantifie la distance entre l’algorithme fbn et la
f ∈F
fonction cible sur F . C’est l’erreur d’estimation qui correspond à la variance de la
procedure d’apprentissage.
³ ´ ³ ´´
— Le second terme min R P f − RP f ∗ quantifie la qualité de la fonction cible sur F ,
f ∈F
autrement dit, la qualité du choix de l’espace des hypothèses : c’est l’erreur d’ap-
proximation qui correspond au biais de la procedure d’apprentissage. Si F = G alors
l’erreur d’approximation est nulle.
Choisir un espace des hypothèses F plus large permet généralement de réduire l’erreur
d’approximation, car il est plus probable qu’un modèle plus proche de la réalité se trouve
dans cet espace. Cependant, puisque cet espace est plus vaste, la solution optimale y est
16 CHAPITRE 2. APPRENTISSAGE SUPERVISÉ
aussi généralement plus difficile à trouver : l’erreur d’estimation, elle, augmente. C’est dans
ce cas qu’il y a sur-apprentissage. Il y a donc un compromis entre erreur d’approximation
et erreur d’estimation : il est difficile de réduire l’une sans augmenter l’autre. Ce compromis
est généralement appelé compromis biais-variance.

Un modèle simple (variance faible) risque le sous- apprentissage (biais élevé y com-
pris sur les données d’entraı̂nement). Un modèle complexe (variance élevée) risque le sur-
apprentissage (biais faible sur les données d’entraı̂nement mais élevé sur de nouvelles don-
nées). On souhaite trouver un modèle intermédiaire, vers le creux de la courbe orange, là où
le biais de prédiction est le plus faible et la généralisation la meilleure.
Chapitre

3 Selection de modèles et évaluation

Le théorème du no free lunch de Wolpert et Macready (1997) indique qu’aucun algo-


rithme d’apprentissage ne peut bien fonctionner pour tous les problèmes d’apprentissage :
un algorithme qui fonctionne bien sur un type particulier de problèmes le compensera en
fonctionnant moins bien sur d’autres types de problèmes. En d’autres termes, il n’y a pas
de ”baguette magique” qui puisse résoudre tous les problèmes d’apprentissage statistique,
et il est donc essentiel, pour un problème donné, de tester plusieurs possibilités afin de
sélectionner le modèle optimal.

3.1 Théorie de l’apprentissage de Vapnik-Chervonenkis.


Nous nous intéressons aux questions suivantes :
1. Quelles sont les conditions (nécessaires et suffisantes) de consistance d’un algorithme
d’apprentissage obtenu par le principe de minimisation du risque empirique ?
2. Quelle est la vitesse de convergence (capacité de généralisation) d’un algorithme
d’apprentissage obtenu par le principe de minimisation du risque empirique ?
3. Comment contrôle-t-on la vitesse de convergence d’un algorithme d’apprentissage
obtenu par le principe de minimisation du risque empirique ?
4. Conmment construire des algorithmes qui peuvent contrôler la vitesse de conver-
gence ?
Définition 3.1.1. L’algorithme d’apprentissage obtenu par le principe de minimisaion du
risque empirique est consistant si
P
(i) R n ( fbn ) − R ( fbn ) −−−−−→ 0 ;
n→+∞
P
(ii) R n ( fbn ) −−−−−→ R ( f ∗ ).
n→+∞

Remarque 3.1.1. (i) l’algorithme doit renvoyer une règle de prédiction dont l’erreur em-
pirique reflète son erreur de généralisation lorsque la taille de la base d’entraı̂nement
tend vers l’infini ;
(ii) l’erreur empirique de l’algorithme doit converger vers l’erreur de généralisation de la
fonction cible.
Définition 3.1.2. Un résultat probablement approximativement correct (P.A.C.) est une af-
firmation du type : ∀0 < ε ≤ 1, avec une probabilité au moins 1 − ε, l’événement A ε se produit,
où ( A ε ) est une famille d’événements paramétrés par ε.

17
18 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
Si A ε = {V ≤ Wε } avec V et Wε , variable aléatoire réelle, on parle de borne P.A.C pour V .
Pour obtenir les majorations ci-dessus, on peut établir des inégalités P.A.C.
Lemme 3.1.1. L’erreur d’estimation de fbn vérifie :

R ( fbn ) − R ( f H ) ≤ 2 sup |R n ( f ) − R ( f )|.


f ∈H

Il suffit d’obtenir une majoration, en espérance ou en probabilité, de la variable aléatoire

sup |R n ( f ) − R ( f )|.
f ∈H

Démonstration. Soit ε > 0 et soit f ε ∈ H vérifiant R ( f ε ) < R ( f H ) + ε. Puisque fbn minimise


Rn,

R ( fbn ) − R ( f H ) = R ( fbn ) − R n ( fbn ) + R n ( fbn ) − R ( f H )


≤ R ( fbn ) − R n ( fbn ) + R n ( f ε ) − R ( f H )
≤ R ( fbn ) − R n ( fbn ) + R n ( f ε ) − R ( f ε ) + ε
≤ 2 sup |R n ( f ) − R ( f )| + ε.
f ∈H

3.1.1 Cas où H est fini


Cas où H est fini Considérons

H = { f1, . . . , f M }

où f j : X −→ Y sont des règles de prédiction. Dans ce cas :

f H = arg min R ( f j ) ⇐⇒ R ( f H ) = min R ( f j ).


j =1,...,M j =1,...,M

Proposition 3.1.1. Supposons qu’il existe a, b ∈ R tels que

a ≤ ℓ( y, y′ ) ≤ b. ∀ y, y′ .

Alors, avec une probabilité d’au moins 1 − δ, on a :


s
2 ln( 2δM )
R (c
f n ) ≤ R ( f H ) + ( b − a) .
n
Démonstration. On a
R (c
f n ) − R ( f H ) ≤ 2 sup |R ( f ) − R n ( f )|.
f ∈H

³ ´ ³ t´
P R (c
f n ) − R ( f H ) > t ≤ P sup |R ( f ) − R n ( f )| >
f ∈H 2
³[ M h t i´
=P | R ( f j ) − R n ( f j )| >
j =1 2
M ³ t´
P |R ( f j ) − R n ( f j )| >
X

j =1 2
3.1. THÉORIE DE L’APPRENTISSAGE DE VAPNIK-CHERVONENKIS. 19
Lemme 3.1.2 (Inégalité de Hoeffding.). Soient Z1 , . . . , Z n des variables aléatoires réelles in-
dépendantes telles que a i ≤ Z i ≤ b i P-p.s (a i < b i ). Alors, ∀, nous avons ε > 0
n
³¯ X ¯ ´ ³ 2ε2 ´
P ¯ ( Z i − E( Z i ))¯ ≥ ε ≤ 2 exp − Pn .
¯ ¯
2
i =1 i =1 ( b i − a i )

En utilisant l’inégalité de Hoeffding,


2
³ t´ − nt
P | R ( f j ) − R n ( f j )| > ≤ 2 e 2(b−a)2 .
2
Par suite, nous obtenons
2
− nt
³ ´
P R ( fbn ) − inf R ( f ) > t ≤ 2 N e 2(b−a)2 .
f ∈H

Pour tout 0 < δ < 1, on a


s
nt2 2 ³ 2M ´

Me 2( b−a)2 = δ ⇐⇒ t = ( b − a) ln
n δ

Lemme 3.1.3. Soit Z une variable aléatoire réelle positive. Supposons qu’il existe une constante
C > 0 telle que, pour tout ε > 0,
2
P( Z ≥ ε) ≤ Ce−2nε .
Alors s
³ ´ ln(Ce)
E Z ≤ .
2n
Démonstration. Nous avons Z ∞
E( Z 2 ) = P( Z 2 > ε) d ε.
0
Pour tout u ≥ 0,
Z u Z +∞
E( Z 2 ) = P( Z 2 > ε) d ε + P( Z 2 > ε) d ε
0 u
Z ∞
≤ u+C e−2nε d ε
u
C −2nu
≤ u+ e .
2n
En minimisant en u, on en déduit
ln(Ce)
E( Z 2 ) ≤ .
2n
On obtient le resultat final par l’inégalité de Cauchy-Schwarz.
Nous avons 2
− nε
³ ´
P R ( fbn ) − inf R ( f ) > ε ≤ 2Card(H ) e 2(b−a)2 .
f ∈H

D’après le Lemme 3.1.3, nous avons


s
³ ´ ln(2Card(H ) e)
E R ( fbn ) − inf R ( f ) ≤ ( b − a) .
f ∈H 2n

On suppose que X = Rd , Y = {0, 1} et ℓ( y, f ( x)) = 1 f ( x)̸= y .


20 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
Théorème 3.1.1. Pour tout ε > 0, nous avons
nε2
³ ´
f n ) − inf R ( f ) ≥ ε ≤ 2Card(H ) e− 2 .
P R n (c
f ∈H

Lemme 3.1.4 (Borel-Cantelli). Soit ( X n ) une suite de variables aléatoires telles que

P(| X n | > ε) < +∞.
X
∀ε > 0,
n=0

Alors
p.s
X n −−−−−→ 0.
n→+∞

Ainsi, si Card(H ) < ∞, nous obtenons


p.s
R (c
f n ) − inf R ( f ) −−−−−→ 0 L’erreur d’estimation tend vers 0.
f ∈H n→+∞

De plus, nous avons s


³ ´ ln(2Card(H ) e)
E R (c
f n ) − inf R ( f ) ≤ .
f ∈H 2n
H est fini Si Card(H ) < +∞ alors
³ ´ ³ 1 ´
E R (c
f n ) − inf R ( f ) = O p
f ∈H n

Ainsi, pour une classe de cardinal fini, l’erreur d’estimation reste sous contrôle selon la
1
taille (cardinal) et tend vers 0 à la vitesse p lorsque n tend vers l’infini.
n
Lorsque le cardinal de H n’est pas fini, il faut trouver de nouveaux outils pour appré-
hender la ”taille” de H : c’est l’objet de la théorie de Vapnik-Chervonenkis.

3.1.2 Dimension de Vapnik


Soit A une famille de sous-ensembles de Rd de cardinal (pas nécessairement fini) stric-
tement supérieur à 1.

Définition 3.1.3. Etant donné n points z1 , . . . , z n ∈ Rd , on définit


³nn o o´
NA ( z1 , . . . , z n ) = Card z1 , . . . , z n ∩ A : A ∈ A .
o
NA ( z1 , . . . , z n ) représente le nombre de sous-ensembles de { z1 , . . . , z n que l’on peut obtenir
en intersectant ces n points par les ensembles de A .

Nous avons NA ( z1 , . . . , z n ) ≤ 2n
n o
Définition 3.1.4. On dit que A pulvérise l’ensemble z1 , . . . , z n si

N A ( z1 , . . . , z n ) = 2 n .

Définition 3.1.5. On appelle coefficient de pulvérisation de n points par la classe A , la


quantité :
SA ( n ) = max N A ( z 1 , . . . , z n ).
( z1 ,...,z n )∈Rdn
3.1. THÉORIE DE L’APPRENTISSAGE DE VAPNIK-CHERVONENKIS. 21
Définition 3.1.6. La dimension de Vapnik-Chervonenkis (VC) de A est définie par :
n o
VA = max n ≥ 1 : SA ( n) = 2n .

La dimension de Vapnik-Chervonenkis mesure, en un certain sens, la ”taille” (la ”dimen-


sion”) de la famille A et généralise ainsi la notion de cardinal. C’est le plus grand nombre
de points que la classe de fonction arrive à pulvériser.

Théorème 3.1.2 (Vapnik-Chervonenkis). Soient Z1 , . . . , Z n des variables aléatoires indépen-


dantes de même loi P sur Rd , et Pn la mesure empirique correspondante :

1X n
Pn = δZ .
n i=1 i

Alors, pour toute famille borélienne A ⊂ B (Rd ) et pour tout ε > 0, on a

nε2
³ ¯ ¯ ´
P sup ¯Pn ( A ) − P( A )¯ > ε ≤ 8SA ( n) e− 32
¯ ¯
A ∈A

1. La borne est universelle, dans le sens où elle ne dṕend pas de la loi P.
2. Ce résultat généralise le Théorème 3.1.1
D’après le Lemme de Borel-Cantelli, nous avons les résultat suivant :
nε2
SA ( n ) e −
X
Corollaire 3.1.1. Si 32 < +∞ alors
n≥0
¯ ¯ p.s
sup ¯Pn ( A ) − P( A )¯ −−−−−→ 0.
¯ ¯
A ∈A n→+∞

Lemme 3.1.5. Sauer (1972) Soit A une famille d’ensembles admettant une dimension de
Vapnik-Chervonenkis finie VA . Alors, pour tout n ≥ 1,

VA
SA ( n) ≤ C ni .
X
i =1

Corollaire 3.1.2. Soit A une famille d’ensembles admettant une dimension de Vapnik-
Chervonenkis finie VA . Alors, pour tout n ≥ 1

SA ( n) ≤ ( n + 1)VA .

Démonstration. On a
V V
A A n i VX A
( n + 1)VA = C Vi A n i ≥ C ni ≥ SA ( n)
X X

i =0 i =0 i ! i =0

Nous avons
- soit SA (n) = 2n pour tout n ≥ 1 (VA = +∞)
- soit SA (n) ≤ (n + 1)VA (VA < +∞)
22 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
D’après l’inégalité de Vapnik-Chervonenkis, nous avons
s
³ ´ ln(8 eSA ( n))
E sup |Pn ( A ) − P( A )| ≤ 8
A ∈A 2n
s
VA ln( n + 1) + 4
≤8
2n
s
³ V ln( n) ´
A
=O
n

D’après l’inégalité de Vapnik-Chervonenkis, nous avons


s
³ ´ ³ VA ln( n) ´
E sup |Pn ( A ) − P( A )| = O
A ∈A n

Corollaire 3.1.3. Si VA < ∞ alors


³ ´
1. E sup A ∈A |Pn ( A ) − P( A )| −−−−−→ 0.
n→+∞
¯ ¯ p.s
2. sup ¯Pn ( A ) − P( A )¯ −−−−−→ 0.
¯ ¯
A ∈A n→+∞

3.1.3 Lemme de Glivenko-Cantelli


Posons A = {] − ∞, z] : z ∈ R}. Pour tout A =] − ∞, z] ∈ A , P( A ) = F ( z) et Pn ( A ) = F n ( z)
(fonction de répartition empirique associée à ( Z1 , . . . , Z n )). D’autre part, nous avons SA (n) =
n + 1 et VA = 1. L’inégalité de Vapnik-Chervonenkis :
³ ´ ³ ´
P sup |Pn ( A ) − P( A )| > ε = P sup |F n ( z) − F ( z)| > ε
A ∈A z∈R
nε2
≤ 8( n + 1) e− 32 .

Le lemme de Borel-Cantelli implique que


p.s
sup |F n ( z) − F ( z)| −−−−−→ 0.
z∈R n→+∞

Classement binaire avec la perte 0-1


• X ∈ X = Rd
• Y ∈ Y = {0, 1}
• ℓ( y, f ( x)) = 1 f ( x)̸= y .

On a ( X 1 , Y1 ), . . . , ( X n , Yn ) sont i.i.d. de loi P. La mesure empirique est définie par

1X n
Pn ( A ) = 1( X i ,Yi )∈ A .
n i=1

À une règle de prédiction f ∈ H , nous associons le borélien


n o
A f = ( x, y) ∈ Rd × {0, 1} : f ( x) ̸= y .
3.1. THÉORIE DE L’APPRENTISSAGE DE VAPNIK-CHERVONENKIS. 23
Nous avons
R ( f ) = P( f ( X ) ̸= Y ) = P(A f )
1X n
Rn( f ) = 1 f ( X i )̸=Yi = Pn (A f )
n i=1
Nous avons donc ¯ ¯
sup |R n ( f ) − R ( f )| = sup ¯Pn ( A ) − P( A )¯
¯ ¯
f ∈H A ∈A
où A = {A f , f ∈ H }. Pour analyser le comportement de sup f ∈H |R n ( f ) − R ( f )|, il faut com-

prendre la déviation de la mesure empirique Pn par rapport à la vraie mesure P sur la classe
d’ensembles mesurables A .
n o
Proposition 3.1.2. Soit A¯ = x ∈ Rd , f ( x) = 1 : f ∈ H . Alors, pour tout n ≥ 1, S A¯ (n) = S A (n).
En particulier, VA = VA¯ .
Théorème 3.1.3. Nous avons
nε2
³ ´
f n ) − inf R ( f ) > ε ≤ 8S A¯ ( n) e− 128 .
P R (c
f ∈H

De plus, s
³ ´ ln( eS A¯ ( n))
E c
f n ) − inf R ( f ) ≤ 16 .
f ∈H 2n
D’après Borel-Cantelli, on en déduit que
p.s
R (c
f n ) − inf R ( f ) −−−−−→ 0.
f ∈H n→+∞

Si VA¯ < ∞ alors s


³ V ¯ ln( n) ´
A
³ ´
E R (c
f n ) − inf R ( f ) = O .
f ∈H n
Théorème 3.1.4 (Vapnik-Chervonenkis). Soit X ⊂ Rd un espace vectoriel et Y = {−1, 1} un
espace de sortie et H une classe de fonctions à valeurs dans Y et de dimension VC VH .
Pour tout δ ∈]0, 1], n ≥ VH , avec une probabilité au moins égale à 1 − δ :
s
8VH ln( 2Ven ) + 8 ln(4/δ)
H
R (c
f n ) ≤ inf R ( f ) + .
f ∈H n
s
8VH ln( 2Ven ) + 8 ln(4/δ)
H
• Si la dimension VC VH de H est finie alors lim = 0 et le
n→+∞ n
principe de Minimisation du Risque Empirique est consistant quelque soit la distri-
bution P générant les exemples.
• Vapnik (1999) a démontré pour que le principe MRE soit consistant pour toute
distribution P, il est nécessaire que la dimension VC de la classe considérée soit finie.
D’après tout ce qui précède, nous avons le résultat suivant
Théorème 3.1.5. Quelque soit la distribution de probabilité générant les exemple, le principe
MRE est consistant si et seulement si la dimension VC de la classe considérée est finie.
Corollaire 3.1.4 (Vapnik-Chervonenkis (1971)). Pour tout n ≥ VH avec une probabilité d’au
moins 1 − δ, nous avons
s
8VH ln( 2Ven ) + 8 ln(4/δ)
H
∀f ∈ H , R( f ) ≤ Rn( f ) + .
n
24 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION

3.2 Estimation empirique de l’erreur de généralisation


L’erreur empirique mesurée sur les observations qui ont permis de construire le modèle est
un mauvais estimateur de l’erreur de généralisation : si le modèle sur-apprend, cette erreur
empirique peut être proche de zéro voire nulle, tandis que l’erreur de généralisation peut
être arbitrairement grande. Il est donc indispensable d’utiliser pour évaluer un modèle des
données étiquetées qui n’ont pas servi à le construire. La manière la plus simple d’y parvenir
est de mettre de côté une partie des observations réservées à l’évaluation du modèle, et
d’utiliser uniquement le reste des données pour le construire.

3.2.1 Echantillon d’entraı̂nement, échantillon test


n o
Définition 3.2.1. Etant donné un jeu de données D = ( x i , yi ), i = 1, . . . , n , partitionné en
deux jeux D tr et D te , on appelle jeu d’entraı̂nement l’ensemble utilisé pour entraı̂ner un
modèle prédictif, et jeu de test l’ensemble utilisé pour son évaluation.

Comme nous n’avons pas utilisé le jeu de test pour entraı̂ner notre modèle, il peut être
considéré comme un jeu de données ”nouvelles”. La perte calculée sur ce jeu de test est un
estimateur de l’erreur de généralisation.

3.2.2 Echantillon de validation


Considérons maintenant la situation dans laquelle nous voulons choisir entre K modèles.
Nous pouvons alors entraı̂er chacun des modèles sur le jeu de données d’entraı̂nement, obte-
nant ainsi K fonctions de décision fb1 , . . . , fbK , puis calculer l’erreur de chacun de ces modèles
sur le jeu de test. Nous pouvons ensuite choisir comme modèle celui qui a la plus petite
erreur sur le jeu de test :
1 X
fb = arg min ³ ´ ℓ( y, fbk ( x))
k=1,...,K Card D te ( x,y ) ∈D te

Mais quelle est son erreur de généralisation ? Comme nous avons utilisé D te pour sélectionner
le modèle, il ne représente plus un jeu indépendant composé de données nouvelles, inutilisées
pour déterminer le modèle. La solution est alors de découper notre jeu de données en trois
parties :
• un jeu d’entraı̂nement D tr sur lequel nous pourrons entraı̂ner nos K algorithmes
d’apprentissage ;
• un jeu de validation (validation set en anglais) Dval sur lequel nous évaluerons les K
modèles ainsi obtenus, afin de sélectionner un modèle définitif ;
• un jeu de test D te sur lequel nous évaluerons enfin l’erreur de généralisation du modèle
choisi.
On voit qu’il est important de distinguer la sélection d’un modèle de son évaluation : les
faire sur les mêmes données peut nous conduire à sous-estimer l’erreur de généralisation et
le sur-apprentissage du modèle choisi. Une fois un modèle sélectionné, on peut le réentraı̂ner
sur l’union du jeu d’entraı̂nement et du jeu de validation afin de construire un modèle final.

3.2.3 Validation croisée


La séparation d’un jeu de données en un jeu d’entraı̂nement et un jeu de test est néces-
sairement arbitraire. Nous risquons ainsi d’avoir, par hasard, créé des jeux de données qui ne
3.2. ESTIMATION EMPIRIQUE DE L’ERREUR DE GÉNÉRALISATION 25
sont pas représentatifs. Pour éviter cet écueil, il est souhaitable de reproduire plusieurs fois
la procédure, puis de moyenner les résultats obtenus afin de moyenner ces effets aléatoires.
Le cadre le plus classique pour ce faire est celui de la validation croisée.

Définition 3.2.2. Etant donnés un jeu D de n observations et un nombre K , on appelle


validation croisée la procédure qui consiste à :
1. partitionner D en K parties de tailles sensiblement similaires, D1 , D2 , . . . , DK ;
2. pour chaque valeur de k = 1, . . . , K :
(a) entraı̂ner un modèle sur ∪l ̸=k Dl ,
(b) evaluer sur Dk
Chaque partition de D en deux ensembles Dk et ∪l ̸=k Dl est appelée un fold de la validation
croisée.

Chaque observation étiquetée du jeu D appartient à un unique jeu de test, et à (K-1)


jeux d’entraı̂nement. Ainsi, cette procédure génère une prédiction par observation de D .
Pour conclure sur la performance du modèle, on peut :
• soit évaluer la qualité des prédictions sur D ;
• soit évaluer la qualité de chacun des K prédicteurs sur le jeu de test Dk correspondant,
et moyenner leurs performances. Cette deuxième approche permet aussi de rapporter
l’écart-type de ces performances, ce qui permet de se faire une meilleure idée de la
variabilité de la qualité des prédictions en fonction des données d’entraı̂nement.

3.2.3.1 Validation croisée stratifiée


Leave-one-out
Un algorithme d’apprentissage apprendra d’autant mieux qu’il y a d’avantage de données
disponibles pour l’entraı̂nement : plus on connaı̂t d’étiquettes pour des observations, plus
on peut contraindre le modèle à les respecter. Or pour un jeu de données de taille n, un
jeu de test d’une validation croisée à K folds contient (K −K1)n points : les modèles entraı̂nés
apprendront d’autant mieux sur chacun des folds K qu’ils sont grands, ce qui nous pousse à
considérer le cas où K = n.

Définition 3.2.3. Une validation croisée dont le nombre de folds est égal au nombre d’obser-
vations dans le jeu d’entraı̂nement, et dont chaque fold est donc composé d’un jeu d’entraı̂-
nement de taille n − 1 et d’un jeu de test de taille 1, est appelée leave-one-out (on met de
côté, pour chaque fold, un unique exemple).

L’évaluation par leave-one-out présente deux inconvénients. Tout d’abord, elle requiert
un grand temps de calcul : on entraı̂ne n modèles, chacun sur n − 1 observations, au lieu
de (dans le cas K = 10) 10 modèles, chacun sur 90% des observations. De plus, les jeux
d’entraı̂nement ainsi formés sont très similaires entre eux. Les modèles entraı̂nés seront eux
aussi très similaires, et généralement peu différents d’un modèle entraı̂né sur l’intégralité du
jeu de données. Par contre, les jeux de test seront disjoints, et les performances pourront
ainsi avoir une grande variabilité, ce qui compliquera leur interprétation.

3.2.4 Bootstrap
Une autre façon de rééchantillonner les données afin d’estimer l’erreur de généralisa- tion
est connue sous le nom de bootstrap.
26 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
Définition 3.2.4. Étant donné un jeu D de n observations, et un nombre B, on appelle boots-
trap la procédure qui consiste à créer B échantillons D1 , D2 , . . . , DB de D , obtenus chacun en
tirant n exemples de D avec remplacement. Ainsi, chaque exemple peut apparaı̂tre plusieurs
fois, ou pas du tout, dans Db .

Le bootstrap est une procédure couramment utilisée en statistiques pour estimer un


paramètre en fonction de son estimation sur les B échantillons. En la suivant, on pourrait
entraı̂ner le modèle à évaluer sur chaque échantillon Db , puis évaluer sa performance sur
l’intégralité de D . Cependant, cette estimation serait biaisée par la présence d’une partie
des exemples de D dans Db . Il faut donc se limiter aux exemples de D\Db . En pratique,
cette procédure est jugée trop complexe pour être souvent appliquée.

3.3 Critères de performance


3.3.1 Matrice de confusion
Définition 3.3.1. Étant donné un problème de classification, on appelle matrice de confusion
une matrice M contenant autant de lignes que de colonnes que de classes, et dont l’entrée
M ck est le nombre d’exemples de la classe c pour laquelle l’étiquette k a été prédite.

Dans le cas de la classification binaire, la matrice de confusion prend la forme suivante :

On appelle vrais
positifs (en anglais true positives) les exemples positifs correctement classifiés ; faux positifs
(en anglais false positives) les exemples négatifs étiquetés positifs par le modèle ; et réci-
proquement pour les vrais négatifs (true negatives) et les faux négatifs ( false negatives).
On note généralement TP le nombre de vrais positifs, FP le nombre de faux positifs, TN
le nombre de vrais négatifs et FN le nombre de faux négatifs. Les faux positifs sont aussi
appelés fausses alarmes ou erreurs de type I, par opposition aux erreurs de type II qui sont
les faux négatifs.
Il est possible de dériver de nombreux critères d’évaluation à partir de la matrice de
confusion.

Définition 3.3.2. On appelle rappel (recall en anglais), ou sensibilité (sensitivity en anglais),


le taux de vrais positifs, c’est-à-dire la proportion d’exemples positifs correctement identifiés
comme tels :
TP
Sensibilité = .
TP + F N
Définition 3.3.3. On appelle précision, ou valeur positive prédictive (positive predictive value,
PPV ) la proportion de prédictions correctes parmi les prédictions positives :

TP
Précision = .
TP + FP

Pour résumer rappel et précision en un seul nombre, on calculera la F-mesure.


3.3. CRITÈRES DE PERFORMANCE 27
Définition 3.3.4. On appelle F-mesure (F-score ou F1-score en anglais), notée F, la moyenne
harmonique de la précision et du rappel :
Précision.Rappel 2TP
F-mesure = 2 =
Précision+Rappel 2TP + FP + F N
Définition 3.3.5. On appelle spécificité le taux de vrais négatifs, autrement dit la proportion
d’exemples négatifs correctement identifiés comme tels :
TN
Spécificité = .
FP + T N

3.3.2 Evaluation de méthodes de classification binaire retournant un score


De nombreux algorithmes de classification ne retournent pas directement une étiquette
de classe, mais utilisent une fonction de décision qui doit ensuite être seuillée pour devenir
une étiquette. Cette fonction de décision peut être un score arbitraire ou la probabilité
d’appartenir à la classe positive. Plusieurs critères permettent d’évaluer la qualité de la
fonction de décision avant seuillage.

Courbe ROC
Définition 3.3.6. On appelle courbe ROC, de l’anglais Receiver-Operator Characteristic la
courbe décrivant l’évolution de la sensibilité en fonction du complémentaire à 1 de la spéci-
ficité, parfois appelé antispécificité, lorsque le seuil de décision change.
On peut synthétiser une courbe ROC par l’aire sous cette courbe, souvent abrégée AU-
ROC pour Area Under the ROC.
Le point (0, 0) apparaı̂t quand on utilise comme seuil un nombre supérieur à la plus
grande valeur retournée par la fonction de décision : ainsi, tous les exemples sont étiquetés
négatifs. À l’inverse, le point (1, 1) apparaı̂t quand on utilise pour seuil une valeur inférieure
au plus petit score retourné par la fonction de décision : tous les exemples sont alors éti-
quetés positifs. Pour construire la courbe ROC, on prend pour seuil les valeurs successives
de la fonction de décision sur notre jeu de données. Ainsi, à chaque nouvelle valeur de seuil,
une observation que l’on prédisait précédemment négative change d’étiquette. Si cette ob-
servation est effectivement positive, la sensibilité augmente de 1/n p (où n p est le nombre
d’exemples positifs) ; sinon, c’est l’antispécificité qui augmente de 1/n n , où n n est le nombre
d’exemples négatifs. La courbe ROC est donc une courbe en escalier.
Un classifieur idéal, qui ne commet aucune erreur, associe systématique des scores plus
faibles aux exemples négatifs qu’aux exemples positifs. Sa courbe ROC suit donc le coin
supérieur gauche du carré [0, 1]2 ; il a une aire sous la courbe de 1.
La courbe ROC d’un classifieur aléatoire, qui fera sensiblement la même pro- portion
d’erreurs que de classifications correctes quel que soit le seuil utilisé, suit la diagonale de ce
carré. L’aire sous la courbe ROC d’un classifieur aléatoire vaut donc 0,5.
On peut enfin utiliser la courbe ROC pour choisir un seuil de décision, à partir de la
sensibilité (ou de la spécificité) que l’on souhaite garantir.

Courbe précision-rappel
La courbe précision-rappel vient souvent complémenter la courbe ROC.
Définition 3.3.7. On appelle courbe précision-rappel, ou courbe PR, ou Precision-Recall curve
en anglais, la courbe décrivant l’évolution de la précision en fonction du rappel, lorsque le
seuil de décision change.
28 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
Pour synthétiser cette courbe, on peut utiliser l’aire sous celle-ci, souvent abrégée AUPR
pour Area Under the Precision-Recall curve.

3.3.3 Erreur de régression


Dans le cas d’un problème de régression, le nombre d’erreurs n’est pas un critère appro-
prié pour évaluer la performance. D’une part, à cause des imprécisions numériques, il est
délicat de dire d’une prédiction à valeur réelle si elle est correcte ou non. D’autre part, un
modèle dont 50 % des prédictions sont correctes à 0,1 % près et les 50 autres pourcent sont
très éloignées des vraies valeurs vaut-il mieux qu’un modèle qui n’est correct qu’à 1 % près,
mais pour 100 % des exemples ? Ainsi, on préférera quantifier la performance d’un modèle
de régression en fonction de l’écart entre les prédictions et les valeurs réelles.
Définition 3.3.8. on appelle erreur quadratique moyenne, ou MSE de l’anglais mean squared
error, la valeur
1X n ³ ´2
MSE = Yi − f ( x i ) .
n i=1

Pour mesurer l’erreur dans la même unité que la cible, on lui préfère souvent sa racine :

Définition 3.3.9. on appelle racine erreur quadratique moyenne, ou RMSE de l’anglais root
mean squared error, la valeur
s
1X n ³ ´2
RMSE = Yi − f ( x i ) .
n i=1

Dans le cas où les valeurs cibles couvrent plusieurs ordres de grandeur, on préfère parfois
passer au log avant de comparer f ( x i ) à Yi , afin de ne pas donner plus d’importance aux
erreurs faites pour des valeurs plus élevées.
s
1X n ³ ´2
RMSLE = log(Yi + 1) − f ( x i ) .
n i=1
Chapitre

4 Régularisation

29
Chapitre

5 Régression logistique

30
Chapitre

6 Régression polynômiale

31
Chapitre

7 Réseaux de neurones

32
Chapitre

8 Méthode des plus proches voisins

33
Chapitre

9 Arbres et forêts

34
Chapitre

10 Machines à vecteurs supports

35
Chapitre

11 Clustering

36
Bibliographie

[1] Azencott C., Introduction au machine learning, Dunod, 2018.


[2] Benureau, F. Self-Exploration of Sensorimotor Spaces in Robots. Thèse de doctorat,
université de Bordeaux, 2015.
[3] Devroye L., Györfi L. and Lugosi G., A probabilistic theory of pattern recognition,
volume 31. Springer Verlag, 1996.
[4] Hastie T., Tibshirani R., Friedman J., The elements of statistical learning, Springer,
2001.
[5] Tikhonov A. N., On solving ill-posed problem and method of regularization, Doklady
Akademii Nauk, USSR 153, 1963, 501-504.
[6] Vapnik V., The nature of statistical learning theory, New-York, Springer-Verlag, 1996.

37

Vous aimerez peut-être aussi