Cours Fouilles Donnees

Fouilles de données
Master 2 MIAGE-GI
armel yodé
Table des matières
1 Introduction 4
1.1 Machine learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Différents types de machine learning . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Apprentissage non supervisé ou clustering . . . . . . . . . . . . . . . . . 5
1.2.3 Apprentissage semi-supervisé . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.4 Apprentissage par renforcement . . . . . . . . . . . . . . . . . . . . . . . 5
2 Apprentissage supervisé 6
2.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Règles de prédiction, fonctions de décision, frontières de décision . . . 6
2.2.2 Qualité d’une règle de prédiction . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Minimisation du risque empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Algorithmes d’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Principe de minimisation du risque empirique . . . . . . . . . . . . . . . 12
2.3.3 Sur-apprentissage, sous-apprentissage . . . . . . . . . . . . . . . . . . . . 13
2.3.4 Compromis biais-variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Selection de modèles et évaluation 17

3.1 Théorie de l’apprentissage de Vapnik-Chervonenkis. . . . . . . . . . . . . . . . . 17
3.1.1 Cas où H est fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2 Dimension de Vapnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.3 Lemme de Glivenko-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Estimation empirique de l’erreur de généralisation . . . . . . . . . . . . . . . . . 24
3.2.1 Echantillon d’entraı̂nement, échantillon test . . . . . . . . . . . . . . . . 24
3.2.2 Echantillon de validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.3 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.3.1 Validation croisée stratifiée . . . . . . . . . . . . . . . . . . . . . 25
3.2.4 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Critères de performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.1 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.2 Evaluation de méthodes de classification binaire retournant un score . 27
3.3.3 Erreur de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4 Régularisation 29
5 Régression logistique 30
6 Régression polynômiale 31
2
TABLE DES MATIÈRES 3
7 Réseaux de neurones 32
8 Méthode des plus proches voisins 33
9 Arbres et forêts 34
10 Machines à vecteurs supports 35
11 Clustering 36
Chapitre
1 Introduction
1.1 Machine learning

La définition proposée par Fabien Benureau (2015) du machine learning est : ”L’ap-
prentissage est une modification d’un comportement sur la base d’une expérience”. Pour un
programme informatique, on parle d’apprentissage automatique ou machine learning, quand
ce programme a la capacité d’apprendre sans que cette modification ne soit explicitement
programmée. On peut ainsi opposer un programme classique, qui utilise une procédure et les
données qu’il reçoit en entrée pour produire en sortie des réponses, à un programme d’ap-
prentissage automatique, qui utilise les données et les réponses afin de produire la procédure
qui permet d’obtenir les secondes à partir des premières.
Exemple 1.1.1. Supposons qu’une entreprise veuille connaı̂tre le montant total dépensé par
un client à partir de ses factures. Il suffit d’appliquer un algorithme classique, à savoir une
simple addition. Supposons maintenant que l’on veuille utiliser ces factures pour déterminer
quels produits le client est le plus susceptible d’acheter dans un mois. Bien que cela soit vrai-
semblablement lié, nous n’avons manifestement pas toutes les informations nécessaires pour
le faire. Cependant, si nous disposons de l’historique d’achat d’un grand nombre d’individus,
il devient possible d’utiliser un algorithme de machine learning pour qu’il en tire un modèle
prédictif nous permettant d’apporter une réponse à notre question.
Le machine learning est utilisé lorsqu’il est difficile ou impossible de définir les instruc-
tions explicites à donner à un ordinateur pour résoudre un problème, mais que l’on dispose
de nombreux exemples illustratifs. Il repose d’une part sur les mathématiques, et en parti-
culier les statistiques, pour ce qui est de la construction de modèles et de leur inférence à
partir de données, et d’autre part sur l’informatique, pour ce qui est de la représentation des
données et de l’implémentation efficace d’algorithmes d’optimisation. Le machine learning
peut être vu comme une branche de l’intelligence artificielle.
1.2 Différents types de machine learning

Les algorithmes de machine learning peuvent être divisés selon la nature du problème
qu’ils cherchent à résoudre, en apprentissage supervisé, non supervisé, semi-supervisé, et par
renforcement.
4
1.2. DIFFÉRENTS TYPES DE MACHINE LEARNING 5
1.2.1 Apprentissage supervisé
Un problème d’apprentissage
n supervisé
o peut être formalisé de la façon suivante : étant
données n observations x1 , x2 , . . . , xn , où chaque observation x i est un élément de l’espace
n o
des observations X , et leurs étiquettes y1 , y2 , . . . , yn , où chaque étiquette yi appartient à
l’espace des étiquettes Y , le but de l’apprentissage supervisé est de trouver une fonction
f : X −→ Y telle que f ( x) = y, pour toutes
n les paires ( x, y) ∈o X × Y ayant la même relation
que les paires observées. L’ensemble D = ( x i , yi ), i = 1, . . . , n forme le jeu d’apprentissage.
1.2.2 Apprentissage non supervisé ou clustering

Dans le cadre de l’apprentissage non supervisé, les données ne sont pas étiquetées. L’ap-
prentissagen non supervisé o peut être formalisé de la façon suivante : étant données n ob-
servations x i , i = 1, . . . , n décrites dans un espace X , il s’agit d’identifier les classes dans
lesquelles se regroupent ces observations, soit en construisant une hierachie de classes (algo-
rithme CAH), soit par partitionnement (Kmeans).
Exemple 1.2.1. — La segmentation de marché consiste à identifier des groupes d’usagers
ou de clients ayant un comportement similaire. Cela permet de mieux comprendre leur
profil, et cibler une campagne de publicité, des contenus ou des actions spécifiquement
vers certains groupes.
— Identifier des groupes de documents ayant un sujet similaire, sans les avoir au préa-
lable étiquetés par sujet. Cela permet d’organiser de larges banques de textes.
— Identifier des groupes parmi les patients présentant les mêmes symptômes permet
d’identifier des sous-types d’une maladie, qui pourront être traités différemment.
1.2.3 Apprentissage semi-supervisé

L’apprentisage semi-supervisé utilise un ensemble de données étiquetées et non-étiquetées.
Il se situe ainsi entre l’apprentissage supervisé qui n’utilise que des données étiquetées et
l’apprentissage non-supervisé qui n’utilise que des données non-étiquetées. Il est souvent
coûteux d’obtenir les étiquettes alors qu’en général, il est peu coûteux d’obtenir les données
sans étiquettes.
1.2.4 Apprentissage par renforcement

Dans le cadre de l’apprentissage par renforcement, le système d’apprentissage peut in-
teragir avec son environnement et accomplir des actions. En retour de ces actions, il obtient
une récompense, qui peut être positive si l’action était un bon choix, ou négative dans le
cas contraire. La récompense peut parfois venir aprs̀ une longue suite d’actions. Ainsi, l’ap-
prentissage consiste dans ce cas à définir une politique, c’est-à-dire une stratégie permettant
d’obtenir systématiquement la meilleure récompense possible. Les applications principales
de l’apprentissage par renforcement se trouvent dans les jeux (échecs, go, etc) et la robotique.
Chapitre
2 Apprentissage supervisé
2.1 Données
n o
Soient n observations x1 , x2 , . . . , xn , où chaque observation x i ∈ X ⊂ Rd avec d ≥ 1,
n o n
et leurs étiquettes y1 , y2 , . . . , yn , où chaque étiquette yi ∈ Y . L’ensemble D = ( x i , yi ), i =
o
1, . . . , n forme la base d’exemples. Lorsque
— Y = {0, 1} ou {−1, 1}, on parle de classification binaire ;
Exemple 2.1.1. • Identifier si un email est un spam ou non.
• Identifier si une image contient ou non un pont.
• Identifier si une transaction financière est frauduleuse ou non.
— Y = {0, . . . , K − 1} avec K ≥ 3, on parle de classification multi-classe ;
Exemple 2.1.2. • Identifier en quelle langue un texte est écrit.
• Identifier lequel des 10 chiffres est un chiffre manuscrit.
• Identifier l’expression d’un visage parmi une liste prédéfinie de possibilités (colère,
tristesse, joie, etc.).
• Classification d’images entre voiture, vélo, bus de ville, piéton, scooter.
— Y = R, on parle de régression.
Exemple 2.1.3. • Prédire le nombre de clics sur un lien.
• Prédrie le nombre d’utilisateurs d’un service en ligne à un moment
• Prédire le prix d’une action en bourse.
Modélisation : on suppose que ( x1 , y1 ), . . . , ( xn , yn ) est une réalisation de variables aléatoires

( X 1 , Y1 ), . . . , ( X n , Yn ) i.i.d. de loi de probabilité P inconnue.
2.2 Décision
En se basant sur D , il s’agit ici d’induire une fonction qui prédise les réponses associées
à de nouvelles observations en commettant une erreur de prédiction la plus faible possible.
2.2.1 Règles de prédiction, fonctions de décision, frontières de décision

Définition 2.2.1. Une règle de prédiction est une fonction mesurable f définie sur X à
valeurs dans Y qui associe la sortie f ( x) à l’entrée x ∈ X .
6
2.2. DÉCISION 7
Dans le cas d’un problème de classification, on peut utiliser une fonction intermédiaire g à
valeurs réelles. On obtient alors la règle de prédiction f en seuillant g ; g est appelée fonction
de décision.
Définition 2.2.2. Classification binaire. On appelle fonction de décision ou fonction discri-
minante, une fonction g : X −→ R telle que f ( x) = 0 si et seulement si g( x) < 0 et f ( x) = 1 si
et seulement si g( x) > 0.
Cette définition se généralise au cas de la classification multi-classe : on dispose alors de K
fonctions de décision g k : X −→ R telle que
f ( x) = arg min g k ( x).
k=0,...,K −1
Le concept de fonction de décision permet de partitionner l’espace X en régions de déci-

sion. Dans le cas d’un problème de classification binaire, la fonction de décision partitionne
l’espace des observations X en deux régions de décision R 0 et R 1 telles que :
n o n o
R 0 = x ∈ X | g ( x) < 0 R 1 = x ∈ X | g ( x) > 0 .
Dans le cas multi-classe, on a alors K régions de décision :

n o
R K = x ∈ X | g K ( x) = max g k ( x) .
k=0,...,K −1
Les régions de décision sont séparées par des frontières de décision.

Définition 2.2.3. Dans le cadre d’un problème de classification, on appelle frontière de déci-
sion ou discriminant, l’ensemble des points de X où une fonction de décision s’annule.
Tout algorithme de classification binaire peut être utilisé pour résoudre un problème de
classifition à K classes :
- approche ”une contre toute” : elle consiste à entraı̂ner K classifieurs binaires ; le kème
de ces classifieurs utilise tous les exemples de la classe k comme exemples positifs
et toutes les autres exemples comme exemple négatifs pour apprendre une fonction
g k ; ainsi, chaque classifieur apprend à distinguer une classe de toutes les autres ;
l’étiquette de x est donnée par celle des fonctions de décision qui retourne le score le
plus élevé :
f ( x) = arg max g k ( x);
k=0,...,K −1
8 CHAPITRE 2. APPRENTISSAGE SUPERVISÉ
- approche ”une contre une” : l’approche qui consiste à créer K (K2−1) classifieurs binaires
séparant chacun une classe d’une autre, en ignorant tous les autres exemples ; soit
g kc la fonction de décision du classifieur binaire qui sépare la classe k de la classe c ;
³X ´
l’étiquette de x est déterminé par : f ( x) = arg max g kc ( x) ou vote de la
k=0,1,...,K −1 k̸= c
majorité (la classe prédite est celle retournée par le plus grand nombre de classifieurs)
Pour poser un problème d’apprentissage supervisé, il nous faut décider du type de règles de
décision que nous allons considérer.
Définition 2.2.4. On appelle espace des hypothèses, l’espace de fonctions F ⊆ Y X décrivant
les règles de prédiction que nous allons considérer.
Cet espace est choisi en fonction de nos convictions par rapport au problème. Le choix de
l’espace des hypothèses est fondamental. En effet, si cet espace ne contient pas la ”bonne”
fonction, il sera impossible de trouver une bonne fonction de décision.
2.2.2 Qualité d’une règle de prédiction

Etant donnés un jeu de n observations étiquetées D = {( x i , yi ), i = 1, . . . , n} et un espace
d’hypothèses F , la tâche d’apprentissage supervisé consiste à supposer que les étiquettes
yi ont été calculées grâce à une fonction φ : X −→ Y , et à trouver une hypothèse f ∈ F qui
approche au mieux la fonction cible φ. Pour réaliser une telle tâche, nous avons besoin de
deux outils supplémentaires.
— une façon de quantifier la qualité d’une hypothèse, afin de pouvoir déterminer si une
hypothèse satisfaisante a été trouvée (fonction de perte).
— une façon de chercher une hypothèse optimale dans F (optimisation).
Définition 2.2.5. Toute fonction ℓ : Y ×Y −→ R+ telle que ℓ( y, y) = 0 et ℓ( y, y′ ) > 0 pour y ̸= y′
est appelée fonction de perte ; ℓ(Y , f ( X )) mesure l’erreur entre la réponse réelle Y et la
réponse prédite f ( X ) pour une donne d’entrée X ; ℓ(Y , f ( X )) est d’autant plus grande que
l’étiquette f ( X ) est éloignée de la vraie valeur Y .
Comment mesure-t-on la qualité d’une règle de prédiction ? La qualité d’une fonction de
prédiction f ∈ F est mesurée par son erreur de généralisation.
2.2. DÉCISION 9
Définition 2.2.6. Etant donnée une fonction de perte ℓ, l’erreur de généralisation d’une
règle de prédiction f est définie par :
R P ( f ) = EP [ℓ(Y , f ( X ))];
l’espérance mathématique EP est prise par rapport à la loi de probabilité P.

La généralisation, c’est la capacité d’un algorithme à faire des prédictions non seulement sur
les données que vous avez utilisées pour le construire, mais surtout sur de nouvelles données.
Définition 2.2.7. La ”meilleure” règle de prédiction f ∗ appelée fonction cible vérifie :
f ∗ ∈ arg min R P ( f ).
f ∈F
Remarque 2.2.1. f ∗ dépend de P et n’est pas utilisable car P inconnue.

Comme d P( x, y) = d P X d P( y | X = x), nous avons
R P ( f ) = EP [ℓ(Y , f ( X ))]
Z
= ℓ( y, f ( x)) d P( x, y)
ZX ×Y
hZ i
= ℓ( y, f ( x)) d P( y| X = x) d P X ( x)
ZX Y h i
= EP ℓ(Y , f ( X ))| X = x) d P X ( x)
X
Théorème 2.2.1. Supposons que pour tout x ∈ X , l’infimum

h i
inf EP ℓ(Y , z)| X = x)
z∈Y
est atteint.
h Alors unei fonction f : X −→ Y telle que pour tout x ∈ X , f ∗ ( x) minimise
∗
z 7−→ EP ℓ(Y , z)| X = x) , est une fonction cible :

h i
∀ x ∈ X , f ∗ ( x) := arg min EP ℓ(Y , z)| X = x)
z∈Y
∗
⇒ f := arg min R P ( f ).
f ∈F
Démonstration. Nous avons

R P ( f ) = EP (ℓ(Y , f ( X ))
= EP X EPY | X (ℓ(Y , f ( X ))
£ ¤
· ¸
≥ EP( X ) min EP(Y | X ) ℓ(Y , y)
y∈Y
= EP( X ) EP(Y | X ) (ℓ(Y , f ∗ ( X ))

£ ¤
= EP (ℓ(Y , f ∗ ( X ))
= RP ( f ∗ )
Exemple 2.2.1. Posons ℓ( y, f ( x)) = ( y − f ( x))2 . Une fonction cible est

f ∗ ( x) = E(Y | X = x).
EP(Y | x) (Y − y)2 = EP (Y | x) (Y − E(Y ))2 + (EP (Y | x) Y − y)2 .

Le premier terme étant indépendant de la valeur de y, l’infimum pour y ∈ Y de E(Y − y)2 est
atteint pour y = E(Y | X = x). On a donc bien f ∗ ( x) = E(Y | X = x) comme fonction cible.
Exemple 2.2.2. Posons ℓ( y, f ( x)) = 1 y̸= f ( x) . La fonction cible est la fonction f ∗ satisfaisant
f ∗ ( x) ∈ arg max P(Y = y| X = x) pour tout x ∈ X .

y∈Y
Lorsque Y = {0, 1}, posons η( x) = P (Y = 1| X = x)

(
∗ 1 si η( x) > 1/2
f ( x) =
0 si η( x) ≤ 1/2
est la fonction cible. En effet, en classification, on a |Y | < +∞, l’infimum recherché est donc
bien atteint. Nous avons
f ∗ ( x) = arg min EP(Y | x) (1Y ̸= y )

y∈Y
= arg min P(Y ̸= y| X = x)

y∈Y
= arg max P(Y = y| X = x)

y∈Y
Lorsque Y = {0, 1},

(
∗ 1 si P(Y = 1| X = x) > P(Y = 0| X = x)
f ( x) =
0 si P(Y = 1| X = x) ≤ P(Y = 0| X = x)
2.3 Minimisation du risque empirique

2.3.1 Algorithmes d’apprentissage
Les règles de prédiction optimale dépendent de P. Il est donc nécessaire de construire
des algorithmes d’apprentissage.
Définition 2.3.1. Un algorithme d’apprentissage est une application fbn qui à tout ensemble
d’apprentissage {( X 1 , Y1 ), . . . , ( X n , Yn )} renvoie une règle de prédiction.
fbn : (X × Y )n −→ Y X
³ ´
( X 1 , Y1 ), . . . , ( X n , Yn ) 7−→ fbn ·, ( X 1 , Y1 ), . . . , ( X n , Yn ) .
La performance d’un algorithme d’apprentissage est caractérisée l’excès de risque défini par :
³ ´ ³ ´
R P fbn − R P f ∗ .
Puisque cette différence est une variable aléatoire, on introduit d’autres mesures de perfor-
mance déterministes telles que :
³ ¢´ ³ ´
- E RP fbn − RP f ∗ ; l’espérance est prise par rapport à la loi de l’ensemble d’appren-
¡
tissage.
³ ´
- P RP fbn − RP f ∗ > ε pour un ε > 0 quelconque.
¡ ¢ ¡ ¢
Définition 2.3.2. Un algorithme d’apprentissage fbn est dit fortement consistant par rapport
à P si
¡ ¢ p.s
R P fbn −−−−−→ R P ( f ∗ ).
n→+∞
2.3. MINIMISATION DU RISQUE EMPIRIQUE 11
Définition 2.3.3. Un algorithme d’apprentissage fbn est dit faiblement consistant par rapport
à P si
E(R P ( fbn )) −−−−−→ R P ( f ∗ ).
n→+∞
La consistance garantit la capacité de généralisation.

Définition 2.3.4. On appelle généralisation la capacité d’un algorithme à faire des prédictions
correctes sur de nouvelles données, qui n’ont pas été utilisées pour le construire.
Définition 2.3.5. Un algorithme d’apprentissage est dit faiblement consistant par rapport à
une famille de lois de probabilité P s’il est consistant par rapport à tout P ∈ P .
Définition 2.3.6. Un algorithme d’apprentissage est dit faiblement universellement consistant
s’il est consistant par rapport à toute probabilité P sur X × Y .
Les résultats de consistance universelle ne disent pas le nombre de données nécessaires pour
avoir une garantie du type
E(R P ( fbn )) ≤ R P ( f ∗ ) + ε ε > 0 fixé.
Pour que ce nombre existe, il faudrait un résultat de consistance uniformement universelle.

Définition 2.3.7. Un algorithme d’apprentissage est dit uniformement universellement consis-
tant si
lim sup{E(R P ( fbn )) − R P ( f ∗ )} = 0.
n→+∞ P
En général, ce nombre n’existe pas.

Théorème 2.3.1. (Devroye, Györfi, Lugosi [3]). On considère la fonction de perte ℓ( y, f ( x)) =
1 y̸= f ( x) en classification binaire et l’on suppose que X est infini. Alors, pour tout n ∈ N et
toute règle d’apprentissage fbn , nous avons
1
sup{E(R P ( fbn )) − R P ( f ∗ )} ≥ > 0,
P 2
le sup étant pris sur l’ensemble de toutes les lois de probabilité sur X ×Y . En particulier, au-
cun algorithme d’apprentissage de classification ne peut être uniformément universellement
consistant lorsque X est infini.
Par conséquent, sans faire d’hypothèses sur la classe de distributions qui pourrait générer
les données, on ne peut obtenir des garanties sur l’erreur de généralisation de notre règle de
classification pour un n fini donné. Ainsi, l’absence d’algorithme universellement uniformé-
ment consistant nous amène à définir un ”bon” algorithme d’apprentissage comme étant un
algorithme universellement consistant et ayant une propriété de convergence uniforme sur
une classe P de lois de probabilités paraissant pertinente pour le problème à traiter.
Définition 2.3.8. Soit P une classe de lois de probabilité sur X ×Y . On dit qu’un algorithme
d’apprentissage est uniformement consistant sur P si
lim sup {E(R P ( fbn )) − R P ( f ∗ )} = 0.

n→+∞ P∈P
De plus, il faudra avoir une suite
sup {E(R P ( fbn )) − R P ( f ∗ )}

P∈P
décroissant le plus vite possible vers 0 pour que peu de données soient nécessaires à l’algo-
rithme pour prédire efficacement dans le cas où P ∈ P .
Définition 2.3.9. Soit ε > 0. On appelle complexité en quantité de données de P pour l’algo-
rithme fbn , le plus petit nombre n(P , ε, fbn ) tel que pour tout n ≥ n(P , ε, fbn ), on a
sup {E(R P ( fbn )) − R P ( f ∗ )} < ε.

P∈P
En d’autres termes, n(P , ε, fbn ) est la taille minimale necessaire pour garantir un excès de
risque en espérance inferieur à ε pour tout P ∈ P .
Définition 2.3.10. La complexité en données intrinsèque de P est
n(P , ε) = inf n(P , ε, fbn )

fbn
où inf est pris sur l’ensemble de tous les algorithmes d’apprentissage possibles.
2.3.2 Principe de minimisation du risque empirique

Soit f ∈ F ⊂ G une règle de prédiction. L’erreur de généralisation de f est définie par :
³ ´
R P ( f ) = EP ℓ(Y , f ( X )) .
La distribution P étant inconnue, RP ( f ) est inconnu. Elle peut être estimée par
1X n
Rn( f ) = ℓ(Yi , f ( X i )).
n i=1
Le risque empirique exprime la qualité de la fonction de prédiction f sur l’échantillon observé.

Définition 2.3.11. Etant donné un sous-ensemble F ⊂ G , l’algorithme de minimisation
du risque empirique sur F est défini par
fbn ∈ arg min R n ( f ). (2.3.1)

f ∈F
Selon le choix de F , l’équation (2.3.1) peut avoir une solution analytique explicite. La mini-
misation du risque empirique est généralement un problème mal posé au sens de Hadamard,
c’est à dire qu’il n’admet pas une solution unique dépendant de façon continue des condi-
tions initiales. Il se peut par exemple qu’un nombre infini de solutions minimise le risque
empirique à zéro.
La loi des grands nombres nous garantit que le risque empirique converge vers l’erreur
de généralisation :
P
R n ( f ) −−−−−→ R P ( f ) ∀f ∈ F.
n→+∞
Cela ne suffit pas à garantir que le minimum du risque empirique converge vers le minimum
de l’erreur de généralisation. En effet, si F est l’espace des fonctions mesurables, min R n ( f )
f ∈F
vaut généralement 0, ce qui n’est pas le cas de RP ( f ). Il n’y a donc aucune garantie que
la fonction qui minimise R n ( f ) soit un bon estimateur de la fonction cible. La consistance
de la minimisation du risque empirique dépend de l’espace des hypothèses F . L’étude de
cette consistance est un des principaux éléments de la théorie de l’apprentissage de Vapnik-
Chervonenkis.
2.3.3 Sur-apprentissage, sous-apprentissage
Considérons un algorithme qui, pour prédire l’étiquette d’une observation x, retourne

son étiquette si x appartient aux données dont l’étiquette est connue, et une valeur aléatoire
sinon. Cet algorithme aura une erreur empirique minimale quelle que soit la fonction de
perte choisie, mais fera de très mauvaises prédictions pour toute nouvelle observation. Ainsi,
évaluer un algorithme d’apprentissage sur les données sur lesquelles il a appris ne nous
permet absolument pas de savoir comment il se comportera sur de nouvelles données.
— Sur-apprentissage ou overfitting : on dit d’un modèle qui, plutôt que de capturer
la nature des objets à étiqueter, modélise aussi le bruit et ne sera pas en mesure de
généraliser qu’il sur-apprend. Un modèle qui sur-apprend est généralement un modèle
trop complexe, qui ”colle” trop aux données et capture donc aussi leur bruit.
— Sous-apprentissage ou underfitting : on dit d’un modèle qui est trop simple pour
avoir de bonnes performances même sur les données utilisées pour le construire qu’il
sous-apprend.
Un modèle qui surapprend est un modèle qui est trop complexe par rapport à la réalité
qu’il essaie de représenter. Nous avons tendance à préférer des modèles simples. Par ailleurs,
coller de trop près aux données est une mauvaise idée car elles sont inévitablement bruitées :
— Par des erreurs de mesure (les appareils que nous utilisons pour mesurer les variables
qui représentent nos données peuvent faire des erreurs techniques) ;
— Par des erreurs d’étiquetage (l’erreur est humaine, et il se peut que certaines des
étiquettes ne soient pas les bonnes) ;
— Parce que nous n’avons pas mesuré les variables les plus pertinentes, soit parce qu’on
ne les connaı̂t pas, soit parce qu’elles sont très compliquées à mesurer.
Il faut néanmoins aussi éviter les modèles trop simples, qui ne parviendront pas à bien
représenter le phénomène qui nous intéresse, et qui ne feront pas de bonnes prédictions. On
parle dans ce cas de ”sous-apprentissage”.
2.3.4 Compromis biais-variance

Pour mieux comprendre l’erreur de généralisation d’un algorithme d’apprentissage fbn ,
on peut la comparer à l’erreur de généralisation de la fonction cible.
Définition 2.3.12. On appelle excès de risque de fbn :
³ ´ ³ ´
R P fb − R P f ∗
où ³ ´ ³ ´
R P f ∗ = min R P f .
f ∈G
On peut décomposer l’excès de la façon suivante :

³ ´ ³ ´ ³ ³ ´ ³ ´´ ³ ³ ´ ³ ´´
R P fb − R P f ∗ = R P fb − min R P f + min R P f − R P f ∗ .
f ∈F f ∈F
³ ´ ³ ´
— Le premier terme RP fb − min RP f quantifie la distance entre l’algorithme fbn et la
f ∈F
fonction cible sur F . C’est l’erreur d’estimation qui correspond à la variance de la
procedure d’apprentissage.
³ ´ ³ ´´
— Le second terme min R P f − RP f ∗ quantifie la qualité de la fonction cible sur F ,
f ∈F
autrement dit, la qualité du choix de l’espace des hypothèses : c’est l’erreur d’ap-
proximation qui correspond au biais de la procedure d’apprentissage. Si F = G alors
l’erreur d’approximation est nulle.
Choisir un espace des hypothèses F plus large permet généralement de réduire l’erreur
d’approximation, car il est plus probable qu’un modèle plus proche de la réalité se trouve
dans cet espace. Cependant, puisque cet espace est plus vaste, la solution optimale y est
aussi généralement plus difficile à trouver : l’erreur d’estimation, elle, augmente. C’est dans
ce cas qu’il y a sur-apprentissage. Il y a donc un compromis entre erreur d’approximation
et erreur d’estimation : il est difficile de réduire l’une sans augmenter l’autre. Ce compromis
est généralement appelé compromis biais-variance.
Un modèle simple (variance faible) risque le sous- apprentissage (biais élevé y com-
pris sur les données d’entraı̂nement). Un modèle complexe (variance élevée) risque le sur-
apprentissage (biais faible sur les données d’entraı̂nement mais élevé sur de nouvelles don-
nées). On souhaite trouver un modèle intermédiaire, vers le creux de la courbe orange, là où
le biais de prédiction est le plus faible et la généralisation la meilleure.
Chapitre
3 Selection de modèles et évaluation
Le théorème du no free lunch de Wolpert et Macready (1997) indique qu’aucun algo-

rithme d’apprentissage ne peut bien fonctionner pour tous les problèmes d’apprentissage :
un algorithme qui fonctionne bien sur un type particulier de problèmes le compensera en
fonctionnant moins bien sur d’autres types de problèmes. En d’autres termes, il n’y a pas
de ”baguette magique” qui puisse résoudre tous les problèmes d’apprentissage statistique,
et il est donc essentiel, pour un problème donné, de tester plusieurs possibilités afin de
sélectionner le modèle optimal.
3.1 Théorie de l’apprentissage de Vapnik-Chervonenkis.

Nous nous intéressons aux questions suivantes :
1. Quelles sont les conditions (nécessaires et suffisantes) de consistance d’un algorithme
d’apprentissage obtenu par le principe de minimisation du risque empirique ?
2. Quelle est la vitesse de convergence (capacité de généralisation) d’un algorithme
d’apprentissage obtenu par le principe de minimisation du risque empirique ?
3. Comment contrôle-t-on la vitesse de convergence d’un algorithme d’apprentissage
obtenu par le principe de minimisation du risque empirique ?
4. Conmment construire des algorithmes qui peuvent contrôler la vitesse de conver-
gence ?
Définition 3.1.1. L’algorithme d’apprentissage obtenu par le principe de minimisaion du
risque empirique est consistant si
P
(i) R n ( fbn ) − R ( fbn ) −−−−−→ 0 ;
n→+∞
P
(ii) R n ( fbn ) −−−−−→ R ( f ∗ ).
n→+∞
Remarque 3.1.1. (i) l’algorithme doit renvoyer une règle de prédiction dont l’erreur em-
pirique reflète son erreur de généralisation lorsque la taille de la base d’entraı̂nement
tend vers l’infini ;
(ii) l’erreur empirique de l’algorithme doit converger vers l’erreur de généralisation de la
fonction cible.
Définition 3.1.2. Un résultat probablement approximativement correct (P.A.C.) est une af-
firmation du type : ∀0 < ε ≤ 1, avec une probabilité au moins 1 − ε, l’événement A ε se produit,
où ( A ε ) est une famille d’événements paramétrés par ε.
17
18 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
Si A ε = {V ≤ Wε } avec V et Wε , variable aléatoire réelle, on parle de borne P.A.C pour V .
Pour obtenir les majorations ci-dessus, on peut établir des inégalités P.A.C.
Lemme 3.1.1. L’erreur d’estimation de fbn vérifie :
R ( fbn ) − R ( f H ) ≤ 2 sup |R n ( f ) − R ( f )|.

f ∈H
Il suffit d’obtenir une majoration, en espérance ou en probabilité, de la variable aléatoire
sup |R n ( f ) − R ( f )|.
f ∈H
Démonstration. Soit ε > 0 et soit f ε ∈ H vérifiant R ( f ε ) < R ( f H ) + ε. Puisque fbn minimise

Rn,
R ( fbn ) − R ( f H ) = R ( fbn ) − R n ( fbn ) + R n ( fbn ) − R ( f H )

≤ R ( fbn ) − R n ( fbn ) + R n ( f ε ) − R ( f H )
≤ R ( fbn ) − R n ( fbn ) + R n ( f ε ) − R ( f ε ) + ε
≤ 2 sup |R n ( f ) − R ( f )| + ε.
f ∈H
3.1.1 Cas où H est fini

Cas où H est fini Considérons
H = { f1, . . . , f M }
où f j : X −→ Y sont des règles de prédiction. Dans ce cas :
f H = arg min R ( f j ) ⇐⇒ R ( f H ) = min R ( f j ).

j =1,...,M j =1,...,M
Proposition 3.1.1. Supposons qu’il existe a, b ∈ R tels que
a ≤ ℓ( y, y′ ) ≤ b. ∀ y, y′ .
Alors, avec une probabilité d’au moins 1 − δ, on a :

s
2 ln( 2δM )
R (c
f n ) ≤ R ( f H ) + ( b − a) .
n
Démonstration. On a
R (c
f n ) − R ( f H ) ≤ 2 sup |R ( f ) − R n ( f )|.
f ∈H
³ ´ ³ t´
P R (c
f n ) − R ( f H ) > t ≤ P sup |R ( f ) − R n ( f )| >
f ∈H 2
³[ M h t i´
=P | R ( f j ) − R n ( f j )| >
j =1 2
M ³ t´
P |R ( f j ) − R n ( f j )| >
X
≤
j =1 2
3.1. THÉORIE DE L’APPRENTISSAGE DE VAPNIK-CHERVONENKIS. 19
Lemme 3.1.2 (Inégalité de Hoeffding.). Soient Z1 , . . . , Z n des variables aléatoires réelles in-
dépendantes telles que a i ≤ Z i ≤ b i P-p.s (a i < b i ). Alors, ∀, nous avons ε > 0
n
³¯ X ¯ ´ ³ 2ε2 ´
P ¯ ( Z i − E( Z i ))¯ ≥ ε ≤ 2 exp − Pn .
¯ ¯
2
i =1 i =1 ( b i − a i )
En utilisant l’inégalité de Hoeffding,

2
³ t´ − nt
P | R ( f j ) − R n ( f j )| > ≤ 2 e 2(b−a)2 .
2
Par suite, nous obtenons
2
− nt
³ ´
P R ( fbn ) − inf R ( f ) > t ≤ 2 N e 2(b−a)2 .
f ∈H
Pour tout 0 < δ < 1, on a

s
nt2 2 ³ 2M ´
−
Me 2( b−a)2 = δ ⇐⇒ t = ( b − a) ln
n δ
Lemme 3.1.3. Soit Z une variable aléatoire réelle positive. Supposons qu’il existe une constante
C > 0 telle que, pour tout ε > 0,
2
P( Z ≥ ε) ≤ Ce−2nε .
Alors s
³ ´ ln(Ce)
E Z ≤ .
2n
Démonstration. Nous avons Z ∞
E( Z 2 ) = P( Z 2 > ε) d ε.
0
Pour tout u ≥ 0,
Z u Z +∞
E( Z 2 ) = P( Z 2 > ε) d ε + P( Z 2 > ε) d ε
0 u
Z ∞
≤ u+C e−2nε d ε
u
C −2nu
≤ u+ e .
2n
En minimisant en u, on en déduit
ln(Ce)
E( Z 2 ) ≤ .
2n
On obtient le resultat final par l’inégalité de Cauchy-Schwarz.
Nous avons 2
− nε
³ ´
P R ( fbn ) − inf R ( f ) > ε ≤ 2Card(H ) e 2(b−a)2 .
f ∈H
D’après le Lemme 3.1.3, nous avons

s
³ ´ ln(2Card(H ) e)
E R ( fbn ) − inf R ( f ) ≤ ( b − a) .
f ∈H 2n
On suppose que X = Rd , Y = {0, 1} et ℓ( y, f ( x)) = 1 f ( x)̸= y .

Théorème 3.1.1. Pour tout ε > 0, nous avons
nε2
³ ´
f n ) − inf R ( f ) ≥ ε ≤ 2Card(H ) e− 2 .
P R n (c
f ∈H
Lemme 3.1.4 (Borel-Cantelli). Soit ( X n ) une suite de variables aléatoires telles que
∞
P(| X n | > ε) < +∞.
X
∀ε > 0,
n=0
Alors
p.s
X n −−−−−→ 0.
n→+∞
Ainsi, si Card(H ) < ∞, nous obtenons

p.s
R (c
f n ) − inf R ( f ) −−−−−→ 0 L’erreur d’estimation tend vers 0.
f ∈H n→+∞
De plus, nous avons s

³ ´ ln(2Card(H ) e)
E R (c
f n ) − inf R ( f ) ≤ .
f ∈H 2n
H est fini Si Card(H ) < +∞ alors
³ ´ ³ 1 ´
E R (c
f n ) − inf R ( f ) = O p
f ∈H n
Ainsi, pour une classe de cardinal fini, l’erreur d’estimation reste sous contrôle selon la
1
taille (cardinal) et tend vers 0 à la vitesse p lorsque n tend vers l’infini.
n
Lorsque le cardinal de H n’est pas fini, il faut trouver de nouveaux outils pour appré-
hender la ”taille” de H : c’est l’objet de la théorie de Vapnik-Chervonenkis.
3.1.2 Dimension de Vapnik

Soit A une famille de sous-ensembles de Rd de cardinal (pas nécessairement fini) stric-
tement supérieur à 1.
Définition 3.1.3. Etant donné n points z1 , . . . , z n ∈ Rd , on définit

³nn o o´
NA ( z1 , . . . , z n ) = Card z1 , . . . , z n ∩ A : A ∈ A .
o
NA ( z1 , . . . , z n ) représente le nombre de sous-ensembles de { z1 , . . . , z n que l’on peut obtenir
en intersectant ces n points par les ensembles de A .
Nous avons NA ( z1 , . . . , z n ) ≤ 2n
n o
Définition 3.1.4. On dit que A pulvérise l’ensemble z1 , . . . , z n si
N A ( z1 , . . . , z n ) = 2 n .
Définition 3.1.5. On appelle coefficient de pulvérisation de n points par la classe A , la

quantité :
SA ( n ) = max N A ( z 1 , . . . , z n ).
( z1 ,...,z n )∈Rdn
Définition 3.1.6. La dimension de Vapnik-Chervonenkis (VC) de A est définie par :
n o
VA = max n ≥ 1 : SA ( n) = 2n .
La dimension de Vapnik-Chervonenkis mesure, en un certain sens, la ”taille” (la ”dimen-

sion”) de la famille A et généralise ainsi la notion de cardinal. C’est le plus grand nombre
de points que la classe de fonction arrive à pulvériser.
Théorème 3.1.2 (Vapnik-Chervonenkis). Soient Z1 , . . . , Z n des variables aléatoires indépen-

dantes de même loi P sur Rd , et Pn la mesure empirique correspondante :
1X n
Pn = δZ .
n i=1 i
Alors, pour toute famille borélienne A ⊂ B (Rd ) et pour tout ε > 0, on a
nε2
³ ¯ ¯ ´
P sup ¯Pn ( A ) − P( A )¯ > ε ≤ 8SA ( n) e− 32
¯ ¯
A ∈A
1. La borne est universelle, dans le sens où elle ne dṕend pas de la loi P.
2. Ce résultat généralise le Théorème 3.1.1
D’après le Lemme de Borel-Cantelli, nous avons les résultat suivant :
nε2
SA ( n ) e −
X
Corollaire 3.1.1. Si 32 < +∞ alors
n≥0
¯ ¯ p.s
sup ¯Pn ( A ) − P( A )¯ −−−−−→ 0.
¯ ¯
A ∈A n→+∞
Lemme 3.1.5. Sauer (1972) Soit A une famille d’ensembles admettant une dimension de
Vapnik-Chervonenkis finie VA . Alors, pour tout n ≥ 1,
VA
SA ( n) ≤ C ni .
X
i =1
Corollaire 3.1.2. Soit A une famille d’ensembles admettant une dimension de Vapnik-
Chervonenkis finie VA . Alors, pour tout n ≥ 1
SA ( n) ≤ ( n + 1)VA .
Démonstration. On a
V V
A A n i VX A
( n + 1)VA = C Vi A n i ≥ C ni ≥ SA ( n)
X X
≥
i =0 i =0 i ! i =0
Nous avons
- soit SA (n) = 2n pour tout n ≥ 1 (VA = +∞)
- soit SA (n) ≤ (n + 1)VA (VA < +∞)
D’après l’inégalité de Vapnik-Chervonenkis, nous avons
s
³ ´ ln(8 eSA ( n))
E sup |Pn ( A ) − P( A )| ≤ 8
A ∈A 2n
s
VA ln( n + 1) + 4
≤8
2n
s
³ V ln( n) ´
A
=O
n
D’après l’inégalité de Vapnik-Chervonenkis, nous avons

s
³ ´ ³ VA ln( n) ´
E sup |Pn ( A ) − P( A )| = O
A ∈A n
Corollaire 3.1.3. Si VA < ∞ alors

³ ´
1. E sup A ∈A |Pn ( A ) − P( A )| −−−−−→ 0.
n→+∞
¯ ¯ p.s
2. sup ¯Pn ( A ) − P( A )¯ −−−−−→ 0.
¯ ¯
A ∈A n→+∞
3.1.3 Lemme de Glivenko-Cantelli

Posons A = {] − ∞, z] : z ∈ R}. Pour tout A =] − ∞, z] ∈ A , P( A ) = F ( z) et Pn ( A ) = F n ( z)
(fonction de répartition empirique associée à ( Z1 , . . . , Z n )). D’autre part, nous avons SA (n) =
n + 1 et VA = 1. L’inégalité de Vapnik-Chervonenkis :
³ ´ ³ ´
P sup |Pn ( A ) − P( A )| > ε = P sup |F n ( z) − F ( z)| > ε
A ∈A z∈R
nε2
≤ 8( n + 1) e− 32 .
Le lemme de Borel-Cantelli implique que

p.s
sup |F n ( z) − F ( z)| −−−−−→ 0.
z∈R n→+∞
Classement binaire avec la perte 0-1

• X ∈ X = Rd
• Y ∈ Y = {0, 1}
• ℓ( y, f ( x)) = 1 f ( x)̸= y .
On a ( X 1 , Y1 ), . . . , ( X n , Yn ) sont i.i.d. de loi P. La mesure empirique est définie par
1X n
Pn ( A ) = 1( X i ,Yi )∈ A .
n i=1
À une règle de prédiction f ∈ H , nous associons le borélien

n o
A f = ( x, y) ∈ Rd × {0, 1} : f ( x) ̸= y .
Nous avons
R ( f ) = P( f ( X ) ̸= Y ) = P(A f )
1X n
Rn( f ) = 1 f ( X i )̸=Yi = Pn (A f )
n i=1
Nous avons donc ¯ ¯
sup |R n ( f ) − R ( f )| = sup ¯Pn ( A ) − P( A )¯
¯ ¯
f ∈H A ∈A
où A = {A f , f ∈ H }. Pour analyser le comportement de sup f ∈H |R n ( f ) − R ( f )|, il faut com-
prendre la déviation de la mesure empirique Pn par rapport à la vraie mesure P sur la classe
d’ensembles mesurables A .
n o
Proposition 3.1.2. Soit A¯ = x ∈ Rd , f ( x) = 1 : f ∈ H . Alors, pour tout n ≥ 1, S A¯ (n) = S A (n).
En particulier, VA = VA¯ .
Théorème 3.1.3. Nous avons
nε2
³ ´
f n ) − inf R ( f ) > ε ≤ 8S A¯ ( n) e− 128 .
P R (c
f ∈H
De plus, s
³ ´ ln( eS A¯ ( n))
E c
f n ) − inf R ( f ) ≤ 16 .
f ∈H 2n
D’après Borel-Cantelli, on en déduit que
p.s
R (c
f n ) − inf R ( f ) −−−−−→ 0.
f ∈H n→+∞
Si VA¯ < ∞ alors s

³ V ¯ ln( n) ´
A
³ ´
E R (c
f n ) − inf R ( f ) = O .
f ∈H n
Théorème 3.1.4 (Vapnik-Chervonenkis). Soit X ⊂ Rd un espace vectoriel et Y = {−1, 1} un
espace de sortie et H une classe de fonctions à valeurs dans Y et de dimension VC VH .
Pour tout δ ∈]0, 1], n ≥ VH , avec une probabilité au moins égale à 1 − δ :
s
8VH ln( 2Ven ) + 8 ln(4/δ)
H
R (c
f n ) ≤ inf R ( f ) + .
f ∈H n
s
8VH ln( 2Ven ) + 8 ln(4/δ)
H
• Si la dimension VC VH de H est finie alors lim = 0 et le
n→+∞ n
principe de Minimisation du Risque Empirique est consistant quelque soit la distri-
bution P générant les exemples.
• Vapnik (1999) a démontré pour que le principe MRE soit consistant pour toute
distribution P, il est nécessaire que la dimension VC de la classe considérée soit finie.
D’après tout ce qui précède, nous avons le résultat suivant
Théorème 3.1.5. Quelque soit la distribution de probabilité générant les exemple, le principe
MRE est consistant si et seulement si la dimension VC de la classe considérée est finie.
Corollaire 3.1.4 (Vapnik-Chervonenkis (1971)). Pour tout n ≥ VH avec une probabilité d’au
moins 1 − δ, nous avons
s
8VH ln( 2Ven ) + 8 ln(4/δ)
H
∀f ∈ H , R( f ) ≤ Rn( f ) + .
n
3.2 Estimation empirique de l’erreur de généralisation

L’erreur empirique mesurée sur les observations qui ont permis de construire le modèle est
un mauvais estimateur de l’erreur de généralisation : si le modèle sur-apprend, cette erreur
empirique peut être proche de zéro voire nulle, tandis que l’erreur de généralisation peut
être arbitrairement grande. Il est donc indispensable d’utiliser pour évaluer un modèle des
données étiquetées qui n’ont pas servi à le construire. La manière la plus simple d’y parvenir
est de mettre de côté une partie des observations réservées à l’évaluation du modèle, et
d’utiliser uniquement le reste des données pour le construire.
3.2.1 Echantillon d’entraı̂nement, échantillon test

n o
Définition 3.2.1. Etant donné un jeu de données D = ( x i , yi ), i = 1, . . . , n , partitionné en
deux jeux D tr et D te , on appelle jeu d’entraı̂nement l’ensemble utilisé pour entraı̂ner un
modèle prédictif, et jeu de test l’ensemble utilisé pour son évaluation.
Comme nous n’avons pas utilisé le jeu de test pour entraı̂ner notre modèle, il peut être
considéré comme un jeu de données ”nouvelles”. La perte calculée sur ce jeu de test est un
estimateur de l’erreur de généralisation.
3.2.2 Echantillon de validation

Considérons maintenant la situation dans laquelle nous voulons choisir entre K modèles.
Nous pouvons alors entraı̂er chacun des modèles sur le jeu de données d’entraı̂nement, obte-
nant ainsi K fonctions de décision fb1 , . . . , fbK , puis calculer l’erreur de chacun de ces modèles
sur le jeu de test. Nous pouvons ensuite choisir comme modèle celui qui a la plus petite
erreur sur le jeu de test :
1 X
fb = arg min ³ ´ ℓ( y, fbk ( x))
k=1,...,K Card D te ( x,y ) ∈D te
Mais quelle est son erreur de généralisation ? Comme nous avons utilisé D te pour sélectionner
le modèle, il ne représente plus un jeu indépendant composé de données nouvelles, inutilisées
pour déterminer le modèle. La solution est alors de découper notre jeu de données en trois
parties :
• un jeu d’entraı̂nement D tr sur lequel nous pourrons entraı̂ner nos K algorithmes
d’apprentissage ;
• un jeu de validation (validation set en anglais) Dval sur lequel nous évaluerons les K
modèles ainsi obtenus, afin de sélectionner un modèle définitif ;
• un jeu de test D te sur lequel nous évaluerons enfin l’erreur de généralisation du modèle
choisi.
On voit qu’il est important de distinguer la sélection d’un modèle de son évaluation : les
faire sur les mêmes données peut nous conduire à sous-estimer l’erreur de généralisation et
le sur-apprentissage du modèle choisi. Une fois un modèle sélectionné, on peut le réentraı̂ner
sur l’union du jeu d’entraı̂nement et du jeu de validation afin de construire un modèle final.
3.2.3 Validation croisée

La séparation d’un jeu de données en un jeu d’entraı̂nement et un jeu de test est néces-
sairement arbitraire. Nous risquons ainsi d’avoir, par hasard, créé des jeux de données qui ne
3.2. ESTIMATION EMPIRIQUE DE L’ERREUR DE GÉNÉRALISATION 25
sont pas représentatifs. Pour éviter cet écueil, il est souhaitable de reproduire plusieurs fois
la procédure, puis de moyenner les résultats obtenus afin de moyenner ces effets aléatoires.
Le cadre le plus classique pour ce faire est celui de la validation croisée.
Définition 3.2.2. Etant donnés un jeu D de n observations et un nombre K , on appelle

validation croisée la procédure qui consiste à :
1. partitionner D en K parties de tailles sensiblement similaires, D1 , D2 , . . . , DK ;
2. pour chaque valeur de k = 1, . . . , K :
(a) entraı̂ner un modèle sur ∪l ̸=k Dl ,
(b) evaluer sur Dk
Chaque partition de D en deux ensembles Dk et ∪l ̸=k Dl est appelée un fold de la validation
croisée.
Chaque observation étiquetée du jeu D appartient à un unique jeu de test, et à (K-1)

jeux d’entraı̂nement. Ainsi, cette procédure génère une prédiction par observation de D .
Pour conclure sur la performance du modèle, on peut :
• soit évaluer la qualité des prédictions sur D ;
• soit évaluer la qualité de chacun des K prédicteurs sur le jeu de test Dk correspondant,
et moyenner leurs performances. Cette deuxième approche permet aussi de rapporter
l’écart-type de ces performances, ce qui permet de se faire une meilleure idée de la
variabilité de la qualité des prédictions en fonction des données d’entraı̂nement.
3.2.3.1 Validation croisée stratifiée

Leave-one-out
Un algorithme d’apprentissage apprendra d’autant mieux qu’il y a d’avantage de données
disponibles pour l’entraı̂nement : plus on connaı̂t d’étiquettes pour des observations, plus
on peut contraindre le modèle à les respecter. Or pour un jeu de données de taille n, un
jeu de test d’une validation croisée à K folds contient (K −K1)n points : les modèles entraı̂nés
apprendront d’autant mieux sur chacun des folds K qu’ils sont grands, ce qui nous pousse à
considérer le cas où K = n.
Définition 3.2.3. Une validation croisée dont le nombre de folds est égal au nombre d’obser-
vations dans le jeu d’entraı̂nement, et dont chaque fold est donc composé d’un jeu d’entraı̂-
nement de taille n − 1 et d’un jeu de test de taille 1, est appelée leave-one-out (on met de
côté, pour chaque fold, un unique exemple).
L’évaluation par leave-one-out présente deux inconvénients. Tout d’abord, elle requiert
un grand temps de calcul : on entraı̂ne n modèles, chacun sur n − 1 observations, au lieu
de (dans le cas K = 10) 10 modèles, chacun sur 90% des observations. De plus, les jeux
d’entraı̂nement ainsi formés sont très similaires entre eux. Les modèles entraı̂nés seront eux
aussi très similaires, et généralement peu différents d’un modèle entraı̂né sur l’intégralité du
jeu de données. Par contre, les jeux de test seront disjoints, et les performances pourront
ainsi avoir une grande variabilité, ce qui compliquera leur interprétation.
3.2.4 Bootstrap
Une autre façon de rééchantillonner les données afin d’estimer l’erreur de généralisa- tion
est connue sous le nom de bootstrap.
Définition 3.2.4. Étant donné un jeu D de n observations, et un nombre B, on appelle boots-
trap la procédure qui consiste à créer B échantillons D1 , D2 , . . . , DB de D , obtenus chacun en
tirant n exemples de D avec remplacement. Ainsi, chaque exemple peut apparaı̂tre plusieurs
fois, ou pas du tout, dans Db .
Le bootstrap est une procédure couramment utilisée en statistiques pour estimer un

paramètre en fonction de son estimation sur les B échantillons. En la suivant, on pourrait
entraı̂ner le modèle à évaluer sur chaque échantillon Db , puis évaluer sa performance sur
l’intégralité de D . Cependant, cette estimation serait biaisée par la présence d’une partie
des exemples de D dans Db . Il faut donc se limiter aux exemples de D\Db . En pratique,
cette procédure est jugée trop complexe pour être souvent appliquée.
3.3 Critères de performance

3.3.1 Matrice de confusion
Définition 3.3.1. Étant donné un problème de classification, on appelle matrice de confusion
une matrice M contenant autant de lignes que de colonnes que de classes, et dont l’entrée
M ck est le nombre d’exemples de la classe c pour laquelle l’étiquette k a été prédite.
Dans le cas de la classification binaire, la matrice de confusion prend la forme suivante :
On appelle vrais
positifs (en anglais true positives) les exemples positifs correctement classifiés ; faux positifs
(en anglais false positives) les exemples négatifs étiquetés positifs par le modèle ; et réci-
proquement pour les vrais négatifs (true negatives) et les faux négatifs ( false negatives).
On note généralement TP le nombre de vrais positifs, FP le nombre de faux positifs, TN
le nombre de vrais négatifs et FN le nombre de faux négatifs. Les faux positifs sont aussi
appelés fausses alarmes ou erreurs de type I, par opposition aux erreurs de type II qui sont
les faux négatifs.
Il est possible de dériver de nombreux critères d’évaluation à partir de la matrice de
confusion.
Définition 3.3.2. On appelle rappel (recall en anglais), ou sensibilité (sensitivity en anglais),

le taux de vrais positifs, c’est-à-dire la proportion d’exemples positifs correctement identifiés
comme tels :
TP
Sensibilité = .
TP + F N
Définition 3.3.3. On appelle précision, ou valeur positive prédictive (positive predictive value,
PPV ) la proportion de prédictions correctes parmi les prédictions positives :
TP
Précision = .
TP + FP
Pour résumer rappel et précision en un seul nombre, on calculera la F-mesure.

3.3. CRITÈRES DE PERFORMANCE 27
Définition 3.3.4. On appelle F-mesure (F-score ou F1-score en anglais), notée F, la moyenne
harmonique de la précision et du rappel :
Précision.Rappel 2TP
F-mesure = 2 =
Précision+Rappel 2TP + FP + F N
Définition 3.3.5. On appelle spécificité le taux de vrais négatifs, autrement dit la proportion
d’exemples négatifs correctement identifiés comme tels :
TN
Spécificité = .
FP + T N
3.3.2 Evaluation de méthodes de classification binaire retournant un score

De nombreux algorithmes de classification ne retournent pas directement une étiquette
de classe, mais utilisent une fonction de décision qui doit ensuite être seuillée pour devenir
une étiquette. Cette fonction de décision peut être un score arbitraire ou la probabilité
d’appartenir à la classe positive. Plusieurs critères permettent d’évaluer la qualité de la
fonction de décision avant seuillage.
Courbe ROC
Définition 3.3.6. On appelle courbe ROC, de l’anglais Receiver-Operator Characteristic la
courbe décrivant l’évolution de la sensibilité en fonction du complémentaire à 1 de la spéci-
ficité, parfois appelé antispécificité, lorsque le seuil de décision change.
On peut synthétiser une courbe ROC par l’aire sous cette courbe, souvent abrégée AU-
ROC pour Area Under the ROC.
Le point (0, 0) apparaı̂t quand on utilise comme seuil un nombre supérieur à la plus
grande valeur retournée par la fonction de décision : ainsi, tous les exemples sont étiquetés
négatifs. À l’inverse, le point (1, 1) apparaı̂t quand on utilise pour seuil une valeur inférieure
au plus petit score retourné par la fonction de décision : tous les exemples sont alors éti-
quetés positifs. Pour construire la courbe ROC, on prend pour seuil les valeurs successives
de la fonction de décision sur notre jeu de données. Ainsi, à chaque nouvelle valeur de seuil,
une observation que l’on prédisait précédemment négative change d’étiquette. Si cette ob-
servation est effectivement positive, la sensibilité augmente de 1/n p (où n p est le nombre
d’exemples positifs) ; sinon, c’est l’antispécificité qui augmente de 1/n n , où n n est le nombre
d’exemples négatifs. La courbe ROC est donc une courbe en escalier.
Un classifieur idéal, qui ne commet aucune erreur, associe systématique des scores plus
faibles aux exemples négatifs qu’aux exemples positifs. Sa courbe ROC suit donc le coin
supérieur gauche du carré [0, 1]2 ; il a une aire sous la courbe de 1.
La courbe ROC d’un classifieur aléatoire, qui fera sensiblement la même proportion
d’erreurs que de classifications correctes quel que soit le seuil utilisé, suit la diagonale de ce
carré. L’aire sous la courbe ROC d’un classifieur aléatoire vaut donc 0,5.
On peut enfin utiliser la courbe ROC pour choisir un seuil de décision, à partir de la
sensibilité (ou de la spécificité) que l’on souhaite garantir.
Courbe précision-rappel
La courbe précision-rappel vient souvent complémenter la courbe ROC.
Définition 3.3.7. On appelle courbe précision-rappel, ou courbe PR, ou Precision-Recall curve
en anglais, la courbe décrivant l’évolution de la précision en fonction du rappel, lorsque le
seuil de décision change.
Pour synthétiser cette courbe, on peut utiliser l’aire sous celle-ci, souvent abrégée AUPR
pour Area Under the Precision-Recall curve.
3.3.3 Erreur de régression

Dans le cas d’un problème de régression, le nombre d’erreurs n’est pas un critère appro-
prié pour évaluer la performance. D’une part, à cause des imprécisions numériques, il est
délicat de dire d’une prédiction à valeur réelle si elle est correcte ou non. D’autre part, un
modèle dont 50 % des prédictions sont correctes à 0,1 % près et les 50 autres pourcent sont
très éloignées des vraies valeurs vaut-il mieux qu’un modèle qui n’est correct qu’à 1 % près,
mais pour 100 % des exemples ? Ainsi, on préférera quantifier la performance d’un modèle
de régression en fonction de l’écart entre les prédictions et les valeurs réelles.
Définition 3.3.8. on appelle erreur quadratique moyenne, ou MSE de l’anglais mean squared
error, la valeur
1X n ³ ´2
MSE = Yi − f ( x i ) .
n i=1
Pour mesurer l’erreur dans la même unité que la cible, on lui préfère souvent sa racine :
Définition 3.3.9. on appelle racine erreur quadratique moyenne, ou RMSE de l’anglais root
mean squared error, la valeur
s
1X n ³ ´2
RMSE = Yi − f ( x i ) .
n i=1
Dans le cas où les valeurs cibles couvrent plusieurs ordres de grandeur, on préfère parfois
passer au log avant de comparer f ( x i ) à Yi , afin de ne pas donner plus d’importance aux
erreurs faites pour des valeurs plus élevées.
s
1X n ³ ´2
RMSLE = log(Yi + 1) − f ( x i ) .
n i=1
Chapitre
4 Régularisation
29
Chapitre
5 Régression logistique
30
Chapitre
6 Régression polynômiale
31
Chapitre
7 Réseaux de neurones
32
Chapitre
8 Méthode des plus proches voisins
33
Chapitre
9 Arbres et forêts
34
Chapitre
10 Machines à vecteurs supports
35
Chapitre
11 Clustering
36
Bibliographie
[1] Azencott C., Introduction au machine learning, Dunod, 2018.

[2] Benureau, F. Self-Exploration of Sensorimotor Spaces in Robots. Thèse de doctorat,
université de Bordeaux, 2015.
[3] Devroye L., Györfi L. and Lugosi G., A probabilistic theory of pattern recognition,
volume 31. Springer Verlag, 1996.
[4] Hastie T., Tibshirani R., Friedman J., The elements of statistical learning, Springer,
2001.
[5] Tikhonov A. N., On solving ill-posed problem and method of regularization, Doklady
Akademii Nauk, USSR 153, 1963, 501-504.
[6] Vapnik V., The nature of statistical learning theory, New-York, Springer-Verlag, 1996.
37

Cours Fouilles Donnees

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Fouilles Donnees

Transféré par

Droits d'auteur :

Formats disponibles

Fouilles de données

3 Selection de modèles et évaluation 17

8 Méthode des plus proches voisins 33

10 Machines à vecteurs supports 35

1.1 Machine learning

1.2 Différents types de machine learning

1.2.2 Apprentissage non supervisé ou clustering

1.2.3 Apprentissage semi-supervisé

1.2.4 Apprentissage par renforcement

Modélisation : on suppose que ( x1 , y1 ), . . . , ( xn , yn ) est une réalisation de variables aléatoires

2.2.1 Règles de prédiction, fonctions de décision, frontières de décision

Le concept de fonction de décision permet de partitionner l’espace X en régions de déci-

Dans le cas multi-classe, on a alors K régions de décision :

Les régions de décision sont séparées par des frontières de décision.

2.2.2 Qualité d’une règle de prédiction

l’espérance mathématique EP est prise par rapport à la loi de probabilité P.

Remarque 2.2.1. f ∗ dépend de P et n’est pas utilisable car P inconnue.

Théorème 2.2.1. Supposons que pour tout x ∈ X , l’infimum

z 7−→ EP ℓ(Y , z)| X = x) , est une fonction cible :

Démonstration. Nous avons

= EP( X ) EP(Y | X ) (ℓ(Y , f ∗ ( X ))

Exemple 2.2.1. Posons ℓ( y, f ( x)) = ( y − f ( x))2 . Une fonction cible est

EP(Y | x) (Y − y)2 = EP (Y | x) (Y − E(Y ))2 + (EP (Y | x) Y − y)2 .

f ∗ ( x) ∈ arg max P(Y = y| X = x) pour tout x ∈ X .

Lorsque Y = {0, 1}, posons η( x) = P (Y = 1| X = x)

f ∗ ( x) = arg min EP(Y | x) (1Y ̸= y )

= arg min P(Y ̸= y| X = x)

= arg max P(Y = y| X = x)

Lorsque Y = {0, 1},

2.3 Minimisation du risque empirique

La consistance garantit la capacité de généralisation.

E(R P ( fbn )) ≤ R P ( f ∗ ) + ε ε > 0 fixé.

Pour que ce nombre existe, il faudrait un résultat de consistance uniformement universelle.

En général, ce nombre n’existe pas.

lim sup {E(R P ( fbn )) − R P ( f ∗ )} = 0.

De plus, il faudra avoir une suite

sup {E(R P ( fbn )) − R P ( f ∗ )}

sup {E(R P ( fbn )) − R P ( f ∗ )} < ε.

n(P , ε) = inf n(P , ε, fbn )

2.3.2 Principe de minimisation du risque empirique

Le risque empirique exprime la qualité de la fonction de prédiction f sur l’échantillon observé.

fbn ∈ arg min R n ( f ). (2.3.1)

2.3.3 Sur-apprentissage, sous-apprentissage

Considérons un algorithme qui, pour prédire l’étiquette d’une observation x, retourne

2.3.4 Compromis biais-variance

On peut décomposer l’excès de la façon suivante :

3 Selection de modèles et évaluation

Le théorème du no free lunch de Wolpert et Macready (1997) indique qu’aucun algo-

3.1 Théorie de l’apprentissage de Vapnik-Chervonenkis.

R ( fbn ) − R ( f H ) ≤ 2 sup |R n ( f ) − R ( f )|.

Il suffit d’obtenir une majoration, en espérance ou en probabilité, de la variable aléatoire

Démonstration. Soit ε > 0 et soit f ε ∈ H vérifiant R ( f ε ) < R ( f H ) + ε. Puisque fbn minimise

R ( fbn ) − R ( f H ) = R ( fbn ) − R n ( fbn ) + R n ( fbn ) − R ( f H )

3.1.1 Cas où H est fini

où f j : X −→ Y sont des règles de prédiction. Dans ce cas :

f H = arg min R ( f j ) ⇐⇒ R ( f H ) = min R ( f j ).

Proposition 3.1.1. Supposons qu’il existe a, b ∈ R tels que

Alors, avec une probabilité d’au moins 1 − δ, on a :

En utilisant l’inégalité de Hoeffding,

Pour tout 0 < δ < 1, on a

D’après le Lemme 3.1.3, nous avons

On suppose que X = Rd , Y = {0, 1} et ℓ( y, f ( x)) = 1 f ( x)̸= y .

Ainsi, si Card(H ) < ∞, nous obtenons