Académique Documents
Professionnel Documents
Culture Documents
Master 2 MIAGE-GI
armel yodé
Table des matières
1 Introduction 4
1.1 Machine learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Différents types de machine learning . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Apprentissage non supervisé ou clustering . . . . . . . . . . . . . . . . . 5
1.2.3 Apprentissage semi-supervisé . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.4 Apprentissage par renforcement . . . . . . . . . . . . . . . . . . . . . . . 5
2 Apprentissage supervisé 6
2.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Règles de prédiction, fonctions de décision, frontières de décision . . . 6
2.2.2 Qualité d’une règle de prédiction . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Minimisation du risque empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Algorithmes d’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Principe de minimisation du risque empirique . . . . . . . . . . . . . . . 12
2.3.3 Sur-apprentissage, sous-apprentissage . . . . . . . . . . . . . . . . . . . . 13
2.3.4 Compromis biais-variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Régularisation 29
5 Régression logistique 30
6 Régression polynômiale 31
2
TABLE DES MATIÈRES 3
7 Réseaux de neurones 32
9 Arbres et forêts 34
11 Clustering 36
Chapitre
1 Introduction
Exemple 1.1.1. Supposons qu’une entreprise veuille connaı̂tre le montant total dépensé par
un client à partir de ses factures. Il suffit d’appliquer un algorithme classique, à savoir une
simple addition. Supposons maintenant que l’on veuille utiliser ces factures pour déterminer
quels produits le client est le plus susceptible d’acheter dans un mois. Bien que cela soit vrai-
semblablement lié, nous n’avons manifestement pas toutes les informations nécessaires pour
le faire. Cependant, si nous disposons de l’historique d’achat d’un grand nombre d’individus,
il devient possible d’utiliser un algorithme de machine learning pour qu’il en tire un modèle
prédictif nous permettant d’apporter une réponse à notre question.
Le machine learning est utilisé lorsqu’il est difficile ou impossible de définir les instruc-
tions explicites à donner à un ordinateur pour résoudre un problème, mais que l’on dispose
de nombreux exemples illustratifs. Il repose d’une part sur les mathématiques, et en parti-
culier les statistiques, pour ce qui est de la construction de modèles et de leur inférence à
partir de données, et d’autre part sur l’informatique, pour ce qui est de la représentation des
données et de l’implémentation efficace d’algorithmes d’optimisation. Le machine learning
peut être vu comme une branche de l’intelligence artificielle.
4
1.2. DIFFÉRENTS TYPES DE MACHINE LEARNING 5
1.2.1 Apprentissage supervisé
Un problème d’apprentissage
n supervisé
o peut être formalisé de la façon suivante : étant
données n observations x1 , x2 , . . . , xn , où chaque observation x i est un élément de l’espace
n o
des observations X , et leurs étiquettes y1 , y2 , . . . , yn , où chaque étiquette yi appartient à
l’espace des étiquettes Y , le but de l’apprentissage supervisé est de trouver une fonction
f : X −→ Y telle que f ( x) = y, pour toutes
n les paires ( x, y) ∈o X × Y ayant la même relation
que les paires observées. L’ensemble D = ( x i , yi ), i = 1, . . . , n forme le jeu d’apprentissage.
2 Apprentissage supervisé
2.1 Données
n o
Soient n observations x1 , x2 , . . . , xn , où chaque observation x i ∈ X ⊂ Rd avec d ≥ 1,
n o n
et leurs étiquettes y1 , y2 , . . . , yn , où chaque étiquette yi ∈ Y . L’ensemble D = ( x i , yi ), i =
o
1, . . . , n forme la base d’exemples. Lorsque
— Y = {0, 1} ou {−1, 1}, on parle de classification binaire ;
Exemple 2.1.1. • Identifier si un email est un spam ou non.
• Identifier si une image contient ou non un pont.
• Identifier si une transaction financière est frauduleuse ou non.
— Y = {0, . . . , K − 1} avec K ≥ 3, on parle de classification multi-classe ;
Exemple 2.1.2. • Identifier en quelle langue un texte est écrit.
• Identifier lequel des 10 chiffres est un chiffre manuscrit.
• Identifier l’expression d’un visage parmi une liste prédéfinie de possibilités (colère,
tristesse, joie, etc.).
• Classification d’images entre voiture, vélo, bus de ville, piéton, scooter.
— Y = R, on parle de régression.
Exemple 2.1.3. • Prédire le nombre de clics sur un lien.
• Prédrie le nombre d’utilisateurs d’un service en ligne à un moment
• Prédire le prix d’une action en bourse.
2.2 Décision
En se basant sur D , il s’agit ici d’induire une fonction qui prédise les réponses associées
à de nouvelles observations en commettant une erreur de prédiction la plus faible possible.
6
2.2. DÉCISION 7
Dans le cas d’un problème de classification, on peut utiliser une fonction intermédiaire g à
valeurs réelles. On obtient alors la règle de prédiction f en seuillant g ; g est appelée fonction
de décision.
Définition 2.2.2. Classification binaire. On appelle fonction de décision ou fonction discri-
minante, une fonction g : X −→ R telle que f ( x) = 0 si et seulement si g( x) < 0 et f ( x) = 1 si
et seulement si g( x) > 0.
Cette définition se généralise au cas de la classification multi-classe : on dispose alors de K
fonctions de décision g k : X −→ R telle que
f ( x) = arg min g k ( x).
k=0,...,K −1
³X ´
l’étiquette de x est déterminé par : f ( x) = arg max g kc ( x) ou vote de la
k=0,1,...,K −1 k̸= c
majorité (la classe prédite est celle retournée par le plus grand nombre de classifieurs)
Pour poser un problème d’apprentissage supervisé, il nous faut décider du type de règles de
décision que nous allons considérer.
Définition 2.2.4. On appelle espace des hypothèses, l’espace de fonctions F ⊆ Y X décrivant
les règles de prédiction que nous allons considérer.
Cet espace est choisi en fonction de nos convictions par rapport au problème. Le choix de
l’espace des hypothèses est fondamental. En effet, si cet espace ne contient pas la ”bonne”
fonction, il sera impossible de trouver une bonne fonction de décision.
est atteint.
h Alors unei fonction f : X −→ Y telle que pour tout x ∈ X , f ∗ ( x) minimise
∗
= EP (ℓ(Y , f ∗ ( X ))
= RP ( f ∗ )
est la fonction cible. En effet, en classification, on a |Y | < +∞, l’infimum recherché est donc
bien atteint. Nous avons
Définition 2.3.1. Un algorithme d’apprentissage est une application fbn qui à tout ensemble
d’apprentissage {( X 1 , Y1 ), . . . , ( X n , Yn )} renvoie une règle de prédiction.
fbn : (X × Y )n −→ Y X
³ ´
( X 1 , Y1 ), . . . , ( X n , Yn ) 7−→ fbn ·, ( X 1 , Y1 ), . . . , ( X n , Yn ) .
La performance d’un algorithme d’apprentissage est caractérisée l’excès de risque défini par :
³ ´ ³ ´
R P fbn − R P f ∗ .
Puisque cette différence est une variable aléatoire, on introduit d’autres mesures de perfor-
mance déterministes telles que :
³ ¢´ ³ ´
- E RP fbn − RP f ∗ ; l’espérance est prise par rapport à la loi de l’ensemble d’appren-
¡
tissage.
³ ´
- P RP fbn − RP f ∗ > ε pour un ε > 0 quelconque.
¡ ¢ ¡ ¢
Définition 2.3.2. Un algorithme d’apprentissage fbn est dit fortement consistant par rapport
à P si
¡ ¢ p.s
R P fbn −−−−−→ R P ( f ∗ ).
n→+∞
2.3. MINIMISATION DU RISQUE EMPIRIQUE 11
Définition 2.3.3. Un algorithme d’apprentissage fbn est dit faiblement consistant par rapport
à P si
E(R P ( fbn )) −−−−−→ R P ( f ∗ ).
n→+∞
décroissant le plus vite possible vers 0 pour que peu de données soient nécessaires à l’algo-
rithme pour prédire efficacement dans le cas où P ∈ P .
12 CHAPITRE 2. APPRENTISSAGE SUPERVISÉ
Définition 2.3.9. Soit ε > 0. On appelle complexité en quantité de données de P pour l’algo-
rithme fbn , le plus petit nombre n(P , ε, fbn ) tel que pour tout n ≥ n(P , ε, fbn ), on a
En d’autres termes, n(P , ε, fbn ) est la taille minimale necessaire pour garantir un excès de
risque en espérance inferieur à ε pour tout P ∈ P .
Définition 2.3.10. La complexité en données intrinsèque de P est
où inf est pris sur l’ensemble de tous les algorithmes d’apprentissage possibles.
La distribution P étant inconnue, RP ( f ) est inconnu. Elle peut être estimée par
1X n
Rn( f ) = ℓ(Yi , f ( X i )).
n i=1
Selon le choix de F , l’équation (2.3.1) peut avoir une solution analytique explicite. La mini-
misation du risque empirique est généralement un problème mal posé au sens de Hadamard,
c’est à dire qu’il n’admet pas une solution unique dépendant de façon continue des condi-
tions initiales. Il se peut par exemple qu’un nombre infini de solutions minimise le risque
empirique à zéro.
2.3. MINIMISATION DU RISQUE EMPIRIQUE 13
La loi des grands nombres nous garantit que le risque empirique converge vers l’erreur
de généralisation :
P
R n ( f ) −−−−−→ R P ( f ) ∀f ∈ F.
n→+∞
Cela ne suffit pas à garantir que le minimum du risque empirique converge vers le minimum
de l’erreur de généralisation. En effet, si F est l’espace des fonctions mesurables, min R n ( f )
f ∈F
vaut généralement 0, ce qui n’est pas le cas de RP ( f ). Il n’y a donc aucune garantie que
la fonction qui minimise R n ( f ) soit un bon estimateur de la fonction cible. La consistance
de la minimisation du risque empirique dépend de l’espace des hypothèses F . L’étude de
cette consistance est un des principaux éléments de la théorie de l’apprentissage de Vapnik-
Chervonenkis.
Un modèle qui surapprend est un modèle qui est trop complexe par rapport à la réalité
qu’il essaie de représenter. Nous avons tendance à préférer des modèles simples. Par ailleurs,
coller de trop près aux données est une mauvaise idée car elles sont inévitablement bruitées :
— Par des erreurs de mesure (les appareils que nous utilisons pour mesurer les variables
qui représentent nos données peuvent faire des erreurs techniques) ;
— Par des erreurs d’étiquetage (l’erreur est humaine, et il se peut que certaines des
étiquettes ne soient pas les bonnes) ;
— Parce que nous n’avons pas mesuré les variables les plus pertinentes, soit parce qu’on
ne les connaı̂t pas, soit parce qu’elles sont très compliquées à mesurer.
Il faut néanmoins aussi éviter les modèles trop simples, qui ne parviendront pas à bien
représenter le phénomène qui nous intéresse, et qui ne feront pas de bonnes prédictions. On
parle dans ce cas de ”sous-apprentissage”.
2.3. MINIMISATION DU RISQUE EMPIRIQUE 15
où ³ ´ ³ ´
R P f ∗ = min R P f .
f ∈G
Un modèle simple (variance faible) risque le sous- apprentissage (biais élevé y com-
pris sur les données d’entraı̂nement). Un modèle complexe (variance élevée) risque le sur-
apprentissage (biais faible sur les données d’entraı̂nement mais élevé sur de nouvelles don-
nées). On souhaite trouver un modèle intermédiaire, vers le creux de la courbe orange, là où
le biais de prédiction est le plus faible et la généralisation la meilleure.
Chapitre
Remarque 3.1.1. (i) l’algorithme doit renvoyer une règle de prédiction dont l’erreur em-
pirique reflète son erreur de généralisation lorsque la taille de la base d’entraı̂nement
tend vers l’infini ;
(ii) l’erreur empirique de l’algorithme doit converger vers l’erreur de généralisation de la
fonction cible.
Définition 3.1.2. Un résultat probablement approximativement correct (P.A.C.) est une af-
firmation du type : ∀0 < ε ≤ 1, avec une probabilité au moins 1 − ε, l’événement A ε se produit,
où ( A ε ) est une famille d’événements paramétrés par ε.
17
18 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
Si A ε = {V ≤ Wε } avec V et Wε , variable aléatoire réelle, on parle de borne P.A.C pour V .
Pour obtenir les majorations ci-dessus, on peut établir des inégalités P.A.C.
Lemme 3.1.1. L’erreur d’estimation de fbn vérifie :
sup |R n ( f ) − R ( f )|.
f ∈H
H = { f1, . . . , f M }
a ≤ ℓ( y, y′ ) ≤ b. ∀ y, y′ .
³ ´ ³ t´
P R (c
f n ) − R ( f H ) > t ≤ P sup |R ( f ) − R n ( f )| >
f ∈H 2
³[ M h t i´
=P | R ( f j ) − R n ( f j )| >
j =1 2
M ³ t´
P |R ( f j ) − R n ( f j )| >
X
≤
j =1 2
3.1. THÉORIE DE L’APPRENTISSAGE DE VAPNIK-CHERVONENKIS. 19
Lemme 3.1.2 (Inégalité de Hoeffding.). Soient Z1 , . . . , Z n des variables aléatoires réelles in-
dépendantes telles que a i ≤ Z i ≤ b i P-p.s (a i < b i ). Alors, ∀, nous avons ε > 0
n
³¯ X ¯ ´ ³ 2ε2 ´
P ¯ ( Z i − E( Z i ))¯ ≥ ε ≤ 2 exp − Pn .
¯ ¯
2
i =1 i =1 ( b i − a i )
Lemme 3.1.3. Soit Z une variable aléatoire réelle positive. Supposons qu’il existe une constante
C > 0 telle que, pour tout ε > 0,
2
P( Z ≥ ε) ≤ Ce−2nε .
Alors s
³ ´ ln(Ce)
E Z ≤ .
2n
Démonstration. Nous avons Z ∞
E( Z 2 ) = P( Z 2 > ε) d ε.
0
Pour tout u ≥ 0,
Z u Z +∞
E( Z 2 ) = P( Z 2 > ε) d ε + P( Z 2 > ε) d ε
0 u
Z ∞
≤ u+C e−2nε d ε
u
C −2nu
≤ u+ e .
2n
En minimisant en u, on en déduit
ln(Ce)
E( Z 2 ) ≤ .
2n
On obtient le resultat final par l’inégalité de Cauchy-Schwarz.
Nous avons 2
− nε
³ ´
P R ( fbn ) − inf R ( f ) > ε ≤ 2Card(H ) e 2(b−a)2 .
f ∈H
Lemme 3.1.4 (Borel-Cantelli). Soit ( X n ) une suite de variables aléatoires telles que
∞
P(| X n | > ε) < +∞.
X
∀ε > 0,
n=0
Alors
p.s
X n −−−−−→ 0.
n→+∞
Ainsi, pour une classe de cardinal fini, l’erreur d’estimation reste sous contrôle selon la
1
taille (cardinal) et tend vers 0 à la vitesse p lorsque n tend vers l’infini.
n
Lorsque le cardinal de H n’est pas fini, il faut trouver de nouveaux outils pour appré-
hender la ”taille” de H : c’est l’objet de la théorie de Vapnik-Chervonenkis.
Nous avons NA ( z1 , . . . , z n ) ≤ 2n
n o
Définition 3.1.4. On dit que A pulvérise l’ensemble z1 , . . . , z n si
N A ( z1 , . . . , z n ) = 2 n .
1X n
Pn = δZ .
n i=1 i
nε2
³ ¯ ¯ ´
P sup ¯Pn ( A ) − P( A )¯ > ε ≤ 8SA ( n) e− 32
¯ ¯
A ∈A
1. La borne est universelle, dans le sens où elle ne dṕend pas de la loi P.
2. Ce résultat généralise le Théorème 3.1.1
D’après le Lemme de Borel-Cantelli, nous avons les résultat suivant :
nε2
SA ( n ) e −
X
Corollaire 3.1.1. Si 32 < +∞ alors
n≥0
¯ ¯ p.s
sup ¯Pn ( A ) − P( A )¯ −−−−−→ 0.
¯ ¯
A ∈A n→+∞
Lemme 3.1.5. Sauer (1972) Soit A une famille d’ensembles admettant une dimension de
Vapnik-Chervonenkis finie VA . Alors, pour tout n ≥ 1,
VA
SA ( n) ≤ C ni .
X
i =1
Corollaire 3.1.2. Soit A une famille d’ensembles admettant une dimension de Vapnik-
Chervonenkis finie VA . Alors, pour tout n ≥ 1
SA ( n) ≤ ( n + 1)VA .
Démonstration. On a
V V
A A n i VX A
( n + 1)VA = C Vi A n i ≥ C ni ≥ SA ( n)
X X
≥
i =0 i =0 i ! i =0
Nous avons
- soit SA (n) = 2n pour tout n ≥ 1 (VA = +∞)
- soit SA (n) ≤ (n + 1)VA (VA < +∞)
22 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
D’après l’inégalité de Vapnik-Chervonenkis, nous avons
s
³ ´ ln(8 eSA ( n))
E sup |Pn ( A ) − P( A )| ≤ 8
A ∈A 2n
s
VA ln( n + 1) + 4
≤8
2n
s
³ V ln( n) ´
A
=O
n
1X n
Pn ( A ) = 1( X i ,Yi )∈ A .
n i=1
prendre la déviation de la mesure empirique Pn par rapport à la vraie mesure P sur la classe
d’ensembles mesurables A .
n o
Proposition 3.1.2. Soit A¯ = x ∈ Rd , f ( x) = 1 : f ∈ H . Alors, pour tout n ≥ 1, S A¯ (n) = S A (n).
En particulier, VA = VA¯ .
Théorème 3.1.3. Nous avons
nε2
³ ´
f n ) − inf R ( f ) > ε ≤ 8S A¯ ( n) e− 128 .
P R (c
f ∈H
De plus, s
³ ´ ln( eS A¯ ( n))
E c
f n ) − inf R ( f ) ≤ 16 .
f ∈H 2n
D’après Borel-Cantelli, on en déduit que
p.s
R (c
f n ) − inf R ( f ) −−−−−→ 0.
f ∈H n→+∞
Comme nous n’avons pas utilisé le jeu de test pour entraı̂ner notre modèle, il peut être
considéré comme un jeu de données ”nouvelles”. La perte calculée sur ce jeu de test est un
estimateur de l’erreur de généralisation.
Mais quelle est son erreur de généralisation ? Comme nous avons utilisé D te pour sélectionner
le modèle, il ne représente plus un jeu indépendant composé de données nouvelles, inutilisées
pour déterminer le modèle. La solution est alors de découper notre jeu de données en trois
parties :
• un jeu d’entraı̂nement D tr sur lequel nous pourrons entraı̂ner nos K algorithmes
d’apprentissage ;
• un jeu de validation (validation set en anglais) Dval sur lequel nous évaluerons les K
modèles ainsi obtenus, afin de sélectionner un modèle définitif ;
• un jeu de test D te sur lequel nous évaluerons enfin l’erreur de généralisation du modèle
choisi.
On voit qu’il est important de distinguer la sélection d’un modèle de son évaluation : les
faire sur les mêmes données peut nous conduire à sous-estimer l’erreur de généralisation et
le sur-apprentissage du modèle choisi. Une fois un modèle sélectionné, on peut le réentraı̂ner
sur l’union du jeu d’entraı̂nement et du jeu de validation afin de construire un modèle final.
Définition 3.2.3. Une validation croisée dont le nombre de folds est égal au nombre d’obser-
vations dans le jeu d’entraı̂nement, et dont chaque fold est donc composé d’un jeu d’entraı̂-
nement de taille n − 1 et d’un jeu de test de taille 1, est appelée leave-one-out (on met de
côté, pour chaque fold, un unique exemple).
L’évaluation par leave-one-out présente deux inconvénients. Tout d’abord, elle requiert
un grand temps de calcul : on entraı̂ne n modèles, chacun sur n − 1 observations, au lieu
de (dans le cas K = 10) 10 modèles, chacun sur 90% des observations. De plus, les jeux
d’entraı̂nement ainsi formés sont très similaires entre eux. Les modèles entraı̂nés seront eux
aussi très similaires, et généralement peu différents d’un modèle entraı̂né sur l’intégralité du
jeu de données. Par contre, les jeux de test seront disjoints, et les performances pourront
ainsi avoir une grande variabilité, ce qui compliquera leur interprétation.
3.2.4 Bootstrap
Une autre façon de rééchantillonner les données afin d’estimer l’erreur de généralisa- tion
est connue sous le nom de bootstrap.
26 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
Définition 3.2.4. Étant donné un jeu D de n observations, et un nombre B, on appelle boots-
trap la procédure qui consiste à créer B échantillons D1 , D2 , . . . , DB de D , obtenus chacun en
tirant n exemples de D avec remplacement. Ainsi, chaque exemple peut apparaı̂tre plusieurs
fois, ou pas du tout, dans Db .
On appelle vrais
positifs (en anglais true positives) les exemples positifs correctement classifiés ; faux positifs
(en anglais false positives) les exemples négatifs étiquetés positifs par le modèle ; et réci-
proquement pour les vrais négatifs (true negatives) et les faux négatifs ( false negatives).
On note généralement TP le nombre de vrais positifs, FP le nombre de faux positifs, TN
le nombre de vrais négatifs et FN le nombre de faux négatifs. Les faux positifs sont aussi
appelés fausses alarmes ou erreurs de type I, par opposition aux erreurs de type II qui sont
les faux négatifs.
Il est possible de dériver de nombreux critères d’évaluation à partir de la matrice de
confusion.
TP
Précision = .
TP + FP
Courbe ROC
Définition 3.3.6. On appelle courbe ROC, de l’anglais Receiver-Operator Characteristic la
courbe décrivant l’évolution de la sensibilité en fonction du complémentaire à 1 de la spéci-
ficité, parfois appelé antispécificité, lorsque le seuil de décision change.
On peut synthétiser une courbe ROC par l’aire sous cette courbe, souvent abrégée AU-
ROC pour Area Under the ROC.
Le point (0, 0) apparaı̂t quand on utilise comme seuil un nombre supérieur à la plus
grande valeur retournée par la fonction de décision : ainsi, tous les exemples sont étiquetés
négatifs. À l’inverse, le point (1, 1) apparaı̂t quand on utilise pour seuil une valeur inférieure
au plus petit score retourné par la fonction de décision : tous les exemples sont alors éti-
quetés positifs. Pour construire la courbe ROC, on prend pour seuil les valeurs successives
de la fonction de décision sur notre jeu de données. Ainsi, à chaque nouvelle valeur de seuil,
une observation que l’on prédisait précédemment négative change d’étiquette. Si cette ob-
servation est effectivement positive, la sensibilité augmente de 1/n p (où n p est le nombre
d’exemples positifs) ; sinon, c’est l’antispécificité qui augmente de 1/n n , où n n est le nombre
d’exemples négatifs. La courbe ROC est donc une courbe en escalier.
Un classifieur idéal, qui ne commet aucune erreur, associe systématique des scores plus
faibles aux exemples négatifs qu’aux exemples positifs. Sa courbe ROC suit donc le coin
supérieur gauche du carré [0, 1]2 ; il a une aire sous la courbe de 1.
La courbe ROC d’un classifieur aléatoire, qui fera sensiblement la même pro- portion
d’erreurs que de classifications correctes quel que soit le seuil utilisé, suit la diagonale de ce
carré. L’aire sous la courbe ROC d’un classifieur aléatoire vaut donc 0,5.
On peut enfin utiliser la courbe ROC pour choisir un seuil de décision, à partir de la
sensibilité (ou de la spécificité) que l’on souhaite garantir.
Courbe précision-rappel
La courbe précision-rappel vient souvent complémenter la courbe ROC.
Définition 3.3.7. On appelle courbe précision-rappel, ou courbe PR, ou Precision-Recall curve
en anglais, la courbe décrivant l’évolution de la précision en fonction du rappel, lorsque le
seuil de décision change.
28 CHAPITRE 3. SELECTION DE MODÈLES ET ÉVALUATION
Pour synthétiser cette courbe, on peut utiliser l’aire sous celle-ci, souvent abrégée AUPR
pour Area Under the Precision-Recall curve.
Pour mesurer l’erreur dans la même unité que la cible, on lui préfère souvent sa racine :
Définition 3.3.9. on appelle racine erreur quadratique moyenne, ou RMSE de l’anglais root
mean squared error, la valeur
s
1X n ³ ´2
RMSE = Yi − f ( x i ) .
n i=1
Dans le cas où les valeurs cibles couvrent plusieurs ordres de grandeur, on préfère parfois
passer au log avant de comparer f ( x i ) à Yi , afin de ne pas donner plus d’importance aux
erreurs faites pour des valeurs plus élevées.
s
1X n ³ ´2
RMSLE = log(Yi + 1) − f ( x i ) .
n i=1
Chapitre
4 Régularisation
29
Chapitre
5 Régression logistique
30
Chapitre
6 Régression polynômiale
31
Chapitre
7 Réseaux de neurones
32
Chapitre
33
Chapitre
9 Arbres et forêts
34
Chapitre
35
Chapitre
11 Clustering
36
Bibliographie
37