Académique Documents
Professionnel Documents
Culture Documents
1 Théorie d’apprentissage 5
1.1 Base d’apprentissage, modélisation . . . . . . . . . . . . . . . 5
1.2 Règles de prédiction . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Qualité d’une règle de prédiction . . . . . . . . . . . . 6
1.3 Algorithme d’apprentissage . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Qualité d’un algorithme d’apprentissage . . . . . . . . 10
1.4 Algorithme par minimisation du risque empirique . . . . . . . 11
1.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Décomposition biais-variance . . . . . . . . . . . . . . 12
1.4.3 Performance de la minimisation du risque empirique . . 12
1.4.4 Cas où H est fini . . . . . . . . . . . . . . . . . . . . . 13
1.4.5 Approche de Vapnik : Classification binaire . . . . . . . 14
1.4.5.1 Cadre d’étude . . . . . . . . . . . . . . . . . . 14
1.4.6 Conditions nécessaires de convergence uniforme . . . . 15
1.4.7 CNS de convergence uniforme . . . . . . . . . . . . . . 15
1.4.8 Les trois jalons de la théorie d’apprentissage selon Vapnik 15
1.4.9 Dimension VC (Vapnik-Chervonenkis . . . . . . . . . . 17
1.4.10 Une borne sur le risque . . . . . . . . . . . . . . . . . . 17
2 Classification binaire 19
2.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Algorithme du perceptron . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Neurone formel . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 Lien avec le MRE . . . . . . . . . . . . . . . . . . . . . 21
2.3 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Support Vector Machine ou Séparateur à Vaste Marge (SVM) 21
3
4 TABLE DES MATIÈRES
Chapitre 1
Théorie d’apprentissage
5
6 CHAPITRE 1. THÉORIE D’APPRENTISSAGE
1.2 Règles de prédiction
Définition 1.2.1. Une règle de prédiction est une fonction mesurable f
définie sur X à valeurs dans Y qui associe la sortie f (x) à l’entrée x ∈ X .
Le but d’une règle de prédiction est de fournir une étiquette f (xn+1 ) à xn+1
en espérant faire coincider la prédicrtion f (xn+1 ) et la sortie yn+1 . On notera
G, l’ensemble de toutes les règles de prédiction.
est atteint. Alors hune fonction f ∗i: X −→ Y telle que pour tout x ∈ X , f ∗ (x)
minimise z 7−→ E `(Y, z)|X = x) , est une fonction cible :
h i
∀x ∈ X , f ∗ (x) := arg min E `(Y, z)|X = x)
z∈Y
Démonstration.
= EP (`(Y, f ∗ (X))
= R(f ∗ )
Démonstration.
P(Y 6= f (x)|X = x) = P(Y = 1|X = x)1f (x)=0 + P(Y = 0|X = x)1f (x)=1
= (1 − η(x)) + (2η(x) − 1)If (x)=0
En faisant la différence
P(Y 6= f (x)|X = x) − P(Y 6= f ∗ (x)|X = x)
= (2η(x) − 1)(1f (x)=0 − 1f ∗ (x)=0 )
= |2η(x) − 1|1f (x)6=f ∗ (x)
1.3. ALGORITHME D’APPRENTISSAGE 9
min{a, 1 − a} ≤ 1/2
pour tout 0 ≤ a ≤ 1. Suppons que PX admet une densité p(·) par rapport à la
mesure de Lebesgue sur Rd . Le théorème de Bayes implique
où p0 (x) = p(x|Y = 0), p1 (x) = p(x|Y = 1) sont les densités conditionnelles
de X sachant Y = 0 et Y = 1, et π = P(Y = 1). Le classifieur de Bayes s’écrit
alors :
1 si p1 (x) > 1 − π
∗
f (x) = p0 (x) π
0 sinon
fbn : (X × Y)n −→ G
(X1 , Y1 ), . . . , (Xn , Yn ) 7−→ fbn ·, (X1 , Y1 ), . . . , (Xn , Yn )
La distribution P étant inconnue, le risque R(f ) est inconnu. Il peut être estimé
par
n
1X
Rn (f ) = `(Yi , f (Xi )).
n i=1
Prenons H = G. Dans le cas où Y = {0, 1}, le risque empirique est minimisé
par (
Yi si x = Xi , i = 1, . . . , n
fˆn (x) =
0 ou 1 si x 6∈ {X1 , . . . , Xn }
fˆn (x) reproduit les résultats Yi si x = Xi et classifie tous les autres x de façon
arbitraire. Le risque empirique de ce classifieur est 0.
• Prendre H trop grand peut mener à un surapprentissage dans la mesure
où le minimum du risque empirique Rn (fˆn ) est inférieur à son erreur de
généralisation R(fˆn ).
• Dans la pratique, il faut choisir H suffisamment grand pour pouvoir
raisonnablement approcher la fonction cible par les éléments de H en ne
le prenant pas trop grand pour éviter le phénomène de surapprentissage.
Posons
f ∗ ∈ arg min R(f ) fH ∈ arg min R(f ).
f ∈G f ∈H
où ∆n (H) > 0 est un terme résiduel qui tend vers 0 lorsque n → +∞, c’est à
dire, en moyenne, fˆn atteint le même risque que l’oracle fH à un petit terme
résiduel ∆n (H) prè.
Plus généralement
Souvent, il est désirable d’obtenir des inégalités d’oracle avec forte probabilité :
Pour tout 0 < δ < 1, avec probabilité au moins 1 − δ,
H = {f1 , . . . , fM }
a ≤ `(y, y 0 ) ≤ b. ∀y, y 0 .
Démonstration : On a
Card(Qn ) représente le nombre de facons possibles dont les données (X1 , Y1 ), . . . , (Xn , Yn )
peuvent être classifiées par les éléments de H. Comme on considère Iy6=f (x) .,
nous avons
Card(Qn ) = nH (Z1 , . . . , Zn ) ≤ 2n .
sur l’ensemble des fonctions Iy6=f (x) , f ∈ H, il est nécessaire et suffisant que
H H(n)
→ 0.
n
Deuxième jalon
Proposition 1.4.2. Nous avons les inégalités :
H H (n) ≤ Han
H
(n) ≤ GH (n).
Le premier jalon est une CNS pour la pertinence (stricte) du principe de
minimisation du risque empirique, mais il ne nous dit rien à propos de la
vitesse de convergence du risque R(fn ) vers le risque minimal R(f0 ). Il est
possible que le taux de convergence asymptotique soit arbitrairement lent, bien
que le principe de l’ERM soit pertinent. La question est donc : sous quelles
conditions le taux de convergence asymptotique est-il rapide ? On dit que le
taux de convergence asymptotique est rapide si : ∃C > 0, ∃N0 > 0 : ∀n > N0 ,
P R(fn ) − R(f0 ) < ε ≤ exp(−ε2 nC).
GH (n) = n ln 2 ∀n ∈ N∗ ;
GH (n)
→0⇔h<∞
n
Définition 1.4.7. La dimension VC de l’ensemble des fonctions Iy6=f (x) , f ∈ H
est le nombre maximum de vecteurs Z1 , . . . , Zn qui peuvent être séparés de 2h
facons différentes par les fonctions Iy6=f (x) ,
VH = sup{n ∈ N : SH (n) = 2n }.
Théoréme 1.4.6. Soit H de VC-dimension finie. Alors, pour tout 0 < δ < 1,
avec probabilité au moins 1 − δ, on a
r r
2(VH ln(n + 1) + ln(2)) 2 ln(δ −1 )
R(fˆn ) ≤ R(fH ) + 4 + .
n n
r
2(VH ln(n + 1) + ln(2))
E(R(fˆn )) ≤ R(fH ) + 4 .
n
De plus, avec probabilité au moins 1 − δ,
r r
2(V H ln(n + 1) + ln(2)) ln(δ −1 )
|R(fˆn ) − Rn (fˆn )| ≤ 22 +
n 2n
Classification binaire
2.1 Exemple
x1 x2 Y
1 3 -1
2 1 -1
4 5 -1
6 9 -1
8 7 -1
5 1 1
7 1 1
9 4 1
12 7 1
13 6 1
> X1=c(1,2,4,6,8,5,7,9,12,13)
> X2=c(3,1,5,9,7,1,1,4,7,6)
> plot(X1,X2,pch=c(rep("-",5),rep("+",5)),col=c(rep("red",5),rep("blue",5)))
19
20 CHAPITRE 2. CLASSIFICATION BINAIRE
8 −
− +
+
6
X2
+
4
−
2
− + +
2 4 6 8 10 12
X1
2.2.2 Perceptron
Rosenblatt (1958) a adapté ce modèle mathématique au cas des neurones
du système vi- suel (doù le nom du modèle en référence à la perception). Dans
ce modèle, la fonction de transfert est une fonction linéaire et les signaux
d’entrée correspondent aux caractéris- tiques d’un exemple
f (x) = hω, xi + b.
L’équation
f (x) = hω, xi + b = 0
correspond à celle d’un hyperplan dans Rd de vecteur orthogonal ω.