Vous êtes sur la page 1sur 22

Apprentissage statistique

Prof. Armel Fabrice Yodé


Université Félix-Houphouet Boigny
yafevrard@yahoo.fr
2
Table des matières

1 Théorie d’apprentissage 5
1.1 Base d’apprentissage, modélisation . . . . . . . . . . . . . . . 5
1.2 Règles de prédiction . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Qualité d’une règle de prédiction . . . . . . . . . . . . 6
1.3 Algorithme d’apprentissage . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Qualité d’un algorithme d’apprentissage . . . . . . . . 10
1.4 Algorithme par minimisation du risque empirique . . . . . . . 11
1.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Décomposition biais-variance . . . . . . . . . . . . . . 12
1.4.3 Performance de la minimisation du risque empirique . . 12
1.4.4 Cas où H est fini . . . . . . . . . . . . . . . . . . . . . 13
1.4.5 Approche de Vapnik : Classification binaire . . . . . . . 14
1.4.5.1 Cadre d’étude . . . . . . . . . . . . . . . . . . 14
1.4.6 Conditions nécessaires de convergence uniforme . . . . 15
1.4.7 CNS de convergence uniforme . . . . . . . . . . . . . . 15
1.4.8 Les trois jalons de la théorie d’apprentissage selon Vapnik 15
1.4.9 Dimension VC (Vapnik-Chervonenkis . . . . . . . . . . 17
1.4.10 Une borne sur le risque . . . . . . . . . . . . . . . . . . 17

2 Classification binaire 19
2.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Algorithme du perceptron . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Neurone formel . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 Lien avec le MRE . . . . . . . . . . . . . . . . . . . . . 21
2.3 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Support Vector Machine ou Séparateur à Vaste Marge (SVM) 21

3
4 TABLE DES MATIÈRES
Chapitre 1

Théorie d’apprentissage

1.1 Base d’apprentissage, modélisation


On dispose de n exemples
(x1 , y1 ), . . . , (xn , yn )
où xi ∈ X ⊂ Rd et yi ∈ Y ⊂ R ; xi est appelée entrée et yi est appelée sortie ;
(x1 , y1 ), . . . , (xn , yn ) est appelé base d’apprentissage ou d’entraı̂nement.
Selon la nature de Y, on parle de régression (ou prédiction) si Y est continu
et classement (ou discrimination ou classification) si Y est fini.
Exemple 1.1.1. — x représente l’ensemble des paramètres observables
(âge, taille, résultats d’examens médicaux...)
— y représente l’étiquette associée au patient.
(
0 si le patient est sain
y=
1 si le patient est malade
Exemple 1.1.2. — x représente l’ensemble des paramètres observables
— y représente l’étiquette associée au mail.
(
0 si le mail est un non spam
y=
1 si le mail est un spam
Il s’agit ici d’induire une fonction qui prédise les réponses associées à de
nouvelles observations en commettant une erreur de prédiction la plus faible
possible. On cherche une fonction ayant de bonnes performances de générali-
sation.
L’hypothèse fondamentale de la théorie de l’apprentissage statistique est
que tous les exemples sont générés indépendamment et identiquement selon
une loi de probabilité P mais inconnue. Ainsi, {(x1 , y1 ), . . . , (xn , yn )} est une
réalisation de n variables aléatoires {(X1 , Y1 ), . . . , (Xn , Yn )} indépendantes de
même loi P supposée inconnue.

5
6 CHAPITRE 1. THÉORIE D’APPRENTISSAGE
1.2 Règles de prédiction
Définition 1.2.1. Une règle de prédiction est une fonction mesurable f
définie sur X à valeurs dans Y qui associe la sortie f (x) à l’entrée x ∈ X .
Le but d’une règle de prédiction est de fournir une étiquette f (xn+1 ) à xn+1
en espérant faire coincider la prédicrtion f (xn+1 ) et la sortie yn+1 . On notera
G, l’ensemble de toutes les règles de prédiction.

1.2.1 Qualité d’une règle de prédiction


Comment mesure-t-on la qualité d’une règle de prédiction ?
Définition 1.2.2. Toute fonction ` : Y × Y −→ R+ est appelée fonction de
coût. `(Y, f (X)) mesure l’erreur entre la réponse réelle Y et la réponse prédite
f (X) pour une donne d’entrée X.
Exemple 1.2.1. Fonctions de Coût classiques :
• `(y, y 0 ) = 1y6=y0 : cette fonction de perte est utilisée dans les problèmes
de classement.
• `(y, y 0 ) = |y − y 0 |p où p ≥ 1 est un réel fixé, est utilisé dans le cas de la
régression Lp .
La qualité d’une fonction de prédiction f ∈ G est mesurée par son erreur
de généralisation.
Définition 1.2.3. L’erreur de généralisation d’une règle de prédiction f
est définie par :
Z
R(f ) = EP [`(Y, f (X))] = `(y, f (x))dP(x, y).
X ×Y

Définition 1.2.4. La ”meilleure” fonction de prédiction est une fonction


f ∗ := arg min R(f ).
f ∈G

Remarque 1.2.1. Cette fonction f est appelée fonction cible ou fonction
oracle ; f ∗ dépend de P et n’est pas utilisable car P inconnue.
Nous avons
R(f ) = EP [`(Y, f (X))]
Z
= `(y, f (x))dP(x, y)
ZX ×Y
h Z i
= `(y, f (x))dP(y|X = x) dPX (x)
ZX h Y i
= E `(Y, f (X))|X = x) dPX (x)
X
1.2. RÈGLES DE PRÉDICTION 7
Théoréme 1.2.1. Supposons que pour tout x ∈ X , l’infimum
h i
inf E `(Y, z)|X = x)
z∈Y

est atteint. Alors hune fonction f ∗i: X −→ Y telle que pour tout x ∈ X , f ∗ (x)
minimise z 7−→ E `(Y, z)|X = x) , est une fonction cible :
h i
∀x ∈ X , f ∗ (x) := arg min E `(Y, z)|X = x)
z∈Y

⇒ f ∗ := arg min R(f ).


f ∈G

Démonstration.

R(f ) = EP (`(Y, f (X))


h i
= EPX EPY |X (`(Y, f (X))
 
≥ EP(X) min EP(Y |X) `(Y, y)
y∈Y

= EP(X) EP(Y |X) (`(Y, f ∗ (X))


 

= EP (`(Y, f ∗ (X))
= R(f ∗ )

Posons `(y, f (x)) = (y − f (x))2 .

Théoréme 1.2.2. Une fonction cible est

f ∗ (x) = E(Y |X = x).

Démonstration.

EP(Y |x) (Y − y)2 = EP (Y |x) (Y − E(Y ))2 + (EP (Y |x) Y − y)2 .

Le premier terme étant indépendant de la valeur de y, l’infimum pour y ∈ Y


de E(Y − y)2 est atteint pour y = E(Y |X = x). On a donc bien f ∗ (x) =
E(Y |X = x) comme fonction cible.
Posons `(y, f (x)) = 1y6=f (x)

Théoréme 1.2.3. La fonction cible est la fonction f ∗ satisfaisant

f ∗ (x) ∈ arg max P(Y = y|X = x) pour tout x ∈ X .


y∈Y
8 CHAPITRE 1. THÉORIE D’APPRENTISSAGE
Lorsque Y = {0, 1}, posons η(x) = P (Y = 1|X = x)
(
1 si η(x) > 1/2
f ∗ (x) =
0 si η(x) ≤ 1/2
est la fonction cible.
Démonstration. En classification, on a |Y | < +∞, l’infimum recherché est
donc bien atteint.
f ∗ (x) = arg min EP(Y |x) (1Y 6=y )
y∈Y

= arg min P(Y 6= y|X = x)


y∈Y

= arg max P(Y = y|X = x)


y∈Y

Lorsque Y = {0, 1},


(
1 si P(Y = 1|X = x) > P(Y = 0|X = x)
f ∗ (x) =
0 si P(Y = 1|X = x) ≤ P(Y = 0|X = x)

• f : X −→ {0, 1} est appelé classifieur.


• f ∗ est appelé classifieur de Bayes.
• R(f ∗ ) est appelé risque de Bayes.
Théoréme 1.2.4. Pour tout classifieur f ,
 

R(f ) − R(f ) = E |2η(X) − 1|1f (X)6=f ∗ (X) .
En conséquence,
 
R(f ∗ ) = E min{η(X), 1 − η(X)} ≤ 1/2.
Démonstration. Pour tout classifieur f , nous avons :
Z

R(f ) − R(f ) = P(Y 6= f (X)) = P(Y 6= f (x)|X = x)dPX (dx)

P(Y 6= f (x)|X = x) = P(Y = 1|X = x)1f (x)=0 + P(Y = 0|X = x)1f (x)=1
= (1 − η(x)) + (2η(x) − 1)If (x)=0
En faisant la différence
P(Y 6= f (x)|X = x) − P(Y 6= f ∗ (x)|X = x)
= (2η(x) − 1)(1f (x)=0 − 1f ∗ (x)=0 )
= |2η(x) − 1|1f (x)6=f ∗ (x)
1.3. ALGORITHME D’APPRENTISSAGE 9

P(Y 6= f ∗ (x)|X = x) = min{η(x), 1 − η(x)}.

Le fait que R(f ∗ ) ≤ 1/2 vient du fait que

min{a, 1 − a} ≤ 1/2

pour tout 0 ≤ a ≤ 1. Suppons que PX admet une densité p(·) par rapport à la
mesure de Lebesgue sur Rd . Le théorème de Bayes implique

η(x) = P(Y = 1|X = x)


p(x|Y = 1)P (Y = 1)
=
p(x|Y = 1)P (Y = 1) + p(x|Y = 0)P (Y = 0)
πp1 (x)
=
πp1 (x) + (1 − π)p0 (x)

où p0 (x) = p(x|Y = 0), p1 (x) = p(x|Y = 1) sont les densités conditionnelles
de X sachant Y = 0 et Y = 1, et π = P(Y = 1). Le classifieur de Bayes s’écrit
alors :
1 si p1 (x) > 1 − π


f (x) = p0 (x) π
0 sinon

1.3 Algorithme d’apprentissage


1.3.1 Définition
Définition 1.3.1. Un algorithme d’apprentissage est une fonction fbn qui à
tout ensemble d’apprentissage {(X1 , Y1 ), . . . , (Xn , Yn )} renvoie une règle de
prédiction.

fbn : (X × Y)n −→ G
 
(X1 , Y1 ), . . . , (Xn , Yn ) 7−→ fbn ·, (X1 , Y1 ), . . . , (Xn , Yn )

fbn est un estimateur de la fonction cible f ∗

Remarque 1.3.1. Les règles de prédiction optimale dépendent de P. Il est


donc nécessaire de construire des algorithmes de prédiction.
10 CHAPITRE 1. THÉORIE D’APPRENTISSAGE

1.3.2 Qualité d’un algorithme d’apprentissage


La performance d’un algorithme d’apprentissage est caractérisé par la dif-
férence :
R(fˆn ) − R(f ∗ ).
Puisque cette différence est une variable aléatoire, on introduit d’autres me-
sures de performance déterministes telles que :
- l’excès de risque :
E(R(fˆn ) − R(f ∗ )) = E(R(fˆn )) − R(f ∗ );
l’espérance est prise par rapport à la loi de l’ensemble d’apprentissage.
- la probabilité d’excès :
P(R(fˆn ) − R(f ∗ ) > ε)
pour un ε > 0 quelconque.
Définition 1.3.2. Un algorithme d’apprentissage fbn est dit consistant par
rapport à P si et seulement si
E(R(fbn )) −−−−→ R(f ∗ ).
n→+∞

où f est une fonction cible.
Définition 1.3.3. Un algorithme d’apprentissage est dit consistant par rap-
port à une famille de lois de probabilité P si et seulement si il est consistant
par rapport à tout P ∈ P.
Définition 1.3.4. Un algorithme d’apprentissage est dit universellement consis-
tant si et seulement si il est consistant par rapport à toute probabilité P sur
X × Y.
1.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 11
1.4 Algorithme par minimisation du risque em-
pirique
1.4.1 Principe
Soit f : X −→ Y une fonction de prédiction. Le risque de f est défini par :

R(f ) = EP (`(Y, f (X)).

La distribution P étant inconnue, le risque R(f ) est inconnu. Il peut être estimé
par
n
1X
Rn (f ) = `(Yi , f (Xi )).
n i=1

Définition 1.4.1. Etant donné un sous-ensemble H ⊂ G, l’algorithme de


minimisation du risque empirique sur H est défini par

fˆn ∈ arg min Rn (f ).


f ∈H

Le choix de H détermine le choix de fˆn .

Prenons H = G. Dans le cas où Y = {0, 1}, le risque empirique est minimisé
par (
Yi si x = Xi , i = 1, . . . , n
fˆn (x) =
0 ou 1 si x 6∈ {X1 , . . . , Xn }

fˆn (x) reproduit les résultats Yi si x = Xi et classifie tous les autres x de façon
arbitraire. Le risque empirique de ce classifieur est 0.
• Prendre H trop grand peut mener à un surapprentissage dans la mesure
où le minimum du risque empirique Rn (fˆn ) est inférieur à son erreur de
généralisation R(fˆn ).
• Dans la pratique, il faut choisir H suffisamment grand pour pouvoir
raisonnablement approcher la fonction cible par les éléments de H en ne
le prenant pas trop grand pour éviter le phénomène de surapprentissage.
Posons
f ∗ ∈ arg min R(f ) fH ∈ arg min R(f ).
f ∈G f ∈H

• fH dépend de P ; fH n’est pas utilisable ;


• R(fH ) ≤ R(f ) pour tout f ∈ H
• fH est appelé oracle associé à H.
12 CHAPITRE 1. THÉORIE D’APPRENTISSAGE
1.4.2 Décomposition biais-variance

R(fˆn ) − R(f ∗ ) = R(fH ) − R(f ∗ ) + R(fˆn ) − R(fH ) .


| {z } | {z } | {z }
excè de risque erreur d’approximation erreur d’estimation

- R(fH )−R(f ∗ ) mesure à quel point l’espace d’hypothèes choisi H permet


d’approcher la cible f ∗ ; ce terme ne dépend pas des données ;
- R(fˆn ) − R(fH ) est une quantité aléatoire qui mesure combien fˆn est
proche de fH .
Lorsque la taille de H croît, l’erreur d’approximation diminue, mais l’erreur
d’estimation devient en moyenne grande. Il y a donc un compromis à trouver
dans le choix de H. Ce compromis est appelé dilemme biais-variance.
• Estimer l’erreur d’approximation est généralement difficile dans la me-
sure où l’on n’a aucune information sur la cible f ∗ .
• Ainsi, en apprentissage statistique, nous nous concentrons sur l’erreur
d’estimation :
R(fˆn ) − R(fH )
E(R(fˆn )) − R(fH )

1.4.3 Performance de la minimisation du risque empi-


rique
Sous certaines hypothèes sur H, fˆn imite l’oracle fH , c’est à dire,

E(R(fˆn )) ≤ R(fH ) + ∆n (H),

où ∆n (H) > 0 est un terme résiduel qui tend vers 0 lorsque n → +∞, c’est à
dire, en moyenne, fˆn atteint le même risque que l’oracle fH à un petit terme
résiduel ∆n (H) prè.
Plus généralement

E(R(fˆn )) − R(f ∗ ) ≤ R(fH ) − R(f ∗ ) + ∆n (H).

Souvent, il est désirable d’obtenir des inégalités d’oracle avec forte probabilité :
Pour tout 0 < δ < 1, avec probabilité au moins 1 − δ,

R(fˆn ) ≤ R(fH ) + ∆n (H, δ)

R(fˆn ) − R(f ∗ ) ≤ R(fH ) − R(f ∗ ) + ∆n (H, δ)


Pour établir les inégalités précédentes, il suffit de préciser que les termes
résiduels ∆n (H), ∆n (H, δ) qui fournissent des majorations de l’erreur d’esti-
mation. Ces majorations reposent généralement sur le lemme suivant :
1.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 13
Lemme 1.4.1. L’erreur d’estimation de fˆn vérifie :

R(fˆn ) − R(fH ) ≤ 2 sup |Rn (f ) − R(f )|.


f ∈H

Il suffit d’obtenir une majoration, en espérance ou en probabilité, de la


variable aléatoire
sup |Rn (f ) − R(f )|.
f ∈H

Démonstration. Soit ε > 0 et soit fε ∈ H vérifiant R(fε ) < R(f ∗ ) + ε. Puisque


fˆn minimise Rn ,

R(fˆn ) − R(fH ) = R(fˆn ) − Rn (fˆn ) + Rn (fˆn ) − R(f ∗ )


≤ R(fˆn ) − Rn (fˆn ) + Rn (fε ) − R(f ∗ )
≤ R(fˆn ) − Rn (fˆn ) + Rn (fε ) − R(fε ) + ε
≤ 2 sup |Rn (f ) − R(f )| + ε.
f ∈H

1.4.4 Cas où H est fini


Cas où H est fini Considérons

H = {f1 , . . . , fM }

où fj : X −→ Y sont des règles de prédiction. Dans ce cas :

fH = arg min R(fj ) ⇐⇒ R(fH ) = min R(fj ).


j=1,...,M j=1,...,M

Proposition 1.4.1. Supposons qu’il existe a, b ∈ R tels que

a ≤ `(y, y 0 ) ≤ b. ∀y, y 0 .

Ainsi avec une probabilité d’au moins 1 − δ, on a :


s
ˆ 2 ln( 2M
δ
)
R(fn ) ≤ R(fH ) + (b − a) .
n

Démonstration : On a

R(fˆn ) − R(fH ) ≤ 2 sup |R(f ) − Rn (f )|.


f ∈H
14 CHAPITRE 1. THÉORIE D’APPRENTISSAGE

ˆ
  t
P R(fn ) − R(fH ) > t ≤ P sup |R(f ) − Rn (f )| >
f ∈H 2
M
[h t i
=P |R(fj ) − Rn (fj )| >
j=1
2
M
X  t
≤ P |R(fj ) − Rn (fj )| >
j=1
2

En utilisant l’inégalité de Hoeffding,


2
 t − nt
P |R(fj ) − Rn (fj )| > ≤ 2e (2(b−a)2 .
2
Par suite, nous obtenons
2
− nt
 
P R(fˆn ) − R(fH ) > t ≤ 2M e 2(b−a)2 .

Pour tout 0 < δ < 1, on a


r
nt2 2  2M 

Me 2(b−a)2 = δ ⇐⇒ t = (b − a) ln
n δ

1.4.5 Approche de Vapnik : Classification binaire


1.4.5.1 Cadre d’étude

• On suppose que la variable d’entrée X ∈ X = Rd et la variable de sortie


Y = {0, 1}. C’est un problème de classement.
• On cherche une fonction f ∈ H à partir de n exemples (X1 , Y1 ), . . . , (Xn , Yn )
i.i.d. tirés selon la distribution P(x, y) = P(x)P(y|x).
• On considère la fonction de perte `(y, f (x)) = Iy6=f (x) .
• Le risque réel associé à une règle de décision f ∈ H est :

R(f ) = EP (`(Y, f (X)) = P(Y 6= f (X)).

C’est la probabilité de se tromper.


• Le risque empirique pour f ∈ H est défini par
n
1X
Rn (f ) = `(Yi , f (Xi )).
n i=1
1.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 15
1.4.6 Conditions nécessaires de convergence uniforme
Pour les exemples (X1 , Y1 ), . . . , (Xn , Yn ), nous définissons
( !0 )
Qn = IY1 6=f (X1 ) , . . . , IYn 6=f (Xn ) :f ∈H .

Card(Qn ) représente le nombre de facons possibles dont les données (X1 , Y1 ), . . . , (Xn , Yn )
peuvent être classifiées par les éléments de H. Comme on considère Iy6=f (x) .,
nous avons
Card(Qn ) = nH (Z1 , . . . , Zn ) ≤ 2n .

Définition 1.4.2. On appelle entropie aléatoire de l’ensemble des fonctions


Iy6=f (x) , f ∈ H sur la base Z1 = (X1 , Y1 ), . . . , ZN = (Xn , Yn ), la quantité

H H (Z1 , . . . , Zn ) = ln(nH (Z1 , . . . , Zn )).

Définition 1.4.3. On appelle entropie de l’ensemble des fonctions Iy6=f (x) ,


f ∈ H, la quantité
  Z
H (n) = E H (Z1 , . . . , Zn ) = H H (z1 , . . . , zn )dP(z1 , . . . , zn )
H H

1.4.7 CNS de convergence uniforme


Théoréme 1.4.1. Pour assurer la convergence uniforme à deux côtés :
!

P sup R(f ) − Rn (f ) > ε → 0

f ∈H

sur l’ensemble des fonctions Iy6=f (x) , f ∈ H, il est nécessaire et suffisant que

H H(n)
→ 0.
n

1.4.8 Les trois jalons de la théorie d’apprentissage selon


Vapnik
Premier jalonTout algorithme minimisant le risque empirique devrait sa-
tisfaire :
H H (n)
→ 0.
n
Sinon le principe de minimisation du risque empirique ne serait pas pertinent.
Deuxième jalon
16 CHAPITRE 1. THÉORIE D’APPRENTISSAGE
Définition 1.4.4. L’entropie recuite est définie par :
!
H
Han (n) = ln E(nH (Z1 , . . . , Zn )) .

Définition 1.4.5. La fonction de croissance est définie par :


!
 
GH (n) = ln sup nH (Z1 , . . . , Zn .
Z1 ,...,Zn

Deuxième jalon
Proposition 1.4.2. Nous avons les inégalités :
H H (n) ≤ Han
H
(n) ≤ GH (n).
Le premier jalon est une CNS pour la pertinence (stricte) du principe de
minimisation du risque empirique, mais il ne nous dit rien à propos de la
vitesse de convergence du risque R(fn ) vers le risque minimal R(f0 ). Il est
possible que le taux de convergence asymptotique soit arbitrairement lent, bien
que le principe de l’ERM soit pertinent. La question est donc : sous quelles
conditions le taux de convergence asymptotique est-il rapide ? On dit que le
taux de convergence asymptotique est rapide si : ∃C > 0, ∃N0 > 0 : ∀n > N0 ,
 
P R(fn ) − R(f0 ) < ε ≤ exp(−ε2 nC).

Théoréme 1.4.2. Une condition suffisante de convergence rapide est


H
Han (n)
→ 0.
n
Etant donneé le lien entre entropie et entropie recuite, c’est une condi-
tion suffisante pour la convergence uniforme et donc la pertinence stricte du
principe de l’ERM
Troisième jalon Les deux premier jalons dépendent de la distribution P.
On peut se demander sous quelles conditions le principe de l’ERM est stricte-
ment pertinent pour toute distribution P. En effet, on souhaite construire des
algorithmes d’apprentissage pouvant résoudre plusieurs problèmes différents
(c’est à dire pouvant traiı̂ter différentes mesures de probabilité P). Autrement
dit, alors qu’on a le choix de l’espace d’hypothèse H, la distribution, elle, est
imposée par le problème.Troisième jalon
Théoréme 1.4.3. La condition nécessaire et suffisante de pertinence stricte
pour toute mesure de probabilité P (et condition suffisante pour une conver-
gence rapide) est :
GH (n)
→ 0.
n
1.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 17
1.4.9 Dimension VC (Vapnik-Chervonenkis
Théoréme 1.4.4. La fonction de croissance pour l’ensemble Iy6=f (x) , f ∈ H
satisfait nécessairement les conditions :
1. soit GH (n) est linéaire,

GH (n) = n ln 2 ∀n ∈ N∗ ;

2. soit GH (n) est est sous-logarithmique à partir d’un certain rang,


(
= n ln 2 si n ≤ h
GH (n) = n
(1.4.1)
≤ h(1 + h ) si n > h

où h est le plus grand entier tel que GH (n) = n ln 2.

Définition 1.4.6. Si la fonction de croissance est telle que donnée par la


condition (1.4.1) alors h est appelée la dimension VC de l’ensemble des fonc-
tions Iy6=f (x) , f ∈ H. La fonction de croissance est linéaire, la dimension VC
est infinie.

La dimension VC est donc un concept lié à l’espace d’hypothèse mais indé-


pendant du problème (de la distribution). On lie facilement le comportement
asymptotique de la fonction de croissance à la dimension VC,

GH (n)
→0⇔h<∞
n
Définition 1.4.7. La dimension VC de l’ensemble des fonctions Iy6=f (x) , f ∈ H
est le nombre maximum de vecteurs Z1 , . . . , Zn qui peuvent être séparés de 2h
facons différentes par les fonctions Iy6=f (x) ,

1.4.10 Une borne sur le risque


Théoréme 1.4.5. (Vapnik-Chervonenkis). Soit 0 < δ ≤ 1, avec une probabi-
litéd’au moins 1 − δ, on a
s
GH (2n) + ln( 2δ )
∀f ∈ H, R(f ) ≤ Rn (f ) + 2 2 .
n

Corollaire 1.4.1. Soit 0 < δ ≤ 1, avec une probabilité d’au moins 1 − δ, on a


v ! !
u
u2 2en 2
∀f ∈ H, R(f ) ≤ Rn (f ) + 2t h ln + ln .
n h δ
18 CHAPITRE 1. THÉORIE D’APPRENTISSAGE
La théorie de Vapnik-Chervonenkis permet d’obtenir les inégalités d’oracle
en espérance et avec forte probabilité, ainsi que l’estimation empirique de l’er-
reur de classification pour les ensembles H de VC-dimension finie.
Le n-ième coefficient d’éclatement d’une famille H de classifieurs est :

SH (n) = max Card{(f (x1 ), . . . , f (xn )) : f ∈ H} ≤ 2n .


x1 ,...,xn ∈X

SH (n) est le nombre maximum de ”classifications de n points” possibles à


partir des classifieurs dans H.
VC-dimension de H :

VH = sup{n ∈ N : SH (n) = 2n }.

VH est donc le nombre maximum de points que H peut ”éclater”.

Théoréme 1.4.6. Soit H de VC-dimension finie. Alors, pour tout 0 < δ < 1,
avec probabilité au moins 1 − δ, on a
r r
2(VH ln(n + 1) + ln(2)) 2 ln(δ −1 )
R(fˆn ) ≤ R(fH ) + 4 + .
n n
r
2(VH ln(n + 1) + ln(2))
E(R(fˆn )) ≤ R(fH ) + 4 .
n
De plus, avec probabilité au moins 1 − δ,
r r
2(V H ln(n + 1) + ln(2)) ln(δ −1 )
|R(fˆn ) − Rn (fˆn )| ≤ 22 +
n 2n

Pour tout 0 < δ < 1, un intervalle de confiance de R(fˆn ) de niveau 1 − δ


est [an , bn ] où
r r

ˆ 2(VH ln(n + 1) + ln(2)) ln(δ −1 ) 
an = max 0, Rn (fn ) − 2 −
r n r 2n
 2(VH ln(n + 1) + ln(2)) ln(δ −1 ) 
bn = min 1, Rn (fˆn ) + 2 +
n 2n
Chapitre 2

Classification binaire

2.1 Exemple

x1 x2 Y
1 3 -1
2 1 -1
4 5 -1
6 9 -1
8 7 -1
5 1 1
7 1 1
9 4 1
12 7 1
13 6 1

> X1=c(1,2,4,6,8,5,7,9,12,13)
> X2=c(3,1,5,9,7,1,1,4,7,6)
> plot(X1,X2,pch=c(rep("-",5),rep("+",5)),col=c(rep("red",5),rep("blue",5)))

19
20 CHAPITRE 2. CLASSIFICATION BINAIRE

8 −

− +

+
6
X2

+
4


2

− + +

2 4 6 8 10 12

X1

L’objectif est de trouver un séparation linéaire (droite) permettant de dis-


tinguer les ”-” des ”+”.
f (x) = ωx + b

2.2 Algorithme du perceptron


2.2.1 Neurone formel
Un neurone (biologique) est une cellule du système nerveux spécialisée dans
la communication et le traitement d’informations. Les neurones ont pour rôle
de faire circuler les informations entre l’environnement et l’organisme, ou au
sein de l’organisme. Les neurones sont au nombre de 100 milliards dans le
cerveau humain. Le premier modèle mathématique et informatique du neurone
appelé neurone formel est proposé par Warren McCulloch et Walter Pitts en
1943. Il s’agit d’un neurone binaire, c’est-à-dire dont la sortie vaut 0 ou 1. Pour
calculer cette sortie, le neurone effectue une somme pondérée de ses d entrées.
La pondération est modélisée par les coefficients synaptiques du modèle (e ω)
puis applique une fonction d’activation à seuil : Si cette somme est supérieure
2.3. RÉGRESSION LOGISTIQUE 21
à un seuil µ, la sortie vaut 1 et dans le cas contraire elle vaut 0 :
Xd 
H ωj xj − µ ;
j=1

H est la fonction de Heaviside ; c’est une fonction définie sur R∗ par


(
1 si x > 0
H(x) =
0 si x < 0

Figure 2.1 – Illustration d’un neuronne formel

2.2.2 Perceptron
Rosenblatt (1958) a adapté ce modèle mathématique au cas des neurones
du système vi- suel (doù le nom du modèle en référence à la perception). Dans
ce modèle, la fonction de transfert est une fonction linéaire et les signaux
d’entrée correspondent aux caractéris- tiques d’un exemple

2.2.3 Lien avec le MRE

2.3 Régression logistique


2.4 Support Vector Machine ou Séparateur à
Vaste Marge (SVM)
On dispose de n exemples (x1 , y1 ), . . . , (xn , yn ) avec xi ∈ X = Rd et yi ∈
Y = {−1, 1}. L’objectif est de prédire y pour une nouvelle valeur de x. Il s’agit
22 CHAPITRE 2. CLASSIFICATION BINAIRE
ici de trouver un classifieur g : Rd → {−1, 1}. Cela passe par la détermination
d’une fonction décision f : Rd −→ R telle que

g(x) = signe(f (x)).

Dans le cas des SVM, on supposera que la fonction f est de la forme :

f (x) = hω, xi + b.

L’équation
f (x) = hω, xi + b = 0
correspond à celle d’un hyperplan dans Rd de vecteur orthogonal ω.

Définition 2.4.1. Les points {(xi , yi ), 1 ≤ i ≤ n} sont linéairement séparables


s’il existe un hyperplan qui permet de discriminer correctement l’ensemble des
données.

Figure 2.2 – Cas linéairement séparable

Figure 2.3 – Cas linéairement non séparable

Il existe une infinité d’hyperplans permettant de séparer qui sont linéai-


rement séparables. L’Hyperplan optimal doit maximiser la distance entre la
frontière de séparation et les points de chaque classe qui lui sont le plus proche.

Vous aimerez peut-être aussi