Cours Apprentissage Stat

Apprentissage statistique
Prof. Armel Fabrice Yodé

Université Félix-Houphouet Boigny
yafevrard@yahoo.fr
2
Table des matières
1 Théorie d’apprentissage 5
1.1 Base d’apprentissage, modélisation . . . . . . . . . . . . . . . 5
1.2 Règles de prédiction . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Qualité d’une règle de prédiction . . . . . . . . . . . . 6
1.3 Algorithme d’apprentissage . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Qualité d’un algorithme d’apprentissage . . . . . . . . 10
1.4 Algorithme par minimisation du risque empirique . . . . . . . 11
1.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Décomposition biais-variance . . . . . . . . . . . . . . 12
1.4.3 Performance de la minimisation du risque empirique . . 12
1.4.4 Cas où H est fini . . . . . . . . . . . . . . . . . . . . . 13
1.4.5 Approche de Vapnik : Classification binaire . . . . . . . 14
1.4.5.1 Cadre d’étude . . . . . . . . . . . . . . . . . . 14
1.4.6 Conditions nécessaires de convergence uniforme . . . . 15
1.4.7 CNS de convergence uniforme . . . . . . . . . . . . . . 15
1.4.8 Les trois jalons de la théorie d’apprentissage selon Vapnik 15
1.4.9 Dimension VC (Vapnik-Chervonenkis . . . . . . . . . . 17
1.4.10 Une borne sur le risque . . . . . . . . . . . . . . . . . . 17
2 Classification binaire 19
2.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Algorithme du perceptron . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Neurone formel . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 Lien avec le MRE . . . . . . . . . . . . . . . . . . . . . 21
2.3 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Support Vector Machine ou Séparateur à Vaste Marge (SVM) 21
3
4 TABLE DES MATIÈRES
Chapitre 1
Théorie d’apprentissage
1.1 Base d’apprentissage, modélisation

On dispose de n exemples
(x1 , y1 ), . . . , (xn , yn )
où xi ∈ X ⊂ Rd et yi ∈ Y ⊂ R ; xi est appelée entrée et yi est appelée sortie ;
(x1 , y1 ), . . . , (xn , yn ) est appelé base d’apprentissage ou d’entraı̂nement.
Selon la nature de Y, on parle de régression (ou prédiction) si Y est continu
et classement (ou discrimination ou classification) si Y est fini.
Exemple 1.1.1. — x représente l’ensemble des paramètres observables
(âge, taille, résultats d’examens médicaux...)
— y représente l’étiquette associée au patient.
(
0 si le patient est sain
y=
1 si le patient est malade
Exemple 1.1.2. — x représente l’ensemble des paramètres observables
— y représente l’étiquette associée au mail.
(
0 si le mail est un non spam
y=
1 si le mail est un spam
Il s’agit ici d’induire une fonction qui prédise les réponses associées à de
nouvelles observations en commettant une erreur de prédiction la plus faible
possible. On cherche une fonction ayant de bonnes performances de générali-
sation.
L’hypothèse fondamentale de la théorie de l’apprentissage statistique est
que tous les exemples sont générés indépendamment et identiquement selon
une loi de probabilité P mais inconnue. Ainsi, {(x1 , y1 ), . . . , (xn , yn )} est une
réalisation de n variables aléatoires {(X1 , Y1 ), . . . , (Xn , Yn )} indépendantes de
même loi P supposée inconnue.
5
6 CHAPITRE 1. THÉORIE D’APPRENTISSAGE
1.2 Règles de prédiction
Définition 1.2.1. Une règle de prédiction est une fonction mesurable f
définie sur X à valeurs dans Y qui associe la sortie f (x) à l’entrée x ∈ X .
Le but d’une règle de prédiction est de fournir une étiquette f (xn+1 ) à xn+1
en espérant faire coincider la prédicrtion f (xn+1 ) et la sortie yn+1 . On notera
G, l’ensemble de toutes les règles de prédiction.
1.2.1 Qualité d’une règle de prédiction

Comment mesure-t-on la qualité d’une règle de prédiction ?
Définition 1.2.2. Toute fonction ` : Y × Y −→ R+ est appelée fonction de
coût. `(Y, f (X)) mesure l’erreur entre la réponse réelle Y et la réponse prédite
f (X) pour une donne d’entrée X.
Exemple 1.2.1. Fonctions de Coût classiques :
• `(y, y 0 ) = 1y6=y0 : cette fonction de perte est utilisée dans les problèmes
de classement.
• `(y, y 0 ) = |y − y 0 |p où p ≥ 1 est un réel fixé, est utilisé dans le cas de la
régression Lp .
La qualité d’une fonction de prédiction f ∈ G est mesurée par son erreur
de généralisation.
Définition 1.2.3. L’erreur de généralisation d’une règle de prédiction f
est définie par :
Z
R(f ) = EP [`(Y, f (X))] = `(y, f (x))dP(x, y).
X ×Y
Définition 1.2.4. La ”meilleure” fonction de prédiction est une fonction

f ∗ := arg min R(f ).
f ∈G
∗
Remarque 1.2.1. Cette fonction f est appelée fonction cible ou fonction
oracle ; f ∗ dépend de P et n’est pas utilisable car P inconnue.
Nous avons
R(f ) = EP [`(Y, f (X))]
Z
= `(y, f (x))dP(x, y)
ZX ×Y
h Z i
= `(y, f (x))dP(y|X = x) dPX (x)
ZX h Y i
= E `(Y, f (X))|X = x) dPX (x)
X
1.2. RÈGLES DE PRÉDICTION 7
Théoréme 1.2.1. Supposons que pour tout x ∈ X , l’infimum
h i
inf E `(Y, z)|X = x)
z∈Y
est atteint. Alors hune fonction f ∗i: X −→ Y telle que pour tout x ∈ X , f ∗ (x)
minimise z 7−→ E `(Y, z)|X = x) , est une fonction cible :
h i
∀x ∈ X , f ∗ (x) := arg min E `(Y, z)|X = x)
z∈Y
⇒ f ∗ := arg min R(f ).

f ∈G
Démonstration.
R(f ) = EP (`(Y, f (X))

h i
= EPX EPY |X (`(Y, f (X))

≥ EP(X) min EP(Y |X) `(Y, y)
y∈Y
= EP(X) EP(Y |X) (`(Y, f ∗ (X))

= EP (`(Y, f ∗ (X))
= R(f ∗ )
Posons `(y, f (x)) = (y − f (x))2 .
Théoréme 1.2.2. Une fonction cible est
f ∗ (x) = E(Y |X = x).
Démonstration.
EP(Y |x) (Y − y)2 = EP (Y |x) (Y − E(Y ))2 + (EP (Y |x) Y − y)2 .
Le premier terme étant indépendant de la valeur de y, l’infimum pour y ∈ Y

de E(Y − y)2 est atteint pour y = E(Y |X = x). On a donc bien f ∗ (x) =
E(Y |X = x) comme fonction cible.
Posons `(y, f (x)) = 1y6=f (x)
Théoréme 1.2.3. La fonction cible est la fonction f ∗ satisfaisant
f ∗ (x) ∈ arg max P(Y = y|X = x) pour tout x ∈ X .

y∈Y
Lorsque Y = {0, 1}, posons η(x) = P (Y = 1|X = x)
(
1 si η(x) > 1/2
f ∗ (x) =
0 si η(x) ≤ 1/2
est la fonction cible.
Démonstration. En classification, on a |Y | < +∞, l’infimum recherché est
donc bien atteint.
f ∗ (x) = arg min EP(Y |x) (1Y 6=y )
y∈Y
= arg min P(Y 6= y|X = x)

y∈Y
= arg max P(Y = y|X = x)

y∈Y
Lorsque Y = {0, 1},

(
1 si P(Y = 1|X = x) > P(Y = 0|X = x)
f ∗ (x) =
0 si P(Y = 1|X = x) ≤ P(Y = 0|X = x)
• f : X −→ {0, 1} est appelé classifieur.

• f ∗ est appelé classifieur de Bayes.
• R(f ∗ ) est appelé risque de Bayes.
Théoréme 1.2.4. Pour tout classifieur f ,

∗
R(f ) − R(f ) = E |2η(X) − 1|1f (X)6=f ∗ (X) .
En conséquence,

R(f ∗ ) = E min{η(X), 1 − η(X)} ≤ 1/2.
Démonstration. Pour tout classifieur f , nous avons :
Z
∗
R(f ) − R(f ) = P(Y 6= f (X)) = P(Y 6= f (x)|X = x)dPX (dx)
P(Y 6= f (x)|X = x) = P(Y = 1|X = x)1f (x)=0 + P(Y = 0|X = x)1f (x)=1
= (1 − η(x)) + (2η(x) − 1)If (x)=0
En faisant la différence
P(Y 6= f (x)|X = x) − P(Y 6= f ∗ (x)|X = x)
= (2η(x) − 1)(1f (x)=0 − 1f ∗ (x)=0 )
= |2η(x) − 1|1f (x)6=f ∗ (x)
1.3. ALGORITHME D’APPRENTISSAGE 9
P(Y 6= f ∗ (x)|X = x) = min{η(x), 1 − η(x)}.
Le fait que R(f ∗ ) ≤ 1/2 vient du fait que
min{a, 1 − a} ≤ 1/2
pour tout 0 ≤ a ≤ 1. Suppons que PX admet une densité p(·) par rapport à la
mesure de Lebesgue sur Rd . Le théorème de Bayes implique
η(x) = P(Y = 1|X = x)

p(x|Y = 1)P (Y = 1)
=
p(x|Y = 1)P (Y = 1) + p(x|Y = 0)P (Y = 0)
πp1 (x)
=
πp1 (x) + (1 − π)p0 (x)
où p0 (x) = p(x|Y = 0), p1 (x) = p(x|Y = 1) sont les densités conditionnelles
de X sachant Y = 0 et Y = 1, et π = P(Y = 1). Le classifieur de Bayes s’écrit
alors :
1 si p1 (x) > 1 − π

∗
f (x) = p0 (x) π
0 sinon

1.3 Algorithme d’apprentissage

1.3.1 Définition
Définition 1.3.1. Un algorithme d’apprentissage est une fonction fbn qui à
tout ensemble d’apprentissage {(X1 , Y1 ), . . . , (Xn , Yn )} renvoie une règle de
prédiction.
fbn : (X × Y)n −→ G

(X1 , Y1 ), . . . , (Xn , Yn ) 7−→ fbn ·, (X1 , Y1 ), . . . , (Xn , Yn )
fbn est un estimateur de la fonction cible f ∗
Remarque 1.3.1. Les règles de prédiction optimale dépendent de P. Il est

donc nécessaire de construire des algorithmes de prédiction.
1.3.2 Qualité d’un algorithme d’apprentissage

La performance d’un algorithme d’apprentissage est caractérisé par la dif-
férence :
R(fˆn ) − R(f ∗ ).
Puisque cette différence est une variable aléatoire, on introduit d’autres me-
sures de performance déterministes telles que :
- l’excès de risque :
E(R(fˆn ) − R(f ∗ )) = E(R(fˆn )) − R(f ∗ );
l’espérance est prise par rapport à la loi de l’ensemble d’apprentissage.
- la probabilité d’excès :
P(R(fˆn ) − R(f ∗ ) > ε)
pour un ε > 0 quelconque.
Définition 1.3.2. Un algorithme d’apprentissage fbn est dit consistant par
rapport à P si et seulement si
E(R(fbn )) −−−−→ R(f ∗ ).
n→+∞
∗
où f est une fonction cible.
Définition 1.3.3. Un algorithme d’apprentissage est dit consistant par rap-
port à une famille de lois de probabilité P si et seulement si il est consistant
par rapport à tout P ∈ P.
Définition 1.3.4. Un algorithme d’apprentissage est dit universellement consis-
tant si et seulement si il est consistant par rapport à toute probabilité P sur
X × Y.
1.4. ALGORITHME PAR MINIMISATION DU RISQUE EMPIRIQUE 11
1.4 Algorithme par minimisation du risque em-
pirique
1.4.1 Principe
Soit f : X −→ Y une fonction de prédiction. Le risque de f est défini par :
R(f ) = EP (`(Y, f (X)).
La distribution P étant inconnue, le risque R(f ) est inconnu. Il peut être estimé
par
n
1X
Rn (f ) = `(Yi , f (Xi )).
n i=1
Définition 1.4.1. Etant donné un sous-ensemble H ⊂ G, l’algorithme de

minimisation du risque empirique sur H est défini par
fˆn ∈ arg min Rn (f ).

f ∈H
Le choix de H détermine le choix de fˆn .
Prenons H = G. Dans le cas où Y = {0, 1}, le risque empirique est minimisé
par (
Yi si x = Xi , i = 1, . . . , n
fˆn (x) =
0 ou 1 si x 6∈ {X1 , . . . , Xn }
fˆn (x) reproduit les résultats Yi si x = Xi et classifie tous les autres x de faÃ§on
arbitraire. Le risque empirique de ce classifieur est 0.
• Prendre H trop grand peut mener à un surapprentissage dans la mesure
où le minimum du risque empirique Rn (fˆn ) est inférieur à son erreur de
généralisation R(fˆn ).
• Dans la pratique, il faut choisir H suffisamment grand pour pouvoir
raisonnablement approcher la fonction cible par les éléments de H en ne
le prenant pas trop grand pour éviter le phénomène de surapprentissage.
Posons
f ∗ ∈ arg min R(f ) fH ∈ arg min R(f ).
f ∈G f ∈H
• fH dépend de P ; fH n’est pas utilisable ;

• R(fH ) ≤ R(f ) pour tout f ∈ H
• fH est appelé oracle associé à H.
1.4.2 Décomposition biais-variance
R(fˆn ) − R(f ∗ ) = R(fH ) − R(f ∗ ) + R(fˆn ) − R(fH ) .

| {z } | {z } | {z }
excè de risque erreur d’approximation erreur d’estimation
- R(fH )−R(f ∗ ) mesure à quel point l’espace d’hypothèes choisi H permet

d’approcher la cible f ∗ ; ce terme ne dépend pas des données ;
- R(fˆn ) − R(fH ) est une quantité aléatoire qui mesure combien fˆn est
proche de fH .
Lorsque la taille de H croÃ®t, l’erreur d’approximation diminue, mais l’erreur
d’estimation devient en moyenne grande. Il y a donc un compromis à trouver
dans le choix de H. Ce compromis est appelé dilemme biais-variance.
• Estimer l’erreur d’approximation est généralement difficile dans la me-
sure où l’on n’a aucune information sur la cible f ∗ .
• Ainsi, en apprentissage statistique, nous nous concentrons sur l’erreur
d’estimation :
R(fˆn ) − R(fH )
E(R(fˆn )) − R(fH )
1.4.3 Performance de la minimisation du risque empi-

rique
Sous certaines hypothèes sur H, fˆn imite l’oracle fH , c’est à dire,
E(R(fˆn )) ≤ R(fH ) + ∆n (H),
où ∆n (H) > 0 est un terme résiduel qui tend vers 0 lorsque n → +∞, c’est à
dire, en moyenne, fˆn atteint le même risque que l’oracle fH à un petit terme
résiduel ∆n (H) prè.
Plus généralement
E(R(fˆn )) − R(f ∗ ) ≤ R(fH ) − R(f ∗ ) + ∆n (H).
Souvent, il est désirable d’obtenir des inégalités d’oracle avec forte probabilité :
Pour tout 0 < δ < 1, avec probabilité au moins 1 − δ,
R(fˆn ) ≤ R(fH ) + ∆n (H, δ)
R(fˆn ) − R(f ∗ ) ≤ R(fH ) − R(f ∗ ) + ∆n (H, δ)

Pour établir les inégalités précédentes, il suffit de préciser que les termes
résiduels ∆n (H), ∆n (H, δ) qui fournissent des majorations de l’erreur d’esti-
mation. Ces majorations reposent généralement sur le lemme suivant :
Lemme 1.4.1. L’erreur d’estimation de fˆn vérifie :
R(fˆn ) − R(fH ) ≤ 2 sup |Rn (f ) − R(f )|.

f ∈H
Il suffit d’obtenir une majoration, en espérance ou en probabilité, de la

variable aléatoire
sup |Rn (f ) − R(f )|.
f ∈H
Démonstration. Soit ε > 0 et soit fε ∈ H vérifiant R(fε ) < R(f ∗ ) + ε. Puisque

fˆn minimise Rn ,
R(fˆn ) − R(fH ) = R(fˆn ) − Rn (fˆn ) + Rn (fˆn ) − R(f ∗ )

≤ R(fˆn ) − Rn (fˆn ) + Rn (fε ) − R(f ∗ )
≤ R(fˆn ) − Rn (fˆn ) + Rn (fε ) − R(fε ) + ε
≤ 2 sup |Rn (f ) − R(f )| + ε.
f ∈H
1.4.4 Cas où H est fini

Cas où H est fini Considérons
H = {f1 , . . . , fM }
où fj : X −→ Y sont des règles de prédiction. Dans ce cas :
fH = arg min R(fj ) ⇐⇒ R(fH ) = min R(fj ).

j=1,...,M j=1,...,M
Proposition 1.4.1. Supposons qu’il existe a, b ∈ R tels que
a ≤ `(y, y 0 ) ≤ b. ∀y, y 0 .
Ainsi avec une probabilité d’au moins 1 − δ, on a :

s
ˆ 2 ln( 2M
δ
)
R(fn ) ≤ R(fH ) + (b − a) .
n
Démonstration : On a
R(fˆn ) − R(fH ) ≤ 2 sup |R(f ) − Rn (f )|.

f ∈H

ˆ
t
P R(fn ) − R(fH ) > t ≤ P sup |R(f ) − Rn (f )| >
f ∈H 2
M
[h t i
=P |R(fj ) − Rn (fj )| >
j=1
2
M
X t
≤ P |R(fj ) − Rn (fj )| >
j=1
2
En utilisant l’inégalité de Hoeffding,

2
t − nt
P |R(fj ) − Rn (fj )| > ≤ 2e (2(b−a)2 .
2
Par suite, nous obtenons
2
− nt

P R(fˆn ) − R(fH ) > t ≤ 2M e 2(b−a)2 .
Pour tout 0 < δ < 1, on a

r
nt2 2 2M
−
Me 2(b−a)2 = δ ⇐⇒ t = (b − a) ln
n δ
1.4.5 Approche de Vapnik : Classification binaire

1.4.5.1 Cadre d’étude
• On suppose que la variable d’entrée X ∈ X = Rd et la variable de sortie

Y = {0, 1}. C’est un problème de classement.
• On cherche une fonction f ∈ H à partir de n exemples (X1 , Y1 ), . . . , (Xn , Yn )
i.i.d. tirés selon la distribution P(x, y) = P(x)P(y|x).
• On considère la fonction de perte `(y, f (x)) = Iy6=f (x) .
• Le risque réel associé à une règle de décision f ∈ H est :
R(f ) = EP (`(Y, f (X)) = P(Y 6= f (X)).
C’est la probabilité de se tromper.

• Le risque empirique pour f ∈ H est défini par
n
1X
Rn (f ) = `(Yi , f (Xi )).
n i=1
1.4.6 Conditions nécessaires de convergence uniforme
Pour les exemples (X1 , Y1 ), . . . , (Xn , Yn ), nous définissons
( !0 )
Qn = IY1 6=f (X1 ) , . . . , IYn 6=f (Xn ) :f ∈H .
Card(Qn ) représente le nombre de facons possibles dont les données (X1 , Y1 ), . . . , (Xn , Yn )
peuvent être classifiées par les éléments de H. Comme on considère Iy6=f (x) .,
nous avons
Card(Qn ) = nH (Z1 , . . . , Zn ) ≤ 2n .
Définition 1.4.2. On appelle entropie aléatoire de l’ensemble des fonctions

Iy6=f (x) , f ∈ H sur la base Z1 = (X1 , Y1 ), . . . , ZN = (Xn , Yn ), la quantité
H H (Z1 , . . . , Zn ) = ln(nH (Z1 , . . . , Zn )).
Définition 1.4.3. On appelle entropie de l’ensemble des fonctions Iy6=f (x) ,

f ∈ H, la quantité
Z
H (n) = E H (Z1 , . . . , Zn ) = H H (z1 , . . . , zn )dP(z1 , . . . , zn )
H H
1.4.7 CNS de convergence uniforme

Théoréme 1.4.1. Pour assurer la convergence uniforme à deux côtés :
!

P sup R(f ) − Rn (f ) > ε → 0

f ∈H
sur l’ensemble des fonctions Iy6=f (x) , f ∈ H, il est nécessaire et suffisant que
H H(n)
→ 0.
n
1.4.8 Les trois jalons de la théorie d’apprentissage selon

Vapnik
Premier jalonTout algorithme minimisant le risque empirique devrait sa-
tisfaire :
H H (n)
→ 0.
n
Sinon le principe de minimisation du risque empirique ne serait pas pertinent.
Deuxième jalon
Définition 1.4.4. L’entropie recuite est définie par :
!
H
Han (n) = ln E(nH (Z1 , . . . , Zn )) .
Définition 1.4.5. La fonction de croissance est définie par :

!

GH (n) = ln sup nH (Z1 , . . . , Zn .
Z1 ,...,Zn
Deuxième jalon
Proposition 1.4.2. Nous avons les inégalités :
H H (n) ≤ Han
H
(n) ≤ GH (n).
Le premier jalon est une CNS pour la pertinence (stricte) du principe de
minimisation du risque empirique, mais il ne nous dit rien à propos de la
vitesse de convergence du risque R(fn ) vers le risque minimal R(f0 ). Il est
possible que le taux de convergence asymptotique soit arbitrairement lent, bien
que le principe de l’ERM soit pertinent. La question est donc : sous quelles
conditions le taux de convergence asymptotique est-il rapide ? On dit que le
taux de convergence asymptotique est rapide si : ∃C > 0, ∃N0 > 0 : ∀n > N0 ,

P R(fn ) − R(f0 ) < ε ≤ exp(−ε2 nC).
Théoréme 1.4.2. Une condition suffisante de convergence rapide est

H
Han (n)
→ 0.
n
Etant donneé le lien entre entropie et entropie recuite, c’est une condi-
tion suffisante pour la convergence uniforme et donc la pertinence stricte du
principe de l’ERM
Troisième jalon Les deux premier jalons dépendent de la distribution P.
On peut se demander sous quelles conditions le principe de l’ERM est stricte-
ment pertinent pour toute distribution P. En effet, on souhaite construire des
algorithmes d’apprentissage pouvant résoudre plusieurs problèmes différents
(c’est à dire pouvant traiı̂ter différentes mesures de probabilité P). Autrement
dit, alors qu’on a le choix de l’espace d’hypothèse H, la distribution, elle, est
imposée par le problème.Troisième jalon
Théoréme 1.4.3. La condition nécessaire et suffisante de pertinence stricte
pour toute mesure de probabilité P (et condition suffisante pour une conver-
gence rapide) est :
GH (n)
→ 0.
n
1.4.9 Dimension VC (Vapnik-Chervonenkis
Théoréme 1.4.4. La fonction de croissance pour l’ensemble Iy6=f (x) , f ∈ H
satisfait nécessairement les conditions :
1. soit GH (n) est linéaire,
GH (n) = n ln 2 ∀n ∈ N∗ ;
2. soit GH (n) est est sous-logarithmique à partir d’un certain rang,

(
= n ln 2 si n ≤ h
GH (n) = n
(1.4.1)
≤ h(1 + h ) si n > h
où h est le plus grand entier tel que GH (n) = n ln 2.
Définition 1.4.6. Si la fonction de croissance est telle que donnée par la

condition (1.4.1) alors h est appelée la dimension VC de l’ensemble des fonc-
tions Iy6=f (x) , f ∈ H. La fonction de croissance est linéaire, la dimension VC
est infinie.
La dimension VC est donc un concept lié à l’espace d’hypothèse mais indé-

pendant du problème (de la distribution). On lie facilement le comportement
asymptotique de la fonction de croissance à la dimension VC,
GH (n)
→0⇔h<∞
n
Définition 1.4.7. La dimension VC de l’ensemble des fonctions Iy6=f (x) , f ∈ H
est le nombre maximum de vecteurs Z1 , . . . , Zn qui peuvent être séparés de 2h
facons différentes par les fonctions Iy6=f (x) ,
1.4.10 Une borne sur le risque

Théoréme 1.4.5. (Vapnik-Chervonenkis). Soit 0 < δ ≤ 1, avec une probabi-
litéd’au moins 1 − δ, on a
s
GH (2n) + ln( 2δ )
∀f ∈ H, R(f ) ≤ Rn (f ) + 2 2 .
n
Corollaire 1.4.1. Soit 0 < δ ≤ 1, avec une probabilité d’au moins 1 − δ, on a

v ! !
u
u2 2en 2
∀f ∈ H, R(f ) ≤ Rn (f ) + 2t h ln + ln .
n h δ
La théorie de Vapnik-Chervonenkis permet d’obtenir les inégalités d’oracle
en espérance et avec forte probabilité, ainsi que l’estimation empirique de l’er-
reur de classification pour les ensembles H de VC-dimension finie.
Le n-ième coefficient d’éclatement d’une famille H de classifieurs est :
SH (n) = max Card{(f (x1 ), . . . , f (xn )) : f ∈ H} ≤ 2n .

x1 ,...,xn ∈X
SH (n) est le nombre maximum de ”classifications de n points” possibles à

partir des classifieurs dans H.
VC-dimension de H :
VH = sup{n ∈ N : SH (n) = 2n }.
VH est donc le nombre maximum de points que H peut ”éclater”.
Théoréme 1.4.6. Soit H de VC-dimension finie. Alors, pour tout 0 < δ < 1,
avec probabilité au moins 1 − δ, on a
r r
2(VH ln(n + 1) + ln(2)) 2 ln(δ −1 )
R(fˆn ) ≤ R(fH ) + 4 + .
n n
r
2(VH ln(n + 1) + ln(2))
E(R(fˆn )) ≤ R(fH ) + 4 .
n
De plus, avec probabilité au moins 1 − δ,
r r
2(V H ln(n + 1) + ln(2)) ln(δ −1 )
|R(fˆn ) − Rn (fˆn )| ≤ 22 +
n 2n
Pour tout 0 < δ < 1, un intervalle de confiance de R(fˆn ) de niveau 1 − δ

est [an , bn ] où
r r

ˆ 2(VH ln(n + 1) + ln(2)) ln(δ −1 )
an = max 0, Rn (fn ) − 2 −
r n r 2n
2(VH ln(n + 1) + ln(2)) ln(δ −1 )
bn = min 1, Rn (fˆn ) + 2 +
n 2n
Chapitre 2
Classification binaire
2.1 Exemple
x1 x2 Y
1 3 -1
2 1 -1
4 5 -1
6 9 -1
8 7 -1
5 1 1
7 1 1
9 4 1
12 7 1
13 6 1
> X1=c(1,2,4,6,8,5,7,9,12,13)
> X2=c(3,1,5,9,7,1,1,4,7,6)
> plot(X1,X2,pch=c(rep("-",5),rep("+",5)),col=c(rep("red",5),rep("blue",5)))
19
20 CHAPITRE 2. CLASSIFICATION BINAIRE
8 −
− +
+
6
X2
+
4
−
2
− + +
2 4 6 8 10 12
X1
L’objectif est de trouver un séparation linéaire (droite) permettant de dis-

tinguer les ”-” des ”+”.
f (x) = ωx + b
2.2 Algorithme du perceptron

2.2.1 Neurone formel
Un neurone (biologique) est une cellule du système nerveux spécialisée dans
la communication et le traitement d’informations. Les neurones ont pour rôle
de faire circuler les informations entre l’environnement et l’organisme, ou au
sein de l’organisme. Les neurones sont au nombre de 100 milliards dans le
cerveau humain. Le premier modèle mathématique et informatique du neurone
appelé neurone formel est proposé par Warren McCulloch et Walter Pitts en
1943. Il s’agit d’un neurone binaire, c’est-à-dire dont la sortie vaut 0 ou 1. Pour
calculer cette sortie, le neurone effectue une somme pondérée de ses d entrées.
La pondération est modélisée par les coefficients synaptiques du modèle (e ω)
puis applique une fonction d’activation à seuil : Si cette somme est supérieure
2.3. RÉGRESSION LOGISTIQUE 21
à un seuil µ, la sortie vaut 1 et dans le cas contraire elle vaut 0 :
Xd
H ωj xj − µ ;
j=1
H est la fonction de Heaviside ; c’est une fonction définie sur R∗ par

(
1 si x > 0
H(x) =
0 si x < 0
Figure 2.1 – Illustration d’un neuronne formel
2.2.2 Perceptron
Rosenblatt (1958) a adapté ce modèle mathématique au cas des neurones
du système vi- suel (doù le nom du modèle en référence à la perception). Dans
ce modèle, la fonction de transfert est une fonction linéaire et les signaux
d’entrée correspondent aux caractéris- tiques d’un exemple
2.2.3 Lien avec le MRE
2.3 Régression logistique

2.4 Support Vector Machine ou Séparateur à
Vaste Marge (SVM)
On dispose de n exemples (x1 , y1 ), . . . , (xn , yn ) avec xi ∈ X = Rd et yi ∈
Y = {−1, 1}. L’objectif est de prédire y pour une nouvelle valeur de x. Il s’agit
22 CHAPITRE 2. CLASSIFICATION BINAIRE
ici de trouver un classifieur g : Rd → {−1, 1}. Cela passe par la détermination
d’une fonction décision f : Rd −→ R telle que
g(x) = signe(f (x)).
Dans le cas des SVM, on supposera que la fonction f est de la forme :
f (x) = hω, xi + b.
L’équation
f (x) = hω, xi + b = 0
correspond à celle d’un hyperplan dans Rd de vecteur orthogonal ω.
Définition 2.4.1. Les points {(xi , yi ), 1 ≤ i ≤ n} sont linéairement séparables

s’il existe un hyperplan qui permet de discriminer correctement l’ensemble des
données.
Figure 2.2 – Cas linéairement séparable
Figure 2.3 – Cas linéairement non séparable
Il existe une infinité d’hyperplans permettant de séparer qui sont linéai-

rement séparables. L’Hyperplan optimal doit maximiser la distance entre la
frontière de séparation et les points de chaque classe qui lui sont le plus proche.

Cours Apprentissage Stat

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Apprentissage Stat

Transféré par

Droits d'auteur :

Formats disponibles

Apprentissage statistique

Prof. Armel Fabrice Yodé

1.1 Base d’apprentissage, modélisation

1.2.1 Qualité d’une règle de prédiction

Définition 1.2.4. La ”meilleure” fonction de prédiction est une fonction

⇒ f ∗ := arg min R(f ).

R(f ) = EP (`(Y, f (X))

= EP(X) EP(Y |X) (`(Y, f ∗ (X))

Posons `(y, f (x)) = (y − f (x))2 .

Théoréme 1.2.2. Une fonction cible est

f ∗ (x) = E(Y |X = x).

EP(Y |x) (Y − y)2 = EP (Y |x) (Y − E(Y ))2 + (EP (Y |x) Y − y)2 .

Le premier terme étant indépendant de la valeur de y, l’infimum pour y ∈ Y

Théoréme 1.2.3. La fonction cible est la fonction f ∗ satisfaisant

f ∗ (x) ∈ arg max P(Y = y|X = x) pour tout x ∈ X .

= arg min P(Y 6= y|X = x)

= arg max P(Y = y|X = x)

Lorsque Y = {0, 1},

• f : X −→ {0, 1} est appelé classifieur.

P(Y 6= f ∗ (x)|X = x) = min{η(x), 1 − η(x)}.

Le fait que R(f ∗ ) ≤ 1/2 vient du fait que

η(x) = P(Y = 1|X = x)

1.3 Algorithme d’apprentissage

fbn est un estimateur de la fonction cible f ∗

Remarque 1.3.1. Les règles de prédiction optimale dépendent de P. Il est

1.3.2 Qualité d’un algorithme d’apprentissage

R(f ) = EP (`(Y, f (X)).

Définition 1.4.1. Etant donné un sous-ensemble H ⊂ G, l’algorithme de

fˆn ∈ arg min Rn (f ).

Le choix de H détermine le choix de fˆn .

• fH dépend de P ; fH n’est pas utilisable ;

R(fˆn ) − R(f ∗ ) = R(fH ) − R(f ∗ ) + R(fˆn ) − R(fH ) .

- R(fH )−R(f ∗ ) mesure à quel point l’espace d’hypothèes choisi H permet

1.4.3 Performance de la minimisation du risque empi-

E(R(fˆn )) ≤ R(fH ) + ∆n (H),

E(R(fˆn )) − R(f ∗ ) ≤ R(fH ) − R(f ∗ ) + ∆n (H).

R(fˆn ) ≤ R(fH ) + ∆n (H, δ)

R(fˆn ) − R(f ∗ ) ≤ R(fH ) − R(f ∗ ) + ∆n (H, δ)

R(fˆn ) − R(fH ) ≤ 2 sup |Rn (f ) − R(f )|.

Il suffit d’obtenir une majoration, en espérance ou en probabilité, de la

Démonstration. Soit ε > 0 et soit fε ∈ H vérifiant R(fε ) < R(f ∗ ) + ε. Puisque

R(fˆn ) − R(fH ) = R(fˆn ) − Rn (fˆn ) + Rn (fˆn ) − R(f ∗ )

1.4.4 Cas où H est fini

où fj : X −→ Y sont des règles de prédiction. Dans ce cas :

fH = arg min R(fj ) ⇐⇒ R(fH ) = min R(fj ).

Proposition 1.4.1. Supposons qu’il existe a, b ∈ R tels que

Ainsi avec une probabilité d’au moins 1 − δ, on a :

R(fˆn ) − R(fH ) ≤ 2 sup |R(f ) − Rn (f )|.

En utilisant l’inégalité de Hoeffding,

Pour tout 0 < δ < 1, on a

1.4.5 Approche de Vapnik : Classification binaire

• On suppose que la variable d’entrée X ∈ X = Rd et la variable de sortie

R(f ) = EP (`(Y, f (X)) = P(Y 6= f (X)).

C’est la probabilité de se tromper.

Définition 1.4.2. On appelle entropie aléatoire de l’ensemble des fonctions

H H (Z1 , . . . , Zn ) = ln(nH (Z1 , . . . , Zn )).

Définition 1.4.3. On appelle entropie de l’ensemble des fonctions Iy6=f (x) ,

1.4.7 CNS de convergence uniforme

1.4.8 Les trois jalons de la théorie d’apprentissage selon

Définition 1.4.5. La fonction de croissance est définie par :

Théoréme 1.4.2. Une condition suffisante de convergence rapide est

2. soit GH (n) est est sous-logarithmique à partir d’un certain rang,

où h est le plus grand entier tel que GH (n) = n ln 2.

Définition 1.4.6. Si la fonction de croissance est telle que donnée par la