Vous êtes sur la page 1sur 132

Master SDI

***
Spécialité SSIR

Modèles Connexionnistes,
Apprentissage et
Fusion d’informations

B. Gas - V 0.4 (2006)


UE NS503 - PRC/ISIR/UPMC
Introduction

B. Gas - V 0.3 (2006)


PRC/ISIR/UPMC
Bibliographie
Réseaux Neuronaux et traitement du signal
Le neurone biologique Jeanny Herault, Christian Jutten
HERMES
Réseaux Neuronaux, une approche connexionniste de l’IA
P. Bourret, J.Reggia, M. Samuelides
TEKNEA
Réseaux de Neurones, de la physique à la psychologie
J.P. Nadal
ARMAND COLIN
Statistiques et méthodes neuronales
S. Thiria, Y. Lechevallier, O. Gascuel, S. Canu
DUNOD
Réseaux de neurones, méthodologie et applications
G. Dreyfus, et al.
EYROLLES
Reconnaissance des formes
M. Milgram
ARMAND COLIN
Dynamique des systèmes complexes, une introduction aux réseaux d’automates
G. Weisbuch
CNRS
Aux origines des sciences cognitives
J.P. Dupuy
EDITIONS LA DECOUVERTE
Bibliographie (2)

Le neurone biologique
Neural networks for pattern recognition
C. M. Bishop
OXFORD
Pattern Recognition and Neural Networks
B. D. Ripley
CAMBRIDGE
Bibliographie historique
Historique [1] W.S. McCullogh et W. Pitts, 1943.
- Bibliographie A logical Calculus of the Ideas Immanent in Nervous Activity,
Bull. of Math. Biophysics 5 (1943) 115.
Modèles supervisés
Apprentissage et [2] D.O. Hebb, 1949.
Généralisation The Organization of Behaviour,
Wiley, New York 1949.
Réseaux dynamiques
Systèmes non [3] R. Rosenblatt, 1958.
supervisés Principles of Neurodynamics,
Spartan Books, New York 1962.

[4] M. Minsky et S. Papert, 1969.


Perceptrons ,
the MIT Press, Cambridge 1969.

[5] J.J. Hopfield, 1982.


Neural Networks and Physical Systems with Emergent Collective Computational Abilities,
Proceedings of the National Academy of Sciences, USA, 1982, pp. 2,554.

[6] D.E. Rumelhart et al, 1986.


-Learning representations by back-propagating errors , Nature, vol. 323 (1986) 323.
- Parallel Distributed Processing, the MIT Press, vol. 1, Cambridge 1986.
Y. Le Cun, 1986.
-Learning process in an assymetric threshold Network. , Disordered systems and
biological organizations. Nato-ASI Series ed. Bienenstock et al. Springer Verlag.
McCullogh et Pitts (1943)
Historique W.S. McCullogh et W. Pitts, 1943.
- McCullogh et Pitts
A logical Calculus of the Ideas Immanent in Nervous Activity,
- Hebb Bull. of Math. Biophysics 5 (1943) 115.
- Rosenblatt
- Minsky et Papert
- Hopfield
Dans cet article fondateur, les auteurs proposent deux choses:
- Rumelhart, Le Cun

Modèles supervisés - un modèle formel du neurone (selon les connaissances de l’époque)


Apprentissage et - La preuve qu’un tel système de neurones est capable de calculer n’importe
Généralisation quelle fonction si les poids des connexions sont judicieusement choisis.
Réseaux dynamiques
dendrites
Systèmes non
supervisés
entrées Corps cellulaire

sortie noyau
axone

synapse

Autres neurones
Hebb (1949)
Historique [2] D.O. Hebb, 1949.
- McCullogh et Pitts
The Organization of Behaviour,
- Hebb Wiley, New York 1949.
- Rosenblatt
- Minsky et Papert
- Hopfield Dans ce livre, Donald Hebb propose le premier modèle biologiquement
- Rumelhart, Le Cun plausible d'apprentissage :
Modèles supervisés l'apprentissage correspond à une modification des efficacités de
Apprentissage et transmission synaptique qui peut être modélisée, dans le cas d'un
Généralisation réseaux de neurones formels, sous la forme d'une modification des
poids associés aux connexions.
Réseaux dynamiques
dendrites
Systèmes non Il ne s'agit à l'époque que d'une simple
supervisés « intuition », que les techniques expéri-
mentales ne permettent pas encore de Corps cellulaire
corroborer
noyau
Le phénomène de modification synaptique axone

reste encore aujourd’hui très mal connu.


synapse

Autres neurones
Rosenblatt (1958)
Historique [3] R. Rosenblatt, 1958.
- McCullogh et Pitts
Principles of Neurodynamics,
- Hebb Spartan Books, New York 1962.
- Rosenblatt
- Minsky et Papert
- Hopfield Rosenblatt réalise et étudie le premier réseau de neurones « intelligent », c'est-
- Rumelhart, Le Cun à-dire capable d'apprendre par lui même : le Perceptron.
Modèles supervisés
Il démontre un théorème fondamental, le "perceptron learning theorem", qui
Apprentissage et établit qu'un perceptron, s'il est en mesure de réaliser un tâche, sera toujours
Généralisation capable de l'apprendre en un temps fini.
Réseaux dynamiques
Systèmes non
supervisés

Entrée (rétine)
sorties
Minsky et Papert (1969)
Historique [4] M. Minsky et S. Papert, 1969.
- McCullogh et Pitts
Perceptrons ,
- Hebb the MIT Press, Cambridge 1969.
- Rosenblatt
- Minsky et Papert
- Hopfield
- Rumelhart, Le Cun Leurs travaux mettent surtout en relief les limites inhérentes aux modèles
de type perceptron dont la plus connue est son incapacité à résoudre des
Modèles supervisés problèmes non linéairement séparables tels que le XOR (ou exclusif).
Apprentissage et
Généralisation Rosenblatt a montré qu’à condition d’adjoindre au moins une couche de
neurones
Réseaux dynamiques au perceptron il est possible de dépasser ces limitations.
Systèmes non Mais il n’existe pas à l’époque de méthode d’apprentissage
supervisés Pour les perceptrons multi-couches.
Hopfield (1982)
Historique [5] J.J. Hopfield, 1982.
- McCullogh et Pitts
Neural Networks and Physical Systems with Emergent Collective
- Hebb Computational Abilities,
- Rosenblatt Proceedings of the National Academy of Sciences, USA, 1982, pp. 2,554.
- Minsky et Papert
- Hopfield
- Rumelhart, Le Cun
En introduisant formellement la notion d'énergie associée à un réseau
Modèles supervisés de neurones, Hopfield offre aux neuro-sciences un nouveau et puissant
moyen d'investigation, la physique statistique.
Apprentissage et
Généralisation
Grâce à ces nouveaux outils, les comportements collectifs des réseaux
Réseaux dynamiques complètement connectés peuvent être compris et prédits de manière
rigoureuse.
Systèmes non
supervisés entrées

Sorties bouclées
Rumelhart - Le Cun - Hinton(1986)

Historique [6] D.E. Rumelhart et al, 1986.


- McCullogh et Pitts
-Learning representations by back-propagating errors , Nature, vol. 323
- Hebb (1986) 323.
- Rosenblatt [7] Y. Le Cun, 1986.
- Minsky et Papert -Learning process in an assymetric threshold Network. , Disordered
- Hopfield systems and biological organizations. Nato-ASI Series ed. Bienenstock et
- Rumelhart, Le Cun al. Springer Verlag.
Modèles supervisés
Apprentissage et Dans ces articles sont décrits l'algorithme d'apprentissage dit de
Généralisation rétropropagation de l'erreur qui a fourni le moyen d'entraîner les
Réseaux dynamiques réseaux de type Perceptron munis d'un nombre quelconque de couches
cachées.
Systèmes non Cet algorithme a relancé l'intérêt pour les réseaux MLP (Multi-Layer
supervisés Perceptron) au milieu des années 80.
Les modèles supervisés
Historique
Modèles supervisés
Apprentissage et
Généralisation
Réseaux dynamiques
Systèmes non
supervisés
Le neurone biologique
Le neurone biologique Neurones récepteurs Moto-neurone
- exemples dendrites
- quelques chiffres

Le neurone formel
Cutané
Le perceptron Bipolaire Corps cellulaire
élémentaire Auditif de rétine
Mémoires associatives noyau
Olfactif axone

Interneurones
Amacrine
synapse
De rétine

Neurones typiques de Vertébrés

fréquence Autres neurones


P(t) saturation
« spike »
0,5 ms
0
dépolarisation
seuil
-60 mV hyperpolarisation seuil stimulus
Le neurone biologique
Le neurone biologique Quelques chiffres :
- exemples
- quelques chiffres • Durée d’un spike : 0.5 à 1 ms

Le neurone formel
• Vitesse : 0.5 à 100 m/s
Le perceptron
élémentaire
• Temps d’intégration : quelques ms
Mémoires associatives
• Nombre de neurones : 100 à 100 milliards

• Nombre de connexions : 1000 à 10000/neurone


14 17
• Total : 10 à 10 connexions

Coupe du cortex
(coloration de Golgi : une cellule sur
cent seulement est colorée)
Le neurone formel
Le neurone biologique
Le neurone formel
e1
- Le modèle
- La fonction de
e2 ω ω1
transfert 2 Etat, potentiel σ (V − θ )
- Décision
ωi V Sortie


- Interprétation
géométrique ei seuil
V
x
- Limites du modèle

Le perceptron
élémentaire
Mémoires associatives
Entrées ωN Sommation pondérée
Fonction de transition, de transfert

Poids, efficacité synaptique


eN

⎛ N ⎞
y = σ (V ) = σ ⎜ ∑ ωi xi − θ ⎟
⎝ i =1 ⎠
La fonction de transfert
Fonction linéaire
Le neurone biologique
Le neurone formel
- Le modèle
- La fonction de Fonction sigmoïde
transfert
- Décision
- Interprétation
géométrique
- Limites du modèle Fonction seuil

Le perceptron
élémentaire
Mémoires associatives Les fonctions continues dérivables présentent un avantage mathématique
certain pour l’apprentissage.
La fonction linéaire permet de réaliser des réseaux linéaires
(Kohonen et les mémoires associatives).
Le neurone à seuil est plus proche du modèle biologique (spike) lorsque la
fonction a ses valeurs entre 0 et +1. Il est plus proche du modèle physique
(Hopfield et les verres de spin) entre –1 et +1.
Les fonctions probabilistes à valeurs continues entre 0 et 1 correspondent
à l’idée que c’est la fréquence d’activité qui compte plus que les décharges
individuelles.
Décision binaire
Le neurone biologique
Le neurone formel x1 ω1 = 2
- Le modèle
- La fonction de
transfert y
- Décision
ω1 = 1
θ = 47
- Interprétation x2
géométrique
- Limites du modèle
y = σ (ω1 x1 + ω2 x2 − θ )
Le perceptron
élémentaire
Mémoires associatives
Véhicule longueur x1 bruit x2 2x1 + x2 − θ sortie
Camion 1 20 8 48-47 = 1 1
Camion 1 15 20 50-47 = 3 1
Car 16 10 42-47 = -5 0
Voiture 1 5 15 25-47 = -18 0
Voiture 2 16 6 38-47 = -9 0
Moto 2 20 24-47 = -23 0
Interprétation géométrique
Le neurone biologique
x1 Frontière :
Le neurone formel
- Le modèle
x1 ω1 = 2 2 x1 + x2 − 47 = 0
- La fonction de
transfert y
- Décision ω2 = 1 x2
- Interprétation θ = 47
géométrique
x2
- Limites du modèle 1
Le perceptron
élémentaire
Mémoires associatives ⎧ y = σ (ω0 x0 + ω1 x1 + ω2 x2 )

y = σ (ω1 x1 + ω2 x2 − θ ) ⇔ ⎨ x0 = 1
⎪ω = −θ
⎩ 0

Le neurone formel à seuil réalise une fonction f de N


→ [ 0,1] :

⎛ N ⎞
f ( x1 , x2 ,..., xN ) = σ ⎜ ∑ ωi xi ⎟ Et est limité aux problèmes à deux
⎝ i =0 ⎠ classes et à frontière linéaire
Les limites du neurone formel
Le neurone biologique
Le neurone formel ne sépare que 2 classes de formes ? Rien n’empêche de
Le neurone formel réaliser un réseau de neurones formels :
- Le modèle
- La fonction de x1 x1
transfert
y1 y1
- Décision
- Interprétation
géométrique
y2 y2
- Limites du modèle
x2 xN
Le perceptron
élémentaire
Mémoires associatives Le neurone formel est « logiquement complet ». Toutes les fonctions logiques
peuvent-être représentées par un réseau acyclique de neurones formels.

Le neurone formel n’est cependant pas équivalent à une machine de Turing.


Il lui manque le ruban, c’est à dire la mémoire potentiellement illimitée.

Le neurone formel et les réseaux de tels neurones doivent être programmés


« manuellement ». Ils ne fournissent pas de mécanisme d’apprentissage.
Le perceptron élémentaire
Le neurone biologique x1 ω1
Le neurone formel
x2
x3
Le perceptron y Formalisation vectorielle :
élémentaire ωi
- Apprentissage ω N ω0 ⎛ ⎡ x0 ⎤ ⎞
- La règle du perceptron ⎜ ⎢x ⎥ ⎟
xN 1 ⎛ N ⎞
- La règle du delta y = sgn ⎜ ∑ ωi xi ⎟ = sgn ⎜ [ω0 , ω1 ,..., ω N ] ⎢ 1 ⎥ ⎟ = sgn (WX Τ )
- Le théorème ⎝ i =0 ⎠ ⎜ ⎢... ⎥ ⎟
⎜⎜ ⎢ ⎥ ⎟⎟
- Démonstration
⎝ ⎣⎢ xN ⎦⎥ ⎠
- Limitations aux pbm LS
WX Τ = 0
- augmenter la dimension

Mémoires associatives
WX Τ > 0

WX Τ < 0
Formulation du problème :
N
Soient deux ensembles C1 et C2 de vecteurs de
Trouver un vecteur W tel que :
⎧⎪ X ∈ C1 ⇒ WX Τ > 0 ⇒ y = +1
⎨ Τ
⎪⎩ X ∈ C2 ⇒ WX < 0 ⇒ y = −1
La règle du perceptron
Le neurone biologique Algorithme d’apprentissage du perceptron :
Le neurone formel
• Initialiser W aléatoirement
Le perceptron
• Tant qu'il existe X tel que :
élémentaire
- Apprentissage X ∈ C1 ⇒ WX Τ > 0 et X ∈ C2 ⇒ WX Τ < 0 non satisfaite
- La règle du perceptron Faire :
- La règle du delta
- Le théorème
W ← W + λ .δ ( X ) X
- Démonstration ⎧λ petite constante
- Limitations aux pbm LS ⎪
⎨ ⎧ X ∈ C1 ⇒ δ ( X ) = +1
- augmenter la dimension
⎪ ⎨ X ∈ C ⇒ δ ( X ) = −1
Mémoires associatives
⎩⎩ 2

X ∈ C1 mais WX < 0

WX Τ = 0 W ′X Τ = 0 on cherche ΔW tel que W ′X Τ =(W +ΔW ) X Τ > 0 :

(
On a : W ′X Τ =(W + λ .1. X ) X Τ = WX Τ + λ X
2
) > WX Τ

X ∈ C2 mais WX Τ > 0
Τ
WX < 0 W ′X Τ > 0
on cherche ΔW tel que W ′X Τ =(W +ΔW ) X Τ < 0 :
X
X (
On a : W ′X Τ =(W + λ .( −1). X ) X Τ = WX − λ X
2
) < WX Τ
La règle du delta
Le neurone biologique L’apprentissage dans un perceptron se produit sous la direction d’un
Le neurone formel « maître » qui dicte au perceptron la réponse correcte. On dit que
L’apprentissage est supervisé
Le perceptron
élémentaire
- Apprentissage Soit y d ∈ {−1, +1} la réponse correcte associée à une forme X .
- La règle du perceptron ⎧0 (pas d'erreur)
- La règle du delta ⎪
On a : δ ( X ) = − ( y − y d ) = ⎨
1
⎧ +1 si X ∈ C1 et y = 0
- Le théorème 2 ⎪ ± 1 (erreur) = ⎨
- Démonstration ⎩ ⎩ −1 si X ∈ C2 et y = 1
- Limitations aux pbm LS
- augmenter la dimension La règle d’apprentissage est appelée également règle du delta. Dans
Le cas du perceptron, elle dépend de l’erreur de décision. Elle s’écrit
Mémoires associatives « localement » :

( ) = ∑ ωi xi + λδ ( X )∑ xi2 = ∑ (ωi xi + λδ ( X ) xi2 ) = ∑ (ωi xi + Δωi xi )


N N N N
W ′X Τ = WX Τ + λδ ( X ) X
2

i =0 i =0 i =0 i =0

d'où :
λ
ωi ' = ωi +Δωi avec Δωi = λδ ( X ) xi = −
2
(y− y )x
d
i

erreur de décision
Le théorème de convergence
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
- Apprentissage Quels que soient l’ensemble de motifs en entrée et leur
- La règle du perceptron classification désirée, l’algorithme d’apprentissage du
- La règle du delta
perceptron, la règle du delta, convergera vers un
- Le théorème
- Démonstration
ensemble correct de poids, et ceci en un nombre fini
- Limitations aux pbm LS d’opérations si un tel exemple existe [Rosenblatt,1962].
- augmenter la dimension

Mémoires associatives
Démonstration
Soit A = { X k , k =1,... K } l'ensemble des échantillons à classer en réalisant la fonction f .
Le neurone biologique
⎧⎪ ⎧ X k si f ( X ) = +1 ⎫⎪
Le neurone formel On pose A′ = ⎨ X k′ / X k′ = ⎨ ⎬
⎪⎩ ⎩ − X k si f ( X ) = −1 ⎪⎭
Le perceptron
élémentaire On cherche donc une solution W telle que WX k′Τ > 0 pour X k′ de A′
- Apprentissage Pour simplifier, on écrit toute modification comme (λ = 1, δ ( X k′ ) = 1, WX k′Τ < 0) :
- La règle du perceptron W ← W + ΔW = W + X k′ car ΔW = λδ ( X k′ ) X k′ = X k′
- La règle du delta Soit W0 = 0, W1 , W2 ,..., Wk ,..., WK la suite des vecteurs poids du perceptron pendant
- Le théorème
l'apprentissage et X 1' , X 2' , X 3' ,..., X k' ,..., X K' la suite d'éléments de A′ réalisant ces modifications
- Démonstration
On a :
- Limitations aux pbm LS
- augmenter la dimension ⎧⎪ Wk +1 2 = Wk 2 + X k′ +1 2 + 2Wk X k′Τ+1
Wk +1 = Wk + X k′ +1 avec Wk X ′ < 0 ⇒ ⎨
Τ
k +1
⎪⎩ ⇔ Wk +1 ≤ Wk + X k′ +1
2 2 2
Mémoires associatives
{
Posons M = sup X ′ / X ′ ∈ A ' , on a : Wk
2
} 2
≤ kM

Soit W * une solution du problème. Posons V = inf {W * X ′Τ / X ′ ∈ A '} . On a V > 0 et :


T T T T T T T
WkW * = Wk −1W * + X k' W * = Wk − 2W * + X k' −1W * + X k' W * = ... ⇔ WkW * ≥ kV .
kV
Il vient (ingéalité de Schwartz) : Wk W * ≥ kV ⇔ Wk ≥
W*
En comparant les deux inégalités, on obtient:
2
k 2V 2 M W*
≤ Wk ≤ kM ⇔ k ≤
2

* 2 V2
W
Les limites du Perceptron
Le neurone biologique Dans une étude très détaillée, Minsky et Papert montrent en 1969 que le
Le neurone formel Perceptron ne peut s’appliquer qu’aux problèmes linéairement séparables
Le perceptron
élémentaire Or les problèmes de classification posés dans les applications réelles sont
- Apprentissage presque toujours non linéairement séparables.
- La règle du perceptron
Le problème non linéairement séparable le plus simple est celui du OU Exclusif
À 2 entrées.
- La règle du delta
- Le théorème Fonction ET
WX Τ = 0 x1 ω
- Démonstration 1
- Limitations aux pbm LS
WX Τ > 0
- augmenter la dimension y
Mémoires associatives
x2 ω2
WX Τ < 0 WX Τ = 0
Table de vérité du OU Exclusif
Entrée 1 Entrée 2 Sortie
+1 +1 -1
+1 -1 +1
WX Τ < 0 Τ
WX > 0 -1 +1 +1

Fonction OU Exclusif -1 -1 -1
Dépasser les limites du Perceptron

Le neurone biologique On peut réaliser par un perceptron une classification non linéairement séparable
par changement de représentation en augmentant la dimension.
Le neurone formel
Le perceptron
élémentaire (+1, +1, +1)
- Apprentissage
- La règle du perceptron
- La règle du delta
- Le théorème
- Démonstration
Hyperplan séparateur
- Limitations aux pbm LS
(+1, −1, −1)
- augmenter la dimension

Mémoires associatives
(−1, −1, −1) (−1, +1, −1)

x1 ω1 x1 ω21
ω11
ω2 y ω22 y y
ET

ω3 ω12 ω23
x2 x2
Perceptron multicouches

II

B. Gas - V 0.4 (2006)


PRC/ISIR/UPMC
Mémoires associatives
Le neurone biologique L’Adaline (ADAptive Linear NEUron) désigne un neurone formel adaptatif
(avec apprentissage des poids) dont la fonction de transition est linéaire
Le neurone formel
(fonction identité) :
Le perceptron
élémentaire
⎡ x0 ⎤
Mémoires associatives N ⎢x ⎥
- L’adaline y = ∑ ωi xi = [ω0 , ω1 ,..., ω N ] ⎢ 1 ⎥ = WX Τ
- apprentissage adaptatif i =0 ⎢... ⎥
⎢ ⎥
- Formulation matricielle ⎢⎣ xN ⎥⎦
- classification linéaire
- la pseudo inverse
- le coût quadratique Ce modèle a été proposé par Widrow et Hoff en 1960. La règle d’apprentissage
- règle de Widrow-Hoff est la règle du delta :
Le perceptron
Multi-couches (MLP) ωi ← ωi + Δωi y = ωi − λ ( v − v d ) xi avec v = ∑ i ωi xi

L’erreur est analogique, contrairement au perceptron où l’erreur est binaire


(erreur de décision).
Les réseaux linéaires ont été développés dans le but de réaliser des mémoires
associatives (auto-associatives et hétéro-associatives).
Gradient stochastique
Le neurone biologique On montre que la règle du delta minimise l’erreur quadratique instantanée :

Le neurone formel Soit un ensemble A = { X 1 , X 2 ,..., X K } de formes sur N


auxquelles on désire
Le perceptron
associer les sorties désirées { y1d , y2d ,..., y Kd } avec ykd ∈ .
élémentaire
L'erreur commise par le neurone linéaire sur un exemple k s'écrit : δ ( X k ) = yk − ykd
Mémoires associatives
- L’adaline L'erreur élevée au carré est l'erreur quadratique instantanée :
- apprentissage adaptatif
Q = δ ( X k ) = ( yk − ykd )
2 2

- Formulation matricielle
- classification linéaire Le principe de minimisation de l'erreur repose sur une méthode de descente du
- la pseudo inverse gradient. On calcule le gradient de l'erreur par rapport au poids ωi et l'on effectue
- le coût quadratique
une correction en sens inverse :
- règle de Widrow-Hoff
∂Q ∂Q ∂y
Le perceptron ωi ← ωi − λ avec = 2 ( yk − ykd ) k = 2 ( yk − ykd ) xi
∂ ωi ∂ωi ∂ωi
Multi-couches (MLP)
d'où :
ωi ← ωi − λ 2 ( yk − ykd ) xi Q(ωi )
∂Q(ωi )
<0
∂ωi
Il vaut mieux minimiser
l’erreur quadratique moyenne
calculée sur tous les exemples
à apprendre. ωi
Δωi > 0
Formulation matricielle
Soit un ensemble A = { X 1 , X 2 ,..., X K } de formes sur N
auxquelles on désire
Le neurone biologique
associer les sorties désirées {Y1d , Y2d ,..., YKd } avec Ykd ∈ M
.
Le neurone formel
Le perceptron ⎡W1 ⎤
élémentaire ⎢W ⎥ ⎡ω11 ... ω1N ⎤
Soit Ω = ⎢ 2 ⎢
⎥= ω ...ω ... ω ⎥ la matrice des poids du réseau.
Mémoires associatives ⎢... ⎥ ⎢ 21 ij 2 N ⎥
⎢ ⎢
⎥ ⎣ ... ... ωMN ⎦⎥
- L’adaline
⎣⎢ M ⎦⎥
W
- apprentissage adaptatif
⎡ x1 ⎤
- Formulation matricielle
⎢x ⎥
- classification linéaire
Pour une cellule i la sortie s'écrit : yi = ∑ j = 0 ωij x j = [ωi1ωi 2 ...ωiN ] ⎢ 2 ⎥ = Wi X Τ
N

- la pseudo inverse ⎢... ⎥


- le coût quadratique ⎢ ⎥
⎢⎣ xN ⎥⎦
- règle de Widrow-Hoff
En considérant la matrice de tous les exemples à apprendre X = ⎡⎣ X 1Τ X 2Τ ... X KΤ ⎤⎦
Le perceptron
Multi-couches (MLP) La matrice de toutes les sorties calculées s'écrit :
Y = ⎣⎡Y1ΤY2Τ ...YKΤ ⎦⎤ = ΩX

Le problème d’apprentissage revient donc à chercher la matrice Ω telle que :

Y d = ΩX
Existe-t-elle ?

Est-elle unique ?
Classification linéaire
Le neurone biologique
Le neurone formel
Le problème de la classification linéaire Y = ΩX n'a pas toujours de solution Ω* = YX −1.
C'est le cas lorsque la matrice X n'est pas inversible.
Le perceptron
élémentaire
Mémoires associatives
- L’adaline La réponse à la question d’existence ressort du domaine de l’algèbre
- apprentissage adaptatif linéaire élémentaire :
- Formulation matricielle
- classification linéaire
1) Si l’ensemble des vecteurs d’entrées à apprendre est linéairement
- la pseudo inverse
indépendant, il existe toujours une application linéaire assignant à
- le coût quadratique ces exemples des valeurs vectorielles arbitraires.
- règle de Widrow-Hoff

Le perceptron
Multi-couches (MLP) 2) Dans le cas général, les relations de dépendance linéaire pouvant exister
entre les vecteurs d’entrée doivent être reproduites par les vecteurs de
sortie :

∑α
k
k X k = 0 ⇒ ∑ α k Yk = 0
k
La pseudo-inverse
Le neurone biologique On peut interpréter la relation Y = ΩX comme une application linéaire X qui
Le neurone formel associe à la matrice Ω les sorties Y :
Le perceptron Y Τ = (ΩX)Τ = X Τ ΩΤ
élémentaire
Dire que le problème Y = ΩX n'admet pas de solution, c'est dire qu'il existe des
Mémoires associatives
- L’adaline
matrices Y d qui n'appartiennent pas au sous espace vectoriel Img(X) engendré par X.
- apprentissage adaptatif
La solution est donnée par
- Formulation matricielle
le théorème de projection : Yd
- classification linéaire
Y d -ΩX
- la pseudo inverse La condition d'orthogonalité s'écrit :
- le coût quadratique
( ) (X Ω ) = 0
Τ Τ
- règle de Widrow-Hoff Y d − X ΤΩΤ Τ Τ

Img(X)
Le perceptron
⇔ ( Y − ΩX )( X Ω
d Τ Τ
)=0 ΩX
Multi-couches (MLP)
⇔ Y d X ΤΩ Τ − ΩXX Τ ΩΤ = 0
⇔ ( Y d X Τ − ΩXX Τ ) Ω Τ = 0 X Τ ( XX Τ ) = X +
−1

⇔ Y d X Τ − ΩXX Τ = 0
est la pseudo-inverse de X
⇔ Ω = Y d X Τ ( XX Τ −1
)
La projection orthogonale minimise la
⇔ Ω = Yd X+ distance Y d -ΩX : l’erreur quadratique
Minimisation du coût quadratique
Le problème de la classification linéaire Y = ΩX n'a pas toujours de solution :
Le neurone biologique
On définit donc une fonction cout notée f sur l'espace vectoriel des matrices
Le neurone formel
et on remplace le problème algébrique :
Le perceptron
" Trouver Ω tel que Y = ΩX "
élémentaire
par le problème d'optimisation :
Mémoires associatives
- L’adaline
" Trouver X qui minimise f (Y − ΩX ) "
- apprentissage adaptatif Ce problème a une solution unique lorsque f est une fonction quadratique
- Formulation matricielle Τ 2
- classification linéaire Trouver Ω qui minimise le cout quadratique Q(Ω) = Y d -X Τ Ω Τ .
- la pseudo inverse
Le gradient de Q(Ω) s'écrit :
- le coût quadratique
- règle de Widrow-Hoff (
∇Q(Ω) = 2X Y d -X Τ Ω Τ
Τ
) La matrice XX Τ est carrée et
symétrique :
Le perceptron
XX Τ = ( XX Τ )
et s'annule en : Τ
Multi-couches (MLP)
∇Q(Ω) = 0
On a X + X = I , mais en général :
( dΤ
⇔ 2X Y -X Τ Ω Τ = 0 ) XX + ≠ I
Τ
⇔ 2XY d = 2XX Τ Ω Τ Si XX Τ est singulière, la solution
n’est pas unique
⇔ Ω Τ = ( XX Τ ) XY d
−1 Τ

!! L’inversion de la matrice
⇔Ω=Y X d Τ
( XX )Τ −1
=Y X d +
peut poser des problèmes
numériques
Règle de Widrow-Hoff

Le neurone biologique Pour s’affranchir du problème de l’inversion matricielle, on utilise une


procédure itérative plus simple à contrôler :
Le neurone formel
Le perceptron 1) Choisir Ω 0 quelconque; k = 0
élémentaire
2) faire Ω k +1 = Ω k - λk X Τ ( Ω k X − Y d )
Mémoires associatives
- L’adaline 3) Si Q ( Ω ) < ε alors FIN, sinon k = k + 1; aller en 2)
- apprentissage adaptatif
- Formulation matricielle La version séquentielle de cet algorithme donne la règle de Widrow-Hoff :
- classification linéaire
- la pseudo inverse
1) Choisir Ω 0 quelconque; k = 0
- le coût quadratique 2) faire Ω k +1 = Ω k - λk X ( k ) ( Ω k X ( k ) − Y(dk ) )
- règle de Widrow-Hoff
3) Si Q ( Ω ) < ε alors FIN, sinon k = k + 1; aller en 2)
Le perceptron
Multi-couches (MLP) N
Au niveau d’une connexion : ωij ← ωij − λ (∑ ωil xl − yid ) x j
l =1

Si les nouvelles entrées sont très décorrélées des précédentes


(prototypes orthogonaux). On peut négliger le produit scalaire :

On retrouve la règle de Hebb : connexion


ωij ← ωij + λ yid x j Augmentée lorsque les activité sont de
Même signe. Et réciproquement.
Le perceptron multi-couches

Le neurone biologique Entrées 1ere couche … couches c, c+1, … Sorties


Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
- structure
- séparation non linéaire
- propriétés
- la rétro-propagation Connectivité totale d’une couche à la suivante
- différentiation
numérique
Pas de connexions récurrentes

MLP : optimisation Neurones formels avec fonction de transition sigmoïde :

⎛ N c−1
c c −1 ⎞
xi = σ ⎜ ∑ ωij x j ⎟
c

⎝ j =0 ⎠
Le nombre d’entrées et de sorties dépend du problème traité

Le nombre de cellules cachées résulte d’un savoir faire et de l’expérience


pratique. Il peut être guidé par des considérations statistiques
Séparation non linéaire

Le neurone biologique
Le perceptron à deux couches permet de classer des formes non
Le neurone formel linéairement séparables :
Le perceptron ⎡ x1(1) ⎤
élémentaire ⎢ (1) ⎥
⎡ x1(0) ⎤ ⎢ x2 ⎥
Mémoires associatives ⎢ (0) ⎥ ⎢ x (1) ⎥
Le perceptron ⎢ x2 ⎥ ⎢ 3 ⎥
⎢ x (0) ⎥ y ⎢... ⎥
Multi-couches (MLP) ⎢ (1) ⎥
⎢ 3 ⎥
- structure ⎢... ⎥ ⎢⎣ xN1 ⎥⎦
- séparation non linéaire ⎢ (0) ⎥
- propriétés ⎢⎣ xN0 ⎥⎦
- la rétro-propagation
- différentiation
numérique ⎛ N1 (2) (1) ⎞ N1 N1
⎡ ⎛ N0 (1) (0) ⎞ ⎤ 1
y = σ ⎜ ∑ ω j x j ⎟ = 0 ⇔ ∑ ω j x j = 0 ⇔ ∑ ω j ⎢σ ⎜ ∑ ω jl xl ⎟ ⎥ x j = 0
(2) (1) (2)

MLP : optimisation ⎝ j =0 ⎠ j =0 j =0 ⎣ ⎝ l =0 ⎠⎦
L’équation montre une hyper-surface séparatrice non plane du fait
de la présence des fonctions sigmoïdes non linéaires :

eV − e −V
σ (V ) = th(V ) = V −V
e +e
Exemple du OU Exclusif
Avant apprentissage :
Le neurone biologique
2

⎡ x1 ⎤
Le neurone formel
1.5

⎢x ⎥ s
Le perceptron ⎣ 2⎦ 1

élémentaire 0.5

Mémoires associatives 0

Le perceptron
-0.5

Multi-couches (MLP) -1

- structure -1.5
- séparation non linéaire
- propriétés
-2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

- la rétro-propagation Après apprentissage :


- différentiation
2

numérique Décision sur les sorties : 1.5

MLP : optimisation 1

⎡ y1 ⎤ ⎡ +1⎤
⎢ y ⎥ = ⎢ −1⎥ ⇒ s = 1 (vert)
0.5

⎣ 2⎦ ⎣ ⎦ 0

⎡ y1 ⎤ ⎡ −1⎤ -0.5

⎢ y ⎥ = ⎢ +1⎥ ⇒ s = 0 (rouge)
⎣ 2⎦ ⎣ ⎦
-1

-1.5

-2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Propriétés des MLPs

Le neurone biologique Les réseaux de neurones de type MLP à au moins une couche cachée
Le neurone formel sont des approximateurs universels :
Le perceptron
élémentaire « Toute fonction bornée suffisamment régulière peut être approchée uniformément,
avec une précision arbitraire, dans un domaine fini de l’espace de ses variables, par
Mémoires associatives
un réseau comportant une couche de neurones cachés en nombre fini, possédant tous
Le perceptron la même fonction d’activation, et un neurone de sortie linéaire. » [Hornik et al. 1989]
Multi-couches (MLP)
- structure
- séparation non linéaire
- propriétés Cette propriété est un théorème d’existence, non spécifique aux
- la rétro-propagation réseaux de neurones. Elle ne détermine pas les paramètres du réseau
- différentiation
numérique
MLP : optimisation
Ce résultat provient d’un théorème de Kolmogorov (1957) apportant une
réponse négative au 13ème problème de Hilbert (1900) : « il existe des
fonctions de 3 variables ne pouvant pas être représenté par la superposition
de fonctions de 2 variables ». Kolmogorov montre au contraire que cela
est possible avec un petit nombre de fonctions à une variable. Les réseaux
de type MLP à couches implémentent ce type de superposition de fonctions.
Propriétés des MLPs : parcimonie

Le neurone biologique Les réseaux de neurones de type MLP avec fonctions de transition sigmoïde
Le neurone formel sont des approximateurs parcimonieux :
Le perceptron
élémentaire « On montre [Barron 1993] que, si l’approximation dépend des paramètres ajustables
de manière non linéaire, elle est plus parcimonieuse que si elle dépend linéairement des
Mémoires associatives
paramètres ».
Le perceptron Le nombre de paramètres nécessaire pour obtenir une précision donnée croît expo-
Multi-couches (MLP) nentiellement avec le nombre de variables lorsque l’approximateur dépend linéairement
- structure de ses paramètres. Il croît linéairement par rapport à ce nombre pour les approximateurs
- séparation non linéaire non linéaires.
- propriétés
- la rétro-propagation Ainsi, pour modéliser une fonction à grand nombre de variables,
- différentiation on aura plus intérêt à utiliser un réseau de neurone qu’un approximateur
numérique polynomial par exemple.
MLP : optimisation
Cet avantage des réseaux de neurones apparaîtra clairement lors de l’étude
de l’apprentissage.

Lorsque l’on fait en sorte que le nombre de paramètres ajustables d’un modèle
soit le plus faible possible, on cherche l’approximation la plus parcimonieuse.
Algorithme de rétropropagation (1)

Le neurone biologique Le réseau est du type MLP avec un nombre de couches quelconque et
Le neurone formel N c cellules par couche c.
On reprend la fonction réalisée par l’un quelconque des neurones i de la
Le perceptron
couche c connecté aux neurones de la couche précédente c-1 :
élémentaire
⎛ Nc−1 ( c ) ( c −1) ⎞
= σ ⎜ ∑ ωij x j ⎟
Mémoires associatives
Le perceptron
xi( c )
Multi-couches (MLP) ⎝ j =0 ⎠
- structure
Les fonctions de transition sont des fonctions non linéaires dérivables
- séparation non linéaire
quelconques (sigmoïdes par exemple).
- propriétés
- la rétro-propagation On considère l’ensemble des prototypes à apprendre appelé
- différentiation l’ensemble d’apprentissage :
numérique
MLP : optimisation A= {( x , y ) , ( x , y ) ,..., ( x , y ) ,..., ( x
1 d2 2 d2 k dk K
}
, y dK )

Pour chaque prototype, on suppose que l’on a calculé l’activité y des


k

sorties du réseau. C’est la phase de propagation.

On définit une fonction erreur sur tout l’ensemble d’apprentissage


à partir de l’erreur définie pour chaque prototype :

Q = ∑ Q k ( y1 , y 2 ,..., y K )
K

k =1
Algorithme de rétropropagation (2)

Le neurone biologique On effectue l’apprentissage selon le principe de descente du gradient.


Le neurone formel Il nous faut donc estimer le gradient de l’erreur.
Pour une connexion ωij et un prototype présenté k :
Le perceptron
élémentaire ∂Q k
ωij ← ωij − λ
Mémoires associatives ∂ωij
Le perceptron L’erreur dépend des poids du réseau via les potentiels des cellules. Il est
Multi-couches (MLP) donc opportun d’utiliser la règle de décomposition des dérivées partielles :
- structure
∂Q k ∂Q k ∂Vi
- séparation non linéaire =
- propriétés
∂ωij ∂Vi ∂ωij
- la rétro-propagation On a :
- différentiation ∂Vi ∂ ⎛ N ⎞
numérique
= ∑
∂ωij ∂ωij ⎜⎝ l =1
ωil xl ⎟ = xj

MLP : optimisation
∂Q k
En posant δ = ∂Q
k
Nous obtenons : = δi x j
i
∂Vi ∂ωij

Cette expression ne dépend pas de la couche d’appartenance de la cellule i


Il reste donc à estimer δ i( c ) pour chaque cellule de chacune des couches.
De façon plus détaillée :
∂Q k
= δ i( c ) x (jc −1)
∂ωij
(c)
Algorithme de rétropropagation (3)

Le neurone biologique Lorsqu’il s’agit d’une cellule de la couche de sortie : Vi


Le neurone formel
∂Q ∂Q ∂yi ∂Q ∂σ (Vi ) ∂Q k
k k k ωij( c ) yi
Le perceptron δi = = = = σ ′ (Vi )
élémentaire ∂Vi ∂yi ∂Vi ∂yi ∂Vi ∂yi
Mémoires associatives
couche (c − 1) couche (c)
Le perceptron Lorsqu’il s’agit d’une cellule d’une couche
Multi-couches (MLP) cachée, on utilise à nouveau la décomposition
- structure en dérivées partielles :
- séparation non linéaire Vj yi = xi( c )
- propriétés ω ( c −1)

∂Q k Nc ∂Q k ∂Vi ( c ) ∂Vi ( c ) x (jc −1)


Nc jl

- la rétro-propagation δj = =∑ = ∑ δi
∂V j i =1 ∂Vi ( c ) ∂V j( c −1) i =1 ∂V j( c −1)
- différentiation
numérique
couche (c − 1) couche (c)
MLP : optimisation Par ailleurs :

∂Vi ( c ) ∂ N c−1
∂ N c−1

( c −1)
= ∑ω ( c ) ( c −1)
x = ∑ω (c )
σ ′ (Vl c −1 ) = ωij( c )σ ′ (V jc −1 )
∂V j ∂V j( c −1) ∂V j( c −1)
il l il
l l

d’où la relation de rétro-propagation :


Nc
δ ( c −1)
j = σ ′ (V j
( c −1)
) ∑ω δ
(c) (c)
ij i
i =1
Algorithme de rétropropagation (4)

Le neurone biologique L’estimation des dérivées de l’erreur relativement aux poids du réseau
Le neurone formel peut se résumer en quatre étapes :
Le perceptron
élémentaire
1) Appliquer un vecteur prototype X k en entrée du réseau et propager
Mémoires associatives l'activité pour estimer les sorties des cellules cachées et de sortie
Le perceptron 2) Evaluer l'erreur δ k sur toutes les unités de sortie
Multi-couches (MLP)
- structure 3) Rétropropager l'erreur δ pour estimer les δ ik sur toutes les cellules
- séparation non linéaire 4) Evaluer l'ensemble des modifications synaptiques Δωij
- propriétés
- la rétro-propagation
Pour tenir compte de l’ensemble des prototype en une seule étape
- différentiation
(Gradient total), on effectue la sommation de toutes les contributions :
numérique
MLP : optimisation
∂Q K
∂Q k
=∑
∂ωij k =1 ∂ωij

Cet version de l’algorithme est indépendante de la structure du réseau,


des fonctions de transition utilisées et de la forme de la fonction erreur
Algorithme de rétropropagation (5)

Le neurone biologique EXEMPLE :

Le neurone formel Les cellules de sorties ont une fonction de transition linéaire
Le perceptron Les fonctions de transition des cellules cachées sont la fonction
élémentaire « logistic sigmoid » :
Mémoires associatives 1
1 0.5
Le perceptron σ (V ) =
1 + e −V 0
Multi-couches (MLP)
- structure
- séparation non linéaire (Une des caractéristiques de cette fonction est que : σ ′(V ) = σ (V ) (1 − σ (V ) ) )
- propriétés
La fonction de coût est la classique erreur quadratique moyenne (EQM) :
- la rétro-propagation
- différentiation 1 Ns k
Q = ∑ ( yi − yidk )
k 2
numérique
2 i =1
MLP : optimisation
On obtient les résultats suivants. Pour les unités de sortie :

∂Q k ∂ ⎡ 1 Ns k dk 2 ⎤
δi = σ ′ (Vi ) = ⎢ ∑ ( yi − yi ) ⎥ .1 = yi − yi
k dk

∂yi ∂yi ⎣ 2 i =1 ⎦
Pour les unités cachées : Réseau à 1 couche cachée :

) (1 − σ (V ) ) ∑ ω
Nc+1 N c+1 Nc+1
δ (c)
j = σ ′ (V j
(c)
) ∑ω ij δ
( c +1) ( c +1)
i = σ (V j
(c)
j
(c)
ij δ
( c +1) ( c +1)
i =V j
(c)
(1 − V ) ∑ ω
j
(c)
ij δ
( c +1) ( c +1)
i
i =1 i =1 i =1
Différentiation numérique

Le neurone biologique La différentiation numérique est une alternative à la rétro-propagation


pour estimer les dérivées partielles de l’erreur :
Le neurone formel
Le perceptron ∂Q k Q (ωij + ε ) − Q (ωij )
k k

élémentaire = + θ (ε )
∂ωij ε
Mémoires associatives On perturbe une connexion donnée et on calcul la variation de coût occasionnée.
Le perceptron
Multi-couches (MLP)
Le principal inconvénient de la méthode est son temps de calcul en ο ( Ω )
2

- structure
- séparation non linéaire Contre ο ( Ω ) pour la rétro-propagation.
- propriétés
- la rétro-propagation L’utilisation d’une forme symétrique de la différentiation permet d’améliorer
- différentiation l’estimation :
numérique
MLP : optimisation ∂Q k Q (ωij + ε ) − Q (ωij − ε )
k k

= + θ (ε 2 )
∂ωij 2ε

Un intérêt de la différentiation est que sans programmation supplémentaire


elle permet de tester l’implémentation logicielle de la rétro-propagation.
Les minima locaux

Le neurone biologique Du fait de la non linéarité de la fonction erreur Q selon ses variables ωij ,
Le neurone formel on ne sait pas trouver de solution Ω* par des méthodes analytiques.
Le perceptron
Q(ω1 , ω2 )
élémentaire
Mémoires associatives Descente de gradient :
présence de minima
Le perceptron
Locaux : ∇Q = 0
Multi-couches (MLP)
MLP : optimisation
En tout point ΩC le gradient local de
- initialisation
la surface d'erreur est donné par ∇Q
- pas adptatif
- momentum ω1
- approxim. quadratique ΩA ΩC
- direction de Newton ΩB
ω2 ∇Q

Importance de l’initialisation des poids :


Initialisation aléatoire : permet d’éviter les symétries indésirables dans les
poids du réseau
Faibles amplitudes initiales : éviter les zones saturantes des sigmoïdes σ ′ (V ) 0

Amplitudes trop faibles : réseau linéaire entraînant une convergence + lente


Le pas adaptatif

Le neurone biologique Comment détermine-t-on le pas d’apprentissage λ dans :


Le neurone formel
∂Q
Le perceptron ωij ← ωij − λ
élémentaire ∂ωij
Mémoires associatives Q(ω ) Q(ω )
Le perceptron
Multi-couches (MLP) Δω (1)
MLP : optimisation
ΔQ < 0
- initialisation
Δω (2) ΔQ > 0
- pas adptatif
- momentum
- approxim. quadratique
- direction de Newton ω ω
ω (1)
ω (2)
ω (3)
Δω (1)
Δω (2)
Δω (3) Δω (4)
Trop grand -> divergence ou oscillations
Trop petit -> temps de convergence
ralenti
Adaptation du pas :

⎧ ρλ si ΔQ < 0 ( ρ = 1.1)
λ←⎨
⎩σλ si ΔQ > 0 (σ = 0.5) Modifications synaptiques annulées
Momentum

Le neurone biologique Les vallées (forte variation de la courbure par


changement de direction) ralentissent la
Le neurone formel convergence : la plupart des points dans l’espace
Le perceptron des poids ont un gradient qui ne pointe pas vers
élémentaire le minimum et des oscillations apparaissent :

Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation −∇Q
- initialisation
- pas adptatif
L’ajout d’un terme de moment dans la formule de descente du gradient
- momentum
permet d’ajouter un effet d’inertie et donc de filtrer les oscillations :
- approxim. quadratique
- direction de Newton ΔΩ( q ) = −λ∇ Q Ω( q ) + μΔΩ( q −1)
0 ≤ μ ≤1
Gradient ordinaire paramètre du moment
Q(ω)

Dans les régions de faible courbure,


La vitesse d’apprentissage est augmentée :

λ
ω En supposant ΔΩ( q ) ΔΩ( q −1) ΔΩ( q − 2) on a : ΔΩ = −λ∇Q(1 + μ + μ + ...) = − ∇Q
Δω(1) Δω(2) Δω(3) Δω(4) 1− μ
Approximation quadratique locale

Le neurone biologique Au voisinage d’un minimum, le gradient ne pointe pas souvent vers le minimum :
Le neurone formel
Le perceptron Direction donnée Ω*
élémentaire par le gradient g
Mémoires associatives Direction « idéale »
Ω
Le perceptron
Multi-couches (MLP)
On se rapproche sensiblement de la direction idéale en considérant une
MLP : optimisation approximation quadratique locale de la fonction erreur :
- initialisation
Développement de Taylor au 2ème ordre de
- pas adptatif
- momentum l'erreur autour d'un point Ω
ˆ de l'espace des poids :
- approxim. quadratique
- direction de Newton
( ) ( ) ( ) ( )
Τ Τ
Q (Ω) = Q Ω ˆ ∇Q + 1 Ω − Ω
ˆ + Ω−Ω ˆ H Ω−Ω
ˆ
Ω
ˆ
2

Gradient en Ω
ˆ Matrice du Hessien évalluée en Ω
ˆ

Le Hessien est la matrice des dérivées secondes de l’erreur par rapport


aux poids. De dimension WxW elle peut être calculée par une méthode
analogue à la rétro-propagation de l’erreur : 2 ˆ
(H)ij =
∂Q Ω( )
∂ωi ∂ω j
Approximation quadratique locale (2)

Le neurone biologique L’approximation locale correspondante du gradient est donc :


Le neurone formel
Le perceptron (
∇ Q Ω = ∇ Q Ωˆ + H Ω − Ω
ˆ )
élémentaire
Mémoires associatives Gradient en Ω
ˆ Matrice du Hessien évalluée en Ω
ˆ
Le perceptron
Multi-couches (MLP) Cette expression donne une approximation locale raisonnable du gradient
Et est utilisée avec la précédente dans nombre d’algorithmes optimisés
MLP : optimisation
- initialisation
- pas adptatif Interprétation géométrique autour d’un minimum :
- momentum
Vecteurs propres de H
- approxim. quadratique
- direction de Newton ω2 u2
u1 Voisinage du minimum local Ω*
Ω*
Valeurs propres de H
−1/ 2 η1−1/ 2
η2
ω1
Évaluation de l’erreur au
Q ( Ω ) = Q ( Ω* ) + ( Ω − Ω* ) H ( Ω − Ω* ) voisinage du minimum
1 Τ

2
∇ Q Ω* = 0
Approximation quadratique locale (3)

Le neurone biologique En utilisant l’approximation locale quadratique, on peut obtenir une


idée plus exacte du lieu du minimum :
Le neurone formel
Puisqu'au voisinage du minimum, on a l'expression de l'erreur :
Le perceptron
élémentaire Q ( Ω ) = Q ( Ω* ) + ( Ω − Ω* ) H ( Ω − Ω* )
1 Τ

2
Mémoires associatives
le gradient en tout point du voisinage est donné par :
Le perceptron
Multi-couches (MLP) g = ∇Q = H ( Ω − Ω* )

MLP : optimisation de sorte que le minimum Ω* satisfait :


- initialisation Ω* = Ω − H -1 g
- pas adptatif
- momentum
Le vecteur Ω − H g est appelé la direction de Newton. Contrairement au
-1
- approxim. quadratique
Gradient, pour une surface d’erreur quadratique la direction de Newton
- direction de Newton pointe directement vers le minimum de la fonction erreur.

Cette optimisation de la descente du gradient souffre de quelques défauts :

- L’estimation de la matrice du Hessien est coûteuse en temps de calcul


- Il faut inverser cette matrice !
- la direction de Newton peut indiquer des maxima ou des points d’inflexion
- Si l’approximation quadratique n’est pas valable, l’algorithme peut devenir
instable.
Apprentissage numérique

III

B. Gas - V 0.4 (2006)


PRC/ISIR/UPMC
MLP classifieurs
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire • Décision bayésienne
Mémoires associatives
Le perceptron • Principe du « Winner takes all »
Multi-couches (MLP)
MLP : optimisation
MLP : classification
• Estimation des probabilités a posteriori
- Décision bayésienne
- Winner takes all
- Probabilités a • Rejet
posteriori
- Rejet
- Confusions • Confusions
MLP : généralisation
Rappels de probabilités

Le neurone biologique Probabilités discrètes :


Le neurone formel
a est un évènement parmi un ensemble A d'évenements :
Le perceptron 1 ≤ P(a) ≤ 1 et P(a ) + P(b) + ... + P( z ) = 1
élémentaire
Variable aléatoire :
Mémoires associatives
associe à une éventualité (résultat du hasard) un nombre
Le perceptron
Multi-couches (MLP)
Densité de probabilité :
MLP : optimisation
p(θ ) non majorée par 1
MLP : classification +∞
- Décision bayésienne
- Winner takes all
∫−∞
p(θ )dθ = 1
x +Δx
- Probabilités a P( x ≤ X ≤ x + Δx) = ∫ p(θ )dθ
posteriori x

- Rejet Probabilité a priori :


- Confusions
Soit à classer un caractère inconnu en ne disposant d’aucune information ni indice mesuré
MLP : généralisation Sur ce caractère. Assemblons une grande quantité de caractères et en mesurons les fractions
De ces caractères qui appartiennent à chacune des différentes classes de caractères.
On formalise ceci comme la probabilité a priori d’appartenance d’une image à une classe
De caractères :
⎛ nombre d'images de caractères de la classe k ⎞
P(Ck ) = lim ⎜ ⎟
N →∞ ⎝ nombre total d'images N ⎠
Théorème de Bayes

Le neurone biologique
Probabilités conditionnelles :
Le neurone formel
Le perceptron La probabilité conditionnelle d’appartenance de l’image à une classe sachant
élémentaire Le résultat d’une mesure pratiquée sur cette image s’écrit :

Mémoires associatives P(Ck | x) = probabilité d'appartenance de l'image à la classe Ck sachant la


Le perceptron le résultat x d'une mesure pratiquée sur l'image
Multi-couches (MLP)
MLP : optimisation Et vérifie :
MLP : classification P(Ck , x) = P(Ck | x) P( x) = P( x | Ck ) P(Ck )
- Décision bayésienne
- Winner takes all D’où l’on tire l’expression (théorème de Bayes) :
- Probabilités a
posteriori
- Rejet P( x | Ck ) P(Ck )
P(Ck | x) =
- Confusions P( x)
MLP : généralisation
Probabilité a posteriori Probabilités a priori
(probabilité après mesure) (en dehors de toute mesure)
Décision Bayesienne

Le neurone biologique
Pour une nouvelle image de caractéristique x, la probabilité de mauvaise classification
Le neurone formel est minimisée si l’on assigne à l’image inconnue la classe qui maximise les probabilités
Le perceptron a posteriori :
élémentaire
Assigner la classe Ck qui minimise la probabilité a posteriori P(Ck | x)
Mémoires associatives
Le perceptron
Multi-couches (MLP) Cette règle de décision est appelée décision bayesienne quoique le théorème de bayes
est en fait lié à l’estimation des probabilités a posteriori :
MLP : optimisation
MLP : classification
- Décision bayésienne Estimation des
probabilité Décision
- Winner takes all
a posteriori
- Probabilités a
posteriori
- Rejet
- Confusions Le gros avantage du théorème de Bayes est de permettre d’exprimer les probabilités
a posteriori en fonction des densité de probabilité, plus faciles à estimer
MLP : généralisation

Le problème reste maintenant d’estimer les densités de probabilités (cf. cours de RdF)

Les Réseaux MLP utilisés en classification sont, sous certaines


Conditions, des approximateurs des probabilités a posteriori
Décision avec rejet

Le neurone biologique
Dans certains cas, l’ensemble des probabilités calculées sont faibles. Il peut
Le neurone formel être préférable alors de ne pas effectuer de classification si l’on souhaite minimiser
Le perceptron Le risque de faire des erreurs de classification :
élémentaire
Rejet « distance » :
Mémoires associatives
Pr. a posteriori : P (Ck | x)
Le perceptron
Multi-couches (MLP) décision rejet
Seuil de rejet : θ
MLP : optimisation
MLP : classification
- Décision bayésienne
Classe : Ck
- Winner takes all Rejet « ambiguïté » :
- Probabilités a
posteriori Pr. a posteriori : P (Ck | x)
- Rejet
- Confusions Seuil de rejet : θ décision rejet

MLP : généralisation

Classe : Ck

Les rejets peuvent être traités par des méthodes de classification alternatives…
Winner takes all

Le neurone biologique En classification, l’objectif donné au réseau est d’associer à un vecteur de caractéristiques
donné en entré une classe d’appartenance en sortie.
Le neurone formel On a deux possibilités :
Le perceptron
élémentaire Réseau discriminant Décision directe

Mémoires associatives
Le perceptron x Classe
Multi-couches (MLP) d’appartenance

MLP : optimisation
MLP : classification Vecteur de Une cellule de sortie par
- Décision bayésienne Forme
caractéristiques classe. Chaque sortie évalue
- Winner takes all une probabilité a posteriori
- Probabilités a Réseau Décision Bayesienne ou WTA
posteriori
- Rejet P (Ck =1,..., K | x)
- Confusions Classe
x d’appartenance
MLP : généralisation

Probabilités a
posteriori

Le deuxième procédé est plus intéressant car on peut exploiter nombre de résultats théoriques
Exemples (1)

Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation ÆA (score=0.43) ÆA (score=0.83) ÆB (score=0.74)
MLP : classification
- Décision bayésienne
- Winner takes all
- Probabilités a
posteriori
- Rejet
- Confusions
MLP : généralisation •Rétine d ’entrée : 13x13 (centrage+réduction)
•Couche de sortie: 26 cellules, 1 par classe
•Couche cachée: 30 à 40 neurones
•Apprentissage:
–Rétro-propagation de l’erreur
Exemples (2)

Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
- Décision bayésienne
- Winner takes all
- Probabilités a
posteriori
- Rejet
- Confusions
MLP : généralisation
Exemples (3)

Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
- Décision bayésienne
- Winner takes all
- Probabilités a
posteriori
- Rejet
- Confusions
MLP : généralisation
Modéliser les probabilités a
posteriori (1)
Le neurone biologique Parmi les résultats théoriques applicables aux réseaux WTA :

Le neurone formel Minimisation de l’erreur de décision :

Le perceptron Minimiser les probabilités a posteriori revient à minimiser l’erreur de classification


élémentaire On n’est pas tenu d’imposer des valeurs binaires aux sorties.
(Forcer l’apprentissage des exemples ne générant pas des sorties proches des valeurs
Mémoires associatives cibles perturbe les distributions en empêchant le réseau de modéliser les probabilités
Le perceptron a posteriori correctes)
Multi-couches (MLP)
Sommation à 1 des sorties :
MLP : optimisation
Puisque les sorties du réseau approximent les probabilités a posteriori elles devraient sommer
MLP : classification à 1 puisque :
- Décision bayésienne K

- Winner takes all


∀x, ∑ P (Ck =1,..., K | x) = 1
k =1
- Probabilités a
posteriori On peut obtenir explicitement ce résultat en utilisant des fonctions de transition softmax
- Rejet sur les N cellules de sortie :
- Confusions eVi
yi = N
MLP : généralisation
∑e
Vj

j =1

La fonction softmax est une généralisation de la


fonction « sigmoïde logique » :
yi =
1
1+ e − Ai
avec Ai = Vi − ln (∑ j ≠i
e
Vj
)
Modéliser les probabilités a
posteriori (2)
Le neurone biologique
Le neurone formel Compenser un déséquilibre de la base d’apprentissage :

Le perceptron Comme vu en haut, on peut estimer les probabilités a priori à partir d’une grande collection
élémentaire d’exemples de classe connue. De ce fait, la base d’apprentissage véhicule des informations
a priori concernant les classes :
Mémoires associatives
Ni
Le perceptron P (Ci )
Multi-couches (MLP) N
MLP : optimisation On doit pouvoir retrouver ces probabilités par calcul de la moyenne des sorties du réseau
sur tous les exemples puisque :
MLP : classification
- Décision bayésienne
K
1 1 1
- Winner takes all
P (Ci ) = ∫ P (Ci | x) p ( x)dx = lim
K →∞ K
∑ P(C | x)
k =1
i
K
∑ k
P (Ci | x) =
K
∑ k
yi
(k )

- Probabilités a
posteriori Si les probabilités a priori estimées à partir du réseau ne coïncident pas avec celles attendues,
- Rejet c’est à dire que les informations a priori véhiculées par la base ne sont pas correctes, on
- Confusions peut compenser l’écart observé :
MLP : généralisation Proba. correctes
P (Ci )
yi → yi
Pˆ (Ci )
Proba. estimées sur la base
Modéliser les probabilités a
posteriori : rejet
Le neurone biologique
Le neurone formel Combiner les sorties de plusieurs réseaux :

Le perceptron Il est possible de subdiviser un problème complexe en plusieurs problèmes simples et autant
élémentaire de réseaux. A condition de diviser les sorties des réseaux par les probabilités a priori utilisées
durant l’apprentissage, il devient possible de les multiplier entre elles à condition toutefois que
Mémoires associatives les entrées partagées sur les différents réseaux soient indépendantes les unes des autres.
Le perceptron
Multi-couches (MLP) Faire du rejet :

MLP : optimisation Comme vu plus haut, le fait que les sorties soient des probabilités a posteriori permet de
d’effectuer du rejet d’exemples lorsque les sorties du réseau ne sont pas suffisamment
MLP : classification
Élevées (rejet distance) ou que les deux sorties les plus actives sont trop proches l’une
- Décision bayésienne
de l’autre (rejet ambiguïté).
- Winner takes all
- Probabilités a
posteriori Contraintes à respecter :
- Rejet On montre que lorsque la fonction de coût est du type EQM et que les densités de probabilité
- Confusions sont gaussiennes ou tout au moins de la famille des densités exponentielles, les sorties du
MLP : généralisation réseau approximent les probabilités a posteriori.
Densité de probabilité conditionnelle aux classes

P( x | Ci ) P(Ci )
P(Ci | x) = A noter que les réseaux
P( x) ne nécessitent pas l’estimation
des densités de probabilité
Confusions

Le neurone biologique La matrice des confusions est définie sur une base d’exemples labellisés, c’est à dire
Le neurone formel dont on connaît les classes d’appartenance. Les réponses données par le réseau (ou tout
autre système de RdF) sont cumulées selon le principe d’un histogramme des classes :
Le perceptron
élémentaire
Classes proposées par le réseau Exemples rejetés
Mémoires associatives
1 2 3 4 5 6 7 8 9 R
Le perceptron
Multi-couches (MLP) 1
MLP : optimisation 2
MLP : classification 3 5% des exemples de
- Décision bayésienne 4 Label 6 ont été rejetés
- Winner takes all
- Probabilités a 5
posteriori 6 5 3 4 6 5 45 22 5 0 5 ∑ = 100%
- Rejet 7
- Confusions
8 22% des exemples de label 6
MLP : généralisation ont été classés comme des 7 :
9
confusion

Labels des exemples


45% des exemple de label 6 ont été
classés comme tels, donc correctement
MLP : Généralisation

Le neurone biologique L’objectif de l’apprentissage d’un réseau n’est pas de mémoriser une représentation
Le neurone formel exacte des données d’apprentissage mais plutôt de construire une modélisation statistique
du modèle qui les a généré.
Le perceptron
élémentaire
Un moyen de vérifier si un réseau a construit une bonne modélisation est de tester ses
Mémoires associatives capacités en généralisation, c’est à dire ça capacité de donner de bonnes réponses pour
des données non apprises.
Le perceptron
Multi-couches (MLP)
Ensemble des données
MLP : optimisation Disponibles (100%)
MLP : classification Base de test (30%)
MLP : généralisation
Base d’apprentissage (70%)

Modèle h( x) et approximations polynomiales

1ere approximation (Trop de coefficients)


2 exemples de mauvaise généralisation

2ème approximation (Pas assez de coefficients)

Stabilisation structurelle
x Deux voies :
Données d’apprentissages (bruitées) Régularisation
MLP : Généralisation

Le neurone biologique
Le neurone formel Deux voies à explorer

Le perceptron
élémentaire
Stabilisation structurelle Régularisation
Mémoires associatives
Le perceptron
Multi-couches (MLP)
Contrôler la complexité du réseau Contrôler l’apprentissage par adjonction
MLP : optimisation par ajout ou élagage de connexions à la fonction erreur d’un terme de pénalité
et/ou cellules ou d’un critère d’arrêt
MLP : classification
MLP : généralisation
Formalisation probabiliste

Le neurone biologique L’objectif de l’apprentissage d’un réseau n’est pas de mémoriser parfaitement les données
Le neurone formel d’apprentissage mais plutôt de modéliser correctement le processus qui les a généré.

Le perceptron
élémentaire Ainsi, le réseau devra donner la meilleur prédiction de la cible z lorsqu’on
lui présente en entrée une donnée nouvelle x.
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation x y
MLP : classification
Erreur de
MLP : généralisation prédiction
Processus z=h( x)
z=y d

Sorties y Données apprises


du réseau

La description la plus générale et


complète d’un générateur de données
est celle donnée par la densité de
x
probabilité dans l’espace joint des
entrées/cibles : p(x,z)
Données non apprises
Fonction de coût
Pour les problèmes de prédiction, il est commode de séparer la densité de probabilité
Le neurone biologique jointe en le produit de la densité conditionnelle de probabilité des données cibles,
Le neurone formel relativement aux données d’entrée, par la densité inconditionnelle de probabilité des entrées :
Le perceptron p (x, z ) = p(z | x) p (x)
élémentaire
Mémoires associatives Densité de probabilité de z Densité de probabilité
Le perceptron sachant la valeur de x inconditionnelle de x
Multi-couches (MLP)
MLP : optimisation Doit être modélisée pour pouvoir Joue un rôle important dans les
réaliser des prédictions de Z à partir de x Réseaux RBF
MLP : classification
MLP : généralisation La plupart des fonctions de coût trouvent leur explication dans le principe
du maximum de vraisemblance :

pour un ensemble de données d'apprentissage {( x , z )}


k k
E = - ∑ log p ( z k | x k )
k

on définit la vraisemblance par L = ∏ p ( x , z k k


)
k
Les densités conditionnelles
on a : L = ∏ p ( z | x ) p ( x
k k k
) sont modélisées par le
k
réseau
on préfère minimiser le logarithme de 1/ L : E = - log L
appelé fonction de cout :
E = - ∑ log p ( z k | x k ) − ∑ log p ( x k ) Ne dépend pas des
k k paramètres du réseau
Fonction de coût (2)

Le neurone biologique E = - ∑ log p ( z k | x k )


k
Le neurone formel
Le perceptron Pour les problèmes d’interpolation, les cibles z sont
élémentaire des quantités continues que l’on cherche à prédire

Mémoires associatives Pour les problèmes de classification, les cibles z sont des
labels représentant des classes d’appartenance ou, plus
Le perceptron généralement, des probabilités de classe d’appartenance.
Multi-couches (MLP)
Dans un problème à N classes, la vraisemblance s'écrit L = ∏∏ p ( x k , z i )
N

MLP : optimisation
k i =1
MLP : classification
soit : E = −∑∑ log p ( z i | x k ) − N ∑ log p ( x k )
N

MLP : généralisation k i =1 k

Soit yi ( x k , Ω ) l'une des N sorties calculées par le réseau (1 cellule par classe)
On suppose que la cible zi est générée par un processus bruité tel que : zi = hi (x) + ε i
On suppose également que ε suit une loi normale de moyenne nulle et de variance σ :
On a ici déduit l’erreur
⎜− i ( ) i
⎛ y xk , Ω − z
( ) ⎞
2
EQM à partir du principe ⎛ ( ε i )2 ⎞
p ( zi | x ) = p(ε i ) = ⎟
1 1
du maximum de vrai-
k
exp ⎜ − ⎟ = exp
2πσ 2 ⎜ 2σ 2 ⎟ 2πσ 2 ⎜⎜ 2σ 2 ⎟⎟
semblance et sous l’hypo- ⎝ ⎠ ⎝ ⎠
Où l'on a remplacé le modèle déterministe hi ( x) par le notre yi ( x k , Ω )
thèse d’une distribution
gaussienne des données.

∑∑ ( y ( x , Ω ) − z )
N
1 2 NK
Alors : E = k
+ NK log σ + log(2π )
2σ 2 i i
k i =1 2
Cibles bruitées

Le neurone biologique Une propriété importante est l’approximation par les sorties d’un réseau de l’espérance
conditionnelle des données cibles, lorsque l’on minimise l’EQM.
Le neurone formel
Le perceptron Si l'on suppose que la taille N de la base d'apprentissage tend vers l'infini
élémentaire
( () )
N
= ∑ ∫∫ ( yi ( x, Ω ) − zi ) p ( zi , x ) dzi d x
1 1
∑∑
2 2
On a : E = lim y x k
, Ω − z k

Mémoires associatives
i i
N →∞ 2 N 2 i
k i =1

Le perceptron et on montre que cela tend vers :


Multi-couches (MLP)
2 i
2 1
2 i
(
E = ∑ ∫ ( yi ( x, Ω ) − zi | x ) p ( x )dx + ∑ ∫ zi2 | x − zi | x p ( x )dx
1 2
)
MLP : optimisation
avec les espérances conditionnelles suivantes :
MLP : classification
zi | x = ∫ zi p ( zi | x ) dzi
MLP : généralisation
zi2 | x = ∫ zi2 p ( zi | x ) dzi

z
Peut être négligé car ne dépend pas
des poids
p( z | x0 )

L’EQM touche sont minimum lorsque ce terme


y ( x0 ) tend vers 0, c’est à dire quand :

x yi ( x, Ω* ) = zi | x
x0
Données d’apprentissages (cibles bruitées)
Le biais et la variance

Le neurone biologique Idéalement, la fonction optimale y(x) réalisée par le réseau est telle que y(x)=<z|x>.
Dans la pratique, on se heurte au problème de la finitude de la base d’apprentissage :
Le neurone formel
Le perceptron Une mesure de la distance de la fonction réalisée par le réseau avec la fonction cible
élémentaire
est donnée par : ( y ( x ) − z | x )
2

Mémoires associatives
Mais cette mesure dépend de la base A utilisée pour apprendre le réseau.
Le perceptron
Multi-couches (MLP) On peut éliminer ce problème en calculant l’espérance sur l’ensemble des
ensembles d’apprentissage possibles :
MLP : optimisation
MLP : classification E A ⎡( y ( x ) − z | x ) ⎤
2

⎣ ⎦
MLP : généralisation

Non nulle car la fonction


Idéalement toujours Non nulle car en moyenne, réalisée est sensible à
nulle le réseau ne modélise pas l’ensemble d’apprentissage
la bonne fonction utilisé

C’est la variance
C’est le biais

On montre : E A ⎡( y ( x ) − z | x ) (
⎤ = E ⎡ y ( x )⎤ − z | x ) ( )
+ E A ⎡ y ( x ) − E A ⎡⎣ y ( x ) ⎤⎦ ⎤
2 2 2
A ⎣ ⎦ ⎢⎣ ⎥⎦
⎣ ⎦
Minimisation des poids

Le neurone biologique La meilleure généralisation s’obtient lorsque l’on minimise simultanément le biais et la
variance. Ce cas arrive lorsque l’on fait tendre la taille de l’ensemble d’apprentissage vers
Le neurone formel
l’infini !
Le perceptron
élémentaire Réseau trop complexe Variance élevée
Mémoires associatives Dans la réalité, cet ensemble est fini.
Le perceptron Réseau trop simple Biais élevé
Multi-couches (MLP)
Méthodes de régularisation
MLP : optimisation
MLP : classification
Une variance élevée se traduit par des courbures fortes de la fonction
MLP : généralisation Réalisée par le réseau. L’obtention de telles courbures s’obtient par :

Des valeurs absolues des poids Un temps d’apprentissage accru


du réseau plus élevées

Limiter la valeur absolue des poids Limiter le temps d’apprentissage


(weights decay) (cross-validation)

1 Apprentissage avec bruit critère d'arret


E% = E + η ∑ ωi2
2 i
(Poids partagés)
Cross-validation

Le neurone biologique Apprentissage = Estimation des paramètres du réseau


à partir d’un ensemble d’exemples appelé
Le neurone formel
ensemble d’apprentissage
Le perceptron
élémentaire Généralisation = Capacité du classifieur à classer corectement
des formes non apprises et appartenant à
Mémoires associatives l’ensemble de test
Le perceptron Validation croisée = Mesure des performances en généralisation
Multi-couches (MLP) pendant l’apprentissage :
MLP : optimisation ensemble de cross validation
MLP : classification Taux d’erreur
MLP : généralisation
Données de Cross Validation

Données d’apprentissage

Nb Iterations
Arrêt recommandé
Performances d’un classifieur

Le neurone biologique Sur l’ensemble de test :


Le neurone formel
% formes bien classées facteur de
Le perceptron
élémentaire
% formes mal classées qualité
% formes non classées
Mémoires associatives
étude des
Le perceptron confusions
Multi-couches (MLP)
MLP : optimisation Qualité de l’ensemble d’apprentissage :
critères de rejet
MLP : classification
MLP : généralisation bonne
mauvaise

• échantillons nombreux • échantillons en faible nombre


• densité homogène • densité non homogène
Représentation des formes (1)

Le neurone biologique
Le neurone formel
Le perceptron reconnaissance
élémentaire RF : représentation RC : représentation
Mémoires associatives des formes des classes
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation

Formes Classes
codage classification
Représentation des formes (2)

Hypothèse 1 : bonne qualité de l’ensemble d’apprentissage

RF bonne RF moyenne RF mauvaise

bonne RC bonne RC mauvaise RC


Séparation linéaire Présence d’exemples Recouvrement des
dans les enclaves classes
Représentation des formes (3)

Le neurone biologique
Hypothèse 2 : mauvaise qualité de l’ensemble d’apprentissage
Le neurone formel
Le perceptron
élémentaire
RF
Mémoires associatives
Le perceptron
Multi-couches (MLP)
bonne mauvaise
MLP : optimisation
MLP : classification
MLP : généralisation

RC mauvaise en généralisation

Plus la RF est mauvaise, meilleur doit être la qualité


de l’ensemble d’apprentissage
Auto-organisation et
Quantification vectorielle

IV

B. Gas - V 0.4 (2006)


PRC/ISIR/UPMC
Auto-organisation
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire • Auto-organisation chez les vertébrés
Mémoires associatives
Le perceptron • Cartes auto organisantes de Kohonen
Multi-couches (MLP)
MLP : optimisation
MLP : classification
• Algorithmes LVQ
MLP : généralisation
Auto-organisation

DEA IARFA, DEA RESIN


2003
Certaines parties de ce document (auto-organisation
chez les vertébrés) proviennent du projet bibliographique
réalisé par Nicolas DEBRAY.
DEA IARFA, DEA RESIN (2003)
Apprentissage non supervisé
Le neurone biologique Les découvertes récentes à propos du cortex cérébral, rendues possible
Le neurone formel grâce aux progrès de l’imagerie médicale et des techniques de mesure
électrique, ont permis de mettre à jour un mécanisme d’auto-organisation
Le perceptron
des neurones corticaux.
élémentaire
Mémoires associatives Les systèmes auto-organisateurs sont des systèmes qui s’organisent à l’aide
Le perceptron d’algorithmes d’apprentissage non supervisés.
Multi-couches (MLP)
MLP : optimisation Un apprentissage non supervisé est un apprentissage qui s’effectue
sans professeur. On ne dispose donc plus des « sorties désirées ». La
MLP : classification tâche d’apprentissage consiste alors à découvrir les catégories et les
MLP : généralisation règles de catégorisation.
Auto-organisation
- apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Apprentissage non supervisé
Le neurone biologique
Le neurone formel
Le cortex cérébral possède une structure
Le perceptron macroscopique uniforme d’un individu à un
élémentaire autre.
Mémoires associatives Il est organisé en aires spécifiques aux
Le perceptron traitements de signaux particuliers. On
Multi-couches (MLP) distingue 2 types d’aires :
MLP : optimisation - les aires sensorielles primaires qui
perçoivent les sensations élémentaires
MLP : classification telles que la vision, l’ouie, le toucher, le
MLP : généralisation goût.
Auto-organisation - les aires sensorielles secondaires situées
- Apprentissage non à la périphérie des aires sensorielles
supervisé primaires qui réalisent la construction de
- Chez les vertébrés l’imagerie mentale.
- Les cartes de Kohonen
- Algorithmes LVQ
Aires sensorielles primaires

Le neurone biologique
Une des caractéristiques fondamentales de l'organisation des voies
Le neurone formel sensorielles primaires est l'existence d'une correspondance topique, c'est à
Le perceptron dire point par point, entre le récepteur périphérique et son aire de projection
élémentaire corticale.
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Aires sensorielles primaires

Le neurone biologique
Le neurone formel De cette constatation découlent plusieurs remarques importantes :

Le perceptron 1) l’aire de projection corticale est proportionnelle à la richesse des


élémentaire signaux émis par les récepteurs.

Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation On peux ainsi illustrer l’importance des aires
corticales dédiées au toucher chez l’homme par
MLP : classification l’homonculus sensitif, on remarque en particulier
MLP : généralisation la proéminence des mains pour lesquelles ce sens
est particulièrement développé.
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Tonotopie

Le neurone biologique 2) On peux dresser des cartes neuronales mettant en avant une projection
Le neurone formel linéaire des signaux des récepteurs vers l’aire associée.
Le perceptron
élémentaire La partie grisée
représente l’aire auditive
Mémoires associatives du cerveau d’un chat et
Le perceptron celle de droite un gros plan
Multi-couches (MLP) sur l’organisation de ses
neurones.
MLP : optimisation
Chaque point correspond à
MLP : classification un neurone et le chiffre
MLP : généralisation associé indique la
fréquence reçue par le
Auto-organisation
système auditif (en KHz)
- Apprentissage non
pour laquelle le neurone
supervisé
est excité. Carte tonotopique du chat
- Chez les vertébrés
- Les cartes de Kohonen On remarque alors que les neurones correspondants aux basses fréquences sont
- Algorithmes LVQ situés à droite alors que les hautes fréquences sont situées à l’autre extrémité
du cortex auditif. De plus, deux neurones sensibles à des fréquences voisines
seront spatialement proches dans l’aire corticale auditive.

Il existe donc une propriété de préservation topologique entre l’espace des


signaux et l’espace de projection corticale. C’est la propriété de Tonotopie.
Plasticité du cortex

Le neurone biologique
On appelle plasticité, le phénomène d’adaptation du cerveau aux signaux
Le neurone formel qu’il reçoit.
Le perceptron
élémentaire
Illustration :
Mémoires associatives
Le perceptron Patient atteint de syndactylie (doigts attachés dès la naissance)
Multi-couches (MLP)
MLP : optimisation Avant l’opération, le patient a
trois doigts collés.
MLP : classification
par magnéto-encéphalographie
MLP : généralisation on peut dresser la carte
Auto-organisation somatotopique correspondant
- Apprentissage non
à la représentation corticale
supervisé des doigts.
- Chez les vertébrés
On constate alors que les aires
- Les cartes de Kohonen
de projection corticale des
- Algorithmes LVQ doigts sont très rapprochées
spatialement.
Plasticité du cortex

Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation Après une opération visant à
séparer le doigt 4 du doigt 5,
Auto-organisation on remarque, en observant la
- Apprentissage non distance de séparation des
supervisé aires de projection corticale
- Chez les vertébrés de ces doigts, que le cerveau
- Les cartes de Kohonen s’adapte rapidement (6 jours)
- Algorithmes LVQ à la modification établie.
La courbe indique la distance
de séparation des aires de
projection corticale entre les
doigts 4 et 5 depuis le début
de l’opération.
Les cartes de Kohonen

Le neurone biologique [1] Ch. von der Maslburg, 1973.


Self-organization of Orientation Sensitive Cells in the striate cortex ,
Le neurone formel Kybernetics, 14, pp.85-100 (1943).
Le perceptron
élémentaire [2] T. Kohonen, 1982.
Self-organized Formation of Topologically Correct Features Maps,
Mémoires associatives
Biological Cybernetics, 43, pp. 59-69 (1982).
Le perceptron
Multi-couches (MLP) Des modèles d’auto-organisation, inspirés par l’organisation corticale des
vertébrés, ont été proposés dès les années 70 (Von der Malburg) puis par
MLP : optimisation
Kohonen.
MLP : classification
MLP : généralisation En sciences de l’ingénieur, ces modèles ont pour but de représenter des données
complexes, souvent bruitées, souvent de grande dimension, dans un espace
Auto-organisation discret dont la topologie est limitée à 1, 2 voire 3 dimensions.
- Apprentissage non
supervisé Ils s’agit donc en fait de modèles de << quantification vectorielle (VQ) >> dotés de
- Chez les vertébrés propriétés topologiques particulières.
- Les cartes de Kohonen
- Algorithmes LVQ Kohonen a proposé en 1982 un modèle très intéressant mais resté longtemps
ignoré : les << cartes de Kohonen >>.

Dans les années 90 le même hauteur a proposé plusieurs variantes supervisées


pour la classification : les algorithmes de quantification vectorielle à
apprentissage ou LVQ (Learning Vector Quantization).
Les cartes de Kohonen

Le neurone biologique
Le neurone formel Les réseaux de Kohonen sont directement inspirés des concepts vus dans la
partie précédente, ils doivent donc avoir les propriétés suivantes :
Le perceptron
élémentaire
Mémoires associatives
Le perceptron • L’apprentissage est non-supervisé, ce sont les signaux d’entrée qui
Multi-couches (MLP) organisent le réseau.
MLP : optimisation
MLP : classification • Le réseau doit avoir une structure topologique afin d’introduire le concept
MLP : généralisation de voisinage.

Auto-organisation
- Apprentissage non • Il doit prendre en compte le mécanisme d’interaction latérale.
supervisé
- Chez les vertébrés
- Les cartes de Kohonen • Deux signaux proches en entrée doivent activer deux neurones proches en
- Algorithmes LVQ sortie (tonotopie).
Intéraction latérale

Le neurone biologique L’interaction latérale (Kohonen) désigne le fait qu’il existe une relation entre
Le neurone formel l’activité d’un neurone du cortex et celle de ses voisins en fonction de la distance
les séparant.
Le perceptron
Cette dépendance est représentée par la fonction du « chapeau mexicain ».
élémentaire
Mémoires associatives
Le perceptron • Les neurones excités excitent
Multi-couches (MLP) à leur tour les neurones voisins
situés entre 50 et 100
MLP : optimisation
micromètres qui leurs sont
MLP : classification connectés.
MLP : généralisation • Pour des voisins plus lointains,
Auto-organisation 200 à 500 micromètres, l’action
- Apprentissage non
est inhibitrice.
supervisé • Pour des neurones encore plus
- Chez les vertébrés lointains, l’action est
- Les cartes de Kohonen négligeable.
- Algorithmes LVQ
Fonction du « chapeau mexicain »
Structure des cartes

Le neurone biologique Un réseau à une couche de N entrées et M cellules


Le neurone formel
Le perceptron Les N entrées sont totalement connectées aux N neurones
élémentaire
Mémoires associatives Les neurones sont placés dans un espace à 1 ou 2 dimensions :
chaque neurone possède donc des voisins dans cet espace
Le perceptron
Multi-couches (MLP)
Chaque neurone possède des connexions latérales récurrentes
MLP : optimisation Avec son voisinage selon la noyau de convolution du chapeau mexicain
MLP : classification
MLP : généralisation Connexions Connexions
Auto-organisation modifiables récurrentes
- Apprentissage non
supervisé
- Chez les vertébrés ⎡ x1 ⎤ ⎡ y1 ⎤
⎢x ⎥ ⎢y ⎥
- Les cartes de Kohonen
⎢ 2⎥ ⎢ 2 ⎥
- Algorithmes LVQ ⎢ x3 ⎥ ⎢ y3 ⎥
⎢ ⎥ ⎢ ⎥
⎢... ⎥ ⎢... ⎥
⎢⎣ xN ⎥⎦ ⎢⎣ yM ⎥⎦
Exemple de structure

Le neurone biologique
Le neurone formel Exemple d’une structure de réseau de Kohonen : N=2, M=9

Le perceptron Les connexions récurrentes ne sont pas représentées


élémentaire
Mémoires associatives
Le perceptron Valeur de sortie
Poids synaptique
Multi-couches (MLP) d'un neurone de sortie
Couche de sortie
MLP : optimisation
avec topologie rectangulaire
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non Vecteur d'entrée à deux dimensions
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Algorithme initial

Le neurone biologique Les poids sont initialisés aléatoirement

Le neurone formel Chaque cellule calcule sa sortie selon :


Le perceptron N
élémentaire yi = ∑ ωij x j = X T Wi
j =1
Mémoires associatives
Le perceptron Selon le vecteur d’ entrée et la configuration initiale des poids, il existe
Multi-couches (MLP) un neurone dont la sortie est la plus grande. On l’appelle <<neurone gagnant>>

MLP : optimisation
L’effet des connexions latérales récurrentes est une augmentation du contraste
MLP : classification dans le réseau : l’activité des neurones voisins est facilitée, celle des neurones
MLP : généralisation éloignés est inhibée. C’est le mécanisme de compétition.
Auto-organisation A l’équilibre, la sortie du réseau fait apparaître une zone d’activité prépondé-
- Apprentissage non rante autour du neurone gagnant, entouré de zones inactives, ou faiblement
supervisé actives.
- Chez les vertébrés
- Les cartes de Kohonen Les connexions modifiables sont ensuite ajustées selon la règle :
- Algorithmes LVQ
Δωij = α yi ( X − Wi )

La modification tend à rendre le neurone gagnant plus sélectif à la donnée X


Algorithme initial (suite)

Le neurone biologique Explication :

Le neurone formel S i pour le neurone i0 la sortie y i0 est la plus forte :


Le perceptron
∀ i ≠ i 0 , y i0 = X T W i 0 > y i = X T W i
élémentaire
A près correction, on a :
Mémoires associatives
y i = X T (W i + Δ W i ) = X T (W i + α X T W i ( X − W i ))
Le perceptron
Multi-couches (MLP) = X T W i (1 + α X T ( X − W i ))
MLP : optimisation
Si le produit scalaire X ( X − Wi ) est positif, la sélectivité du neurone au
T
MLP : classification
vecteur X est augmentée après correction :
MLP : généralisation
Auto-organisation W i −1
Wi
- Apprentissage non Wi−2 Wi−2 Wi
supervisé X X
- Chez les vertébrés W i −1 W i +1
- Les cartes de Kohonen W i +1
Les poids sont
- Algorithmes LVQ
modifiés par
une variation
pondérée par
l’activité y du
neurone
Avant apprentissage Après apprentissage
(vecteurs normalisés à 1) (et re-normalisation à 1)
Interprétation géométrique

Le neurone biologique Explication géométrique :

Le neurone formel
Le perceptron X − Wi
élémentaire
X
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation α yi ( X − Wi )
MLP : classification Wi + ΔWi
MLP : généralisation
Auto-organisation Wi
- Apprentissage non
supervisé
- Chez les vertébrés Le problème posé par le produit scalaire est que l’on n’a pas forcément :
- Les cartes de Kohonen

X T (Wi + ΔWi ) > X T Wi


- Algorithmes LVQ

D’où la nécessité de normer les vecteurs.


Algorithme simplifié

Le neurone biologique L’algorithme d’apprentissage précédent souffre d’au moins 2 défauts :


Le neurone formel
• Le calcul du neurone gagnant repose sur un concept de produit scalaire
Le perceptron ce qui n’est intéressant que si les poids sont normés
élémentaire
Mémoires associatives • Le calcul des sorties, en raison des connexions récurrentes, demande une
procédure itérative coûteuse en temps de calcul
Le perceptron
Multi-couches (MLP)
MLP : optimisation Neurones « distance » : la sortie est une fonction décroissante
MLP : classification de la distance d ( X , W i ) , ce qui évite de normer les poids
MLP : généralisation WTA : on recherche le neurone le plus actif. Les voisins sont également
Auto-organisation Actifs. Au delà du voisinage, les neurones sont inactifs. Ce dispositif
- Apprentissage non évite les connexions récurrentes en simplifiant le mécanisme de compétition.
supervisé
- Chez les vertébrés Dans ces conditions, la règle d’apprentissage est simplifiée :
- Les cartes de Kohonen
- Algorithmes LVQ Δ W i = α G ( i , i0 ) ( X − W i )

La fonction G ( i , i0 )définit le voisinage sur lequel s’applique la modification


des poids. Dans le cas le plus simple G ( i , i0 ) = δ i , i0 . Plus souvent il évolue
en 1/t avec une initialisation couvrant 30 à 50% du réseau.
Le pas d’adaptation évolue également en 1/t : α (t ) = 1 / t
Topologies de la carte

Le neurone biologique Voisinage à une dimension (peu utile) :


Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
Le neurone gagnant est marqué par une croix, le chiffre indique la
MLP : optimisation distance relative à ses voisins.
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ

Voisinage rectangulaire Voisinage hexagonal 2D


2D (le plus utilisé) :
Exemple

Le neurone biologique
Le neurone formel Soit un ensemble de 10000 vecteurs à 2 composantes possédant une densité de
probabilité uniforme à valeur dans [0..10], [0..10].
Le perceptron
élémentaire Considérons une couche de sortie de 100 neurones avec une topologie
hexagonale.
Mémoires associatives
Les poids synaptiques sont initialisés avec des valeurs comprises entre 5 et 5,1 .
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Exemple (évolution de la carte)

Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Règle de Ritter et Shulten (1986)

Le neurone biologique Il s’agit d’une modification de l’algorithme de Kohonen : au lieu de considérer


Le neurone formel un ensemble fini de neurones (fonction de voisinage G à valeurs discrètes),
utiliser une fonction de voisinage à valeurs continues (typiquement une
Le perceptron
gaussienne).
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP) ⎧⎪ − d (i, i0 ) 2 ⎫⎪
G (i, i0 ) = exp ⎨ ⎬
MLP : optimisation
⎩⎪ 2.σ (t ) 2 ⎭⎪
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non La variance σ ( t ) représente l’étendue du voisinage à l’instant t. C’est une
supervisé fonction décroissante du temps, en 1/t par exemple.
- Chez les vertébrés
- Les cartes de Kohonen Il a été démontré (Lo et Bavarian 1991) que l’utilisation d’une fonction
- Algorithmes LVQ de voisinage plutôt que d’un ensemble fini de voisins permettait
d’améliorer la vitesse de convergence de l’algorithme, de plus elle se
rapproche plus fidèlement de l’interaction latérale initiale.

La règle d’adaptation reste la même : Δ W i = α ( t ) G ( i , i0 , t ) ( X − W i )


L’algorithme

Le neurone biologique
Définir les relation de voisinage ainsi que le nombre de neurones M de la couche de sortie.
Le neurone formel Initialiser les poids synaptiques W en fonction des données de la base d’apprentissage ou
Le perceptron bien aléatoirement. i

élémentaire
Faire
Mémoires associatives • Présentation d’un vecteur d’entrée X (t ) choisi aléatoirement
Le perceptron • Chercher le neurone gagnant :
Multi-couches (MLP)
i0 = arg min i∈[1..M ] || X (t ) - Wi ||
MLP : optimisation • Modifier les poids du gagnant et de son voisinage :
MLP : classification Δ W i = α ( t ) G ( i , i0 , t ) ( X ( t ) − W i )
MLP : généralisation • Décroître le pas d’apprentissage et l’étendue du voisinage :

Auto-organisation α ( t ) → α ( t + 1) et σ ( t ) → σ ( t + 1)
- Apprentissage non
Tant que critère d’arrêt non atteint
supervisé
- Chez les vertébrés
- Les cartes de Kohonen Note : on peut faire décroître les deux paramètres de la manière suivante :
- Algorithmes LVQ
Valeur finale
t
⎛α ⎞ tm ax Itération finale
α t = α i . ⎜⎜ f ⎟⎟
⎝ αi ⎠
Valeur initiale
Conclusion

Le neurone biologique
Le neurone formel
Comme pour tous les algorithmes provenant d’adaptation de
Le perceptron
élémentaire
constatations neurobiologiques, la démarche a été d’implémenter et
de tester d’abord puis ensuite de prouver mathématiquement son
Mémoires associatives efficacité.
Le perceptron
Multi-couches (MLP) Actuellement la connaissance des propriétés mathématiques de cet
algorithme est incomplète. Kohonen optimise-t’il un critère, le
MLP : optimisation
réseau converge-t’il?
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé Remarque importante :
- Chez les vertébrés
- Les cartes de Kohonen La sélection du gagnant se fait à partir d’une distance mais il faut
- Algorithmes LVQ qu’elle soit adaptée aux données. Si toutes les composantes des
vecteurs d’entrée ont la même variance alors la distance euclidienne
est adaptée, sinon il faudra procéder à une normalisation ou prendre
une distance euclidienne pondérée.
Quantification vectorielle

Le neurone biologique Principe de la quantification vectorielle (VQ) :


Le neurone formel
L’objectif est de segmenter (« clustering ») l’espace des données d’entrées.
Le perceptron
Cette quantification permet après apprentissage :
élémentaire
-de compresser les données : au lieu de stocker un nouveau vecteur d’entrée en
Mémoires associatives
entier, il suffit de stocker le numéro du neurone gagnant. L’ensemble des
Le perceptron prototypes associés à leurs poids synaptiques est appelé « codebook ». Cette
Multi-couches (MLP) compression n’est pas réversible car elle est « destructrice ».
MLP : optimisation -de faire une classification sans-supervision puisque chaque prototype code
MLP : classification pour un ensemble de vecteurs (situé dans le nuage associé) ayant des
propriétés communes.
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
L’algorithme LVQ

Le neurone biologique Plus récemment, pour la classification, Kohonen a proposé une classe
Le neurone formel d’algorithmes nommée LVQ pour Learning Vector Quantization. Les règles
d’adaptation sont des versions supervisées des cartes topologiques.
Le perceptron
élémentaire La règle d’adaptation des poids s’effectue toujours sur les poids des
neurones appartenant au voisinage du gagnant, mais elle est modifiée :
Mémoires associatives
Le perceptron Δ W i = ± α G ( i , i0 ) ( X − W i )
Multi-couches (MLP)
MLP : optimisation On utilise le signe « + » lorsque le gagnant est de la même classe que
MLP : classification l’exemple présenté. Le signe « - » dans le cas contraire.

MLP : généralisation La méthode LVQ extrait d’un ensemble de vecteurs un noyau de


Auto-organisation représentants quasi optimaux.
- Apprentissage non
supervisé
Algorithme, méthode itérative:
- Chez les vertébrés
- Les cartes de Kohonen
– Initialisation aléatoire des centres (noyau)
- Algorithmes LVQ – Pour chaque vecteur x, trouver le centre c le plus proche
– Si c et x sont de la même classe, rappocher c de x, sinon,
éloigner c de x
– Quand les centres ne bougent plus STOP
Exemple

Le neurone biologique
1.2 1.2

Le neurone formel
1 1

Le perceptron 0.8 0.8

élémentaire 0.6 0.6

Mémoires associatives
0.4 0.4

Le perceptron
Multi-couches (MLP) 0.2 0.2

MLP : optimisation 0 0

MLP : classification -0.2


-0.2 0 0.2 0.4 0.6 0.8 1 1.2
-0.2
-0.2 0 0.2 0.4 0.6 0.8 1 1.2

MLP : généralisation 1.2 1.2

Auto-organisation 1 1

- Apprentissage non
supervisé 0.8 0.8

- Chez les vertébrés 0.6 0.6

- Les cartes de Kohonen


- Algorithmes LVQ 0.4 0.4

0.2 0.2

0 0

-0.2 -0.2
-0.2 0 0.2 0.4 0.6 0.8 1 1.2 -0.2 0 0.2 0.4 0.6 0.8 1 1.2
Exemple (2)
1.2

Le neurone biologique
1

Le neurone formel
0.8

Le perceptron
élémentaire 0.6

Mémoires associatives 0.4

Le perceptron 0.2

Multi-couches (MLP) 0

MLP : optimisation -0.2


-0.2 0 0.2 0.4 0.6 0.8 1 1.2

MLP : classification
MLP : généralisation
1ère itération et 17ème itération.
1.2

Auto-organisation
Le taux d’erreur passe de 14.2% à
- Apprentissage non
1

supervisé
5.2%
0.8

- Chez les vertébrés


0.6
- Les cartes de Kohonen
- Algorithmes LVQ 0.4

0.2

-0.2
-0.2 0 0.2 0.4 0.6 0.8 1 1.2
Exemple (3)

Le neurone biologique
1.2 1.2

Le neurone formel
1 1

Le perceptron
élémentaire
0.8 0.8

0.6 0.6

Mémoires associatives
0.4 0.4

Le perceptron
Multi-couches (MLP)
0.2 0.2

MLP : optimisation
0 0

-0 . 2 -0 . 2

MLP : classification -0 .2 0 0.2 0 .4 0.6 0 .8 1 1.2 -0 .2 0 0.2 0 .4 0.6 0 .8 1 1.2

MLP : généralisation
1 .2 1.2

Auto-organisation
1 1

- Apprentissage non 0 .8 0.8

supervisé 0 .6 0.6

- Chez les vertébrés 0 .4


0.4

- Les cartes de Kohonen


0.2

- Algorithmes LVQ
0 .2

0
0

-0.2
-0 .2 -0.2 0 0.2 0. 4 0 .6 0.8 1 1.2
-0 .2 0 0 .2 0.4 0 .6 0 .8 1 1 .2
Exemple (4)

Le neurone biologique 1.2

Le neurone formel 1

Le perceptron 0.8

élémentaire
0.6

Mémoires associatives
0.4

Le perceptron
Multi-couches (MLP) 0.2

MLP : optimisation 0

MLP : classification -0.2


0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

MLP : généralisation 1.2

Auto-organisation
- Apprentissage non Seulement 4 noyaux alors qu’il en 1

supervisé faudrait au moins 6: l’erreur ne descend 0.8

pas plus bas que 21%


- Chez les vertébrés 0.6

- Les cartes de Kohonen Un seul noyau représente tous les


- Algorithmes LVQ « rouges » 0.4

0.2

-0.2
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
Machines à
Vecteurs Supports
-SVM-

B. Gas - V 0.4 (2006)


PRC/ISIR/UPMC
Théorie de l’apprentissage numérique
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire • Machines à Vecteurs supports
Mémoires associatives
Le perceptron • Théorie de l’apprentissage (suite)
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation
Auto-organisation
Modèles LVQ
Machines SVM
Retour sur le perceptron
Le neurone biologique x1 ω1
Le neurone formel
x2
x3
Le perceptron y Formalisation vectorielle :
élémentaire ωi
Mémoires associatives ω N ω0 ⎛ ⎡ x0 ⎤ ⎞
⎜ ⎢x ⎥ ⎟
xN 1 ⎛ N ⎞
Le perceptron
y = sgn ⎜ ∑ ωi xi ⎟ = sgn ⎜ [ω0 , ω1 ,..., ω N ] ⎢ 1 ⎥ ⎟ = sgn (WX Τ )
Multi-couches (MLP) ⎝ i =0 ⎠ ⎜ ⎢... ⎥ ⎟
⎜⎜ ⎢ ⎥ ⎟⎟
MLP : optimisation ⎝ ⎢⎣ xN ⎦⎥ ⎠
MLP : classification WX Τ = 0
MLP : généralisation
Auto-organisation WX Τ > 0
Modèles LVQ
Machines SVM WX Τ < 0
Formulation du problème :
N
Soient deux ensembles C1 et C2 de vecteurs de
Trouver un vecteur W tel que :
⎧⎪ X ∈ C1 ⇒ WX Τ > 0 ⇒ y = +1
⎨ Τ
⎪⎩ X ∈ C2 ⇒ WX < 0 ⇒ y = −1
Machines à Vecteurs supports
Le neurone biologique L’idée à la base des machines SVM (Support Vectors Machines) est assez
Le neurone formel ancienne (Cover 1965). A cette époque, on savait que la résolution du
problème des classes non linéairement séparables passait par l’ajout de
Le perceptron
couches cachées au perceptron mais on ne savait pas estimer les
élémentaire
paramètres de ces réseaux.
Mémoires associatives
Le perceptron Plutôt que d’utiliser un réseau multicouches, réaliser une transformation
Multi-couches (MLP) de l’espace des entrées vers un espace de dimension plus grande dans
MLP : optimisation lequel le problème devient linéairement séparable.
MLP : classification
Espace des entrées Espace des caractéristiques
MLP : généralisation x1 ω
WX Τ = 0 ou espace des représentations
1

Auto-organisation
x2 ω2
y
Modèles LVQ Φ
Machines SVM
WX Τ < 0 WX Τ > 0
Fonction OU Exclusif

Non linéairement séparable en 2D


Linéairement séparable en 3D
Exemple : séparabilité quadratique
Le neurone biologique Des exemples que l’on ne peut séparer que par une fonction quadratique
Le neurone formel dans l’espace des caractéristiques quadratiques :
Le perceptron
élémentaire Φ : x → Φ (x) = ( x1 , x2 ,..., xN , x12 , x1 x2 , x1 x3 ,..., x1 xN ,..., xN2 )
Mémoires associatives
Le perceptron Les vecteurs de l’espace des caractéristiques
Multi-couches (MLP) ont N’=N+N(N+1)/2 composantes. Les N composantes de x plus
Les N(N+1)/2 produits de paires de composantes de x
MLP : optimisation
MLP : classification Deviennent linéairement séparables dans l’espace des caractéristiques.
MLP : généralisation
⎡ x1 ⎤
Auto-organisation ⎢x ⎥ perceptron
opérateur de
Modèles LVQ ⎡ x1 ⎤ ⎢ 2 ⎥
⎢x ⎥ transformation ⎢... ⎥
x1

Machines SVM ⎢ 2⎥ ⎢ ⎥
Φ
⎢... ⎥ ⎢ x N ⎥
⎢ ⎥ ⎢ xN +1 ⎥
xN '
⎢⎣ xN ⎥⎦ ⎢ ⎥ classes
⎢... ⎥
Espace des entrées ⎢⎢ x ⎥⎥
⎣ N' ⎦
Espace des caractéristiques
Les problèmes posés par les SVM
Le neurone biologique 1) Pour un problème de classification donné, il faut connaître les bons
Le neurone formel descripteurs pour décrire les données, c’est à dire trouver le bon opérateur Φ
Le perceptron Plus la dimension de l’espace de description est grande, plus la probabilité
élémentaire de trouver un hyperplan séparateur est élevée.
Mémoires associatives
2) Calculer des produits scalaires dans le nouvel espace peut vite devenir
Le perceptron impraticable du fait de sa grande dimension.
Multi-couches (MLP) Ex :
• Soit à classer des images de caractères de dimension 16 × 16.
MLP : optimisation • On suppose qu'il faut tenir compte des corrélations entre 5 pixels
MLP : classification quelconques au plus dans l'image.
MLP : généralisation • L'espace de redescription qui contient toutes les combinaisons de 5
pixels quelconques parmi 256 est alors de dimension de l'ordre de 1010 !
Auto-organisation
Modèles LVQ On peut éviter de calculer dans l’espace de redescription en utilisant des
fonctions appelées « fonctions noyau ».
Machines SVM
3) Pour les problèmes linéairement séparables, il existe en général une infinité
d’hyperplans séparateurs. Certains permettent une meilleur généralisation.
Lequel choisir et comment ?

L’hyperplan de « marge maximale »


est le plus robuste.
Géométrie de la classification
Retour sur le perceptron.
Le neurone biologique
Le neurone formel Définition : Pour un perceptron et un problème de classification de formes à N
hyperplan séparateur. dimensions, les points x H qui satisfont l'équation
Le perceptron
élémentaire ⎡ x0 ⎤
⎢x ⎥
Mémoires associatives ⎢ 1 ⎥
ω x = [ω0 , ω1 , ω2 ,...ω N ] ⎢ x2 ⎥ = 0
H

Le perceptron ⎢ ⎥
H ⎢... ⎥
Multi-couches (MLP) ⎢ xN ⎥
⎣ ⎦
MLP : optimisation appartiennent à l'hyperplan séparateur, normal au vecteur ω dans
MLP : classification l'espace des entrées élargi de dimension N + 1.
Dans l'espace élargi, l'hyperplan séparateur passe par l'origine.
MLP : généralisation
Auto-organisation Espace élargi
Si le problème est linéairement séparable, il
Modèles LVQ existe une infinité d’hyperplans qui classent
correctement les exemples :
Machines SVM
H

xH
ω

Espace élargi Espace dimension N Espace élargi


Marge maximale
Le neurone biologique Distance à l’hyperplan séparateur :
Le neurone formel Pour une entrée quelconque x, le perceptron attribue la classe + -1 selon :
Le perceptron ⎧ω x > 0 ⇒ s = +1

élémentaire ⎩ω x < 0 ⇒ s = −1
Mémoires associatives Dans les deux cas, le vecteur x se trouve à une distance d de l'hyperplan H et :
ω x ω, x
Le perceptron d = x cos(θ (ω , x)) = cos(θ (ω , x)) =
ω ω
Multi-couches (MLP)
où ω est la norme des poids
x
MLP : optimisation
MLP : classification
d
Définition : ω
MLP : généralisation La distance d à l’hyperplan séparateur de
l’exemple le plus proche s’appelle « la marge » θ (ω , x)
Auto-organisation H
Modèles LVQ
Définition :
Machines SVM L’hyperplan séparateur qui maximise la marge Aucun exemple
est appelé hyperplan de marge maximale Dans cette région

Le perceptron de marge maximale est le plus robuste par rapport aux


perturbations des entrées ou à une détérioration des poids.
Marge maximale détaillée
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire x Aucun exemple
Mémoires associatives Dans cette région
Le perceptron
Multi-couches (MLP) d
MLP : optimisation ω
MLP : classification
MLP : généralisation θ (ω , x ) H H'
Auto-organisation
Modèles LVQ
Machines SVM
Vecteurs supports
Hyperplan
Le neurone biologique optimal
Le neurone formel
Le perceptron
élémentaire V ( x) < −1
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation V ( x) > +1
1
ω
MLP : classification Vecteurs supports
MLP : généralisation V ( x) = +1
1
ω
Auto-organisation
Modèles LVQ
V ( x) = 0
Machines SVM Equation de l'hyperplan :

V ( x) = −1 ω , x H + ω0 = 0 ⇔ ∑ ωi xiH + ω0 = 0
i

Sortie du perceptron :
⎧+1 si V ( x) > 0
y=⎨ avec V ( x) = ω , x H + ω0
⎩−1 si V ( x) < 0
2
Marge maximale (après normalisation adéquate des poids) : d =
ω
Expression primale
Le neurone biologique La marge maximale s’obtient en minimisant la norme du vecteur poids :

Le neurone formel 2
maximiser d = revient à minimiser ω
Le perceptron ω
élémentaire
Le problème global d’optimisation (recherche de l’hyperplan optimal) est donc :
Mémoires associatives
Le perceptron ⎧ 1
⎪ Minimiser ω
2
Multi-couches (MLP)
⎨ 2
MLP : optimisation ⎪sous les contraintes : y kV ( x k ) ≥ 1 Formulation

«primale»
MLP : classification
MLP : généralisation
Sortie du perceptron Normalisation des poids
Auto-organisation pour l’exemple k pour une marge maximale d =
2
Modèles LVQ
ω

Machines SVM Dans l’espace des caractéristiques :

Problème quadratique en
⎧ 1
ω dimension N’ dans un
2
⎪ Minimiser
⎨ 2 domaine convexe (solution
( )
⎪sous les contraintes : y kV Φ ( x k ) ≥ 1

unique).

Intérêt supplémentaire
On obtient une machine SVM dite « à marge dure » des SVM
SVM : les contraintes
Le neurone biologique Aux qualités que l’on a déjà souligné des SVM :

Le neurone formel • adapté aux formes non linéairement séparables


Le perceptron • fonction objectif et contraintes strictement convexes
élémentaire • robustesse au bruit des exemples et aux variations des poids

Mémoires associatives Il convient d’en ajouter une :


Le perceptron
Multi-couches (MLP) La solution ne dépend pas de la dimension de l’espace d’entrée N, ni
du nombre K d’exemples de la base d’apprentissage, mais seulement du
MLP : optimisation nombre d’exemples caractéristiques : les « vecteurs supports », en nombre
MLP : classification beaucoup plus faible que K.
MLP : généralisation
Auto-organisation Les contraintes doivent être également prisent en compte :

Modèles LVQ • L’hyperplan optimal n’est pas forcément la solution qui généralise le mieux
Machines SVM (risque empirique et risque réel)
• Etant donné la grande dimension de l’espace des caractéristiques, on peu
même se demander si le risque empirique reste corrélé au risque réel
• La grande dimension de l’espace des caractéristiques rend impraticable
les calculs de minimisation quadratiques.
• Les exemples peuvent ne pas être linéairement séparés
SVM : expression duale
Le neurone biologique Il existe une transformation du problème d’optimisation dans une formulation
duale que l’on peut résoudre en pratique si la fonction à minimiser et ses
Le neurone formel
contraintes sont strictement convexes.
Le perceptron
élémentaire
Mémoires associatives Multiplicateurs de Lagrange
Le perceptron

( ( x ,ω ) )
Multi-couches (MLP) 1 K
(A) L(ω , ω0 , α ) = ω − ∑αk yk + ω0 − 1
2 k
MLP : optimisation 2 k =1
MLP : classification
MLP : généralisation Lagrangien Fonction à
y k (ω.x k + ω0 ) ≥ +1
minimiser Combinaison linéaire
Auto-organisation des contraintes :
Objectif :
Modèles LVQ
éviter la solution particulière :
Machines SVM
y k (ω.x k + ω0 ) ≥ 0 ⇔ ω = ω0 = 0
{
min max { L(ω , ω0 , α )}
ω α
}
∂L(ω , ω0 , α ) ∂L(ω , ω0 , α )
Point-selle du Lagrangien : = =0
∂ω ∂ω0
SVM : expression duale (suite)

( ( x ,ω ) )
K
1
Le neurone biologique (A) L(ω , ω0 , α ) = ω − ∑αk yk + ω0 − 1
2 k

Le neurone formel 2 k =1

Le perceptron
élémentaire ∂L(ω , ω0 , α ) K K
= 0 ⇔ ω − ∑αk y x = 0 ⇔ ω = ∑αk yk xk
k k

Mémoires associatives ∂ω k =1 k =1

Le perceptron
Multi-couches (MLP) ∂L(ω , ω0 , α ) K K
= 0 ⇔ −∑ α k y = 0 ⇔ ∑ α k y k = 0
k

MLP : optimisation ∂ω0 k =1 k =1

MLP : classification On remplace dans (A):


MLP : généralisation
⎛ k ⎛⎛ K ⎞ ⎞
2
1 K K

Auto-organisation L(ω , ω0 , α ) = ∑α k
k
y x k
− ∑ α k ⎜⎜ y ⎜ ⎜ ∑ α k ' y k ' x k ' ⎟ .x k + ω0 ⎟ − 1⎟⎟
Modèles LVQ
2 k =1 k =1 ⎝ ⎝ ⎝ k '=1 ⎠ ⎠ ⎠
Machines SVM K K
⎛ K ⎞ K
1 K K
+ ∑ α k − ∑ α k y k ⎜ ∑ α k ' y k ' x k ' ⎟ .x k − ∑ α k y k ω0
∑∑
2 k =1 k '=1
α kα k ' y k y k ' x k ,x k ' k =1 k =1 ⎝ k '=1 ⎠ k =1

K K K
+ ∑ α k − ∑∑ α kα k ' y k y k ' x k ,x k '
k =1 k =1 k '=1

K
1 K K
(B) L(ω , ω0 , α ) = ∑ α k − ∑∑ α kα k ' y y x ,x
k k' k k'

k =1 2 k =1 k '=1
forme duale du problème d’optimisation
Le neurone biologique Les variables primaires sont éliminées et l’on obtient la forme duale du
problème d’optimisation :
Le neurone formel
Le perceptron Trouver les multiplicateurs de Lagrange tels que :
élémentaire
Mémoires associatives ⎧ ⎧K 1 K K ⎫
Le perceptron ⎪max { L(ω , ω0 , α )} = max ⎨∑ α k − ∑∑ α kα k ' y k y k ' x k ,x k ' ⎬
Multi-couches (MLP) ⎪⎪
α α
⎩ k =1 2 k =1 k '=1 ⎭
⎨α k ≥ 0, i = 1,..., K
MLP : optimisation
⎪K
MLP : classification ⎪∑ α k y k = 0
⎪⎩ k =1
MLP : généralisation
Auto-organisation
Modèles LVQ L’hyperplan solution correspondant peut alors être écrit :

Machines SVM
⎛ K * k k⎞ K
V (x) = ω .x + ω = ⎜ ∑ α k y x ⎟ .x + ω0* =
* *
0 ∑α *
k y k x k , x + ω0*
⎝ k =1 ⎠ k =1

Le poids seuil ω0 est obtenu à partir de l'un quelconque Ne dépend plus de la dimension
de l’espace d’entrée mais du nombre
des vecteurs supports et de la contrainte correspondante :
d’exemples caractéristiques (les
( )
α k ⎡ y k ω * , x k + ω0 − 1⎤ = 0
⎣ ⎦
vecteurs supports).
Passage dans l’espace de redescription
Les vecteurs support sont exactement sur la marge, c’est à dire qu’ils
Le neurone biologique vérifient : K
V (x s ) = ∑ α k* y k x k , x s + ω0* = ±1
Le neurone formel
k =1
Le perceptron Après l’apprentissage, il suffit de ne conserver que les exemples de la
élémentaire base qui sont les vecteurs support et les coefficients associés. En effet,
l’équation de l’hyperplan ne dépend que des vecteurs supports et s’écrit :
Mémoires associatives S
Le perceptron V (x) = ∑ α s* y s x s , x + ω0* = 0
Multi-couches (MLP) s =1

MLP : optimisation La classe d’un exemple quelconque s’obtient donc par le calcul :

MLP : classification ⎧S * s s ⎫
y = sgn {V (x)} = sgn ⎨∑ α s y x , x + ω0* ⎬
MLP : généralisation ⎩ s =1 ⎭
Auto-organisation Il nous manque maintenant les bons descripteurs pour passer de l’espace
Modèles LVQ d’entrée à l’espace de description où le problème est sensé être linéairement
séparable.
Machines SVM
x = [ x1 , x2 ,..., xN ] → Φ ( x ) = ⎡⎣φ1 ( x ) , φ2 ( x ) ,..., φN ( x ) ,..., φN ' ( x ) ⎤⎦

La résolution de ce problème revient souvent dans la pratique à connaître déjà


la solution… On tient donc le raisonnement suivant :
Plus la dimension de l’espace de description est grande, plus la probabilité de
trouver un hyperplan séparateur est élevée. Choisir donc un espace de très grande
dimension, voire infinie (approche combinatoire).
Passage dans l’espace de redescription (2)
Le neurone biologique Le problème d’optimisation devient :
Le neurone formel ⎧ ⎧K ⎫
L(ω , ω0 , α )} = max ⎨∑ α k − ∑∑ α kα k ' y k y k ' Φ ( x k ) ,Φ ( x k ' ) ⎬
1 K K
⎪max {
Le perceptron α α
⎩ k =1 2 k =1 k '=1 ⎭
⎪⎪
élémentaire
⎨α k ≥ 0, i = 1,..., K
Mémoires associatives ⎪K
Le perceptron
⎪∑ α k y k = 0
⎪⎩ k =1
Multi-couches (MLP)
MLP : optimisation L’équation de l’hyperplan séparateur dévient également :
MLP : classification
V (Φ ( x )) = ∑ α s* y s Φ ( x s ) , Φ ( x ) + ω0* = 0
S
MLP : généralisation
s =1
Auto-organisation
La classe d’un exemple quelconque s’obtient par le calcul suivant :
Modèles LVQ
Machines SVM ⎧S * s ⎫
y = sgn {V (Φ ( x ))} = sgn ⎨∑ α s y Φ ( x s ) , Φ ( x ) + ω0* ⎬
⎩ s =1 ⎭

Resurgit ici le problème du calcul pratiquement impossible des produits


! scalaires de l’entrée transformée avec les vecteurs supports, surtout si l’on
est en dimension infinie…
Les fonctions noyau (kernel)
Le neurone biologique On peut dans certains cas s’arranger pour court-circuiter complètement
le calcul dans l’espace des représentations !
Le neurone formel
Le perceptron
Il existe des fonctions bilinéaires positives K ( x, y ) appelées fonctions noyau ,
élémentaire
faciles à calculer, et dont on peut montrer qu'elles correspondent à un produit
Mémoires associatives
scalaire Φ ( x ) , Φ ( y ) dans un espace de grande dimension.
Le perceptron
Multi-couches (MLP)
MLP : optimisation Exemple : avec le descripteur :

MLP : classification N = 2, N ' = 3 : Φ ( x ) = ( x12 , x22 , 2 x1 x2 )


MLP : généralisation Le produit scalaire de 2 vecteurs s’écrit :
Φ ( x ) , Φ ( y ) = ⎣⎡ x12 , x22 , 2 x1 x2 ⎦⎤ ⎣⎡ x12 , x22 , 2 x1 x2 ⎦⎤ = x14 + x24 + 2 x12 x22
T
Auto-organisation
Modèles LVQ
La fonction noyau polynomiale suivante permet d’obtenir le même résultat :
Machines SVM
([ x1, x2 ].[ x1, x2 ] ) = ( x12 + x22 ) = x14 + x24 + 2 x12 x22
2 2
K (x, y) = (x.y) =
2 T

Résultat généralisable aux espaces de dimension N avec K (x, y) = (x.y) N


Recherche de la fonction noyau
Connaissant l’opérateur K, on n’a plus besoin de mémoriser les poids w qui
Le neurone biologique peuvent avoir un très grand nombre de dimensions.
Le neurone formel
Comment déterminer quelle fonction noyau aisément calculable est associée
Le perceptron
élémentaire
? à un espace de description dont on pense qu’il peut être intéressant pour
trouver un séparateur linéaire des données ?
Mémoires associatives
Le perceptron On procède selon la démarche inverse : chercher des fonctions noyau dont on
Multi-couches (MLP) peut avoir la garantie a priori qu’elles correspondent à un produit scalaire dans
un certain espace de redescription, virtuel, jamais explicité.
MLP : optimisation
MLP : classification L’utilisateur doit procédé par essais et erreurs. Le choix de la fonction noyau
devient le seul paramètre à régler.
MLP : généralisation
Auto-organisation Le problème d’optimisation devient :
⎧ ⎧K k' ⎫
Modèles LVQ ⎪ αmax { L (ω , ω 0 , α )} = max ⎨ ∑ α k −
1 K K
∑∑ α k α k ' y k k'
y K ( x k
,x )⎬
⎪⎪
α
⎩ = 2 = = ⎭
Machines SVM
k 1 k 1 k ' 1

⎨α k ≥ 0, i = 1,..., K
⎪K L’équation de l’hyperplan séparateur :
⎪∑ α k y = 0
k

( )
S
⎪⎩ k =1

V (Φ ( x )) = α s* y s K x s , x + ω0* = 0
s =1
La classe d’un exemple quelconque :

⎧S * s ⎫
y = sgn {V (Φ ( x ))} = sgn ⎨∑ α s y K ( x s , x ) + ω0* ⎬
⎩ s =1 ⎭
Le noyau gaussien RBF
Un des opérateurs les plus utilisés est l’opérateur gaussien :
Le neurone biologique
( x − y )2

Le neurone formel K (x, y) = e σ2

Le perceptron
élémentaire Il est généralement appelé RBF (Radial Basis Function) et correspond à une
application dans un espace de caractéristiques de dimension infinie !
Mémoires associatives (l’écart type est défini a priori par l’utilisateur).
Le perceptron
Multi-couches (MLP)
MLP : optimisation La mise en œuvre de la méthode des SVM requiert l’accès à un système de
résolution de programmation quadratique.
MLP : classification
MLP : généralisation
Auto-organisation On remarque qu’avec les SVM, la dimension de l’espace des entrées augmente

Modèles LVQ ? considérablement (ce qui entraîne un risque empirique faible : on est confiant
dans l’existence d’une solution au problème) mais que dans le même temps,
Machines SVM le nombre d’exemples reste le même :

Les SVM Généralisent-ils correctement ?

On a montré que l’erreur de généralisation des SVM est bornée par le


rapport du nombre de vecteurs support sur le nombre total d’exemples
Apprentissage
Échantillon d’apprentissage :
Le neurone biologique données
Le neurone formel
Le perceptron { }
S K = z1 = ( x1 , y1 ) , z2 ,..., z K = ( x K , y K )
élémentaire
Mémoires associatives Nombre d’échantillons Étiquettes, labels,…

Le perceptron L’apprentissage vise à trouver une fonction hypothèse h : yˆ k = h ( x k )


Multi-couches (MLP)
MLP : optimisation
minimisant une fonction de perte L : L ( zk , h )
MLP : classification
MLP : généralisation Le risque empirique mesure l’erreur, ou perte, ou coût moyen, d’une hypothèse
Auto-organisation particulière sur un échantillon d’exemple donné :
Modèles LVQ 1 K

Machines SVM
Rˆ ( h, S K ) =
K
∑ L ( z , h)
k =1
k

Le risque réel est une mesure statistique de perte, l’espérance du coût,


définie sur un espace de donnée probabilisé :

R ( h ) = ∫ L ( z , h ) p ( z )dz

On ne peut pas mesurer le risque réel car la densité p(z) n’est pas connue
Apprentissage : l’induction
Le neurone biologique Le problème de l’induction est de trouver l’hypothèse h qui minimise le risque
Le neurone formel réel. Ne pouvant le mesurer, on se contente de mesurer le risque empirique.
Le perceptron Ce faisant, on induit que l’hypothèse trouvée, celle qui minimise le risque
élémentaire empirique, minimise également le risque réel.
Mémoires associatives
Comme ce n’est le plus souvent pas le cas, le problème de trouver h n’est
Le perceptron pas seulement un problème d’optimisation.
Multi-couches (MLP)
MLP : optimisation
MLP : classification Il existe une fonction f appartenant à une famille de fonctions F
MLP : généralisation réalisant l'association entre les entrées x et les étiquettes y.

Auto-organisation
On cherche une fonction hypothèse h, dans l'espace des fonctions H ,
Modèles LVQ
aussi proche que possible de f , la fonction cible.
Machines SVM

Il peut y avoir un bruit sur les étiquettes se traduisant par des étiquetages erronés.
Les erreurs d’apprentissage
Le neurone biologique
Le neurone formel Erreur d’estimation
Le perceptron (variance)
élémentaire
H
Erreur d’approximation
Mémoires associatives (biais)
Le perceptron
Multi-couches (MLP)
{hˆ} SK
F
MLP : optimisation h*
MLP : classification h •
MLP : généralisation

Auto-organisation
Modèles LVQ
Machines SVM • f


Erreur totale f + bruit
Erreur intrinsèque
Les erreurs d’apprentissage
Le neurone biologique
Le neurone formel Plus H est riche plus la variance
Le perceptron peut être importante. Le biais (inductif) est dû à
élémentaire
H
la différence entre F et H
Mémoires associatives
Le perceptron
Multi-couches (MLP)
{hˆ} SK
F
MLP : optimisation h*
MLP : classification ĥ •
MLP : généralisation

Auto-organisation
Modèles LVQ
Machines SVM • f


Erreur totale f + bruit
Cette erreur complique la recherche
de l’hypothèse optimale