Vous êtes sur la page 1sur 59

6/06/14

Apprentissage par réseaux de


neurones artificiels
Artificial Neural Networks Learning
Younès BENNANI
Professeur

EPAT'14 : École de Printemps sur l'Apprentissage arTificiel 2014


7-12 juin 2014 Carry-le-Rouet (France)

Plan du cours

•  Éléments de base (le neurone, architectures, paramètres)


•  Critères et algorithmes d'apprentissage
•  Réseaux de neurones artificiels supervisés
•  Réseaux de neurones artificiels non supervisés
•  Réseaux de neurones artificiels profonds
•  Propriétés et liens avec l’analyse factorielle
•  Conclusion

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 2

1

6/06/14

L’idée d’origine (~ 1940)

• Les organismes vivants, même assez primitifs (ex. insectes), réalisent des tâches
complexes de traitement de l’information :
• orientation
• communication
• comportement social
• ...

• La puissance de traitement de leur système nerveux vient


de l’interconnexion(ex. 1014 connexions chez l’homme)
• d’un grand nombre (ex. 1011 chez l’homme)
• d’unités de traitement simples et similaires : les neurones

• La motivation initiale était de faire du neuro-mimétisme


• toutefois, la vision des années 1940 était assez simpliste;
• la réalité biologique c’est avéré plus complexe depuis.

• En revanche, cette idée c’est avérée très féconde en mathématiques et en ingénierie

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 3

Le Neurone Formel

1943, Mc Culloch & Pitts

Un modèle et non une copie du neurone biologique


= un processeur élémentaire caractérisé par :

• signaux d’entrée x 0 , x1,K, x n


• poids des connexions w i 0 ,w i1,K,w i n
• fonction d’activation F(x,w)
€ x0
wj0

• état interne d’activation a = F(x,w) x1 w j1

€ €

• fonction de transition f (a) € F(x i ,w ji )


aj
f (a j )
sj

€ s = f (a)
• état de sortie M




wjn
€ xn




EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 4

2

6/06/14

Le Neurone Formel

Définition : Un neurone formel (artificiel) est une unité de traitement qui reçoit
des données en entrée, sous la forme d’un vecteur, et produit une sortie réelle.
Cette sortie est une fonction des entrées et des poids des connexions.

wj0
x0

x1 w j1

aj
€ F(x i ,w j i ) f (a j ) sj

M €
€ € €
wjn
xn

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 5

Poids et connexion

Définition : Une connexion entre deux unités i et j indique la


possibilité d'une relation physique entre ces deux unités.

wj0
x0

x1 w j1

aj
€ F ( x i, w j i ) f (a j ) sj

M €
€ € €
wjn
xn

Définition : La valeur numérique du poids associé à une


connexion entre deux unités reflète la force de la relation entre
ces deux unités. Si cette valeur est positive, la connexion est
dite excitatrice, sinon elle est dite inhibitrice. La convention
usuelle est de noter le poids de la connexion reliant le neurone
i au neurone j : wj i

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 6

3

6/06/14

Le Neurone Formel

Définition : Si l’on considère l’unité k, et que l’on appelle Amont(k) l’ensemble


des neurones dont les sorties servent d’entrées au neurone k, Aval(k) l’ensemble
des neurones qui utilisent comme entrée la sortie du neurone k.

E l’ensemble des neurones d’entrée, et S l’ensemble des neurones de sortie.


Alors, par définition on a : ∀ i ∈ E, Amont(i)=∅ et ∀ i ∈ S, Aval(i)= ∅.

k

Amont(k) Aval(k)

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 7

Le Neurone Produit Scalaire


wj0
x0 F(x,w) = w.x = ∑w ji xi
i ∈ Amont (j )

x1 w j1
€ €
n aj ⎛ ⎞
€ ∑w ji xi sj = ƒ⎜⎜ ∑ wj i xi ⎟⎟
⎝ i ∈ Amont (j ) ⎠
i= 0

M €

wjn €
xn

€ ex − e− x
ƒ( x ) =
ex + e− x

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 8

4

6/06/14

Le Neurone Distance
wj0
x0
2 2

w j1 F(x,w) = w − x = ∑( w ji − xi )
x1 i ∈ Amont (j )


n
2
aj € ⎛ 2 ⎞
∑ (w − xi ) sj = ƒ⎜⎜ ∑( wj i − xi ) ⎟⎟
€ i= 0
ji
⎝ i ∈ Amont (j ) ⎠

M € € €
wjn
xn

2 2 2
€ w − x = w − 2 w, x + x

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 9

Réseau Connexionniste / Réseau de neurones

Définition : Un réseau de neurones est un graphe valué orienté, constitué


d’un ensemble d’unités (ou automates), réalisant des calculs élémentaires,
structurées en couches successives capables d’échanger des informations
au moyen de connexions qui les relient.

x0
- Architecture massivement parallèles.
- Système basé sur la coopération de x1
plusieurs unités simples (neurones formels). y1
M
- Un réseau se caractérise par : M M yp
- son architecture
- les fonctions de ses éléments €
xn €
€ €
y = ψ (x,w)

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 10


5

6/06/14

Fonctions d’un réseau connexionniste

Le Mode Apprentissage :
Le réseau est modifié en fonction des exemples d ’apprentissage
On peut modifier :
- les poids de ses connexions
- son architecture
- les fonctions de transition des unités

Il existe essentiellement deux sortes d ’algorithmes d ’apprentissage :


- l’apprentissage supervisé
- l’apprentissage non supervisé

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 11

Apprentissage Supervisé
Sortie
entrée désirée

On se donne :
- N exemples étiquetés E N = {( x1,d1 ), ( x 2 ,d 2 ),K, ( x N ,d N )} x k ∈ ℜ n dk ∈ ℜp
- une architecture de réseau A
- des poids initiaux w0
Professeur


ψ (x,w) d Sortie
désirée

x y
Sortie
calculée
On cherche, au moyen de l’algorithme
*
d’apprentissage à trouver des poids w tels que :
k k
- les exemples sont reconnus : d = ψ (x ,w) €
- on obtient une bonne généralisation : d = ψ (x,w)
est une réponse raisonnable pour l’entrée x €

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 12

6

6/06/14

Apprentissage Non Supervisé

On se donne :
- N exemples non étiquetés E N = { x1, x 2 ,K, x N }
- une architecture de réseau A
- des poids initiaux w0

x ψ (x,w)

On cherche à trouver des poids w * tels que :


- les exemples sont correctement regroupés
- on obtient une bonne généralisation

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 13

Mode Reconnaissance

Le réseau est utilisé pour traiter des données


- les poids et l ’architecture du réseau sont fixés
- on lui présente un exemple x en entrée et le réseau
calcule une sortie y = ψ (x,w) qui dépend de l’architecture A et des
*
poids w appris.


La sortie peut être :
- l’étiquette de la classe (identité) Classement/Discrimination
- le N° du cluster Classification/Quantification
- la valeur à prévoir Prévision
- un vecteur du même type que l’entrée Codage/Compaction

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 14

7

6/06/14

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue


Classement
d
Rugby Ballet


Poids
Taille

x
EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 15

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue

Compression
x
x1 x2 x3
x1 x2 x3

décodage

codage

x1 x2 x3
x1 x2 x3

x
EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 16

8

6/06/14

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue

Régression

x t+1

x t-2 x t-1 xt

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 17

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue


Classification
Quantification

x x
x x
x x
x x x x x x

x x
x x x x
x x x Clustering x x x
x x x x x x
x x
x x

x x x x

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 18

9

6/06/14

Apprentissage à partir d’exemples

But :
• Construire un système qui explique des données
ou une relation pertinente liant ces données

• Estimer un modèle statistique qui a généré les données

Connaissances :
• Données
• Domaine

Démarche :
• Choisir un système possédant une bonne capacité de
généralisation
• Agir sur la complexité effective des modèles

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 19

Formalisme

La problématique de l’apprentissage se présente souvent comme la


minimisation d’une fonction de risque :

R(w) = ∫ L( z ,w) dp(z )


Z

Risque théorique Fonction de perte

L’erreur de généralisation (Loss function)


Où z , à valeur dans un espace Z (des conditions extérieures ou des exemples),
représente les observations d’une v.a. Z de distribution de probabilité p(z ) ,
fixe mais inconnue, et w les paramètres du réseau.

L’apprentissage revient à trouver les paramètres :


€ €
€ w * = arg min R(w)
€w

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 20

10

6/06/14

Formalisme

Le risque théorique n’est pas calculable, p(z) est inconnue.


N
Mais un échantillon E N = {z k }k=1d’exemples indépendants, tirés de p(z)
est connu.
En pratique, on ne peut pas minimiser
€ R(w), on utilise alors un
principe d’induction.
€ €
Le plus courant = minimisation du risque empirique (MRE) :

Risque empirique N
1
R˜ (w) = ∑ L( z k ,w )
(Erreur d ’apprentissage) N k=1

Choix :
€ w + = argmin R˜ (w)
w

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 21

Algorithmes d’Optimisation

∂ R˜ (w) R˜ (w + δw) − R˜ (w)


= lim
∂w δ w →0 δw

La règle d'adaptation :
€ Gradient stochastique
w(t + 1) = w(t) − ε(t)∇ w R˜ k (w)
R˜ k (w) = L( z y ,w )

⎛ ∂ R˜ k (w) ∂ R˜ k (w) ∂ R˜ k (w) ⎞


€ ∇ w R˜ k (w) = ⎜ ,K, ,K, ⎟
⎝ ∂ w1 ∂ wi ∂ w n ⎠

Gradient total €
N
1
w(t + 1) = w(t) − ε(t)∑ ∇ w R˜ k (w)
N k=1


EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 22

11

6/06/14

Systèmes d’Apprentissage Supervisé

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 23

Système d ’Apprentissage Supervisé

x Exemples d’apprentissage d
Entrée Sortie désirée

€ x0 €
x1
Sortie
Entrée
y1 +
-
calculée erreur
M y = ψ (x,w)
M yp

xn
€ Fonction
€ de coût
€ € Adaptation
des poids

Algorithme d ’apprentissage
(Méthode d ’optimisation)

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 24

12

6/06/14

Adaline : Adaptive Linear Element


Stanford, 1960, Bernard Widrow*

n
C’est un élément linéaire adaptatif : y = ∑ wi x i
i= 0 n

L ’unité x0, dont y = ψ (x,w) = w 0 + ∑ w i x i


l ’activation fixée à 1, est w0
dite unité de biais. x0 = 1 i=1
Elle permet d'introduire
les termes de biais dans
le réseau.
x1 €w 1

n n a
y = ∑ w i x i = w x cos φ
i= 0 ∑w x i i
y
i=0


⎪⎧ 1 si x > 0
M f (x) = ⎨
€ ⎪
wn ⎩−1 si x < 0
xn
* Widrow B., Hoff M.E. (1960) : « Adaptive switching circuits », IRE WESCON

Conv. Record, part 4, pp. 96-104.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 25

Adaline : Adaptive Linear Element


n
y = ψ (x,w) = w 0 + ∑ w i x i
i=1

y = ψ (x,w) = w 0 + w T x
x2

€ w0 + wT x = 0

w
x1

wT x w
l= =− 0
w w

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 26

13

6/06/14

Adaline : Adaptive Linear Element

x o x o
x o x o
o o
x o x o
o o
x o o x o o
x x
o o
x x
o o
x o x o
x x x x
o o
x x

Sans unité de biais Avec unité de biais

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 27

Adaline : Adaptive Linear Element

On peut l’utiliser en discrimination (classement) entre 2 classes :

ψ(x,w)< 0 x o ψ(x,w)> 0)
x o
xi x o o
o C1
x o o
x
o
x o
C2 x o
x x
o
x
⎧⎪> 0 si x ∈ C1 ψ(x,w)=0
ψ (x,w) = w0 + w T x ⎨
⎪< 0 si x ∈C
⎩ 2

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 28

14

6/06/14

Adaline : Adaptive Linear Element

k
( k k
)
Si l ’on appelle z = x ,d la forme prise en compte à l’itération k,
k
On définit le carré de l’erreur instantanée associée à la forme x ,d
k
( ) par :

k 2
R˜ Adaline
k
(w) = ( d k − wx )


Sortie désirée Sortie calculée : y


L’erreur quadratique globale ou (MSE) est définie comme la moyenne
observée des carrés des erreurs instantanées sur l’ensemble de toutes
les formes : N
1
R˜ Adaline (w) = ∑ R˜ Adaline
k
(w)
N k=1

Il existe plusieurs algorithmes d’apprentissage.


EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 29

Adaline : Adaptive Linear Element

Techniques de descente de gradient (la plus grande pente) :


supposons qu ’à l’instant t , les poids de l ’Adaline soient w( t )
k k
( )
et qu ’on présente la forme x ,d , alors les poids seront modifiés par :

w(t + 1) = w(t) − ε(t)∇ w R˜ Adaline


k
(w)

Le pas du gradient
Le gradient instantané

∂R˜ k
(w)
∇ w R˜ Adaline
k
(w) = Adaline
= −2( d k − wx k ) x k
∂w

Cette règle est appelée règle du gradient stochastique


ou règle de Widrow-Hoff
€ ou règle du delta de Widrow-Hoff
ou règle µ-LMS (Least Mean Square)

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 30

15

6/06/14

Adaline : Adaptive Linear Element

1- Tirer au hasard!w0

2- Présenter une forme! x k ,d k ( )


3- Déterminer la valeur de l’écart!

e k ( t ) = ( d k − wx k )

4- Calculer une approximation du gradient!

∇ w R˜ Adaline
k
(w) = −2e k ( t ) x k

! ( t)
5- Adapter les poids w
w(t + 1) = w(t) − ε(t)∇ w R˜ Adaline
k
(w)

Où ε (t ) est le pas du gradient.!

6- Répéter de 2 à 4 jusqu’à l’obtention d’une!


valeur€ acceptable de l’erreur !

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 31

Adaline : Exemples

Données : Table de vérité d ’une fonction booléenne de 2 variables

x 1 x 2
d

Fonction : ψ(x,w)= (x1 ou x2)
1
1
1

⎧⎛⎛1⎞ ⎞ ⎛⎛ 1 ⎞ ⎞ ⎛⎛ −1⎞ ⎞ ⎛⎛−1⎞ ⎞⎫
⎪⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟⎪
1
-1
1
E = ⎨⎜⎜ ⎟,1⎟; ⎜⎜ ⎟,1⎟; ⎜⎜ ⎟,1⎟; ⎜⎜ ⎟,−1⎟⎬
⎪⎜⎜1⎟ ⎟ ⎜⎜−1⎟ ⎟ ⎜⎜ 1 ⎟ ⎟ ⎜⎜−1⎟ ⎟⎪
⎩⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠⎭
-1
1
1

-1
-1
-1

Problème :
Trouver un Adaline capable d ’apprendre la table
de vérité d’une fonction booléenne de 2 variables

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 32

16

6/06/14

Adaline : Exemples

Fonction : ψ(x,w)= (x1 ou x2)


x2

x 1 x 2
d

1
1
1

1
-1
1

-1
1
1
x1
-1
-1
-1

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 33

Adaline : Exemples

E N = {( x1,d1 ), ( x 2 ,d 2 ),..., ( x N ,d N )}

€ x 0 x 1 x 2
d

x0 = 1
w0
1
1
1
1

1
1
-1
1
w1 n a
x1 ∑w x i i
y
i=0
1
-1
1
1

w2
1
-1
-1
-1
x2 ψ ( x,w) = x1 ∨ x2

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 34

17

6/06/14

Adaline : Exemples
w0
x0 = 1

w1 n a
x1 ∑w x i i
y
i=0
x2
w2
xn ψ ( x,w) = x1 ∨ x2

x1
w1 x1 + w2 x 2 + w0 = 0

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 35

Adaline : Exemples
w0
x0 = 1

w1 n a
x1 ∑w x i i
y
i=0
x2 w1 x1 + w2 x 2 + w0 = 0
w2
x2 ψ ( x,w) = x1 ∧ x2

x 0 x 1 x 2
d

1
1
1
1

x1
1
1
-1
-1

1
-1
1
-1

1
-1
-1
-1

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 36

18

6/06/14

Exercice à faire

⎧⎛⎛1⎞ ⎞ ⎛⎛ 1 ⎞ ⎞ ⎛⎛ 1 ⎞ ⎞ ⎛⎛ 1 ⎞ ⎞⎫


⎪⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟⎪
E = ⎨⎜⎜1⎟,−1⎟; ⎜⎜ 1 ⎟,1⎟; ⎜⎜−1⎟,1⎟; ⎜⎜ −1⎟,1⎟⎬
⎪⎜⎜1⎟ ⎟ ⎜⎜ −1⎟ ⎟ ⎜⎜ 1 ⎟ ⎟ ⎜⎜ −1⎟ ⎟⎪
⎩⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠⎭
0.3
x0

0.8 n a
x1 ∑w x y
€ i=0
i i

0.4
x2 ψ ( x,w) ⎪⎧ 1 si x > 0
f (x) = ⎨
⎪⎩−1 si x < 0
Représenter dans un repère orthogonal l’ensemble des échantillons.
Utiliser l ’algorithme Adaline pour adapter les poids du modèle (ε=0.1).
Donner l ’équation de l ’hyperplan séparant les deux classes.

Représenter l ’hyperplan dans le même repère orthogonal

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 37

Représentation graphique
⎧⎛⎛1⎞ ⎞ ⎛⎛ 1 ⎞ ⎞ ⎛⎛ 1 ⎞ ⎞ ⎛⎛ 1 ⎞ ⎞⎫
⎪⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟⎪
E = ⎨⎜⎜1⎟,−1⎟; ⎜⎜ 1 ⎟,1⎟; ⎜⎜−1⎟,1⎟; ⎜⎜ −1⎟,1⎟⎬
⎪⎜⎜1⎟ ⎟ ⎜⎜ −1⎟ ⎟ ⎜⎜ 1 ⎟ ⎟ ⎜⎜ −1⎟ ⎟⎪
⎩⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠⎭
x2

€ x0
0.3

0.8 n a
x1 ∑w x i i
y
i=0

x2
0.4
ψ ( x,w) x1

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 38

19

6/06/14

Adaptation des poids


⎧⎛ ⎛ 1⎞ ⎞ ⎛ ⎛ 1 ⎞ ⎞ ⎛ ⎛ 1 ⎞ ⎞ ⎛ ⎛ 1 ⎞ ⎞ ⎫
⎪ ⎪
D = ⎨⎜⎜ ⎜⎜ 1⎟⎟ ,−1⎟ ; ⎜ ⎜ 1 ⎟ ,1⎟ ;
⎜ ⎜ ⎟ ⎟
⎜ ⎜ −1⎟ ,1⎟ ;
⎜ ⎜ ⎟ ⎟
⎜ ⎜ −1⎟ ,1⎟ ⎬
⎜ ⎜ ⎟ ⎟
⎟
⎪⎩⎝ ⎝ 1⎠ ⎠ ⎝ ⎝ −1⎠ ⎠ ⎝ ⎝ 1 ⎠ ⎠ ⎝ ⎝ −1⎠ ⎠ ⎪⎭

⎛ w 0 (t + 1)⎞ ⎛ w 0 (t)⎞ ⎡ ⎛ x 0k ⎞⎤ ⎛ x 0k ⎞


⎜ ⎟ ⎜ ⎟ ⎢ ⎜ k ⎟⎥ ⎜ k ⎟
w
⎜ 1 (t + 1) w (t)
⎟ = ⎜ 1 ⎟ − 2 ε(t)⎢d k − ( w (t) w (t) K w (t))⎜ x1 ⎟⎥ ⎜ x1 ⎟
⎢ 0 1 n
⎜ M ⎟ ⎜ M ⎟ ⎜ M ⎟⎥ ⎜ M ⎟
⎜ ⎟ ⎜ ⎟ ⎢ ⎜ k ⎟⎥ ⎜ k ⎟
w
⎝ n (t + 1) w (t)
⎠ ⎝ n ⎠ ⎣ ⎝ x n ⎠⎦ ⎝ x n ⎠
0.3
x0

0.8 n a
x1 ∑w x i i
y ⎛ w 0 (t + 1)⎞ ⎛ 0.3⎞ ⎡ ⎛1⎞⎤ ⎛1⎞
i=0 € ⎜ ⎟ ⎜ ⎟ ⎢ ⎜ ⎟⎥ ⎜ ⎟
⎜ w1 (t + 1) = 0.8
⎟ ⎜ ⎟ − 2 × 0.1× ⎢−1− ( 0.3 0.8 0.4 ) × ⎜1⎟⎥ × ⎜1⎟
0.4 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎥ ⎜ ⎟
x2 ψ ( x,w) ⎝ w 2 (t + 1)⎠ ⎝ 0.4 ⎠ ⎢
⎣ ⎝1⎠⎦ ⎝1⎠

⎛ w 0 (t + 1)⎞ ⎛ 0.3⎞ ⎛ −0.5⎞ ⎛ w 0 (t + 1)⎞ ⎛ 0.8⎞


⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
€ ⎜ w1 (t + 1) ⎟ = ⎜ 0.8⎟ − ⎜ −0.5⎟ ⎜ w1 (t + 1) ⎟ = ⎜1.3⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ w 2 (t + 1)⎠ ⎝ 0.4 ⎠ ⎝ −0.5⎠ ⎝ w 2 (t + 1)⎠ ⎝ 0.9⎠

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 39
€ €

Évolution de l’apprentissage

x2
t =5
t=0 t = 10
t = 15

w1* x1 + w*2 x2 + w*0 = 0

x1

t = 20

0.8 x1 + 0.4 x2 + 0.3 = 0

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 40

20

6/06/14

Adaline : limites

ψ ( x,w) = x1 ⊕ x 2 = XOR(x1 , x2 )
x2

x 1
x0
1

x1
1

x2
1

d
-1

?

x2 1
1

€ -1
1

3
x 1
-1
1
1

4 x1
x 1
-1
-1
-1

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 41

Séparabilité linéaire
x2

« Deux classes d’objets, décrits dans un espace de dimension n,


sont dits « linéairement séparables » s’ils se trouvent de part et x1
d’autre d’un hyperplan dans l’espace des descripteurs»

A A

B
B

Linéairement séparable Non-linéairement séparable

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 42

21

6/06/14

Madaline : Multi-Adaptive Linear Element

Madaline = un ensemble d’Adalines parallèles

w 01
Adaline 1
z1
x0 w11 w 31
w 21
x1 Adaline 3 ψ ( x,w ) = y = x1 ⊕ x 2
z1 ∧ z2
w 02 Adaline 1 Adaline 2 Adaline 3
w12 w 32
x2 Adaline 2
z2 x0 x1 x2 d d d
w 22 €
1
x 1
1
1
-1
1
-1

2
x 1
1

€ -1
€1
€1
1

3
x 1
-1
1
1
1
1

4
x 1
-1
-1
1
-1
-1

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 43

Madaline : Multi-Adaptive Linear Element

ψ ( x,w ) = y = x1 ⊕ x 2
x2
w 01
Adaline 1
z1
x0 € w11 w 31
w 21
x1 Adaline 3
z1 ∧ z2
w 02
w12 w 32
x2 Adaline 2
z2 x1
w 22

Adaline 1

Adaline 2

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 44

22

6/06/14

Madaline : Multi-Adaptive Linear Element

z1
x0
x1 ⊕ x 2
x1

z1 ∧ z€
2
x2
z2

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 45

Madaline : Multi-Adaptive Linear Element

Adaline avec pré-traitement polynomial


x2
w0
x0

Id

w1
x1 w2 ψ ( x,w) = x1 ⊕ x 2
x2

w3 Adaline x1
x
w4
x2 Id

w5
x2

Ellipse de
séparation
2 2
w1 x1 + w x + w3 x1 x 2 + w4 x2 + w5 x 2 + w0 = 0
2 1

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 46

23

6/06/14

Perceptron
Rosenblatt F., 1957, 1962*

1957, Frank Rosenblatt


Le perceptron ne désigne pas un seul modèle
mais regroupe une importante famille
d ’algorithmes.

Le perceptron = machine adaptative employée


pour résoudre des problèmes de classement
(discrimination).

X
ψ ( x,w)
Perceptron

* Rosenblatt F. (1957) : « The perceptron: a perceiving and recognizing


automaton », Reports 85-460-1, Cornell Aeronautical Lab., Ithaca, N.Y.
* Rosenblatt F. (1962) : « Principles of Neurodynamics: perceptrons and theory
of brain mechanisms », Spartan Books, Washington.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 47

Perceptron
Rosenblatt F., 1957, 1962

la rétine R les cellules d'association la cellule de décision


n
qui reçoit les informations chaque cellule possède une fonction ⎛ ⎞
de l'extérieur de transition définie sur la rétine : ψ ( x,w) = f ⎜ w0 + ∑ wi ϕ i (x)
⎝ i =1 ⎠
ϕi ( x) : R → ℜ
⎧⎪ 1 si x ≥ 0
f (x) = ⎨

w0
⎩⎪−1 si x < 0
1

w1
ϕ1
ϕ2
n

X
∑ w ϕ (x)
i i
i=0 ψ ( x,w) = f (w Tϕ )


ϕn wn
w T = (w0 , w1 ,K , wn )
ϕ = (1, ϕ1 (x), ϕ 2 (x), K , ϕ n (x))

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 48

24

6/06/14

Perceptron
Cas de deux classes

Un perceptron peut être vu comme un classificateur à 2 classes :


C1 = {x ∈ R : ψ (x, w) = 1}
C2 = {x ∈ R : ψ (x, w) = −1}
x o ψ(x,w)=1
ψ(x,w)= -1 x o
xi x o o
o C1
x o o
x
o
x o
C2 x o
x x
o
x

⎧ 1 si x ∈C1
⎛ n
⎞ ⎪
ψ (x,w) = f ⎜ w0 + ∑ wi ϕ i (x) = ⎨
⎝ i =1 ⎠ ⎪
⎩−1 si x ∈C2

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 49

Perceptron
Cas de deux classes

( k k
)
Si l ’on appelle x ,d la forme prise en compte à l’itération k,
On définit le carré de l’erreur instantanée associée à la forme x k ,d k par : ( )
⎧ d k = 1 si x k ∈ C1 ⎧ w Tϕ k > 0 pour x k ∈C1
⎪ ⎪
⎨ € ⎨ ∀ x k , w T (ϕ k d k ) > 0
⎪ d k = −1 si x k ∈ C ⎪⎩w Tϕ k < 0 pour x k ∈C €
⎩ 2 2

ϕ k = (1, ϕ1 (x k ), ϕ 2 (x k ), K , ϕ n (x k ))
€ R˜ Perceptron
k
(w) = − w T (ϕ k d k )
€ L’erreur quadratique globale ou (MSE) est :
1 N k
R˜ Perceptron (w) = ∑ R˜ Perceptron (w) = − ∑ wT (ϕ k d k )
N k=1 €
{ k : x k mal classé }
Il existe plusieurs algorithmes d’apprentissage.


EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 50

25

6/06/14

Perceptron
Cas de deux classes

Techniques de descente de gradient (la plus grande pente) :


supposons qu ’à l’instant t , les poids du Perceptron soient w( t )
k k
et qu ’on présente la forme x ,d , alors les poids seront ( )
modifiés par :
w(t + 1) = w(t) − ε(t)∇ w R˜ Perceptron
k
(w)

Le pas du gradient
Le gradient instantané

∂R˜ k (w)
∇ w R˜ Perceptron
k
(w) = Perceptron = − ϕk dk
∂w

ϕ k = (1, ϕ1 (x k ), ϕ 2 (x k ), K , ϕ n (x k ))


Critère d'arrêt = taux de classement satisfaisant.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 51

Perceptron
Algorithme d ’apprentissage : cas de 2 classes
T
1- A t=0, tirer au hasard! w(0) = ( w0 (0), w1 (0), K , wn (0))
2- Présenter une forme! ( x ,d )
k k

k
3- Calculer la sortie du perceptron et la comparer à y!
⎛ n ⎞
f ⎜ w 0 + ∑ w iϕi (x)⎟ = f ( w T ϕ k )
€ ⎝ i=1 ⎠
4- ! Si xk est bien classé :!f w ϕ
T k k
( )=d
w(t + 1) = w(t)
! Si xk f wT ϕ k ≠ d k
est mal classé : ! ( )
€ € ⎛ w 0 (t + 1)⎞ ⎛ w 0 (t)⎞ ⎛ 1 ⎞
k k
w(t + 1) = w(t) + ε(t) ϕ d ⎜ ⎟ ⎜ ⎟ ⎜ k ⎟
⎜ w1 (t + 1) ⎟ = ⎜ w1 (t) ⎟ + ε(t) d k ⎜ ϕ1 (x ) ⎟
⎜ M ⎟ ⎜ M ⎟ ⎜ M ⎟
ϕ k = (1, ϕ1 (x k ), ϕ 2 (x k ), K , ϕ
€n (x ))
k
⎜ ⎟ ⎜ ⎟ ⎜ k ⎟
⎝ w n (t + 1)⎠ ⎝ w n (t)⎠ ⎝ϕ n (x )⎠
Où ε (t ) est le pas du gradient.!

5- Répéter de 2 à 4 jusqu’à l’obtention d’une!

valeur acceptable de l’erreur!

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 52

26

6/06/14

Exemple de Perceptron
Applet : http://lcn.epfl.ch/tutorial/french/perceptron/html/index.html

E N = {( x ,d ), ( x ,d ),..., ( x ,d
1 1 2 2 N N
)}
w0
1

€ w1
x0 x1 x2 d ϕ 1 ( x k ) = x1k n

∑ w ϕ (x)
x
1
1
1
1
1
xk w2 i=0
i i

2
ϕ 2 ( x k ) = x2k
x 1
1

€ -1
1

3
x 1
-1
1
1
x2
ψ ( x,w) = x1 ∨ x2
4
x 1
-1
-1
-1

x1

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 53

Perceptron
Cas de p classes : C1, C2, …, Cp

n
1
∑ w ϕ (x)1j j
j =0

1

w i0
n
2
ϕ1 ∑ w ϕ (x) 2j j
j =0

ϕ2 w i1
ψ ( x,w)

X
ϕn w in
n

∑ w ϕ (x)
j =0
i
ij j
Max

⎧
( ) si ∀ j ≠ i, wiTϕ > wTj ϕ où ϕ = (1,ϕ1 ( x ),ϕ 2 ( x ),K ,ϕ n ( x )) p
⎪ψ x,w = Ci
n

∑ w ϕ (x)pj j

⎨ ou n j =0
n
⎪ψ ( x,w) = Ci si ∀ j ≠ i, ∑w ϕ k > ∑ w j kϕ k
ik
⎩ k =1 k =1

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 54

27

6/06/14

Perceptron

Algorithme d ’apprentissage : cas de p classes

1- A t=0, tirer au hasard la matrice des poids!w(0)


k
2- Présenter une forme!x ∈ Ci
3- Calculer la sortie ψ ( x k ,w) du perceptron et la comparer à C
!i

ψ ( x ,w) = Cj
k
⇔ j = Arg max (wlT ϕ k )
l

4- ! Si xk est bien classé :!C j = Ci


w(t + 1) = w(t)
! Si xk est mal classé : C!j ≠ Ci
wi (t + 1) = wi (t) + ε (t) ϕ k
w j (t + 1) = w j (t) − ε (t) ϕ k
wl (t + 1) = wl (t) ∀ l ≠ i et l ≠ j
Où ε (t ) est le pas du gradient.!
5- Répéter de 2 à 4 jusqu’à l’obtention d’une!
valeur acceptable de l’erreur!

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 55

Perceptron et Adaline
Cas de 2 classes

Sortie
Professeur
calculée
Classe A
Perceptron

Classe B

Solution trouvée Erreur


Par le Perceptron

Sépartion qui minimise


Le nombre d ’erreur.
+

Sortie
Professeur
calculée
Adaline

Solution trouvée
Par l ’Adaline
Erreur +

Meilleure séparation robuste
entre les classes.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 56

28

6/06/14

Théorème de convergence du Perceptron

« Si un ensemble de formes est linéairement séparable, alors l’algorithme


d’apprentissage du Perceptron converge vers une solution correcte
en un nombre fini d’itération. »

Arbib M.A. (1987) : « Brains, Machines, and Mathematics »


Berlin, Springer-Verlag.

Rosenblatt F. (1962) : « Principles of Neurodynamics »


N.Y., Spartan.

Block H.D. (1962) : « The Perceptron: A Model for Brain Functioning »


Reviews of Modern Physics 34, 123-135.

Minsky M.L. & Papert S.A. (1969) : « Perceptrons »


Cambridge, MIT Press.

Diederich S. & Opper M. (1987) : « Learning of Correlated Patterns


Spin-Glass Networks by Local Learning Rules »
Physical Review letters 58, 949-952.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 57

Architecture multi-couches

Le « credit assignment problem »


On se donne un réseau en couches, et un ensemble d ’exemples composés
de paires entrées-sorties.
x0 W1
x1
W2

x M
d
xn

On ne connaît pas les sorties


Désirées des unités cachées !
€ Perceptron
Appliquer l ’algorithme
d ’apprentissage pour
On ne peut pas appliquer
déterminer W2
l ’algorithme d ’apprentissage
du Perceptron pour
déterminer W1

L ’algorithme de rétro-propagation du gradient apporte une solution d ’une


simplicité déroutante à ce problème.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 58

29

6/06/14

L’après pause connexionniste

Problèmes de contrôle
1963, Bryson A., Denham W., Dreyfuss S.,
“la rétro-propagation du gradient”

Les années 80, la portée exacte de l ’ouvrage de Minsky & Papert


sera correctement perçue.

La “redécouverte” de la “rétro-propagation du gradient”


1986, LeCun Y.
1986, Rumelhart D., Hinton G.E., Williams R.

Bryson A., Denham W., Dreyfuss S. (1963) : « Optimal Programming Problem With Ineduality Constraints. I: Necessary Conditions for Extremal Solutions »,
AIAA Journal, Vol. 1, pp. 25-44.

LeCun Y. (1986) : « Learning Processes in Asymmetric Threshold Network »


Disordered Systems and Biological Organizations, Les Houches, France, Springer, pp. 223-240.

Rumelhart D., Hinton G.E., Williams R. (1986) : « Learning Internal Representations by Error Propagation »
In Parallel Distributed Processing: exploring the microstructure of cognition, Vol I, Badford Books, Cambridge, MA, pp. 318-362, MIT Press.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 59

Perceptron Multi-Couche (PMC)


Multi-Layer Perceptron (MLP)

Architecture :
semblable à celle du Perceptron ou de Madaline Sortie
désirée
+ des couches de traitement intermédiaire
(couches cachées)
Entrée Cachée Sortie
d
- Couches externes :
x0
Entrée (e unités), x1
Sortie (s unités)
- Couches internes : x € y
Cachées (c unités) M Sortie
calculée

Notation : < e I c I s > exemple : < 6 I 4 I 2 > xn


E N = {(x1,d1 ), (x 2 ,d 2 ),K,(x N ,d N )} €
But : €
(1)
k k=1KN w w (2)

{x k → d }
EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 60

30

6/06/14

Perceptron Multi-Couche (PMC)


Multi-Layer Perceptron (MLP)

0
Notations :

E : l ’ensemble des unités d ’entrée 1 6

S : l ’ensemble des unités de sortie


2 7 10
Amont(k) : l ’ensemble des unités dont les sorties servent
d’entrées à l ’unité k 3 8 11
Aval(k) : l ’ensemble des unités qui utilisent comme entrée
la sortie de k 4 9

Par définition, on a : 5
∀ i ∈ E, Amont(i) = ∅
∀ i ∈ S, Aval(i) = ∅ Amont(7) = {0,1, 2,3, 4, 5} Aval(7) = {10,11}
Amont(2) = ∅ Aval(2) = {6, 7,8, 9}
Amont(11) = {6, 7,8, 9} Aval(11) = ∅

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 61

Perceptron Multi-Couche (PMC)


Multi-Layer Perceptron (MLP)

Couche
Couche
cachée
D’entrée

Couche
de sortie
biais (1) biais Z 0 = 1
x 0 =1
w 10
(1) € 1 z w10(2)
x1 € w11

€ y1
M
M € M M
€ €
M w (2)
p1 yp
M €M zm
w (1) w (2)
xn €m n pm
€ € €
€ €
€ € € €
€ €
EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 62

31

6/06/14

Perceptron Multi-Couche (PMC)


Multi-Layer Perceptron (MLP)
Sortie
désirée
L'activation de la jème cellule cachée est :
d
a j = w0(1)j + ∑w (1)
ij x i
i ∈ Amont( j) x0
La sortie de cette ième cellule cachée s'obtient par x1
une transformation non linéaire de l'activation :

z j = ƒ (a j ) x € y
De la même façon, l'activation et la sortie de la kième unité M Sortie
de sortie peuvent s'obtenir comme suit : calculée

ak = w(2)
(2) xn
0k + ∑w z
jk j
j ∈ Amont( k)

y k = ƒ( ak )
Si on combine le calcul des sorties des cellules cachées et celui
des cellules de sortie on obtient pour la kième sortie du réseau l'expression suivante :
⎛ ⎛ n ⎞⎞
€ y k = ƒ⎜⎜ w (2)
0k + ∑ w (2) ƒ⎜ w
jk ⎜ 0 j
(1)
+ ∑ w (1)
x ⎟⎟
ij i ⎟⎟
⎝ j ∈ Amont(k ) ⎝ i ∈ Amont( j ) ⎠⎠

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 63

Perceptron Multi-Couche (PMC)


Types de fonction ƒ

ex − e− x
ƒ( x ) = tanh( x) =
ex + e− x
ex − 1
ƒ( x ) =
ex + 1
1
ƒ( x ) = −x ƒʹ′( x ) = f (x)(1− f (x))
1+e
x
ƒ( x ) =
1€
+x

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 64

32

6/06/14

Perceptron Multi-Couche (PMC)


Types de fonction ƒ

ƒ( x ) 1
ƒ˜ ( x˜ ) = tanh( x˜ ) ≡ f (x) =
1+ e−x

ƒʹ′( x ) €
Transformations linéaires :


x
€ x˜ = et f˜ = 2. f −1
2

entrées
sorties

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 65

Surfaces de séparation et PMC

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 66

33

6/06/14

Perceptron Multi-Couche (PMC)


Critères d ’apprentissage

1 N k 2
Rmse (w) = ∑ (d − y k )
2 k=1

N
⎛ −1 ⎞ −1 1 N k T
Rmse− pondéré (w) = ∑⎜( d k − y k ) ∑ ( d k − y k )⎟ avec ∑ = ∑ ( d − y k )( d k − y k )
⎝ ⎠ N k=1
€ k=1

N n ⎡
dk 1− d pk ⎤
Rmultiple−log istic (w) = ∑ ∑⎢d pk log pk + (1− d pk ) log ⎥
k=1 p=1 ⎣
yp 1− y kp ⎦

N k
dk ey
Rlog−likelihood (w) = ∑ d k log avec pk = j
€ k=1 pk ∑ey
j

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 67

Perceptron Multi-Couche (PMC)


Règles d’adaptation

R(w) = ∫ L( z ,w) dp(z ) 1 N


R˜ (w) = ∑ L( z k ,w )
Z N k=1

w + = argmin R˜ (w)
w


z = (x,d) v.a. (X,D) p(x,d) = p(x) p(d / x)
n
k € 1 2
R˜ mlp (w) = ∑ ( y ik − dik )
2 i=1

⎛ ⎛ ⎛ ⎞⎞ ⎞ 2
1 n
R˜ (w) = €∑⎜ ƒ⎜⎜ w (2)
k
mlp m0 +
(1)
mj
(1) k ⎟
∑ w ƒ⎜⎜ w j 0 + ∑ w ji x i ⎟⎟⎟⎟ − dm ⎟
(2)

2 m=1⎜⎝ ⎝ j ∈ Amont(m ) ⎝ i ∈ Amont( j ) ⎠⎠ ⎠

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 68

34

6/06/14

Perceptron Multi-Couche (PMC)


Règles d’adaptation

⎛ ⎛ ⎛ ⎞⎞ ⎞ 2
1 n
R˜ mlp
k
(w) = ∑⎜ ƒ⎜⎜ w (2)
m0 + ∑ w(2) ⎜ (1)
mj ƒ⎜ w j 0 + ∑ w(1)ji x i ⎟⎟⎟⎟ − dmk ⎟⎟
2 m=1⎜⎝ ⎝ j ∈ Amont(m ) ⎝ i ∈ Amont( j ) ⎠⎠ ⎠


w ji (t +1) = w ji (t) − ε (t)∇ w ji R˜ mlp
k
(w)

ε grand
⎧ δ k = f ʹ′(a ) ( y k − d k ) si j ∈ Sortie
€ ⎪⎪ j j j j

∇ w ji R˜ (w) = δ si
k
mlp
k
j ⎨
⎪δ kj = f ʹ′(a j ) ∑ w hj δhk si i ∉ Sortie
⎪⎩ h ∈Aval( j )

ε petit €

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 69

Rétro-propagation du gradient

wi 0
x0
ai = ∑w ij xj
x1 wi 1 j ∈Amont( i )

ai yi
Propagation ∑
yi = f (ai )
M
wi n
xn

wi +1i
δi +1
M
wk i
δk

δi € M
Rétro-Propagation ∑
M
f ʹ′(ai )
k k

δ = f ʹ′( ai )
i ∑w δ hi h M
h∈Aval( i ) wm i €
δm

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 70

35

6/06/14

Perceptron Multi-Couche

Algorithme d ’apprentissage

1- Tirer au hasard!w0
k
2- Présentation d’une forme! x , y
k
( )
3- Calcul de l’état du réseau par propagation!
x j = ƒ( a j ) a j = w j0 + ∑w ji xi
4- calcul des signaux d ’erreur! i ∈ Amont( j )

⎧ δ k = f ʹ′(a ) ( y k − d k ) si j ∈ Sortie
⎪⎪ j j j j

€ ⎨
⎪δ kj = f ʹ′(a j )€ ∑ w hj δhk si i ∉ Sortie
⎪⎩ h ∈Aval( j )

5- Adaptation les poids !


w ji (t + 1) = w ji (t) − ε(t) δ kj si
Où ε (t ) est le pas du gradient.!
6- Répéter de 2 à 5 jusqu’à l’obtention d’une!
valeur acceptable de l’erreur !

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 71

Exemple de PMC (MLP)

⎧⎛⎛1⎞ ⎞ ⎛⎛ 1 ⎞ ⎞ ⎛⎛−1⎞ ⎞ ⎛⎛ −1⎞ ⎞⎫


⎪⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟ ⎜⎜ ⎟ ⎟⎪
D = ⎨⎜⎜ ⎟,−1⎟; ⎜⎜ ⎟,1⎟; ⎜⎜ ⎟,1⎟; ⎜⎜ ⎟,−1⎟⎬ x2 1.0 x1 + 1.0 x2 + 0.5 = 0
⎪⎜⎜1⎟ ⎟ ⎜⎜ −1⎟ ⎟ ⎜⎜ 1 ⎟ ⎟ ⎜⎜ −1⎟ ⎟⎪ x1 + x2 + 0.5 = 0
⎩⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠ ⎝⎝ ⎠ ⎠⎭
ψ ( x,w) = x1 ⊕ x 2
x1


1 0.5 x2

1 0.5
1.5
1.0 1.0 x1

1.0 −1.0
x2
1.0

1.0
x1
1.0 x1 + 1.0 x2 + 1.5 = 0
x1 + x2 + 1.5 = 0

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 72

36

6/06/14

Exemple de PMC (MLP)

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 73

Approximation universelle

Théorème [Hornik 1989*] :


Les PMC à trois couches avec des sorties linéaires, des cellules cachées saturantes
croissantes "en nombre suffisant" peuvent approcher avec une précision arbitraire
toute fonction bornée mesurable d'un espace de dimension finie dans un autre.
Un PMC est un approximateur universel.

Remarques :
– En théorie, il n’y aurait besoin d’aucune autre structure de réseau. Toutefois,
dans les applications, il peut s’avérer plus pratique d’utiliser plusieurs couches,
des sorties non linéaires, etc.

– C’est un théorème purement existentiel. Il ne dit pas comment déterminer


un nombre approprié de neurones dans la couche cachée et les valeurs des
poids pour approximer une fonction donnée avec une précision donnée !

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 74

37

6/06/14

Liens avec l’analyse factorielle


PMC & ACP * **

Un PMC auto-associatif avec des sorties linéaires, peut réaliser une transformation
de Karhunen-Loève.
Un PMC auto-associatif est équivalent à une Analyse en Composantes Principales.

Entrée Cachée Sortie Sortie Sortie


calculée désirée x2
u1
x1 u2
xˆ1 d1 = x1

M
M
M M ≡ x

€ M M
xn xˆn dn = x n
€ € € x1
Codage
€ Codeur Décodeur
€ €
* Bourlard H. & Kamp Y. (1988) : «Auto-association by multilayer perceptrons
and singular value decomposition» €
Biological Cybernetics, Vol. 59, pp. 291-294.
** Baldi P. & Hornik K. (1989) : «Neural networks and principal component analysis:
Learning from examples without local minima »
Neural Networks, Vol. 2, N° 1, pp. 53-58.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 75

Liens avec l’analyse factorielle


PMC & AD * : analyse et interprétation dans le cas non-linéaire

x1

M M M
M

xn €
€ €

* Bennani Y. (1992) : «Approches Connexionnistes pour la Modélisation et l ’Identification»


Thèse de Doctorat, LRI-Université Paris 11, Orsay.

* Gallinari P., Thiria S., Badran F., Fogelman-Soulie F. (1991) : « On the relations between discriminant analysis and multilayer perceptrons»
Neural Networks, Vol. 4, N° 3, pp. 349-360.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 76

38

6/06/14

Réseaux structurés
Connexions complètes

Sortie
désirée

Entrée Cachée Sortie


d
x1

x M
€ y
Sortie
M calculée
xn


EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 77

Réseaux structurés
Connexions complètes avec contexte [Elman*]

Sortie
désirée

Entrée Cachée Sortie


d
x1 (t)

M
€ y
M Sortie
calculée
xn (t)

€ c1 (t − 1)
Contexte M €
cm (t − 1)


* Elman J.L. (1990) : «Finding structure in time»
Cognitive Science, Vol. 14, pp. 179-212.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 78

39

6/06/14

Réseaux structurés
Connexions complètes avec contexte [Jordan*]

Sortie
désirée

Entrée Cachée Sortie


d
x1 (t)

M
€ y
M Sortie
calculée
xn (t)

€ y1 (t − 1)
Contexte
y p (t − 1) €

* Jordan M.I. (1992) : «Constrained supervised learning»


Journal of Mathematical Psychology, Vol. 36, pp. 396-425.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 79

Réseaux structurés
Connexions locales

L’utilisation de connexions locales diminue très fortement le nombre de poids


d’un réseau.
Entrée Cachée Sortie
Extracteurs de traits
Champ récepteur

⎡w1(1) w3(1) ⎤
⎣⎢w2 w4 ⎥⎦
(1) (1)
⎡w1(3) ⎤
⎢w2(3) ⎥
⎡w1(2) w3(2) ⎤ ⎢w (3) ⎥
3
⎢⎣w2(2) w(2) ⎥ ⎢w (3) ⎥
4 ⎦ ⎣ 4 ⎦

Des traits locaux

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 80

40

6/06/14

Réseaux structurés
Connexions contraintes ou à poids partagés

Une propriété intéressante du mécanisme de partage des poids


tient au nombre très faible de paramètres libres.
Entrée Cachée Sortie
Filtre de
convolution Extracteurs de traits
Champ récepteur

⎡w1(1) w3(1) ⎤
⎣⎢w2 w4 ⎥⎦
(1) (1)
⎡w1(5) ⎤
⎢w2(5) ⎥
⎡w1(1) w3(1) ⎤ ⎢w (5) ⎥
3
⎢⎣w2(1) w4(1) ⎥⎦ ⎢w (5) ⎥
⎣ 4 ⎦

⎡w1(3) w3(3) ⎤ Des traits locaux


⎢⎣w2(3) w4(3) ⎥⎦

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 81

Réseaux structurés
TDNN (Time Delay Neural Network)

Fréquence Filtre de
convolution Extracteurs de traits Sortie

n=2

⎡w1(1) w2(1) w3(1) w(1)


4 ⎤
d=1
⎣⎢w5 w6 w(1) ⎦⎥
(1) (1)
w7(1) 8

temps N=6
M=((N-n)/d)+1

[w
(5)
1 w(5)
2 3 ]
w(5)
(1) (1) (1) (1)
⎡w1 w2 w3 w4 ⎤
⎢ (1) (1)
w7(1) w8(1) ⎦⎥
⎣w5 w6

⎡w1
(2)
w2
(2)
w3
(2) (2)
w4 ⎤ ⎡w1(3) w2(3) w(3)
3 w(3)
4 ⎤ ⎡w1
(4) (4)
w2
(4)
w3
(4)
w4 ⎤
⎢w (2) w6(2) w(2) w(2) ⎥ ⎢⎣w (3) w (3) w(3) w(3) ⎥ ⎢ (4) w(4) w(4) w8(4) ⎥⎦
⎣ 5 7 8 ⎦ 5 6 7 8 ⎦ ⎣w5 6 7

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 82

41

6/06/14

Réseaux structurés
Synthèse de la parole [Sejnowski & Rosenberg*]

NETtalk : text to speech



/z/

T
h
i
s
i
s
t
h
e
i
n
p
u
t

* Sejnowski T.J. & Rosenberg C.R. (1987) :


«Parallel Networks that learn to pronounce English text»
Complex systems, Vol 1, pp. 145-168.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 83

Réseaux structurés
Reconnaissance de la parole [Alex Waibel*]

* Waibel A., Hanazawa T., Hinton G., Shikano K., Lang K. (1987) :
«Phoneme recognition using Time-Delay Neural Networks»
Tech. Rep. ATR, TR-1-006.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 84

42

6/06/14

Réseaux structurés : Réseaux à convolution


LeNet pour la reconnaissance de chiffres
[Yann LeCun*]

* Le Cun Y., Boser B., Denker J.S., Henderson D., Howard R.E., Hubbard W.,
Jackel L.D. (1989) : «Back-propagation applied to handwritten zip code recognition»
Neural Computation, Vol. 1, pp. 541-551.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 85

Réseaux structurés
LeNet pour la reconnaissance de chiffres
[Yann LeCun*]

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 86

43

6/06/14

Réseaux structurés
reconnaissance de la position du visage

Left Straight Right Up


Output Layer Weights (including w0 = θ) after 1 Epoch

Hidden Layer Weights after 25 Epochs

30 x 32 Inputs

Hidden Layer Weights after 1 Epoch

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 87

Réseaux structurés
reconnaissance d’expressions faciales

210 images (246x256 : TIFF)


10 femmes japonaises
6 expressions + 1 position neutre

D’après Beat, 2002


EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 88

44

6/06/14

Réseaux structurés
identification de visages

D’après Beat, 2002


EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 89

Systèmes d’Apprentissage Non Supervisé

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 90

45

6/06/14

Classification non supervisée « Clustering »

Objectif :
Définir sur un ensemble d’objets 2 à 2 comparables (ou une matrice de (dis)similarités), une
partition (en groupes disjoints et complémentaires) qui respecte au mieux les ressemblances
entre objets.
La ressemblance de 2 objets est grande lorsqu’ils figurent dans le même groupe et petite dans le cas contraire.

Centre/prototype/référent
Cluster

x
x
x

Classification
x
x

« Clustering »
x
x

x

x

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 91

Supervisée vs Non-Supervisé

Supervisé Non supervisé


Coût : Erreur de classification Inertie, …
Données : Etiquetées X N = {( x1,d1 ), ( x 2 ,d 2 ),K, ( x N ,d N )} Non étiquetées X = { x , x ,K, x }
N
1 2 N

Objectif : Prédiction Exploration


€ €
# Classes : Connu Inconnu
Généralisation : Perf. Nlles données Qualité sur les mêmes données
Théorie : Mature Jeune, très active

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 92

46

6/06/14

Classification Non-Supervisée
Domaines d’applications

Outil très utilisé en analyse exploratoire de données


dans de nombreux domaines d’applications :
• Sciences sociales
• Biologie
• Médecine
• Astronomie
• Diagnostic
• Images
• Marketing
• Web mining
• Texte mining
• Graphe mining
• Data mining
• …

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 93

SOM : Self Organizing Map


Cartes auto-organisatrices/Cartes topologiques/Cartes de Kohonen

Développé par Kohonen, à partir des travaux de Willshaw & Von Der Malsburg

Cherche à transformer des signaux de dimension quelconque,


en signaux à une ou deux dimensions.

Projeter les données initiales sur un espace discret et régulier de


faible dimension.

Les espaces utilisés sont des treillis réguliers dont chacun des
nœuds est occupé par un automate + notion de voisinage entre
automates.

On a, dans ces cartes, la propriété suivante :


des données similaires auront des projections proches sur la carte.

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 94

47

6/06/14

SOM : Self Organizing Map


Architecture du réseau
Carte topologique
Voisinage
du neurone b à t+1

b
Voisinage
du neurone b à t ⎛ w1b ⎞
⎜ b ⎟
⎜ w 2 ⎟
⎜ M ⎟
⎜ b ⎟
⎝ w n ⎠
wb Référent associé
au neurone b

x1 x2 L € xn

Couche d’entrée

€ €

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 95

SOM : Self Organizing Map


Types de voisinage
r = (k,m) et s = (i, j)
Distance de Manhattan :
δ (r,s) = i − k + j − m

t+1

Voisinage Rectangulaire
t
Voisinage Hexagonal

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 96

48

6/06/14

SOM : Self Organizing Map


Fonction de voisinage
δ2
θ 1 −θ 2 (t )
Κ (δ ) = e
θ (t)
Κθ(δ)

t
⎛ θ ⎞ N iter −1
θ (t) = θ i ⎜ f ⎟
€ ⎝ θ i ⎠
θ(t0)

r = (k,m) et s = (i, j)
θ(t0+1)

€ δ (r,s) = i − k + j − m

θ(t0+2)

δ(r,s)

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 97

SOM : Self Organizing Map


Formulation

Minimiser la fonction de coût : Fonction d’affectation :


r r r 2
N K
r r r 2
χ ( x i ) = argmin x i − w c
RSOM (w, χ ) = ∑ ∑ Κ (δ (c, χ ( x i )) x i − wc
θ 1≤c≤K

i=1 c=1

Fonction de voisinage :
Calcul des gradients : 1 −θ 2 (t )
δ2
€ Κθ (δ ) = e
€ ∂RSOM θ (t)
∇ wr (RSOM ) = r
∂w
Distance entre unités :
Règle d’adaptation : € r = (k,m) et s = (i, j)
r r
w tj = w t−1 t
j − ε ∇ w (RSOM )
r
δ (r,s) = i − k + j − m

r t r t−1 t θ r r r
w j = w j − ε Κ (δ ( j, χ ( x i ))( w t−1
j − xi ) Température :
t
⎛ θ ⎞ N iter −1
€ θ (t) = θ i ⎜ f ⎟
⎝ θ i ⎠

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 98

49

6/06/14

SOM : Self Organizing Map


Algorithme d’apprentissage
d’initialisation!

1. Initialisation :!
Phase!

t=0
r r r
w 0 = {w10 , w 20 ,K, w K0 } wr i ∈ ℜ n
r
2. Présenter un exemple x d’apprentissage!
d’adaptation! de compétition!

3. Déterminer le gagnant : !
Phase!

€ € r r r 2
€ χ ( x i ) = argmin x i − w c
1≤c≤K
4. Adapter les prototypes :!
Κθ (δ ) r r r r t−1 r
j − ε Κ (δ ( j, χ ( x i ))( w j − x i )
w tj = w t−1 t θ
Phase!

t
€ Κθ (δ ) =
δ2
1 −θ 2 (t )
e
t
⎛ θ ⎞ N iter −1 ⎛ ε ⎞ N iter −1
ε(t) = εi ⎜ f ⎟
€ θ (t) = θ i ⎜ f ⎟
θ t (t) ⎝ θ i ⎠ ⎝ εi ⎠
δ (r,s)
5. Incrémenter le nombre d’itération :! θ i = 2, θ f = 0.5
€ € € t = t + 1€ εi = 0.5, ε f = 0.005
6. Test d’arrêt
€ : si t < N iter aller en 2.! N iter = 10000

O(tkN), avec N le nombre d’objets,


t le nombre d’itérations et en général t et k << N
EPAT’14, Carry-Le-Rouet 7-12 juin 2014

Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 99

SOM : Self Organizing Map

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 100

50

6/06/14

SOM : Self Organizing Map


Phase d’auto-organisation

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 101

SOM : Self Organizing Map

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 102

51

6/06/14

Apprentissage Non-Supervisé
SOM : Self Organizing Map : Iris

2.5

1.5

0.5

-0.5

-1

-1.5

-2

-2.5
-3 -2 -1 0 1 2 3

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 103

Apprentissage Non-Supervisé
SOM : Self Organizing Map : Iris

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 104

52

6/06/14

Systèmes d’Apprentissage profond

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 105

Deep Learning (Travaux pionniers)


  Fukushima (1980) – Neo-Cognitron

  LeCun (1998) – Convolutional Neural Networks

  Many layered MLP with backpropagation


  Tried early but without much success

  Lent

  Diffusion du gradient

  Présentation du deep networks avec apprentissage


non supervisé

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 106

53

6/06/14

Convolutional Neural Networks

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 107

Apprentissage des Deep Networks

  Construire un espace de représentation (feature


space)

  Notez que c'est ce que nous faisons avec les noyaux


SVM, ou les couches cachées dans MLP, etc, mais
maintenant, nous allons construire l'espace de
représentation en utilisant les architectures profondes.

  Apprentissage non supervisé entre les couches peut


décomposer le problème en sous-problèmes distribués
(avec des niveaux d'abstraction plus élevés) à être
encore décomposé à des couches successives

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 108

54

6/06/14

Le défi d’entraîner des réseaux de neurones


profonds
  Difficultés d'apprentissage supervisé des réseaux profonds

  Les premières couches du MLP ne sont pas bien apprises

  Diffusion du Gradient - erreur s'atténue à mesure qu’elle se propage aux


couches précédentes : le gradient se propage « mal » de la sortie vers l’entrée.
  Conduit à un apprentissage très lent.
  Plus le réseau est profond plus le degré de non-linéarité du réseau augmente,
ce qui augmenterait les chances de trouver ces obstacles à l’optimisation.
  Les couches inférieures restent avec des transformations pas très utiles de
l’entrée.
  Besoin d'un moyen pour aider les premières couches à faire un travail efficace
  Souvent pas suffisamment de données étiquetées disponibles
  Pouvons-nous utiliser des approches non supervisées / semi-supervisées pour
profiter des données non étiquetées

  Réseaux profonds ont tendance à avoir des problèmes de minima


locaux plus que les réseaux peu profonds pendant l’apprentissage
supervisé

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 109

Auto-Encoders

  Un type d'apprentissage non supervisé qui tente de découvrir les caractéristiques


génériques des données
  Apprendre la fonction identité par apprentissage des sous-caractéristiques importantes des
données
  Compression, etc
  Peut utiliser seulement les nouvelles caractéristiques dans la nouvelle série de
d’apprentissage ou concaténer les deux

les nouvelles
caractéristiques

110
EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13)

55

6/06/14

Stacked Auto-Encoders

  Bengio (2007)
Empilez nombreux auto-encodeurs en succession
Déposer la couche de sortie de décodage à chaque fois

111
EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13)

Stacked Auto-Encoders

112
EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13)

56

6/06/14

Un exemple : Deep Face

113
EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13)

Deep Learning

114
EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13)

57

6/06/14

Conclusion
• Aujourd’hui, on observe un retour en force des réseaux de neurones artificiels
avec des résultats impressionnants.

• Les réseaux de neurones artificiels (RN) forment un ensemble de techniques


• matures
• efficaces
• avec une base théorique solide
• largement utilisées dans de nombreux domaines
• Médecine (diagnostic, prothèses, conseils d’urgence)
• Prospection minière et pétrolière
• Reconnaissance vocale, écriture manuscrite
• Télécommunication (compression des données)
• Finance (estimation immobilier, détection fausses
déclarations, prédiction des cours)
• Industrie (mesure, prédiction contrôle)
• Transports (pilotage automatique, détection de risques, détection de
pannes)

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 115

De quoi n’a-t-on pas parlé ?

• Réseaux de neurones récurrents

• Autres modèles supervisés et non supervisés (LVQ, RBF, ART, …)

• Architectures hybrides, modulaires

• Analyse du comportement (Dilemme Biais-Variance, VC-dim, …)

• Problème de la généralisation

• Ajustement de la capacité de généralisation


• Régularisation Formelle
• Régularisation Structurelle
• …

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 116

58

6/06/14

Bibliographie
• Neural Networks for Pattern Recognition
Christopher M. Bishop
Clarendon Press - Oxford (1995)

• Neural Smithing
Supervised Learning in Feedforward Artificial Neural Networks
Russell D. Reed & Robert J. Marks
Massachusetts Institute of Technology Press (1999)

• Pattern Recognition and Neural Networks


B.D. Ripley
Cambridge University Press (1996)

• Neural Networks
James A. Freeman & David M. Skapura
Addison-Wesley Publishing Compagny (1991)

• Apprentissage Connexionniste
Younès Bennani • Adaptive Pattern Recognition and Neural Networks
Editions Hermès Science (2006)
Yoh-Han Pao
ISBN: 2-7462-1337-0. (100 €)
Addison-Wesley Publishing Compagny (1989)

• Réseaux de neurones
G. Drefus, JM Martinez, M. Samuelides, MB Gordon, F. • Neural Networks in Computer Intelligence
Badran, S. Thiria, L. Hérault LiMin Fu
Editions Eyrolles(2002) ISBN: 2-212-11019-7. (50 €)
Massachusetts Institute of Technology Press (1994)

EPAT’14, Carry-Le-Rouet 7-12 juin 2014 Apprentissage par réseaux de neurones artificiels / Younès Bennani (LIPN-Univ. Paris 13) 117

59