Reseaux de Neurones: Perceptron

Application du réseaux de neurones à
l’apprentissage supervisé
Ricco RAKOTOMALALA
Equipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 1
Métaphore biologique
Fonctionnement du cerveau
Transmission de l’information et apprentissage
Idées maîtresses à retenir
• Réception d’une information (signal)

• Activation + Traitement (simple) par un neurone
• Transmission aux autres neurones (si seuil franchi)
• A la longue : renforcement de certains liens APPRENTISSAGE
Laboratoire ERIC 2
Modèle de Mc Colluch et Pitts Problème à deux classes (positif et négatif)
Le perceptron Simple
Y ∈ {1 (+ ),0 (−)}
Couche d’entrée Couche de sortie
Fonction de transfert
Biais X0=1 Fonction à seuil -- Fonction de Heaviside
a0
X1
a1 1
Entrées X2 0
Descripteurs a2
d(X )
−∞ +∞
a3
X3
Modèle de prédiction et règle d’affectation

Poids synaptiques
d ( X ) = a0 + a1 x1 + a2 x2 + a3 x3
Si d ( X ) > 0 Alors Y = 1 Sinon Y = 0
Le perceptron simple est un modèle de prédiction linéaire

Laboratoire ERIC 3
Apprentissage du perceptron simple
X0=1 Comment calculer les poids

a0 synaptiques à partir d’un
X1 fichier de données
a1
(Y ; X1, X2, X3)
X2
a2
a3 Faire le parallèle avec la régression et les moindres carrés
Un réseau de neurones peut être utilisé pour la régression
X3
(fonction de transfert avec une sortie linéaire)
(1) Quel critère optimiser ? (1) Minimiser l’erreur de prédiction

(2) Comment procéder à (2) Principe de l’incrémentalité
l’optimisation ?

Laboratoire ERIC 4
Exemple – Apprentissage de la fonction AND (ET logique)
Exemple révélateur – Les premières applications proviennent de l’informatique
1.5
1.3
X1 X2 Y 1.1
0.9
1
0 0 0 0.7
0.5
0 1 0
0.3
1 0 0 0.1
-0.1
1 1 1 -0.3
-0.5
-0.5 0 0.5 1 1.5
Données
Représentation dans le plan
Principales étapes :
1. Mélanger aléatoirement les observations

2. Initialiser aléatoirement les poids synaptiques
3. Faire passer les observations unes à unes
• Calculer l’erreur de prédiction pour l’observation
• Mettre à jour les poids synaptiques
4. Jusqu’à convergence du processus
Une observation peut passer plusieurs fois !

Laboratoire ERIC 5
Exemple AND (1)
Initialisation aléatoire des poids : a0 = 0.1; a1 = 0.2; a2 = 0.05
Règle de mise à jour des poids

Frontière : Pour chaque individu que l’on fait passer
0 .1 + 0 .2 x1 + 0 .05 x 2 = 0 ⇔ x 2 = − 4 .0 x1 − 2 .0 (Principe de l’incrémentalité)
a j ← a j + ∆a j
6
Force du signal
2
avec
0
1
∆a j = η ( y − yˆ )x j
-0.5 0 0.5 1 1.5
Erreur
-2
Détermine s’il
faut réagir ou
-4 Constante d’apprentissage non
Détermine l’amplitude de l’apprentissage
-6
Quelle est la bonne valeur ?
Trop petit lenteur de convergence
Trop grand oscillation
En général autour de 0.05 ~ 0.15 (0.1 dans notre exemple)

Laboratoire ERIC 6
Exemple AND (2)
Observation à traiter Appliquer le modèle Màj des poids
 x0 = 1  ∆a0 = 0.1 × (− 1)× 1 = −0.1


0.1×1+ 0.2× 0 + 0.05× 0 = 0.1
 ∆a1 = 0.1 × (− 1)× 0 = 0
x = 0
 1
 ⇒ yˆ = 1  ∆a = 0.1 × (− 1) × 0 = 0
 x2 = 0  2
 y = 0
Nouvelle frontière : 0.0 + 0.2 x1 + 0.05 x 2 = 0 ⇔ x 2 = −4 .0 x1 + 0.0
1
0
-0.5 0 0.5 1 1.5
-2
-4
-6

Laboratoire ERIC 7
Exemple AND (3)
 x0 = 1  ∆a0 = 0.1 × (− 1)× 1 = −0.1


0.0×1+ 0.2×1+ 0.05× 0 = 0.2
 ∆a1 = 0.1 × (− 1)× 1 = −0.1
x = 1
 1
 ⇒ yˆ = 1  ∆a = 0.1 × (− 1) × 0 = 0
 x2 = 0  2
 y = 0
Nouvelle frontière : − 0.1 + 0 .1x1 + 0.05 x2 = 0 ⇔ x 2 = − 2.0 x1 + 2.0
1
0
-0.5 0 0.5 1 1.5
-2
-4
-6

Laboratoire ERIC 8
Exemple AND (4) – Définir la convergence
 x0 = 1  ∆a0 = 0.1 × (0 )× 1 = 0

− 0.1×1+ 0.1× 0 + 0.05×1 = −0.05
 ∆a1 = 0.1 × (0 ) × 0 = 0
x = 0
 1
 ⇒ yˆ = 0  ∆a = 0.1 × (0 ) × 1 = 0
 x2 = 1  2
 y = 0
Pas de correction ici ? Pourquoi ?
Voir sa position dans le plan !
Nouvelle frontière : − 0.1 + 0.1x1 + 0.05 x 2 = 0 ⇔ x 2 = −2.0 x1 + 2.0
4
Remarque : Que se passe-t-il si on repasse l’individu (x1=1 ; x2=0) ?
1 Convergence ?
0
-0.5 0 0.5 1 1.5
(1) Plus aucune correction effectuée en passant tout le
-2
monde
(2) L’erreur globale ne diminue plus « significativement »
-4
(3) Les poids sont stables
(4) On fixe un nombre maximum d’itérations
-6
(5) On fixe une erreur minimale à atteindre

Laboratoire ERIC 9
Évaluation de P(Y/X) – Fonction de transfert sigmoïde
Le Perceptron propose un classement Y/X

Dans certains cas, nous avons besoin de la probabilité P(Y/X) ex. Scoring
Fonction de transfert Fonction de transfert

Fonction à seuil -- Fonction de Heaviside Fonction sigmoïde – Fonction logistique
1 1
0
0
d(X )
−∞ +∞ d(X )
−∞ +∞
1
g (v ) =
1 + e −v
v = d(X )
La régle de décision devient : Si g(v) > 0.5 Alors Y=1 Sinon Y=0

Laboratoire ERIC 10
Conséquences d’une fonction de transfert continue et dérivable
Modification du critère à optimiser
X0=1
a0
X1 Sortie du réseau
a1 yˆ = g (v) = f [d ( x)]
X2
a2
a3
X3
Critère à optimiser : critère des moindres carrés

2
E =
1
∑ ( y (ω ) − yˆ (ω ) )
2 ω ∈Ω
Mais toujours fidèle au principe d’incrémentalité,

l’optimisation est basé sur la descente du gradient !
Laboratoire ERIC 11
Descente du gradient
Fonction de transfert g ' (v) = g (v)(1 − g (v))

sigmoïde dérivable
∂E
Optimisation : dérivation de la = −∑ [ y (ω ) − yˆ (ω )] × g '[v(ω )] × x j (ω )
fonction objectif par rapport
aux coefficients
∂a j i
Règle de mise à jour des

coefficients pour un individu
a j ← a j + η ( y − yˆ ) g ' ( v ) x j
(Règle de Widrow-Hoff ou
Règle Delta)
Gradient : màj des poids dans la

direction qui minimise E
La convergence vers le minimum est bonne dans la pratique

Capacité à traiter des descripteurs corrélés (pas d’inversion de matrice)
Capacité à traiter des problèmes à très grande dimension (lignes x colonnes)
Mise à jour facile si ajout de nouveaux individus dans la base

Laboratoire ERIC 12
Problème à K classes -- Que faire quand Y possède plus de 2 modalités ?
(1) Codage disjonctif complet de la sortie
yk = 1 ssi y = yk
ŷ1
(2) « Output » pour chaque sortie
X0=1
yˆ k = g[vk ]
X1
ŷ2 avec vk = a0,k + a1,k x1 +L+ aJ ,k xJ
X2
(3) P(Y/X) P(Y = yk / X ) ∝ g[vk ]
X3 ŷ3
(4) Règle de décision
yˆ = yk * ssi k * = arg max yˆ k

k
Minimisation de l’erreur quadratique

En traitant K réseaux en parallèle
K
E = ∑∑ ( yk (ω ) − yˆ k (ω ) )
1 2
2 ω k =1
Laboratoire ERIC 13
Pratique du Perceptron (Démo sur les cancers du sein)
Évolution
erreur
Poids
Ramener les descripteurs sur la même échelle

Standardisation, Normalisation, etc.
(Éventuellement) Subdiviser les données en 3 parties :

Training + Validation + Test
Attention au paramétrage, notamment de la règle d’arrêt

Laboratoire ERIC 14
Mort et résurrection du Perceptron – Le problème du XOR
1.5
1.3
X1 X2 Y 1.1
1
0 0 0 0.9
Non séparable linéairement
0.7
(Minsky & Papert, 1969)

0 1 1 0.5
(1) 1 0 1
0.3
0.1
- 0.1
1
1 1 0 - 0.3
- 0.5
Données - 0.5 0 0.5 1 1.5
X0=1
X0=1
Une combinaison de séparateurs

linéaires permet de produire un
(2) X1
séparateur global non-linéaire
X2
(Rumelhart, 1986)
X3 Perceptron Multi-Couches (PMC)

On peut avoir plusieurs couches cachées
Couche d’entrée Couche cachée Couche de sortie

Laboratoire ERIC 15
PMC – Formules et propriétés Passage C.Entrée C.Cachée
v1 = a0 + a1 x1 + a2 x2 + a3 x3
v2 = b0 + b1 x1 + b2 x2 + b3 x3
Sortie de la C.Cachée
1
X0=1 u 1 = g ( v1 ) =
X0=1 1 + e − v1
1
u 2 = g (v2 ) =
X1 1 + e − v2
X2 Passage C.Cachée C.Sortie

z = c 0 + c1u 1 + c 2 u 2
X3
Sortie du réseau
1
yˆ = g ( z ) =
1 + e−z
Propriété fondamentale : Le PMC est capable d’approximer toute

fonction booléenne existante pourvu que l’on fixe convenablement le
nombre de neurones dans la couche cachée

Laboratoire ERIC 16
PMC Apprentissage – La rétropropagation du gradient
Généraliser la règle de Widrow-Hoff – La descente du gradient
X0=1
X0=1
X1
En sortie : Erreur mesurée (pour un individu)

X2
X3
Correction des poids synaptiques
menant à la couche de sortie
Propagation (en arrière) des corrections

dans les couches intermédiaires
L’algorithme de la rétro-propagation du gradient donne de bons résultats dans la

pratique même si le risque de stagnation dans un optimum local n’est pas à
négliger normaliser ou standardiser impérativement les données et bien
choisir la constante d’apprentissage
Laboratoire ERIC 17
PMC – Un exemple de discrimination non linéaire
X1 vs. X2
Control variable : C_Y
Construisons un réseau avec 2 couches cachées
x21 negatif
positif
X0=1
-0.76 45.03
X0=1
-20.10
-36.83
27.00
21.46
X1
-11.32
-38.95
X2 17.68
u1 vs. u2
Control variable : Y
1
u2 negatif
positif
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1
x1
La sortie des neurones de la

couche cachée propose un nouvel
espace de représentation où il
est possible de discriminer
linéairement les exemples !
u1
0
1

Laboratoire ERIC 18
PMC – Avantages et inconvénients
Classifieur très précis (si bien paramétré)

Incrémentalité
Scalabilité (capacité à être mis en œuvre sur de grandes bases)
Modèle boîte noire (causalité descripteur – variable à prédire)

Difficulté de paramétrage (nombre de neurones dans la couche cachée)
Problème de convergence (optimum local)
Danger de sur-apprentissage (utiliser impérativement un fichier de
validation)

Laboratoire ERIC 19
Références
• « Neural network »
Tutorial slides of Andrew Morre
http://www.autonlab.org/tutorials/neural.html
• « Apprentissage à partir d’exemples »

Notes de cours F. Denis & R. Gilleron – Lille 3
http://www.grappa.univ-lille3.fr/polys/apprentissage/
• « Machine Learning »
Tom Mitchell, Ed. Mc Graw-Hill International, 1997.
• « Réseaux de neurones » sur WIKIPEDIA
• « Réseaux de neurones – Méthodologie et Applications »

Sous la direction de Gérard Dreyfus, Ed. Eyrolles, 2004.

Laboratoire ERIC 20

Reseaux de Neurones: Perceptron

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Reseaux de Neurones: Perceptron

Transféré par

Droits d'auteur :

Formats disponibles

Application du réseaux de neurones à

Equipe de recherche en Ingénierie des Connaissances

Idées maîtresses à retenir

• Réception d’une information (signal)

Modèle de prédiction et règle d’affectation

Si d ( X ) > 0 Alors Y = 1 Sinon Y = 0

Le perceptron simple est un modèle de prédiction linéaire

X0=1 Comment calculer les poids

(1) Quel critère optimiser ? (1) Minimiser l’erreur de prédiction

Equipe de recherche en Ingénierie des Connaissances

1. Mélanger aléatoirement les observations

Une observation peut passer plusieurs fois !

Initialisation aléatoire des poids : a0 = 0.1; a1 = 0.2; a2 = 0.05

Règle de mise à jour des poids

Equipe de recherche en Ingénierie des Connaissances

 x0 = 1  ∆a0 = 0.1 × (− 1)× 1 = −0.1

Nouvelle frontière : 0.0 + 0.2 x1 + 0.05 x 2 = 0 ⇔ x 2 = −4 .0 x1 + 0.0

Equipe de recherche en Ingénierie des Connaissances

 x0 = 1  ∆a0 = 0.1 × (− 1)× 1 = −0.1

Nouvelle frontière : − 0.1 + 0 .1x1 + 0.05 x2 = 0 ⇔ x 2 = − 2.0 x1 + 2.0

Equipe de recherche en Ingénierie des Connaissances

Nouvelle frontière : − 0.1 + 0.1x1 + 0.05 x 2 = 0 ⇔ x 2 = −2.0 x1 + 2.0

Equipe de recherche en Ingénierie des Connaissances

Le Perceptron propose un classement Y/X

Fonction de transfert Fonction de transfert

Equipe de recherche en Ingénierie des Connaissances

Critère à optimiser : critère des moindres carrés

Mais toujours fidèle au principe d’incrémentalité,

Fonction de transfert g ' (v) = g (v)(1 − g (v))

Règle de mise à jour des

Gradient : màj des poids dans la

La convergence vers le minimum est bonne dans la pratique

Equipe de recherche en Ingénierie des Connaissances

yˆ = yk * ssi k * = arg max yˆ k

Minimisation de l’erreur quadratique

Ramener les descripteurs sur la même échelle

(Éventuellement) Subdiviser les données en 3 parties :

Attention au paramétrage, notamment de la règle d’arrêt

(Minsky & Papert, 1969)

Données - 0.5 0 0.5 1 1.5

Une combinaison de séparateurs

X3 Perceptron Multi-Couches (PMC)

Equipe de recherche en Ingénierie des Connaissances

X2 Passage C.Cachée C.Sortie

Propriété fondamentale : Le PMC est capable d’approximer toute

Equipe de recherche en Ingénierie des Connaissances

Généraliser la règle de Widrow-Hoff – La descente du gradient

En sortie : Erreur mesurée (pour un individu)

Propagation (en arrière) des corrections

L’algorithme de la rétro-propagation du gradient donne de bons résultats dans la

La sortie des neurones de la

Equipe de recherche en Ingénierie des Connaissances

Classifieur très précis (si bien paramétré)

Modèle boîte noire (causalité descripteur – variable à prédire)

Equipe de recherche en Ingénierie des Connaissances

• « Apprentissage à partir d’exemples »

• « Réseaux de neurones » sur WIKIPEDIA

• « Réseaux de neurones – Méthodologie et Applications »

Equipe de recherche en Ingénierie des Connaissances

Vous aimerez peut-être aussi