Académique Documents
Professionnel Documents
Culture Documents
l’apprentissage supervisé
Ricco RAKOTOMALALA
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Métaphore biologique
Fonctionnement du cerveau
Transmission de l’information et apprentissage
a2
Entrées X2 0
Descripteurs
a3
d(X )
X3
Si d ( X ) 0 Alors Y 1 Sinon Y 0
X0=
1 Comment calculer les poids
a0 synaptiques à partir d’un
X1
a1 fichier de données
(Y ; X1, X2, X3)
X2
a2
a3 Faire le parallèle avec la régression et les moindres carrés
Un réseau de neurones peut être utilisé pour la régression
X3
(fonction de transfert avec une sortie linéaire)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Exemple – Apprentissage de la fonction AND (ET logique)
Exemple révélateur – Les premières applications proviennent de l’informatique
1.5
X1 X2 Y
1.3
1
1.1
0 0 0
0.9
0.7
0 1 0
0.5
0.3
1 0 0 0.1
1 1 1
-0.1
-0.3
Données
-0.5
Principales étapes :
a j a j a j
6
Force du signal
avec
a j y yˆ x j
2
1
0
Erreur
-0.5 0 0.5 1 1.5
-2
Détermine s’il
faut réagir ou
-4 Constante d’apprentissage non
Détermine l’amplitude de l’apprentissage
Quelle est la bonne valeur ?
Trop petit lenteur de convergence
-6
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Exemple AND (2)
Observation à traiter Appliquer le modèle Màj des poids
1
0
-0.5 0 0.5 1 1.5
-2
-4
-6
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Exemple AND (3)
Observation à traiter Appliquer le modèle Màj des poids
1
0
-0.5 0 0.5 1 1.5
-2
-4
-6
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Exemple AND (4) – Définir la convergence
Observation à traiter Appliquer le modèle Màj des poids
x0 1 a0 0.1 0 1 0
a1 0.1 0 0 0
x 0 0.11 0.1 0 0.051 0.05
1
yˆ 0 a 0.1 0 1 0
x2 1 2
y 0
Pas de correction ici ? Pourquoi ?
Voir sa position dans le plan !
4
Remarque : Que se passe-t-il si on repasse l’individu (x1=1 ; x2=0) ?
Convergence ?
2
1
0
-2
monde
(2) L’erreur globale ne diminue plus « significativement »
-4
(3) Les poids sont stables
(4) On fixe un nombre maximum d’itérations
-6
(5) On fixe une erreur minimale à atteindre
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Évaluation de P(Y/X) – Fonction de transfert sigmoïde
1 1
0
0
d(X ) d(X )
1
g (v )
1 e v
v d(X )
La régle de décision devient : Si g(v) > 0.5 Alors Y=1 Sinon Y=0
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Conséquences d’une fonction de transfert continue et dérivable
Modification du critère à optimiser
X0=
1
a0
X1 Sortie du réseau
a1 yˆ g (v ) f d ( x )
X2
a2
a3
X3
y ( ) yˆ ( )
1
2
E
2
[ y ( ) yˆ ( )] g '[v( )] x j ( )
Optimisation : dérivation de la
E
fonction objectif par rapport
aux coefficients
a j i
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Problème à K classes -- Que faire quand Y possède plus de 2 modalités ?
(1) Codage disjonctif complet de la sortie
yk 1 ssi y yk
ŷ1
X0= (2) « Output » pour chaque sortie
1
yˆ k g[vk ]
X1
ŷ2 avec vk a0,k a1,k x1 aJ ,k xJ
X2
(3) P(Y/X) P(Y yk / X ) g[vk ]
X3 ŷ3
(4) Règle de décision
E yk ( ) yˆ k ( )
1 K
2
2 k 1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Pratique du Perceptron (Démo sur les cancers du sein)
Évolution
erreur
Poids
1.5
X1 X2 Y
1.3
0 0 0
(Minsky & Papert, 1969)
(1)
0.9
0 1 1
0.7
0.5
1 0 1
0.3
1
0.1
1 1 0
- 0.1
Données
- 0.3
- 0.5
- 0.5 0 0.5 1 1.5
X0=
X0= 1
1
Une combinaison de séparateurs
(2) X1 linéaires permet de produire un
séparateur global non-linéaire
X2
(Rumelhart, 1986)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
PMC – Formules et propriétés Passage C.Entrée C.Cachée
v1 a0 a1 x1 a2 x2 a3 x3
v2 b0 b1 x1 b2 x2 b3 x3
Sortie de la C.Cachée
X0= 1
u 1 g ( v1 )
1 e v1
X0= 1
1
1
u 2 g (v2 )
X1 1 e v2
1
yˆ g ( z )
1 ez
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
PMC Apprentissage – La rétropropagation du gradient
X0=
X0= 1
1
X1
X3
Correction des poids synaptiques
menant à la couche de sortie
x2
la couche cachée
X1 vs. X2
Control variable : C_Y
X0=1
1 negatif
-0.76 45.03
X0=1
positif
-20.10
-36.83
27.00
21.46
X1
-11.32
-38.95
X2 17.68
u1 vs. u2
u2
Control variable : Y
1
negatif
x1
positif
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
PMC – Avantages et inconvénients
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
Références
• « Neural network »
Tutorial slides of Andrew Morre
http://www.autonlab.org/tutorials/neural.html
• « Machine Learning »
Tom Mitchell, Ed. Mc Graw-Hill International, 1997.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20