Académique Documents
Professionnel Documents
Culture Documents
0.55
Haut risque
0.50 Faible risque
0.45
0.40
Epargnes
0.35
0.30
0.25
0.20
0.15
0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55
Revenus
Si x1 > 0.32 et x2 > 0.27 alors faible risque sinon haut risque
Modèle et observations
Apprentissage supervisé
◮ Objectif : apprendre une projection entre des observations X en entrée
et des valeurs associées Y en sortie
Modèlisation mathématique
◮ y = h(x|θ)
◮ h(·) : fonction générale du modèle
◮ θ : paramètres du modèle
Schématisation de l’apprentissage supervisé
xi ri
Observations Professeur
+
Système
h(xi )
supervisé -
Σ
e(xi )
Classification
Y est discret et correspond à des étiquettes de classes
h(·) est une fonction discriminante
0.55
Haut risque
0.50 Faible risque
0.45
0.40
Epargnes
0.35
0.30
0.25
0.20
0.15
0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55
Revenus
Applications de la classification
Tiré de Y. LeCun, L. Bottou, Y. Bengio and P. Haffner, Gradient-Based Learning Applied to Document Recognition,
Proceedings of the IEEE, 86(11) :2278-2324, Novembre 1998.
Régression
Y est une valeur réelle
h(·) est la fonction de régression
Exemple : prédiction du prix de
vente d’une voiture usagée à
partir du kilométrage parcouru
◮ Observations : kilométrage
parcourue (x)
y: price
xi Système non-
h(xi )
Observations supervisé
Mesure
e(xi ) d'appariement
Apprentissage par renforcement
Agent
État
st Récompense Action
rt at
rt+1
Environnement
st+1
Banques de données (ressources)
Système
Mécanisme
d’adaptation
2
Introduction aux systèmes à apprentissage
Qu’est-ce que l’apprentissage ? - Induction et causalité
Chaque fois que l’on a constaté une hausse de la pression atmosphérique, cela
s’est accompagné du beau temps.
Conclusion : la prochaine fois que je constaterai une hausse de pression
atmosphérique je pourrai conclure à l’apparition du beau temps.
3
Introduction aux systèmes à apprentissage
Différents types d ’apprentissage
· Position du problème
4
Apprentissage supervisé - Régression
Position du problème
60 60
40 40
20 20
y y
0 0
-20 -20
-40 -40
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
x x
5
Apprentissage supervisé - Régression
Régression linéaire optimale au sens des moindres carrés
Régression linéaire
80
60 Erreur (résidu)
Obs y
y ' yˆ
40
Coût à minimiser :
yˆ " x w
T
20
1 N
0
J ( w) " (
2 i "1
( yi ' xiT w) 2
-20
-40
0 1 2 3 4 5 6 7 8 9
x
1 N N
J ( w) " ( i i
2 i "1
( y ' x T
w) 2
" (
i "1
J i (W )
Méthode du gradient
. / +
w k $1 " w k ' 0 , J ( w) )
- /w * w" wk
/ N
/ / 1 /
J ( w) " ( J i ( w) et J i ( w) " ( yi ' xiT w) 2
/w i "1 /w /w 2 /w
" '( yi ' xi w) xi
T
Algorithme LMS
k $1
" w $ 0 ( y k ' xk w ) xk
k T k
w
6
Apprentissage supervisé - Régression
Méthode des moindres carrés simple
1 N
J ( w) " (
2 i "1
( yi ' xi w)
T 2
1 2 1
" y ' Xw 2 " ( y ' Xw) ( y ' Xw)
T
2 2
1
" ( y T y ' 2 y T Xw $ wT X T Xw)
2
/
J ( w) " ' X T y $ X T Xw ! w " ( X T X ) '1 X T y
/w
6 x1T 3 6 y1 3
4 T1 4y 1
x
X # R : X " 4 2 1,
N 7n
y#R : y " 4 2 1
N
4" 1 4 " 1
4 T1 4 1
54 x N 21 5 yN 2
polynome de gré :2
80
yˆ i " w0 $ w1 xi $ w2 xi " X i w
2 T
60
613 6 w0 3
40 X i " 4 xi 1, w " 44 w1 11
4 1
45 xi2 12 45 w2 12
20
y
0
Remarque : La fonction de
-20
régression demeure linéaire par
rapport aux paramètres.
-40
0 1 2 3 4 5 6 7 8 9
x
7
Apprentissage supervisé - Régression
Régression non linéaire par rapport aux données
Vraisembla nce
yˆ " X i w
T
N
. 1 +
L( w) " 8 exp, ' ( y ' X iT w) 2 )
i "1 - 29 2
*
. 1 N
2+
y xi ~ N ( X i w, 9 )
T 2
" exp, '
- 29
2 ((y ' X
i "1
T
i w) )
*
1 . ( y ' X iT w) 2 +
N ( X i w, 9 ) " exp,, ' )
T 2
2: 9 29 2 )
- *
0
0
xi
Recherche de w au sens du maximum de vraisemblance = recherche de
w au sens des moindres carrés :
wopt " arg max L ( w) " arg min J ( w)
w w
8
Apprentissage supervisé - Régression
Le problème du sur-ajustement : régularisation
polynome de gré :10
100
50
-50
-100
-150
0 1 2 3 4 5 6 7 8 9
x
Le problème du sur-ajustement (sur-apprentissage) ne permet pas de généraliser
60
1 2 2
40 Minimiser : y ' Xw 2 $ ; w 2
2
y 20 Avec ; petit, la solution s ’écrit :
'1
w " (X X $ ;I) X y
0 T T
-20
-40
0 1 2 3 4 5 6 7 8 9
x
9
Apprentissage supervisé - Régression
Interprétation probabiliste de la régularisation
1 . ( y ' X iT w) 2 +
y xi ~ N ( X w, 9 ) " exp,, ' )
T 2
vraisemblance : i
2: 9 29 2 )
- *
92 1 . ;w 2 +
Information a priori : w ~ N (0, )" exp,, ' )
2 )
; 2: 9 - 29 *
p ( w, x1 , , xn )
On veut maximiser l ’information a posteriori : p ( w x1 , , xn ) "
p ( x1 , , xn )
< p ( w, x1 , , xn )
. ; 2+
N
. ; +
p ( w, x1 , , x N ) " exp, ' w 2 )8 exp, ' ( y ' X T w) 2 )
- 29 * i "1 - 29 *
6 2 . ; N
+3
w 2 $ ( ( y ' X T w) 2 )1
2
" exp 4' ,'
5 29 - 29 i "1 *2
N
Ji
J ( w) " ( ( yi ' X w)
T 2
i
i "1
N
" ( Ji yi
i "1 T
X wi
/J i
/yi
10
Apprentissage supervisé - Régression
Régression L1 - Moindres valeurs absolues (MVA)
Ji N
J ' ( w) " ( yi ' X i w
' T
Ji
i "1
N
" ( J 'i
yi i "1
T
Xi w
Résolution d’un problème d’optimisation
linéaire (programmation linéaire)
Sensibilité par rapport aux yi
@ N
/J i =w, c "[ c1!c N ] ( ci
'
min
/yi = i "1
?
= yi ' X i w A ci i " 1,
T
yi ,N
T
X w
i
=> X iT w ' yi A ci i " 1, ,N
30 30
y y
MVA MVA
25
25
20
20
15
15
MCS
10 MCS
10
5
5
0
x x
0 -5
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
11
Apprentissage supervisé - Régression
Régression par noyau (Kernel regression)
Méthode de régression non paramétrique : nécessite de disposer
en permanence de la base de données
S igma 2 =1
30
y
25
N
20
( y k(x ' x )
i i
15 yˆ ( x ) " i "1
N
10
( k(x ' x )
i "1
i
x
0
0 1 2 3 4 5 6 7 8 9
. ( x ' xi ) 2 +
,' )
, 29 2 )
- *
k ( x ' xi ) " e
S igma 2 =0.01
30
y
25
20
15
10
x
0
0 1 2 3 4 5 6 7 8 9
12
Apprentissage supervisé - Régression
Régression linéaire localement pondérée (Locally weighted linear regression (LWR))
Méthode de régression non paramétrique : nécessite de disposer
en permanence de la base de données
S igma 2 =1
30
y
25
Pour un point donné
x on minimise le critère :
20 N
J ( w, x) " ( k ( x ' xi )( yi ' X i w)
T
15 i "1
10
5
wopt ( x ) " arg min J ( w, x )
w
x
0
0 1 2 3 4 5 6 7 8 9
. ( x ' xi ) 2
,'
, 29 2
+
)
)
yˆ ( x) " X T wopt ( x )
- *
k ( x ' xi ) " e
S igma 2 =0.02
30
y
25
20
15
10
x
0
0 1 2 3 4 5 6 7 8 9
13
Apprentissage supervisé - Classification
Sommaire
· Position du problème
· Classification probabiliste
- Exemple introductif : le sélecteur aléatoire
- Classification bayesienne optimale
- Notion de rejet en classification
- Paramétrage du classifieur : le cas gaussien
· Classification neuronale
· Classification floue
# ? Approche floue
14
Apprentissage supervisé - Classification
Approche probabiliste - Exemple introductif : le sélecteur aléatoire
s1 s2 s3 sm
On considère m sources de variables aléatoires
dont on connaît les lois de densité de probabilité.
Sélecteur
aléatoire On note p(x/Si) la loi de densité de probabilité de la va
délivrée par la source Si
x
Le sélecteur aléatoire permet de sélectionner
l’une des sources au gré du hasard
m ( p( x / s ) i
m
p( x / si )
( P( si / x) " 1 " i "1
m
"( m
p(x/s1) i "1
( p( x / s )
j "1
j
i "1
( p( x / s )
j "1
j
p(x/sm)
p ( x / si )
x On a donc : P( si / x) " m
Une observation de x ( p( x / s )
j "1
j
Cette relation permet de calculer la probabilité pour que la source Si soit sélectionnée
l’observation x étant réalisée. La source sélectionnée correspond à la plus grande des probabilités
15
Apprentissage supervisé - Classification
Approche probabiliste - Exemple introductif : le sélecteur aléatoire
Sélection non équiprobable des sources
P ( si ) p ( x / si )
P ( si / x ) ! m
C’est la formule de Bayes. Elle permet de calculer les
probabilités a posteriori d’occurrence des sources, c’est à
P( s j ) p( x / s j ) dire une fois l’observation réalisée.
j !1
P(Ci ) p( x / Ci )
P(Ci / x) ! m
, i !1 m
P (Cj ) p ( x / Cj )
j !1
L ’observation r est alors affectée à la classe Ci fournissant la plus grande probabilité a posteriori :
Elle est minimale, cette approche est donc optimale au sens d’une erreur de classification minimale
16
Apprentissage supervisé - Classification
Notion de rejet en classification
Classe : C1
Classe : C2
Décider dans ces conditions de l’appartenance de l’observation à l’une des classes plutôt
qu’à l’autre constitue un risque d’erreur important. Soit Ra le seuil de rejet par
ambiguïté, la règle de rejet s’écrit :
Classe : C1
Classe : C2
Cette situation peut signifier la nécessité de prendre en compte une nouvelle classe
pour laquelle on ne dispose d’aucune information dans la base d’apprentissage. Soit Rd le
seuil de rejet en distance, la règle de rejet s’écrit :
17
Apprentissage supervisé - Classification
Approche probabiliste - Paramétrage des classes : le cas gaussien
Dans les applications réelles, les lois de densité de probabilité des classes ne sont pas connues.
En pratique, l’hypothèse gaussienne est souvent adoptée. Chaque classe est modélisée par une
loi de densité de probabilité gaussienne de dimension q (dimension de x) :
1 . 1 +
p ( x / Ci ) ! exp, # ( x # mi )T & i#1 ( x # mi ) )
(2/ ) det '& i (
q
- 2 *
Ni j !1 N i j !1
Les probabilités a priori, d’occurrences des classes P(Ci), sont estimées à l’aide de la relation :
Ni
Pˆi ! l
Nj
j !1
& 011
f1 y11=f(011)
& 0 21
f2 y2 1
& 031 +1
-1
y31=f(031)
-1
y32=f(032)
& 01m
f1 y1m=f(01m)
& 02m
f2 y2m=f(02m)
&
+1
-1
y3m=f(03m)
18
Apprentissage supervisé - Classification
Approche floue
'1 ~1 2
( '
~2
(
Si x est A1 et x est A1 Alors la classe est C1
'1 ~1 2
( '
~2
(
Si x est A 2 et x est A 2 Alors la classe est C2
x1 111 ( x 1 ,2 11 ) 41 +
+1 C1
x 2 3
112 ( x 2 ,2 12 ) -1
f1(x,21) -
max 4 max
1 21 ( x 1 ,2 12 ) 42 - C2
+1
3
1 ( x ,2 )
2
2
2 2
2
-1
f2(x,22) +
-
C 1d
Fonction +
d’adaptation -
+ C2d
· Position du problème
19
Apprentissage non supervisé
Position du problème
• Les données peuvent être de grande dimension ( xi " R1000 ), il est alors
intéressant de rechercher une représentation de faible dimension permettant
de décrire les données initiales sans trop de perte d’information.
20
Apprentissage non supervisé
Analyse en composantes principales (ACP) - Motivations
L’analyse en composantes principales (ACP) permet de réduire la
dimension des données initiales en minimisant la perte d ’information.
L’ACP peut être vue comme une rotation d ’axes telle que les données
projetées sur les nouveaux axes soient de variance maximale. Le nouveau
système d’axes est orthogonal.
21
Apprentissage non supervisé
Analyse en composantes principales (ACP) - Principe de l ’ACP
Chaque visage est représenté par un vecteur de grande dimension x " R 361
Comment choisir U ?
X ! 5X 1 ! X N 6,
X iT ! [ xi ,1 ! xi ,n ], i ! 1, ,N
22
Apprentissage non supervisé
Analyse en composantes principales (ACP) - Principe de l ’ACP
.1 N
+
! u1T , X i X iT )u1 ! u1T C XX u1
-N i !1 *
Cxx est la matrice de variance covariance
des données (les Xi).
X ! 5X 1 ! X N 6, X i ! [ xi ,1 ! xi ,n ], i ! 1,
T
,N
5 6
Où le vecteur u1T ! u1,1 u1, 2 ! u1,n est choisi de sorte que E ((u1T X i ) 2 ) soit maximum
sur tout les Xi, et que u1 soit unitaire : u1 u1 ! 1
T
.1 N
+
C XX ! , X i X iT )
-N i !1 *
23
Apprentissage non supervisé
Analyse en composantes principales (ACP) - Définition des composantes principales
z k ! uk X , z k ! 5z k ,1 ! z k , N 6, z k ,i ! u k X i !
n
u k , j xi , j , k ! 1,
T T T
,n
j !1
5 6
Où le vecteur u kT ! u k ,1 u k , 2 ! u k , n est choisi de sorte que E ((u kT X i ) 2 ) soit maximum
sur tout les Xi, sous les contraintes : u kT u k ! 1 et u k ul ! 0, k $ l 8 1
T
.1 N
T +
C XX ! , Xi Xi )
-N i !1 *
?
J (u1 ) ! #2C XX u1 > 2 u1 ! 0 = (C XX # I ) u1 ! 0
?u1
24
Apprentissage non supervisé
Analyse en composantes principales (ACP) - Calcul de la 2ème composante principale
&
J (u2 ) ! #2C XX u 2 % 2 u2 ! 0 $ (C XX # I ) u 2 ! 0
&u 2
u2 est le vecteur propre de Cxx associé à la valeur propre = 2.
(Notons que la contrainte u2Tu1=0 est satisfaite puisque u1 et u2 sont des vecteurs propres)
On a maximisé : u 2 C XX u 2 ! u 2 u ! "
T T
2 2 2 , ( 2 1 )
Vi ! [vi ,1 ! vi ,n ], i ! 1,
T
V1 , V2 , VN ,N
X ! ,X 1 ! X N -, X i ! [ xi ,1 ! xi ,n ], i ! 1,
T
,N
vi ,1 # m1 vi , 2 # m2 vi ,n # mn
xi ,1 ! , xi , 2 ! , , xi ,n !
.1 .2 .n
* 1 N * 1 N * 1 N
'm1 ! N / xi ,1 'm2 ! N / xi , 2 'mn ! N / xi ,n
' i !1 ' i !1 ' i !1
) N
, ) N
, ,) N
'. ! 1 '. ! 1 '. ! 1
'( 1 N # 1 / '( 2 N # 1 / /
( xi ,1 # m1 ) 2
( xi , 2 # m2 ) 2
( xi ,n # mn )
2
i !1 i !1
'( n
N # 1 i !1
25
Apprentissage non supervisé
Analyse en composantes principales (ACP) - Méthode générale
X ! ,X 1 ! X N -, X iT ! [ xi ,1 ! xi ,n ], i ! 1, ,N
2. Calculer la matrice de variance covariance Cxx de X :
1 5 1 N 2
C XX !
N #1
XX T ! 3 /
4 N # 1 i !1
X i X iT 0
1
3. Calculer les valeurs propres de Cxx : 1> 2>... n-1> n.
4. Calculer les vecteurs propres associés aux valeurs propres 1 à n : u1, u2,…, un
et construire la matrice :
;u1T 8
9 6
U ! 9 " 6, ui ! [ui ,1 ! ui ,n ], i ! 1,
T
,n
9u nT 6
: 7
Notons que U n ’est autre qu’une matrice de changement de base
;u1T 8
9 6
U r ! 9 " 6, ui ! [ui ,1 ! ui ,n ], i ! 1,
T
,r
9u rT 6
: 7
5. Calculer le nouveau jeu de données (dimension réduites) :
Z ! ,z1 z 2 ! z N - ! U r X , zi ! [ zi ,1 ! zi ,r ] < R , i ! 1,
T r
,N
26
Apprentissage non supervisé
Analyse en composantes principales (ACP) - Choix du nombre de composantes
25
1
20
2
Variance (%)
15 3
10
4
5 5 6 7 8 9 10
0
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10
On ne perd pas trop d’information si les valeurs propres associées aux composantes
éliminées sont faibles relativement à celles que l’on conserve :
27
Apprentissage non supervisé
Analyse en composantes principales (ACP) - Exemple
28
Apprentissage non supervisé
Clustering (regroupement) - Qu’est-ce que le clustering
Le clustering consiste en une organisation de données en groupes (clusters)
de façon que les données appartenant à un même groupe soient fortement
similaires.
• Définir une mesure de similarité (dissimilarité) entre objets (données).
• Construire un algorithme permettant de créer des groupes de similarité
tels que:
- La mesure de similarité des éléments dans un même groupe soit
maximale.
- La mesure de similarité des éléments appartenant à des groupes
distincts soit minimale.
Le clustering permet d ’avoir une bonne vision de la manière dont sont
structurées les données
- Segmentation
- Compression de données
- Modélisation
- etc
29
Apprentissage non supervisé
Clustering (regroupement) - Mesure de dissimilarité
X ! ,X 1 ! X N -, X iT ! [ xi ,1 ! xi ,n ], i ! 1, ,N
n
D( X i , X j ) ! X i # X j
2
! / (x
l !1
i ,l # x j ,l )
2
;1 0 08 X 1 < cluster k ! 1
90 0 166 X 2 < cluster k ! 3
[ >ik ] ! 9
90 1 06 X 3 < cluster k ! 2
9 6
:0 0 17 X 4 < cluster k ! 3
Remarque : les prototypes pk sont inconnus ainsi que les fonctions d ’appartenance.
30
Apprentissage non supervisé
Clustering (regroupement) - Méthode des k-moyennes
Calcul des prototypes pk et des fonctions d ’appartenance >ik
* N K
' J ! // >ik X i # pk
On minimise la fonction coût : ' i !1 k !1
)K
' > ! 1 Ai
'(/
k !1
ik
31
Apprentissage non supervisé
Clustering (regroupement) - Méthode des k-moyennes
32
Apprentissage non supervisé
Clustering (regroupement) - Méthode des k-moyennes
33
Apprentissage non supervisé
Clustering (regroupement) - Méthode des k-moyennes
34
Apprentissage non supervisé
Clustering (regroupement) - Fuzzy c-means
Xi
N C
J ! // >ikm X i # Vk
2
2 Vk
i !1 k !1
/
C
k !1
>ik , i ! 1, ,N total membership
35
Apprentissage non supervisé
Clustering (regroupement) - Fuzzy c-means
Répéter
On initialise V ou U
1. Calculer le centre des clusters
/
N
>mx
i !1 ik i
vk !
/i!1 >ikm
N
Fk ! i !1
/
N
( >ik )
m
i !1
36
Apprentissage non supervisé
Clustering (regroupement) - Algorithme de Gustafson-Kessel
Répéter
1. Calculer le centre des clusters
/
N
>mx
i !1 ik i
vk !
/i!1 >ikm
N
1/ n #1 Fk ! i !1
d ! Fk (x i # v k ) F (x i # v k )
2 T
/
N
( >ik )
m
ik k
i !1
Jusqu’à U DF
37
Réseaux de neurones
Réseaux de neurones
• Repères historiques
• Inspiration biologique
• Le neurone formel
• Caractéristiques générales des réseaux de neurones
• Les architectures
Réseaux de neurones
Le point de départ : la cybernétique (1942, congrès sur l’organisation du cerveau, NY)
Norbert Wiener 1948 : La cybernétique est la science qui étudie les processus de contrôle chez
l’animal et dans la machine.
Problématique : construire des machines « intelligentes », i.e. donner aux machines des
performances de plus en plus proches de celles de l’homme.
1
Réseaux de neurones
Repères historiques
Le neurone formel
Inspiration biologique
Synapse
Axone
Corps cellulaire
Noyau
Dendrites
Les dendrites : elles forment une arborescence autour du corps cellulaire et jouent le rôle de
récepteur de signaux
2
Le neurone formel
Un neurone formel est une fonction non linéaire de la somme pondérée de ses entrées:
1 Principales fonctions d’activation f
1 1
Fonction de Heaviside Fonction signe
0.8 0.8
w0 0.6 0.6
w1 0.4 0.4
0.2 0.2
u1 0
-0.2
0
-0.2
w2 n -0.4 -0.4
$
u2 i "0 y=f(#) -0.8 -0.8
f -1
1
-5 -4 -3 -2 -1
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
Fonction linéaire
0.8 0.8
wn 0.6 0.6
0.4 0.4
un 0.2 0.2
0 0
-0.2 -0.2
n
# " ! ui wi " u w " w u , y " f '# (
-0.4 -0.4
T T -0.6 -0.6
-0.8 -0.8
i "0 -1
-5 -4 -3 -2 -1 0 1 2 3 4 5
-1
-5 -4 -3 -2 -1 0 1 2 3 4 5
u " %1 u1 u2 un &
1
T Fonction sigmoïde
1
Fonction tangente
0.9 0.8
hyperbolique
0.8 0.6
w1 w2 0.6 0.2
0.5 0
0.4 -0.2
0.2 -0.6
0 -1
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5
Un réseau de neurones réalise une fonction non linéaire de ses entrées par composition des
fonctions réalisées par chacun de ses neurones.
Toute fonction continue bornée peut être approchée avec une précision arbitraire, dans un
domaine fini de l’espace de ses variables, par un réseau de neurones comportant une couche
de neurones cachés en nombre fini, possédant tous la même fonction d’activation, et un
neurone de sortie linéaire
3
Les réseaux de neurones non bouclés ou statiques
Un réseau de neurones non bouclé réalise une fonction statique non linéaire de ses entrées,
par composition des fonctions réalisées par chacun de ses neurones
$ w0,m 1
$ w0,2 1
$ w0,1 1
Neurone Neurone Neurone
N°m #m N°2 #2 N°1 #1
f f f
ym=f(#m) y2=f(#2) y1=f(#1)
$ #11
f1 y11=f(#11)
$ #21
f2
y21=f(#21)
$ #31
f3 y31=f(#31)
w1n,1 w2n,1 3
w n,1
Neurone N°1 Neurone N°1 Neurone N°1
1 1 1
1
w 0,2 2
w 0,2 w0,2
w11,2 w21,2 w31,2
u1
w12,2 w22,2 w32,2
u2
$ #12
f1 y12=f(#12)
$ #22
f2 y22=f(#22)
$ #32
f3 y32=f(#32)
w1n,2 2
w n,2 w3n,2
un Neurone N°2 Neurone N°2 Neurone N°2
1 1 1
1
w 0,m w0,m w0,m
w11,m w21,m w31,m
$ #1m
f1 y1m=f(#1m)
$ #2m
f2 y2m=f(#2m)
$ #3m
f3 y3m=f(#3m)
w1n,m 2
w n,m 3
w n,m
Neurone N°m Neurone N°m Neurone N°m
4
Les réseaux de neurones bouclés ou dynamiques
Un réseau de neurones bouclé est un système dynamique non linéaire, régi par des équations
différentielles ou aux différences.
u (t ) y (t ) u (k ) y (k )
+ +
Réseau de neurones Réseau de neurones
statique statique
* *
x(t ) x! (t ) x(k ) x( k . 1)
,
-
z-1
5
Les réseaux de neurones bouclés ou dynamiques
Modélisation de systèmes dynamiques non linéaires
y(k+1)
Réseaux de neurones réalisant une approximation de
la fonction non linéaire g
u(k-1) u(k-nu+1) y(k-ny+1) y(k-1)
u(k) -1 -1 -1 -1 -1
y(k)
Z Z Z Z Z Z-1
Mémoires associatives
Réseau
Dynamique
'
6 u1 , y d
0
( 30 yk
' (0
1 -
1
!7
d Algorithme de
0 u2 , y2 7k J (W ) "
T
7k
5 2 modification des poids du
N
k
0 #
k
0 réseau
4 '
0 u N , yd
N
(0
1 ydk
+
ydk
'
6 u '1 , y d '
0
( 30 -
' (0 7k
1
d' Critère de J
0 u '2 , y 2 validation
5 2
0 # 0 du réseau
' (
+
0 u'N , y d ' 0
4 M 1 yd’k
6
Algorithmes d’apprentissage, cas des réseaux monocouche
Règle du Perceptron
1
w0 Pour une entrée donnée, on peut distinguer 4 cas :
8
w1 On ne
1er cas : d=1 y=1 modifie pas
u1 2ème cas : d=0, y=0 les poids
8
w2
$ # 1
y 3ème cas : d=0, y=1 On modifie
u2
4ème cas : d=1, y=0 les poids
wm
um
Dans le 3ème cas if faut diminuer les poids
7 - d
Règle du perceptron +
wk .1 " wk . 97 k uk
5. Tant que tous les exemples de la base d’apprentissage ne sont pas traités
correctement, retour à l’étape 2.
7
Algorithmes d’apprentissage, cas des réseaux monocouche
L’apprentissage, un problème d’optimisation
u
Soit un système d’entrée u, de sortie y et
y
Système possédant des éléments de réglage w
wopt " arg min J 'w( wopt " arg max J 'w(
w:W w:W
uk Base dk
D’apprentissage
w
L’apprentissage du réseau consiste alors à déterminer le vecteur poids w
permettant de minimiser un critère sur l’erreur d’apprentissage
N N
1 1 1 N
J 'w ( "
N
!7k
k "1
J 'w ( "
N
! 7k J 'w ( "
N
!7 2
k
k "1 k "1
8
Algorithmes d’apprentissage, cas des réseaux monocouche
L’ADALINE (adaptative linear element) de Widrow
1
w0 L’apprentissage est réalisé sur la sortie linéaire du neurone
w1 Apprentissage
u1
w2 - MCS
1
#
$
y - MCR
u2 - Gradient LMS
wm -1
um
@1= @ w0k =
>u k ; > k;
w
uk " > 1 ; wk " > 1 ;
7 - d >#; > # ;
Algorithme
d’apprentissage
+
> k; > k;
?um < ?> wm <;
G HJ D G H2J D
J(w) est minimum pour w=wopt si : EE BB " 0 et EE 2 BB A0
F H w C w" wopt F H w C w" wopt
@ d1 = @ u1T =
>d ; > T;
Ce qui conduit à : '
wopt " U U U d
T
(/1 T
avec : d " > 2;
> # ;
u
, U "> 2;
> # ;
> ; > T;
?d N < >?u N ;<
9
Algorithmes d’apprentissage, cas des réseaux monocouche
Méthode des moindres carrés récursifs (MCR)
C’est une méthode itérative (implémentation temps réel possible), qui permet la mise
à jour du vecteur poids à partir de la donné d ’un nouvel exemple.
6 T
FN u N .1 u N .1 FN
0 FN .1 " FN / T
5 1 . u N .1 FN u N .1
0
' T
4w n .1 " w N . FN .1 u N .1 d N .1 / u N .1 w N (
N N
1 1
! 'd n / # n ( " !7
2
J ( wk ) " 2
n
N n "1 N n "1
G HJ D
Le vecteur poids est calculé à l ’aide de la formule du gradient : w k .1 " w k / I EE BB
F H w C w" wk
2I N
Ce qui conduit à : w k .1 " w k . !7nun
N n "1
Dans le cas de l ’algorithme LMS, la méthode du gradient est appliquée sur (7k)2 au lieu
de J(wk). Le vecteur poids est donc modifié à chaque présentation d’un exemple. La règle
de modification des poids s ’écrit :
w k .1 " w k . 2 I7 k u k
10
Algorithmes d’apprentissage, cas des réseaux multicouche
Algorithme de rétropropagation
wlji wkjl .1
l .1
# il /1 yil /1 # lj y j
s
# kl .1 yk
' (
# lj " ! wlji yil /1 , y lj " f # lj , # kl .1 " ! wkjl .1 y lj , ykl .1 " f # kl .1 ' (
i j
Objectif : minimiser l’erreur quadratique commise un exemple donné :
1 o 2
J" (d / y ) Où d est la sortie désirée et yo la sortie effective du réseau
2
11