Vous êtes sur la page 1sur 35
Wigs apres y ie neurones Presentahion ef applicahons Pierre Borne Mohamed Benrejeb Joseph Haggege Editions TECHNIP PHOTOCOPILLAGE TUE LE LIVRE Ce logo a pour objet d’alerter le lecteur sur la menace que représente pour Pavenir de l’écrit, tout particuligrement dans le domaine technique et uni- versilaire, le développement massif du «photocopillage». Cette pratique qui s"est pénéralisée, notamment dans les stablissements denseignement supérieur, provoque une baisse brulale des achats de livres, au point que la possibilité méme pour les auteurs de créer des aeuvres nou- velles et de les faire éditer correctement est aujourd hui menacée. Nous rappelons done que la reproduction de l'ouvrage, partielle ow totale, la vente sans autorisation ainsi que le rece! sont passibles de poursuites. Les demandes d’autorisation de photocopier doivent étre adressées di- rectement 2 I'éditeur ou au Centre frangais d'exploitation du droit de copie: 20, rue des Grands-Augustins, 75006 Paris. Tél.: 01 44.07 47 70: Fax : 01 4634 67 19. Tous droits de traduction, de reproduction et d’adaptation réservés pour tous pays. Toute représentation, reproduction intégrale ou partielle faite par quelque procédé que ce soit, sans le consentement de l’auteur ou de ses ayants cause, est ilicite et constitue une contrefagon sanctionnée par les articles 425 et sui utilisation collective, ants du Code pénal. i du 11 mars 1957 interdit formellement les copies ou les reproductions destinées & une © Editions Technip, Paris, 2007. Amprimé en France ISBN : 978-2-7108-0896-1 ISSN 1152-0647 Table des matiéres CHAPITRE 1 Les réseaux de neurones Aspects historiques 1 ELI Mac Culloch et Pitre LL2 Neurone biologique LL3 Neurone artificiel 11.4 Couplage synaptique et apprentissage 121 Architecture et mise en équation 1.2.2 Fonctionnement 1 2 3 Le perceptron 4 4 6 13.1 Réseau monocouche, présentation 7 16 Exercice: 18 Exercice 1 1s Exercice 2 18 CHAPITRE 2 Apprentissage 21 IL1 __ Différents types d’apprentissage 21 M11 Apprentissage non supervise 21 {1.1.2 Apprentissage supervisé 21 U2 Régles d’apprentissage non supervisé 21 U2 Réegle de Hebb 21 W.2.2__Régle de Kohonen 22 1.2.3 Régle Instar 23 W24 Régle Outstar 23 1.3 __Apprentissage supervisé avec la régle du perceptron 25 11.3.1 Notations 25 1.3.2 Principe 25 11.3.3 __Variante de la méthode 26 14 _Apprentissage supervisé, régle de la pscudo-inverse 27 IL5 _Apprentissage de Widrow-Hoff 28 W5.1 Réseau ADALINE (ADAptive Linear NEuron) 28 45.2 Algorithme de Widrow-Hoff 30 1.6 Apprentissage des réseaux 4 fonctions radiales de base (RBF) 31 VI Table des matiéres H6.1 Formulation du probléme 31 W6.2 Caleul direct ||| 8 1.6.3 Apprentissage hybride non supervisé-supervisé 32 6.4 Utilisation des réseaux 4 fonctions radiales de base pour la classification 33 11.7 Apprentissage compétitif’ 34 17.1 _ Apprentissage compétitif standard 34 417.2 Algorithme des K-moyennes 36, 1.7.3 Apprentissage compétitif pénalisant le rival 38 117.4 Apprentissage compétitif sensible d la fréquence 39 LTS Apprentissage compétitif généralisé 40 IL8____ Apprentissage supervisé du réscau monocouche 41 W8.1 Principe 4l 18.2 Méthode du gradient total 42 IL9 Méthode du gradient instantané 42 1.10 Apprentissage supervisé du réseau a trois couches 43 1L10.1_Présentation du réseau 43 1.10.2 _Apprentissage avec le critére d'erreur totale 44 1.10.3 Méthode de rétropropagation du gradient 45 IL11 Apprentissage supervisé du réscau multicouche, cas général 47 H11.1 Présentation de Vaigorithme 47 111.2 Aceélération de la convergence 48 IL12__Exercices 49 Exercice | 49 Exercice 2 50 Exercice 3S Exercice 4 54 Exercice 5 58 Exercice 6. CHAPITRE 3__Réseaux pour l’Analyse en Composantes Principales 65 TIL Principe 65 1.2 Analyse en composantes principales 66 IL3 _ Réalisation d’un neurone pour extraire la composante principale 67 111.4 Réseaux de neurones hiérarchiques 68 IIL5 Réseau de neurones adaptatif’ 69 Il1.6___ Méthodes de Projection Non Linéaire (PNL) 70 11.7 Perceptron Multicouche Auto-associatif (PMA) R 117.1 _ Perceptron avec projection dans la couche cachée R 1.7.2 Perceptron avec projection au niveau de la couche de sortie 74 Table des matiéres VI CHAPITRE 4 Classification 72 IV.1__ Classification automatique WW 1V.2__ Classification automatique supervisée 7 IV.3___ Classification non supervis¢e 9 IV.4 Architecture des réscaux de neurones multicouches pour la classification 79 IV.S___Réscau de Hamming 85 IV.S1 Structure 85 V5.2 _Apprentissage compétitif: 86 1V.6 — Cartes topologiques, ou auto-organisatrices de Kohonen 88 IV.7_— Réseaux LVQ (Learning Vector Quantization) 90 CHAPITRE 5 __Réseaux de Hopfield 93 V.1___ Structure 93 V.2 Réseau de Hopfield discret. Utilisation en reconnaissance de patrons 95 ¥V.3___ Algorithme d’apprentissage et mise en euvre 97 V.4____Réseau de Hopfield récurrent 99 V4.1 Premier type de réseau 99 V4.2 Deuxiéme type de réseau 100 V.5___Réscaux de Hopfield dynamiques continus 100 VSI Probléme général 100 V5.2 Probléme du voyageur de commerce 103 V5.3 Optimisation basée sur le recuit simulé 104 CHAPITRE 6 __Intégration de la logique floue dans les réseaux de VLI___ Limitation des réseaux de neurones 107 VIL2___Les systémes d’inférence flouc 108 ‘VL3 Les structures neuro-floues 09 VI3.1 Principe 109 VI3.2__ Réseaux de neurones flous 110 VI3.3 Systemes d'inférence floue ¥13.4 — Systémes d‘inférence neuro-flous adaptatifs 113 VI4__ Exemple de mise en euvre d'un réseau neuro-flou us V1.4.1 Présentation du réseau 5 V4.2 _Apprentissage du réseau U7 CHAPITRE 7 Application des réseaux de neurones a la commande des processus 123 VIL1__Idée de base 123 VIIL2_ Modglisation 125 VI12.1 Madéle direct 125 VII Table des matiéres Vil.2.2 Modeéle inverse 126 VIL2.3 Modélisation du compensateur 126 VI.3 Commande neuronale des processus 127 Vil3.1 Utilisation du modéfe neuronal inverse 127 VII.3.2 Commande a Modeéle Interne neuronal (CMI) 127 ViL.3.3 Recopie d'un systéme de commande 128 Vif.3.4 Commande a modéle de référence 129 VIE.3.5 Commande avec modéle inverse en structure bouclée 130 VII4 Application ; modélisation et commande neuronale d’un systéme dynamique 130 Vil.4.1 Description du procédé 131 VIL4.2 Modéle neuronal direct 131 Vil.4.3 Modéle neuronal inverse 133 Vil.4.4 Commande par anticipation 134 VIL4.5 Commande neuronale par modéle interne 135 CHAPITRE 8 Les réseaux de neurones : approximateurs universels 137 VIII.1 Fondements théoriques 137 VIILI1 Idée de base 137 VIIL1.2. Approximateurs conventionnels 138 VILL1.3 Approximation d'une fonction non linéaire par un réseau de neurones 140 VIIL.1.4 Limitation des réseaux de neurones dans le cas de ta modétisation des systémes dynamiques 144 VIL.2 Sur la conception des réseaux de neurones pour la modélisation de processus 147 VIIL2.1 Principe 147 VII1.2.2 Algorithmes de construction 147 VIII.2.3 Algorithmes d’élagage 148 151 Bibliographie CHAPITRE 1 Les réseaux de neurones 14 Aspects historiques 11.1 Mac Culloch et Pitts Les méthodes connexionistes ont été initialisées 4 Vere de la eybernétique. L'objectif des chercheurs était de construire une machine capable de reproduire le plus fidélement possible certains aspects de Tintelligence humaine. Dés 1943, Mac Culloch et Pitts ont proposé des neurones formels mimant les neurones biologiques et capables de mémoriser des fonctions booléennes simples. Les réseaux de neurones artificiels réalisés a partir de ce type de neurones sont ainsi inspirés du systéme nerveux. Ils sont concus pour teproduire certaines caractéristiques des mémoires biologiques par le fait quils sont : - massivement paralléles ; - capables d’apprentissage ; - capables de mémoriser l’information dans les connexions inter- neurones ; - capables de traiter des informations incomplétes, 11,2 Neurone biologique Le neurone biologique (fig. 1.1) comprend : - le corps cellulaire, qui fait la somme des influx qui lui parvicnnent ; si cette somme dépasse un certain seuil, il envoie lui-méme un influx par l’intermédiaire de l’axone ; - V’axone, qui permet de transmettre les signaux émis par le corps cellulaire aux autres neurones ; + les dendrites, qui sont les récepteurs principaux du neurone, captant les signaux qui lui parviennent ; 2 1. Les réseaux de neurones - les synapses, qui permettent aux neurones de communiquer avec les autres via les axones ct les dendrites. Synapse Corps cellulaire Figure 1.1 Neurone biologique 4.1.3 Neurone artificiel C'est I’élément de base d’un réseau de neurones. Il réalise une fonction f(y) d’une sommation pondérée y des n+1 signaux x),%,..-,x, qui lui parviennent (fig. 1.2) : Figure 1.2 Neurone artificiel v= Soma, ind z=S(y) Les coefficients de pondération ¥., synaptiques. Siw; est positif, l’entrée x, est excitatrice alors que si 1, est négatif, elle est inhibitrice, O,1,...,4 s’appellent les poids 1. Les réseaux de neurones 3 Dans le neurone de Mac Cullochs et Pitts, la fonction d’activation f est du type tout ou rien 4 scuil prenant les valeurs 0 ou 1. Le scuil de déclenchement est en général provoqué par une entrée inhibitrice x,, parfois appelée biais. Les fonctions d’activation les plus utilisées sont les suivantes (fig. 1.3) : a) tout ou ricn ; b) fonction signe ; c) plus ou moins 4 seuil ; d) fonction affine ; e) saturation ; f) sigmoide ; g) fonction arctangente ; h) fonction radiale de base du type gaussien. ee Ltle 4+ Figure 1.3 Fonctions d’activation les plus utili 1.1.4 Couplage synaptique et apprentissage En 1949, Hebb a mis en évidence l’importance du couplage synaptique dans l’apprentissage par renforcement ou dégénérescence des liaisons interneuronales lors de I’interaction du cerveau avec le milieu extérieur. Le premier modéle opérationnel de réseau de neurones : Ie perceptron, inspiré du modéle visuel et capable d’apprentissage, a été proposé en 1958 par Rosenblatt. Les limites du perceptron monocauche du point de vue possibilité de classification ont été montrées en 1969 par les mathématiciens Minsky et Papert ct i] a fallu attendre de nouveaux travaux, en particulier ceux de 1. Les réseaux de neurones Hopfield en 1982, pour réaliser des réseaux de neurones capables de résoudre des problémes d’ optimisation et ceux de Kohonen pour résoudre les problémes de reconnaissance et de classification. Aujourd”hui, les réseaux de neurones ont de nombreuses applications dans des secteurs trés varies : 12 42,1 = traitement d'images : reconnaissance de caractéres et de signatures, compression d’images, reconnaissance de formes, cryptage, classification - traitement du signal: filtrage, classification, identification de sources, traitement de la parole, - contréle : commande de processus, diagnostic de pannes, contrdle qualité, robotique,... = optimisation : planification, allocation de ressources, tournées de véhicules, régulation de trafic, gestion, finance,... - simulation: simulation boite noire, prévision météorologique, recopie de modéles,... Le perceptron Architecture et mise en équation Le perceptron comporte une couche d’entrée constituée de 7 neurones élémentaires dont la fonction d'activation est linéaire et une couche de sortie constituée d’un ou de plusicurs neurones dont la fonction d’activation est cn général du type plus ou moins, ou tout ou rien (fig. 1.4). Notant w, le poids reliant le J" neurone de la couche d’entrée au i*™ neurone de la couche de sortie, il vient : ¥= DL WX; + Wok fal 2=f(y) ou encore : ¥, Sw Xt WoXy avec: Wy = [14 W)3,- etx” MyXyorea%q] Ici, x, correspond a l’entrée inhibitrice constante. 1. Les réseaux de neurones Figure 1.4 Perceptron Il est possible de décrire le perceptron sous la forme matricielle, présentée dans la figure 1.5 ; yaWxt wx, avec . V=Di Pye dal r 2=([2).25.-.52, Wy = [Mor Wore Mo) Figure 1.5 Représentation matricielle du perceptron 6 1, Les réseaux de neurones 12.2. Fonctionnement Pour comprendre le fonctionnement du perceptron, prenons I’exemple du réseau ci-dessous (fig. 1.6) avec 2 neurones dans la couche d’entrée et 5 neurones dans la couche de sortie : wi! =[w,,m2] Wig = 0 2 Vi=L2...5 y= Dx Sy =wix *y z|/ Figure 1.6 Exemple de perceptron Si les vecteurs poids sont de méme module : ww = Wiel,2,...,5 y, teprésente le produit scalaire de wi par X qui correspond, dans ce cas, a Ta projection de x sur wy. Le produit scalaire est maximum pour le vecteur poids 1, qui est le plus proche de |"entrée x. 1. Les réseaux de neurones 7 En associant la valeur 1 4 la sortie z, du neurone i,, pour lequel y, prend la plus grande valeur: y, = iy la valeur 0 aux autres, il s’effectue une classification des positions des vecteurs d’entrée selon leur appartenance a l'une des cing zones définies a partir des vecteurs poids w, (fig, 1.7). wy, Wy Ww, Ws Figure 1.7 Classification a partir du perceptron Avec l’ajout de la fonction d’apprentissage supervisé ou non, il est possible d’apprendre a ce réseau a faire de la classification. 1.3 Réseaux a couches 13.1 Réseau monocouche, présentation Dans le paragraphe précédent, a déja été présenté le perceptron qui comporte n+I entrées et m neurones de sortie. w, représente le poids caractérisant la liaison de la j*™ entrée au i" neurone de sortie et wi, représente le poids associé 4 l'action généralement inhibitrice caractérisée par entrée x,, =1 : yaWetw, wt A W=| i |={w,} we Vela dal’ 8 1. Les réseaux de neurones r DUM) + Mo = MY HIg A Wo Wy = : Wao L’utilisation d’un automate linéaire a seuil pour la couche de sortie, dite de décision, permet de réaliser pour chaque neurone i une partition des vecteurs d’entrée en deux classes dont la frontiére est définie par |’hyperplan de dimension n—1 et d’équation : Dey, + Wy rl Le perceptron permet donc, ainsi qu’il l’a été souligné par Minsky et Papert, de ne séparer que des exemples linéairement séparables. Par exemple, i] ne peut réaliser le OU exclusif (ou XOR). Les réseaux multicouches permettent de pallier 4 cette limitation. 43.2. Réseaux multicouches Dans ce cas, le réseau comporte en général au moins trois couches : une couche d’entrée, une ou plusieurs couche(s) cachée(s) et une couche de sortie (fig. 1.8), Pinformation circulant de entrée vers la sortie 4 travers la (Ics) couche(s) cachée(s). Les notations étant les suivantes : aa dy jldme 2") : sortie du i*"* neurone de la couche / a 7, neurones r z = [2,20 2] 7 ys [, yl) on] wl: poids liant le j"* neurone de la couche 7~1 au é neurone de la couche! Je ()) : fonction d’activation du #"* neurone de la couche | 1. Les réseaux de neurones 9 ona: fl aS ll wh j= =s (0!) Les techniques d’apprentissage de ce type de réseau sont développées plus loin. couche d’entrée couche cachée couche de sortie ny neurones 7, neurones ny neurones. Figure 1.8 Réseau de neurones a trois couches En notant : 19 =ful}, fF deecamy FEL 7 wi =[wt see wi] £9) =L(00) AY!) f (JY - il vient la représentation matriciclle : =f (y”) so pr, ll 10 1, Les réseaux de neurones Pour un réseau a trois couches, elle peut étre schématisée comme suit (fig. 1.9), avec : =x, Ws), Wis0 WED 4 yh) (= (ye?) y py) =WOZ0) 4 4 2) = £0(0) Figure 1.9 Réseau multicouche » Exemple de réseau multicouche : réalisation du OU exclusif (XOR). La table de vérité relative 4 cette fonction logique est la suivante : *\%, 0 1 | 0 0 1 1 1 o Dans le plan(x,,x,), elle définit quatre points M,,M,,M,etM, (fig. 1.10) relatifs aux quatre combinaisons possibles des valeurs des variables logiques x, et x. 1. Les réseaux de neurones iW M, M, (0,1) 41 (1) 0 M, M, (0,0)>0 (1,0)>1 Figure 1.10 Représentation du XOR Un réseau 4 deux couches actives suffit pour traiter ce probléme de réalisation de la fonction logique XOR (fig. 1.11), les fonctions d’activation étant du type tout ou rien. we Figure 1.11 Réalisation neuronale du XOR Tl apparait que 2”) est égal A I pour x, #x, et 40 dans le cas contraire. Il vient en effet : 2x, +2x,-1>0 si x, cou x, =1> 7; 2x, #2x,-1<0 si x, =x, =0> 2") =0 12 1, Les réseaux de neurones Pour avoir 2") =1, il faut avoir: Peat, ce qui exclut le cas : x, =. Le premier neurone de la couche cachée isole le point Af, et le deuxiéme le point M,. La couche de sortie réalise le ET logique des sorties des deux neurones de la couche cachée (fig. 1.12). 14 Réseaux a fonctions radiales de base Les réseaux a fonctions radiales de base (Radial Basis Functions : RBF) sont usuellement des réseaux 4 trois couches (fig. 1.13): - une couche d’entrée, dont les neurones sont 4 fonctions d’activation lingaires ; - une couche cachée dont les neurones sont 4 fonctions d’activation gaussiennes ; - une couche de sortie dont les neurones sont a fonctions d’activation linéaires. 1 My M, M, 4 (0,0) +0 (1,0) > 1 (0,0)0 (1,0) (0,0) +0 (1,0) 1 Couche cachée Couche cachée Couche cachée Neurone I Neurone 2 Neurone 3 Figure 1.12 Effet des divers neurones 1. Les réseaux de neurones 13 Figure 1.13 Réseau RBF 2 Soop sf i YY Al 2)— { os 2 =/P(WP)=e y= Dap 7 tam Dans cette écriture, c, est le centre de la fonction gaussienne fe (-) et a, caractérise la dispersion. Ce type de réseau, dont l’apprentissage sera précisé plus loin, est principalement utilisé dans les problémes de classif- ication et de représentation de fonctions. 1.5 Réseaux de neurones récurrents Les réseaux récurrents sont de deux types : ceux totalement bouclés et ceux partiellement bouclés. Parmi les réseaux partiellement bouclés, les réscaux bouclés extéricurement sont souvent utilisés pour décrire les systémes dynamiques, continus ou discrets. 14 1, Les réseaux de neurones Le cas général correspond aux réseaux pour lesquels l'ensemble des entrées peut étre regroupé dans un vecteur x R” pouvant étre partitionné en 7, +1, sous-vecteurs x, avec : oy) Maa x, [x les composantes x,, pour /=1,...,/, correspondant aux entrées extemes, les composantes x, ,,,(f)=2(" (1) pour i=n,,...,, correspondant aux sorties du réseau, les autres composantes du vecteur x étant obtenues en retardant les entrées .x,,. I vient : xy (Qax(t-stl) Viel. Waly, Zany (C= 2) (t= F41) VE=1, Vai on, “j=l, Notons & l’opérateur de retard, il vient, par exemple pour un réseau avec une entrée externe et une sortie, le schéma de la figure 1.14. En adoptant les notations globales suivantes: - RN pour un réseau de neurones, - RNR pour un réseau de neurones récurrent, il vient la schématisation de la figure 1.15. Figure 1.14 Réscau récurrent monovariable 1. Les réseaux de neurones 15 x(t) 2(t+1) —— RNR ‘> Figure 1.15 Réseaux de neurones récurrents 1.6 Exercices Exercice 1 A l'aide de neurones 4 fonctions d’activation du type tout ou rien, réaliser les fonctions logiques suivantes : a) F ;by arty se) xy sd) xp se) x+y sete Minimiser, si possible, le nombre de neurones utilises. a) ¥ :négation 16 1. Les réseaux de neurones °) 1. Les réseaux de neurones 18 1, Les réseaux de neurones ou encore plus simplement ; Exercice 2 Les fonctions d’activation des neurones étant du type tout ou rien (f(v)=1 si v>0, £(v)=0 si v<0), déterminer les fonctions logiques des deux réseaux suivants : a) 1. Les réseaux de neurones 19 a) Equations du réseau : v= f(u+x,-1.5) ys f(x, -u-x, +v-0.5) On déduit la table de vérité suivante : a i -lo|—lo 20 1. Les réseaux de neurones b) Equations du réseau; w= f(x,+x,-1.5) y= f(0.5u+0.5x, +0.5x,-0.8) On déduit la table de vérité suivante : A H]4}-l-|olololo =}—lo]o|—|-Jolo Il vient la fonction logique du réseau b étudié : Y= 4 (44%) cHapiTRE 2 Apprentissage 1.1 Différents types d’apprentissage Il existe essentiellement deux types d’apprentissage, lapprentissage non supervisé ct |’apprentissage supervisé. J.1.1 Apprentissage non supervisé Dans ce cas, des exemples ou « prototypes » ou «patrons » sont présentés au réseau qu’on laisse s’auto-organiser au moyen de lois locales qui régissent I’évolution des poids synaptiques. Ce mode d’apprentissage est aussi appelé « apprentissage par compétition ». 411.2 Apprentissage supervisé Dans ce type d’apprentissage, on cherche 4 imposer au réscau un fonctionnement donné en forgant a partir des entrées qui lui sont présentées, Jes sorties du réscau 4 prendre des valcurs donnécs cn modifiant les poids synaptiques. Le réseau se comporte alors comme un filtre dont les paramétres de transfert sont ajustés a partir des couples entrée/sortie présentés. L’adaptation des parameétres du réseau s'effectue a partir d'un algorithme d’ optimisation, l’initialisation des poids synaptiques ¢tant le plus souvent aléatoire. 1.2 Régles d’apprentissage non supervisé 12.1 Régle de Hebb Considérons un réseau totalement connecté, avec Ies notations suivantes : Wy () : valeur a l"instant ¢ du poids liant le neurone j au neurone i 2 2. Apprentissage 2,(t) : sortie aV'instant ¢ du i" neurone Jv) : fonction d’activation du type tout ou rien f(v)=1 si v>0 et: f(v)=0 sivsd. La loi d’apprentissage la plus simple est basée sur la régle de Hebb qui suit en fait le comportement du neurone biologique: si deux neurones interconnectés sont simultanément activés, alors le poids de la connexion qui les relie doit étre renforeé, d’oti l’algorithme : wy (41) = w, (1) + 42,(t)2, (1) expression dans laquelle ¢ est une constante positive définissant I’intensité de l’apprentissage. Pour éviter que cette méthode de renforcement des poids conduise a des gains élevés, il est possible d’introduire dans l’algorithme un terme d’oubli dont le taux, noté 7 , est une constante positive inférieure a 1 : wy (¢+1) = wy (t)+ Hz, (dz, (0) - 7, () La valeur maximale des poids est définie par ye et ¥ ; cn cffet, si les neurones i et j sont activés en méme temps, nous avons : a()z,()=1 etil vient, al’équilibre: wy =(1-y), +4 soit : Ww, = sts 12.2 Régle de Kohonen Cette régle s’écrit sous la forme : wy (C41) =, (1)+ (2, ()- (4) avec: i€ I(t). Elle permet au neurone d’apprendre le vecteur présenté en entrée et done d’étre utilisé en reconnaissance des formes. L’apprentissage a licu lorsque l’indice du neurone apparticnt 4 un ensemble /(t) , défini en fonction des objectifs. La mise en oeuvre de cette régle est détaillée dans le chapitre 4. 2. Apprentissage 2B 112.3 Régie Instar Cette régle a été définie pour éviter une décroissance excessive des poids que pourrait provoquer la régle de Hebb avec oubli. L’algorithme propos¢ étant le suivant : wy (tt l=, (1)+ a 2,(1)2, (72 (8) (1) avec: Y= ft il vient : w, (t+ 1) = 9, (0) +42, (1)(z, (Q—w, (9) Nous pouvons constater que si le i neurone est inactif (z, (¢)=0), il vient ; w, (¢+1) =, (¢) Sinon, si le #* neurone est actif (Z, ()= 1), il vient : wy (+1) = (Ima), (04 #2, (7) et, dans ce cas, le vecteur poids est déplacé vers le vectcur d’entréc. Il en résulte que si les vecteurs d’entrée sont normalisés, les vecteurs poids we {w,} le seront également aprés apprentissage. Nous pouvons remarquer que la régle de Kohonen est équivalente a la régle Instar lorsque les fonctions d’activation sont du type tout ou rien et que T(t) est l'ensemble des indices des neurones activés 4 |’instantr, tels que : 2()=1 1.2.4 Régle Outstar Le but de cette régle est de permettre de régénérer un patron donné a partir d’une entrée linéaire. Les composantes du vectcur définissant Ic patron sont supposées de module inférieur ou égal 4 1. Nous avons done un neurone avec entrée scalaire et sortie vectorielle (fig. 2.1), Le neurone reproduit le patron P, caractérisé parle vecteur p, si son entrée 7, est égale a 1. Pour ce faire, les fonctions d’ activation sont du type saturation : F (v) =sat(v) définies par : S(v)=v sifp|si F(v)=-1 sivs-l S(vj=l sive 24 2. Apprentissage 241 fl ta) Figure 2,1 Réseau utilisé pour la régle outstar Pour ; fs il vient : 24 = W, sit, =1 Le but de l’apprentissage est, lorsque l’entrée 2, est égale 4 I, d’obtenir la sortie : 2 EM, =P a2 [Fntianntea] Pe =[PusPisvsPin | La régle d’apprentissage impose un oubli proportionnel a I’entrée 7, ; ilvient: — w,(t+1) =, (t)+vp, (2)m, (t)— ym (8), (1). En prenant le taux de décroissance y égal au taux d’apprentissage V, onobtient: wy (¢-+1) =, (1) +vx, ()(p, (0)— wy ()) soit, en notation matricielle : w, (+1) = (1) +¥m (a, (D—w (4) Il convient de remarquer que : - si: 2, (t)=0, il n’y a pas d’apprentissage, -etsi: v=1, pour 2, (1) =1, l'apprentissage s'effectue en une itération. 2. Apprentissage 25 ll.3 Apprentissage supervisé avec la régle du perceptron 4.3.1 Notations Le réseau étudié est décrit par la figure 2.2. y Zz Ww sal f > De] Figure 2.2 Perceptron La fonction d’activation / cst un tout ou rien. L’objectif est d’apprendre les K patrons p, . Notons p(t) le patron présenté 4 l'instant ¢, 9(1) Ia sortic désirée et z(t) la sortie réelle : r $()=[5,(09.5(Qensuld)] r 2(t)=[2,(#).22(t).---20(t)] 2()=F(x.(0) 3,Q= Dm (Dx (+ wal) 7 L’crreur pour la sortie du i*" neurone, sur présentation a l’instant ¢ du patron p(t), s*écrit: a(t)=s()-2.(¢) 1.3.2. Principe La méthode d’apprentissage — supervisi successivement tous Ices patrons ct a ajuster consiste a présenter é a chaque étape le vecteur r A , ‘ ime we [my Wry ser Wi, | des poids des connexions des entrées du i” neurone selon l’algorithme suivant : 26 2. Appremtissage w/(1#1)=w,(1) +4 (4) p(?) Wo (#41) = mo (4) +e, (¢) Nous pouvons constater que si la sortie est celle désirée, les poids ne sont pas modifiés. Il vient, en notation matricielle : W(t+1)=W(t)+ep" (t) wo (e+1)= 9, (r)+e avec: , wy Wo & 7 wy Wp & W(t)=| 2 bweal 2! bes we Wao ey 413.3 Variante de la méthode AYPétape ¢, avec le patron p(¢), ill vient: 2,(t)=1 si w! (t) p(t)>0 z,(t) =0 sinon La quantité —(s,(¢)—z, (¢))w! (¢) p(¢) est donc toujours positive ou nulle et ne peut étre nulle que pour z, (1) = s, (1). Soit E(t) la fonction de cout 4 "instant ¢ : B()=-L(s.()-2 (9) (1) e() Stats (20) 0) soit pour minimiser £() , en appliquant I’algorithme du gradient et en Il vient : notant 77 le taux d’apprentissage = w(t) =m (OSE) ou encore : w; (¢+1) =, (1) +(e (t) p(t) 2. Apprentissage 27 1.4 Apprentissage supervisé, régle de la pseudo- inverse Considérons le réseau monocouche suivant (fig.2.3), la fonction d’activation étant linéaire. Figure 2.3 Réseau monocouche Le but est de déterminer, a partir de g vecteurs prototypes p,, les poids W du réseau minimisant la quantité : lat =S}.00-»' oof avec les couples { p,,5,} fixes, ||El| étant une mesure de E . En notant : P=[Ds Pav Pa | Ss =[5,,53--55 | il vient: E=S-WP Si P est inversible, il est possible d’annuler I’erreur en posant : W=SP" sinon, Verreur £ peut étre rendue minimale en prenant : W=SP* od P* représente la pseudo-inverse de P au sens de Moore-Penrose, telle que : 1 (PP) P” Avec ces poids, pour une entrée quelconque x , Ja sortie cst un vecteur s' voisin du vecteur s, cortespondant au vecteur p, le plus proche de x au sens des moindres carrés. Cette approche est également valable pour le réseau monocouche avec fonction d’activation « signe » et variables prenant les valeurs —I ct +1. 28 2. Appremtissage Exemple Le probléme est de déterminer un réseau de neurones capable d'identifier les patrons p, et p, : 1 -1 rere disse] pt [ 0.5 -0.25 baa “|-0.5 -0.25 0.25 Ww=sP* =[1 “yf 0.5 -0.25 ol ~05 0.25 0.25 wel 0 0] Nous avons bien: Wp, =1 et Wp, =—1 ILS Apprentissage de Widrow-Hoff IL5.1 Réseau ADALINE (ADAptive Linear NEuron) Le réseau ADALINE (fig. 2.4) différe du Perceptron par la fonction d’activation utilisée qui est linéaire. FI =W Xt My xéR’,yeé R",ze R” Comme pour le Perceptron, les plans s¢parateurs des classes ont pour équations : wixt w,=0 Wi=l,...,m Dans la régle d’apprentissage du Perceptron, les plans séparateurs de classes peuvent étre trés proches des patrons servant 4 |’apprentissage ; ce qui rend le réseau sensible aux bruits. SL aM ae aM ea [epee (a eran oa a f MeN aa a eer ede ee hg ae ele el Ce eR: Eee Ra igle ee eed éSeaux de neurones asec ls eg ome acre cecil ene eae reac eat else teeta sae Te eee Te) oa om CMO ae eet oo ula eee ll ae a eee sella Lelie E Tareas Mea (ric (UP am eee UC LaLa Celia rTecte CCT reme eae Te Eco ne eaetrd teeter ie ere eure eaten eter tae teste tia PNeTCemMUaToMs (season TCU eae eM Age) it ic La te ae MTC Ted ELT aT es acolo cretalalre McMeel etss. Le (Med) Tet Mel Cee cae Carel] rarest (ay Tene cer ae cic oie + analyse en composantes principales, keel Cola eac elses leks su i identification et optimisation par les réseaux de Hopfield, Sure CUR eM Co sla ome selh aus cooly Breet arias cheer + approximation de fonctions. aCe UM oe MRC Mee Cu oa SMITE TCL a else ete Plea meals Cuenta cecal Ciel ae oa eos ie en Aiea ee UEC Ra racer Mees Cen Mian Oe Joseph Haggége est maitre assistant a I'Ecole Nationale d'ingénieurs de Tunis, TS ya Stc oo) Pa ena ela} PAAR