Intelligence Artificielle

haps JZ: Tutorial : état de l’art sur le « soft computing » Bernadette BOUCHON-MEUNIER LIP6, Université Pierre et Marie Curie SOFT COMPUTING : UN PANORAMA CRITIQUE Bernadette Bouchon-Meunier LIP6-Pole IA, 8 rue du Capitaine Scott 75015 Paris Bernadette, Bouchon-Meunier@lip6.fr Le soft computing a été introduit par L.A. Zadeh en 1994 comme un moyen de construire des systémes intelligents répondant & des obligations d’efficacité, de robustesse, de facilité d impiémentation et d’ optimisation de cotits temporels, Energétiques, financiers, etc, mais aussi prenant en compte la composante humaine généralement présente dans les systémes ‘yun, «ts guiding principle is to exploit the tolerance for imprecision, uncertainty, p€ttial truth, and approximation to achieve tractability, robustness, low solution cost and better rapport with reality”. Ses principales composantes en sont Ia logique floue, les réseaux neuronaux, le raisonnement probabiliste et les méthodes d’ optimisation telles que les algorithmes génétiques. Leur point de départ est la gestion d’imprécision et d’incertitude inhérentes & la plupart des problémes, Le principal intérét du soft computing réside dans l'utilisation conjointe de plusieurs de ces composantes dans des systémes hybrides tirant parti d’une synergie entre les différentes méthodes afin d’exploiter les avantages de chacune tout en compensant ses inconvénients par l'utilisation d’une autre dont les propriétés sont complémentaires. Par exemple, les compétences en apprentissage des réseaux neuronaux correspondent 4 une insuffisance en termes dexpressibilité des résultats, que ’on peut compenser par utilisation de ta logique floue qui manipule aisément des descriptions linguistiques. Les systémes neuro-flous trouvent ainsi leur justification. La logique floue aide a gérer des systémes complexes de facon simple et facilement explicitable, la difficulté de sa mise en ceuvre réside dans la mise au point des paramétres et des fonctions d'appartenance et ce probléme peut étre résolu par l'utilisation d’algorithmes évolutjonnaires. existe bien d’autres exemples de synergie entre différentes méthodes et les moyens de les combiner sont multiples. I suffit de considérer les nombreux moyens utiliser Conjointement logique floue et réseaux neuronaux pour s’en convaincre. Lassociation de la logique floue et des algorithmes génétiques est également fructueuse et il existe aussi des utilisations conjointes de la logique floue et du chaos. Le soft computing ne se limite pas aux combinaisons mettant en jeu la logique floue et les combinaisons de yt. réseaux de réseaux de neurones et d’algorithmes génétiques ou, plus couramment de neurones et de méthod. eet les probabilistes, trouvent de nombreuses utilisation ines of Ia mise au 1g peut étre utilisé dans la plupart des grands ae ine Same Point de systémes intelligents pose des problames, de ‘apprent oar d'images. existe de processus en passant par les bases de données ou le ale as des applications du soft computing a des problémes réels te dong), Paide lt Variés que la recherche d’information, la fouille de données Aécision, la robotique, le contrale de systémes complexes. Le soft computin; ¢/éTe chapiti Ir: II. Logique floue Le concept de l’ensemble flou a été préalablement introduite par Zadeh (1,2), qui a lancé le développement de la logique floue (LF) en remplacement de la logique boolienne qui a deux possibilités seulement. Le concept logique flou fournit un moyen naturel de traiter des problémes dans lequel la source d’imprécision est |’absence de critéres nettement définis ainsi que la présence de variables aléatoires. Ici, les incertitudes ne signifient pas des variations algatoires, probabilistes et stochastiques, qui sont tous basés sur les données numériques. Zadeh [1,2] a motivé son travail sur la logique floue avec l’observation que les léments clés de la pensée humaine ne sont pas des numéros, mais les niveaux de sous-ensembles flous [2- 4). En outre, Zadeh [1,2] vu chaque mot linguistique dans une langue naturelle comme une description sommaire d'un sous-ensemble flou 4 un univers de discours qui représente le sens de ce mot. La théorie des ensembles flous fournit un calcul systématique pour faire face a de telles informations linguistiquement. L’approche floue effectue le calcul numérique en utilisant des variables linguistiques stimulées par des fonctions d’appartenance. Par conséquent, Zadeh [1] a introduit des variables linguistiques comme des variables dont les valeurs sont des phrases dans une langue naturelle ou artificielle [1,4]. Bien que la logique floue a été présentée par Zadeh [1,2] en 1965, les concepts et les systémes flous n’ont attiré I’attention qu’aprés une application réelle de contrdle en 1975 menée par Mamdani et Assilian [1,5,6]. Le concept clé de la logique floue est I’allocation des effets partiels de n’importe quel objet & différents sous-ensembles de l’ensemble universel en place d’appartenance & un ensemble absolument unique. L’appartenance partielle & l'ensemble flou sera décrite numériquement par une fonction d’appartenance qui prend des valeurs entre 0 et 1. La figure (1.1) présente une fonction d’appartenance typique de tailles petite, moyenne et grande dans un univers. Par conséquent, ces affectations verbales sont sous-ensembles flous de l'ensemble universel. Dans cette figure, les valeurs moins de 2 sont certainement «petites», ceux entre 4 et 6 sont certainement «moyennes», tandis que les valeurs supérieures de 8 sont certainement «grandes». Cependant, les valeurs intermédiaires tels que 2,2 appartiennent partiellement aux sous-ensembles «petits» et «moyens». Dans la terminologie floue 2,2 posséde une valeur @appartenance de 0,9 «petite» et 0,1 «moyenne», mais a une valeur de 0 dans le sous ensemble grand [2,4]. Petit Moyen Grand 10 Figure L.1 : Fonction d'appartenance floue [2,4]. | ot /t2IL1 Les différents domaines d’applications Si les premiéres applications de la commande floue ont été développé en Europe par Mamdani, Van Lauta Lemke, Willayes dans les années 1975, ce type de commande a été Jargement utilisé au Japon a la fin des années 80 et au début des années 90, sur le métro Sendai (Juillet 1987), dans la conception du lave-linge Aisaigo Day Fuzzy de Matsushita (Février 1990), par exemple [7]. Tirant profil d’une évolution de la technologie permettant d’aborder des problémes en temps réel, & dynamique rapide (plus rapide que dans les premiéres applications de type conduite de processus lents: chaudiére, fours,....), Pindustrie japonaise a développé des produits grand public & base de logique floue: + Appareils électroménagers (lave-linge, aspirateurs, autocuiseurs, etc.), +Systémes audio-visuels (appareils de photos autofocus, caméscope stabilisateur d'images, photocopieurs,...) + Systémes automobiles embarqués (BVA, ABS, suspension, climatisation, etc.), + Systémes autonomes mobiles, * Systémes de transport (train, métro, ascenseur,. + Systémes de conditionnement d’ambiance, + Systémes de décision, diagnostic, reconnaissance, + Systémes de contrdle/commande dans Ja plupart des domaines industriels de production, transformation, traitement de produit et déchet. Terminons cette liste par une application, 4 savoir la commande a distance d'un hélicoptére sans pilote, pour des opérations de sauvetage ou inspection de sites dangereux, travail développé par l'équipe du Professeur Sugeno. Ce systéme intrinséquement non linéaire, instable et présentant de fort couplage, est caractérisé par 15 variables d’état et 4 commandes (vitesse et inclinaison des rotors), regoit des ordres globaux du style: atterrissage, décollage, vol stabilisé, vol avant, vol arriére, virage a droite, virage 4 gauche,.... Un systéme & base de logique floue, trés structuré hiérarchiquement (2 niveaux de commande, une douzaine de blocs d'une soixantaine de régles chacun), traite ces ordres pour arriver aux actions sur les organes de commande de ’hélicoptére [7]. IL.2 Définitions et notions sur les ensembles flous 11.2.1 Définition d'un ensemble flow Le concept fondamental dans la théorie des ensembles flous est la notion d’ensemble flou. En effet, un ensemble flou est une classe d’objets avec une échelle continue de degrés dappartenance. Chaque ensemble est caractérisé par une fonction d’appartenance qui attribue Achaque objet un degré d’appartenance qui s’étend entre 0 et 1 [1,8]. Soit un univers X, on définit un ensemble flou 4 dans X par l'application de 4 de X dans Vintervalle (0, 1]. A tout élémentx € X, on associe la valeur p, (x) telle que O [0) «ay L’application 14 est appelée fonction d'appartenance de l'ensemble flou A. 0, x n'appartient pas 8.4. x appartient & A, il satisfait pleinement la propriété A. ob / LECa ? OS *u4#0, 1 alors ua (x) est une valeur intermédiaire entre 0 et 1. x appartient & l'ensemble flou A On dit que x € Aavec le degré us (3). a) Support d'un ensemble flou Le support d'un ensemble flou A noté supp(A) est la partie X sur laquelle la fonction dappartenance p14 (x) n’est pas nulle, Supp(A) = {x © X34, (x) # 0} 2) b) Noyau d'un ensemble flow Le noyau de A noté Ker(A) est l'ensemble des éléments de X pour lesquels la fonction @appartenance normalisée de A vaut 1. Ker(A)= {x X5n1,(x)=1} 3) ©) Hauteur d'un ensemble flou La hauteur, notée H(4), d’un ensemble flou A de X est le plus grand degré d’appartenance de A H(A) = max(s1,(x);x € X) (1.4) 4) Cardinal d'un ensemble flou La cardinalité d’un ensemble floue A de X est le degré global avec lequel des éléments de X appartiennent a A. Elle est définie par : Card(A) = ¥ esmecayta®) as) e) Ensemble normalisé Un ensemble est dit normalisé s*il est de hauteur 1 Dans la figure (I.2) sont résumées les différentes caractéristiques. Noya Supp Figure 1.2 : Format d'un ensemble flou normalisé. 03/4811.2.2 Opérations sur les ensembles flous Les opérations sur les ensembles flous sont des extensions des opérations connues sur les ensembles classiques. Elles permettent d°écrire des combinaisons logiques entre notions floues, c’est-a-dire de faire des calculs sur des degrés de vérité, En effet, si les valeurs d’appartenances sont restreintes aux valeurs 0 et 1, alors les opérateurs flous (Et, Ou, négation,...etc.) devraient donner les mémes résultats que ceux classiques [8]. a) Egalité Deux ensembles flous A et B de X sont égaux (4=B) si leurs fonctions d’appartenance prennent la méme valeur pour tout élément de X : Ha) = Hy (9) © XSix tel que 44(x)# uy(x) => A*B (16) b) Inclusion Soit deux ensembles flous, 4 et B de X. L'ensemble A est inclus dans l'ensemble B, (A B), si leurs fonctions d’appartenance sont telles que : Vee @ Xs gy(3) S Hy(2) a7) ©) Intersection L’opérateur logique correspondant & I’intersection d’ensembles est le ET. Le degré de vérité de la proposition «A ET B » est le minimum des degrés de vérité de A et de B: Wx € X: Me (x) = min(se,(x).H4y(2)) 18) 4) Union Lopérateur logique correspondant & l'union d'ensembles est le QU. Le degré de vérité de la proposition "4 OU B" est le maximum des degrés de vérité de A et de B. Vo © Xs ple (2) = max(s4(¥)sdy(2)) as 113 Opérateurs et normes Comme dans Ia théorie des ensembles classiques, on définit lintersection, l'union des ensembles flous ainsi que le complémentaire d'un ensemble flou. Ces relations sont traduites par les opérateurs "et", "ou" et "non". De nouvelles fonctions d'appartenance liées 4 ces opérateurs sont établies [9] : x appartient dA et Boe xe ANB fang (x) x appartient @A ou Bee x € AUB Ugy(X) (L10) x appartient au complément de A> xe A= p(x) Llopérateur "et" se défini par une norme triangulaire (t-norme) : 7: [0,1] [0.4] > [0.1] (my) 2 =xTy ait) T posséde les proprigtés suivantes : + Commutativité: x7y = yTx + Associativités :x7(yT2) = (xTy)Tz ot/té+«Monotonies : x7z< yTz si xs y + Admet 0 comme élément absorbant et 1 comme élément neutre : O7x = 0, 17x =x De méme, l'opérateur "ou" se défini par une co-norme triangulaire (7°) quion appelle aussi snorme (S): 5 :[0,1}« [0,1] > [0,1] (yz = xSy (12) S posséde également les propriétés de commutativité, dassociativité et de monotonic. Elle admet 1 comme élément absorbant et 0 comme élément neutre. A l'aide de la loi de Morgan, on peut associer a chaque t-norme, la s-norme définie par : xSy=1-(1-x)7(-y). 1.13) Les opérateurs les plus utilisés en logique floue sont : + L’opérateur "et" pour la t-norme, qui correspond a l’intersection de deux ensembles A et B. Il peut étre réalisé par : La fonction "Min": plyy (x) = min(ye,(x), Hy (%)) a4) + La fonction arithmétique "Produit" : pl jyy(x) = lg (&)-My (2) (15) + L’opérateur "ou" pour la s-norme, qui correspond a I’union de deux ensembles 4 et B. 11 peut étre réalisé par : + La fonction "Max" : 4 (%) = max(s4 2), Hy (2)) (1.16) + La fonction arithmétique "Somme" + J, (%) = (44y(X) + Hy(8) (1-17) pérateur "non" est réalisé par: a(x) = 1 = ft 4(x)- (1.18) 11.4 Propriétés des opérations sur les ensembles flous Sil’on suppose que A et B est deux ensembles flous dans un ensemble de référence U [10] + Les deux propriétés suivantes ne sont pas « classiques ». tersection d'un ensemble flow et son complément n’est pas vide. Hy gael (1.19) ANA # Gis + L’union d’un ensemble flou et de son complément ne donne pas I’univers du discours : Loi du « Excluded middle ». AVA #6 ie. Uy g@)#1 (1.20) 05/12) intersection (©) Punion Figure L3 : Propriétés des opérations sur les ensembles flous. * Le reste des propriétés sont présentées dans le tableau (I.1) : 06/ LPTableau I.1 : Propriétés des opérations sur les ensembles flous (10). ‘Assockativité Di te AU(BOC) =(AUB)M(AUC) AN(BUC)=(ANB)U(ANC) Idempotence ANA=A AUA=A Identité [Tnvotution aA ‘Transitivité Si AGBEC Alors ACC Théoréme de DeMorgan AUB=ANB ANB=AUB ‘Absorption AA(AUB)=A AU(ANB)=A ‘Complément AX Wx eU: Hye (x) =1- 4) VF [B)=]4n 8] 140 8) (ANB) =A° UBS (AUB) = Ao ABS (Af =A Autres propriétés Xo =g =X (4l+l4*| = kern(A°)° =sup(A) sup p(A°)° = kren(A) ker n : noyau, supp:support oF /12v cL g 15 Systéme d’inférence flou (SIF) La ae nae ie basée sur la théorie des ensembles flous, qui établit une frontiére souple ent les diférentsnivesux de variables ot 'appartenance est définie par degré de vérité. La Laine est une aoe ie la logique booléenne qui prend en considération les valeurs pees ain et «faux» ou entre «O» et «In. Dans cette approche, Ia théorie classique de la composition binaire dans un ensemble, est modifié pour incorporer les appartenances entre «0» et «L». Les modéles flous sont des moyens de capturer I’expertise humaine d’un processus sous forme de régles floues (Si-Alors), Le systéme d'inférence floue peut initialiser et apprendre des régles linguistiques et semi- linguistiques, par conséquent, il peut étre considéré comme un transfert de connaissances direct, qui est le principal avantage des systémes d'inférence floue sur les systémes dapprentissage classiques et les réseaux de neurones artificiels. Souvent, les régles du systéme flou sont désignées & priori, les paramétres des fonctions d’appartenance sont adaptés genes processus d'apprentissage a partir des ensembles de données d'entrée-sortic du systéme cudié, Fondamentalement, un systtme d'inférence floue est composé de cing blocs fonctionnels de la fagon suivante [11,12] : © Une base de régles contenant un certain nombre de régles floues (Si-Alors). Toutes les incertitudes de relations non linéaires, ou des complications de modéle sont incluses dans la procédure d'inférence floue descriptive sous la forme (Si-Alors). En général, une régle floue est constituée deux parties (la premiére partie est Si et la seconde partic est Alors), qui sont appelées prémisse et conséquence, respectivement. La forme générale d'une régle floue (Si-Alors) est la suivante : « Régle: si Z est A alors F est B ». * Une base de données qui définit les fonctions d'appartenance des ensembles flous utilisés dans les régles floues. Une unité de décision, qui effectue les opérations d'inférence sur les régles. Une inférence floue, qui transforme en degré de vérité, les entrées nettes de valeurs linguistiques. © Une inférence de défuzzification, qui transforme les résultats de I"inférence floue en une sortie nette. Ces blocs fonctionnels sont présentés a la figure (1.4). ae de comatonces Bxtrée; Base de Base de Sortie nette données | | regles nette v x 8 : r) yoy 4 8 Déciston a + faire 06/1éFigure 14 : Bloc du systéme 4 inference flow SIF (11,12) 11.6 Méthodes d’inférences floues Dans cette étape, il s’agit de déterminer comment le systéme interpréte les iables linguistiques floues. Les variables linguistiques (entrées et sorts) met par les régles inference. Les variables sont liées par Vopérateur "ET", tandis que les variables de serie des différentes régles sont liées par Popérateur "OU" et Pensemble des régles sont liées par les connecteurs tels que "ET" et "Alor", La conséquence d’une régle floue est inférée par Vemploi de régle de composition, en utilisant les fonctions d’implications floues et les connecteurs "ET" et "Alors", Les méthodes d’inférenc es se différencient selon la combinaison et |’utilisation des opérateurs (ET et OU) dans les régles d’inférence, Parmi ces méthodes on taave [12]: 11.6.1 Méthode @inférence Max-Min Cette méthode teprésente l’opérateur "ET" par la fonction "Min", la conclusion "Alors" par la fonction "Max" et lopérateur "OU" par la fonction "Min". La représentation graphique de Cette méthode d’inférence est illustrée par la figure (L.5). 11.6.2 Méthode d’inférence Max-Produit Paneer Cette méthode présente Vopérateur "ET" par la fonction Min, operate "OU" par I fonction "Max" et la conclusion "Alors" par la fonction "Prod", d’ow la rept graphique de cette méthode schématisée par la figure (1.6). 11.6.3 Méthode d’inférence Somme-Produit , ‘ew "OU" Dans cette méthode, lopérateur "BT" est représenté par Ia fonction "Prod", l’opérateur ion "Alors" Esecut tion est représenté par la fonction "Somme" et la conclusion "Alors" est représentée par la fonctior "Prod", sa représentation graphique est illustrée par la figure (1.7). 09/ tf| woz oR NG ALSO y NG Role 1 Figure 16 : Méthode d'inférence Max-Prod (13]. tof teoR ty NG Figure 1.7: Méthode d'inférence floue Somme-Produit {13}. 11.6.4 Méthode du centre de gravité ‘ité est l'une des méthodes les plus mentionnées dans la littérature. ¢ du centre de gravité peut étre déterminge en utilisant la formule générale : 21) L*intégrate au dénominateur donne la rale au numérateur correspond au moment de la sur De Figure 1.8 : Méthode d'inférence floue Centre de gravité (13). t/t11.6.5 Méthode TVFI (True Value Fuzzy Interférence ou méthode des valeurs concrétes) Cette méthode aussi appelée "méthode de Sugeno” est une extension de la méthode Min/Max et de la méthode Somme/Produit, mais elle utilise des sous-ensembles "discrets". Par sous- ensemble "discret", on entend sous-ensembles limités & des singletons [14]. Figure 1.9 : Méthode d’inférence floue des valeurs concrétes [14] 4/42Chapitre III : Réseaux de neurones artificiels Liorigine des réseaux de neurones vient de l’essai de modélisation du neurone biologique par Warren McCulloch et Walter Pitts [10,15]. Ils supposérent que I’impulsion nerveuse est le résultat d’un calcul simple efffectué par chaque neurone et que la pensée née grace a l’effet collectif d’un réseau de neurones interconnectés. U1L1 Domaines d’application des RNA Diune maniére générale, les applications des RNA sont variées, parmi lesquelles on trouve [28]: I1L.1.1 L'approximation des fonctions Certains RNA, en particulier les multicouches, montrent des capacités d'approximation de fonctions trés intéressantes. A partir de données expérimentales, les RNA peuvent approximer Ja fonction qui restitue pour chaque entrée la sortie correspondante. MIL.1.2 La classification Dans les applications de classification par RNA, on siintéresse essentiellement la classification d'objets pouvant étre décrits par des vecteurs de caractéristiques numériques et booléennes. La reconnaissance de caractéres est probablement, l'une des applications qui a fait le plus connaitre la capacité de classification des RNA. Ainsi, chaque lettre manuscrite peut étre classifiée par le réseau, de fagon a regrouper et différencier efficacement le plus de caractéres possibles, T1L1.3 La commande Les RNA étant une structure de calcul hautement paralléle, capable d’apprendre et de s’adapter, sont souvent tres efficaces pour la commande. Les sorties du systéme sont, alors, contrdlées en fonction des entrées (ex: sorties de capteurs, commandes d’entrées, boucles de rétroaction, etc...), suite & un préapprentissage ou un apprentissage continu adéquat. Le projet ALVIN (Autonomous Land Vehicle In a Neural Network) [29] est un exemple de RNA qui a appris & conduire une automobile A partir d’images vidéo de la route enregistrées lors de la conduite du véhicule par un utilisateur humain. Aprés la phase d’apprentissage, le RNA a pu conduire automobile sur plusieurs kilométres sans quitter la route. A noter qu'il existe bien d'autres domaines oi les RNA sont appliqués : l'optimisation, la prédiction, le filtrage, la compression des données, etc... 1.2 Réseaux MLP 11.2.1 Structure du MLP Le réseau. MLP (Multi Layer Perceptron) ou le perceptron multicouche est un réseau orienté de neurones artificiels organisé (comme son nom l’indique) en couche ; une couche d’entrée, une couche de sortie et une ou plusieurs couches intermédiaires appelées couches cachées. La figure (1.11) donne I’exemple d’un réseau contenant n entrées, deux couches cachées et une couche de sortie (31,32].Couches Couche Couche Couches dentrées cachée | cachée 2 de sorties Figure 1 : Exemple d'un réseau MEP [31,32]. Ta couche d’entrée représente toujours une couche virtuelle associée aux entrées du systéme, clle ne contient aucun neurone tandis que les couches suivantes représentent des couches effectives de neurones, 111.2.2 Equation du réseau On utilisera les notations suivantes pour décrire le fonctionnement du perceptron multicouche (31,32): #: numéro de couches du réseau avec la couche I qui représente la couche d’entrée et la couche L qui est la couche de sortie. (L: nombre total de couches, I: indice de couche). Nj: Nombre de neurones présents dans la couche /, a} (k): Entrée au j** neurone de la couche / 4 l'instant k. i(k): Sortie du j°"* neurone de la couche / 4 I’instant k, w,(k): Poids de la connexion *”" neurone de la couche une vers le?" neurone de la couche /+J, aJ"instant k. Le perceptron multicouche est régi par les équations suivantes : L’entrée du j"* neurone dans la couche / 4 l'instant & est donnée par : ai (k)= Sue xt) ay Sa sortie est donnée par : si(k)= f(ai(k) ISIS Q) 2/#‘f: #tant la fonction activation, L'entrée du" neurone dans la couche de sortie est : My xt(Q= Der" sh) ) Le vecteur d’entrée X = [x,x,....4,’, est transformé a un vecteur intermédiaire des variables cachées U par utilisation de fonction d'activation fi Ia sortie u, du j*"* neurones de la couche cachée est obtenue comme suit [33] : AS ee 4] ® Od 5} et w!, représenter respectivement le biais et le poids entre le" neurone de la couche cachée et le 7 neurone de la couche dentrée, Liindice supérieur 1 représente le raccordement (premier) entre les neurones des couches entrée/cachée. Le vecteur de sortie désirée Y =[y,y,....y5]° du réseau est obtenu a partir du vecteur des variables intermédiaires U par une fonction d'activation f2 de la couche de sortie, Par exemple, Ia sortie du neurone #" peut &tre exprimé comme suit : ¥ vas] Seie+si] © Od lindice supérieur 2 dénote le raccordement (secondaire) entre les neurones des couches cachéelsortic. Il y a plusieurs formes des fonctions d'activation f; et fp tels que la fonction sigmoide, la tangente hyperbolique et la fonction linéaire, données par les équations (1.27), (1.28) et (1.29) respectivement 1 soe © i+ 4, SO)= -1 M l+e™ SO)RY (8) 111.2.3 Apprentissage du MLP L’apprentissage est le processus par lequel un réseau de neurones s*auto adapte en vue dapprocher une sortie désirée. L'algorithme de rétro-propagation (Back Propagation (BP)) est I’algorithme le plus ut dans la tache d’apprentissage des réseaux de neurones, Il est issu de 'algorithme de descente du gradient stochastique qui a pour objectif la minimisation dune fonction coat de la forme (31,32) : Fe =ZE 200-200" 0) Avec : yk) : P* sortie du réseau neuronal a l’instant k. ‘¥yiq(k) : Sortie désirée correspondante a y,(k). 3/Fprésente la longueur de la séquence d’entrainement. ‘ms le nombre total des neurones de la couche de sortie. Les poids du réseau de neurones seront modifiés suivant la relation suivante : aE, aw) =n (10) 77 : étant le taux ou le pas d’apprentissage (0(7(1) . w(K +1) = w(k) + Aw(k) ay Pour le cas du réseau de neurones multicouches, I’algorithme de rétro-propagation peut étre modifié afin qu’il tiene compte des récurrences internes du réseau. Le critére quadratique & minimiser est donnée par : y £, =F 2h @-sf0 (2) Fo i(k) : Sortie du réseau du j*”" neurones. s/(k) : Sortie désirée correspondante au" neurone de sortie. Nous avons done besoin de caleuler les dérivées de ce critére d’erreur par rapport aux poids de connexions. En utilisant lalgorithme de la rétro-propagation et 1a régle de chainage, on obtient les dérivées suivantes [34] : L’erreur & la couche de sortie : ef (E) = (8) sf Ds eH) (3) Les erreurs correspondantes aux couches cachées : eh) =e GH) Del" wi, (14) A L'adaptation des poids se fait selon l’équation suivante : vw) (+1) = wy ()—7.6)""(K)8/ (1) (1s) L'apprentissage de réseau MLP implique de trouver des valeurs des poids de raccordement, qui réduisent au minimum la fonction erreur entre les résultats récls produit (calculés) et les valeurs a atteindre (désirés) correspondantes dans l'ensemble de l’apprentissage. Une des fonctions erreur largement répandues est l'erreur quadratique moyenne (MSE : Mean Squared Error) [33,35]. Les réseaux supervisés que nous avons utilisés sont des réseaux multicouches ayant une couche d’entrée, couche cachée et une couche de sortie de types : ((newff': feedforward back propagation network), (newef: cascade-forward back propagation network) et (newelm : element back propagation network) [36]). Dans chacune de ces couches, le nombre de neurones varie suivant l’application et les performances demandées au réseau IIL.3 Réseaux a fonction de base radiale RBF 1113.1 Principe de base Ce sont des réseaux 4 une seule couche cachée, ils sont utilisés pour la classification et Papproximation de fonctions, a travers une combinaison linéaire de fonctions non linéaires & base radiale, Le fonctionnement de ces réseaux repose sur le principe des estimateurs 4 noyau, et la généralisation se fait du monovariable vers le multivariable. Un estimateur 4 noyau considére des fonctions de R* vers R qui sont de la forme [16,37] : 4) =A (rk -4l) (16) ‘/Fx représente les entrées du réseau et ¢, représente les neuds de l’interpolation pour .figt (Bin: hombre de noeuds d’interpolation). Lidée principale est introduite par M.J.D.Powell [38]. Elle est basée sur Interpolation. Toute fonction f(x) d'une variable x ¢ R" peut étre approchée par une interpolation composée par la somme de p fonctions noyaux de forme fixée (x) par [16,37]: f(x)=d4, (Ik -€ ll) ) mt san les parametres que I'on déterminera a partir des exemples connus x,, y; en résolvant le me: SO) =yi T= Dyeing (18) #63) est une fonction assurant aux noeuds Ia dérivebilité dordre supérieure. Dans le eas général d'une interpolation, une fonction polynomiale peut, par exemple, étre choisie. II1.3.2 Architecture et fonctionnement des réseaux RBF Broomhead et Lowell [39] puis Chen et al [40] ont congu un réseau de neurones a une seule couche cachée dont le fonctionnement est basé sur lidée des estimateurs & noyaux introdulte ci-dessous dans (1.40). Ainsi, & partir de l'’équation (11.40) et en la considérant dans le cas multivariable, la sortie que doit délivrer ce réseau est de la forme : f(x) = dy, (le ~erll) jum co) sont des valeurs, que nous attribuons a chaque neurone de Ia couche cachée et appelées centres des classes, w, sont les poids synaptiques reliant ces neurones aux sortie, m est le nombre de sorties du réseau et k est le nombre de centres. La fonction noyau ¢ qui doit toujours assurer la dérivabilité aux points de jonction est radialement symétrique. Ainsi, la contribution de cette demiére change en fonction de la position de entrée par rapport aux centres. Par ailleurs, elle doit produire des réponses localisées, dont les valeurs ne sont significatives que dans un certain intervalle de 'espace des entrées. Parmi ces fonctions, on peut trouver les formes suivantes (16,41,42] : Forme Cubique (x =x? Forme Multiquadratique Gx) HQ? +kZ)? (20) Forme Logarithmique déealée (x) =log[x(x? +k7)] Forme Gaussienne d(x) =exp(-x7/ 82) Ici x représente un réel quelconque. L’application des fonctions noyaux dans les réseaux de neurones, représentera x comme les entrées du réseau. Les paramétres k et 3,4 décrivant la distribution des centres. Sur la figure (1.12), est représentée I’architecture d’un réseau RBF. f/Pa Couche Couche cachée sche entrée akcenes ge sortie Figure 2 : Architecture d'un réseau RBF Multi-sorties. Ce réseau est composé de trois couches (Figure 1.12). La premiére couche regoit les entrées injectées au réseau, La couche cachée est constituée de neurones, dont le discriminant est & fonction de base radiale. Chacun de ces neurones est doté d'un vecteur ¢; appelé centre et chaque entrée du réseau est rangée dans l'une des classes représentées par les neurones de la couche cachée, Les valeurs des centres doivent done représenter chacune le barycentre de la classe qui lui correspond, Plus le nombre d’exemples d’entrainement est important, plus cette couche est chargée de neurones. IIL4 Avantages et inconyénients des réseaux de neurones IIL4.1 Avantages des réseaux de neurones + Capacité de représenter n’importe quelle fonction, linéaire ou non, simple ou complexe, + Faculté d’apprentissage a partir d’exemples représentatifs, par “rétro-propagation des erreurs”. L’apprentissage (ou construction du modele) est automatique, + Résistance au bruit ou au manque de fiabilité des données, + Simple a utiliser, + Comportement moins mauvais en cas de faible quantité de données [48], + Le concept de botte noire est intéressant, en particulier pour modéliser des systémes non linéaires (49), + Les avantages les plus importants que I’on peut attribuer 4 une application de prédiction et de diagnostic par réseaux de neurones sont : la modélisation et estimation de fonctions non linéaires par apprentissage, Ia fusion de données et la généralisation et reconstruction des propriétés, Deux architectures neuronales sont généralement utilisées pour des téches de prédiction et de diagnostic ; le Perceptron Multi Couches et les Réseaux & base de Fonctions Radiales, + Le grand avantage des réseaux de neurones réside dans leur capacité d’apprentissage automatique, ce qui permet de résoudre des problémes sans nécessiter I’écriture de régles complexes, tout en étant tolérant aux erreurs. ‘J?IIL4.2 Inconvénients des réseaux de neurones + L’absence de méthode systématique permettant de définir la meilleure topologie du réseau et Jenombre de neurones a placer dans la (ou les) couche(s) cachée(s), + Le choix des valeurs initiales des poids du réseau et le réglage du pas d’apprentissage, qui jouent un réle important dans la vitesse de convergence, * Le probléme du sur-apprentissage (apprentissage au détriment de la généralisation) [48], . : int. ” trdle sur les * Le concept de boite noire peut se révéler un inconvénient, car on n'a aucun cont données interes au réseau [49].Chapitre 4 : Systemes hybrides neuro-flous Les systémes d'inférences flous (SIFs) et les réseaux de neurones artificiels (RNA) ont chacun des avantages particuliers. Les méthodes hybrides neuronales et floues permettent de tirer les avantages de I'une et de l'autre, Principalement, des capacités d'apprentissage des RNA et de la lisibilité et 1a souplesse des SIFs. Le principal type d'association entre les réseaux de neurones et les systémes flous est le cas oli un systéme diinférence flou est mis sous la forme dun réseau multicouche, dans lequel les poids correspondent aux paramétres du systéme dinférences floue. Done, la principale propriété des systémes neuro-flous est leur capacité a traiter dans un méme outil des connaissances numérique et symboliques d’un systéme. Ils permettent done d’exploiter les capacités d’apprentissage des réseaux de neurones d’une part et les capacités de raisonnement de la logique floue d'autres parts [50-57]. 4.1 Structure du systéme neuro-flou Lutilisation conjointe des réseaux de neurones et de Ia logique floue permet de tirer les avantages des deux méthodes : les capacités d’apprentissage de la premiére et a lisibilité et la souplesse de la seconde. Diverses combinaisons de ces deux méthodes ont été développées depuis 1988. Elles ont donné naissance aux systémes neuro-flous, qui sont le plus souvent orientées vers la commande de syst#me complexe et les problémes de classification. Données Ingustcues Expression lnguisique Données numériques Apprenissage Figure 1: Principe du systéme Neuro-flou, Définition : Un systéme neuro-flou hybride est un réseau de neurone avec un signal flou, des poids flous, une fonction de transfert floue et un module d'adaptation de la structure de RNF par un apprentissage d’ un ensemble de données [58]. 4.2 Systémes neuro-flous hybrides intégrés 4.2.1 Systémes neuro-flous intégrés type Mamdani Le syst8me neuro-flou de type Mamdani utilise la technique d’apprentissage par rétro- propagation pour apprendre les parametres des fonctions d’appartenance. Il contient cing couches, La premiére couche : C’est la couche d’entrée, La deuxiéme couche : c’est une couche de fuzzification, La troisitme couche c’est la couche de régles antécédentes, La quatriéme couche ¢’est une couche de régles conséquentes, La cinquiéme couche c’est une couche de défuzzification. Il existe plusieurs types des systémes neuro-flous comme: FALCON, GARIC ... 1/64.2.2 Syst#mes neuro-flous intégrés type Takagi-Sugeno Les systémes neuro-flous type Takagi-Sugeno utilisent une combinaison de I’algorithme de rétro-propagation pour apprendre les fonctions d’appartenance et la méthode d’estimation par moindres carrés pour déterminer les coefficients des combinaisons linéaires dans les conclusions de régles. 4.2.3 Systéme ANFIS (Adaptative Network Fuzzy Inférence System) Le systéme ANFIS est une classe de réseau adaptatif proposé par Jang en 1993. Peut étre vu comme un réseau de neurones non bouclé pour lequel chaque couche est un composant d'un systéme flou, Le modéle ANFIS est le modele le plus utilisé en pratique. Des applications dans de traitement du signal, le filtrage adaptatif et commande ont été réalisées avec cette architecture. Plusieurs ouvrages et articles montrent de meilleures performances du modéle ANFIS lorsqu’il est utilisé dans la commande de moteur. Cette architecture affine les régles floues obtenues par des experts humains pour décrire le comportement dentrée-sortie dun systéme complexe. Une version modifige du modéle ANFIS est capable d’implémenter le systéme d'inférence floue de Tsukamoto. La version d'origine utilise un modéle flou de type Sugeno [59,60]. La sortie globale dans le modéle de Tsukamoto, est donnée par la moyenne pondérée de chaque sortie nette de régle induite par le sens de la régle (le produit ou minimum, des degrés d’adéquation avec la partie prémissc) et les fonctions d’appartenance de sortie. Le modeéle ANFIS contiens cing couches. Le procédé d’apprentissage du modéle ANFIS, ne se préoccupe que de l’adaptation de parametres dans des structures fixes. En effet, chaque terme linguistique est représenté par un seul ensemble flou. La procédure d’apprentissage utilise un mélange de rétro-propagation et une estimation par moindres carrés moyen. a) Présentation de la structure ANFIS. Dans ce qui suit nous allons travailler avec la structure ANFIS, c’est un modéle de génération automatique de régles floues basé sur le modéle d’inférence de Takagi Sugeno, proposé par F-S.R. Jang [60-62]. C'est une structure & 5 couches qui affine les régles floues déja établies par des experts humains et réajuste le chevauchement entre les différents sous-ensembles flous pour décrire le comportement d'entrée-sortie d'un systeme complexe. ‘Afin de montrer architecture de base du modéle Neuro-flou adaptatif ANFIS proposé par Jang, on considére un systéme dinférence flou de type Sugeno du premier ordre, nous Supposons quiil y a deux variables linguistiques d’entrées x/ et x2 et une sortie y, et supposons que la base des regles contient deux régles de types : Regle 1 : Six, est Al ef x2 est Bl, Alors yy = pl xi +gixx+rl (1) Régle 2: Six; est A2 ef x2 est B2, Alors y2=p2x1+g2m+r2 (2) oa: xy et.xz: sont les variables d’entrée, ‘AI, A2, B1 et B2 : des ensembles flous, Ji: les sorties de tous les neurones de défuzification, i qiet ri: sont des paramétres duu conséquent de la regle i déterminés pendant le processus «’apprentissage. La figure suivante, présente la structure du réseau adaptatif neuro-flou : 2/6Figure 2: Réseau ANFIS lié au modéle TSK. Le réseau ANFIS [63] est un réseau multicouches dont les connexions ne sont pas pondérées, ou ont toutes un poids de 1. Les noeuds sont de deux types différents selon leur fonctionnalité, ‘ceux qui contiennent des paramétres (noeuds carrés) et ceux qui ne contiennent pas (noeuds circulaires). La sortie O du noeuds / de la couche & (appelé noeuds (i,k)) dépend des signaux provenant de la couche k-/ et des paramétres du noeud (i,k), c’est-a-dire OF = FOP OT be) Ou m.; est le nombre de noeuds dans la couche k-/. O=4,(x1) pour i=12 ou O! = tg, (32) pour i=3,4 o «© Couche (1) (Fuzzification) : Chaque noeud de cette couche ait une fonction telle que : 1s xp sont les entrées des nocuds respectifs {1, 2} et {3,4}, A,,B.-x1 Les termes linguistiques associées aux fonctions d’appartenance #4) et Hs, Les sorties O! de la premiére couche représente done les degrés d’appartenance des variables entrée x;, x2 aux ensembles flous Ai, Bi.2 Dans le modéle de Jang, les fonctions d’appartenance sont des gaussiennes, données par : Te} Bal) ou a (*1)= 3/6c cta |+——— 21a ——>| Figure 3 : La fonction d'appartenance (gaussienne). Pour lesquelles les paramétres (a; by c) selon le choix sont désignés par le nom de paramétres de la prémisse (ou paramétres locaux du réseau) et définissent les fonctions d'appartenane® correspondantes. En fait, toutes les fonctions continues et dérivables, telles les fonctions triangulaire ou trapézoidale, peuvent étre employées. Couche (2) (Régles floues) : La deuxiéme couche est formée d'un noeud pour chaque riglle floue et génére les poids synaptiques. Ces noeuds de type fixe sont notés et chacun eux engendre en sortie le produit (opérateur ET de la logique floue) de ses entrées, qui ‘ce qui correspond au degré d’appartenance de la régle considérée OF =, = Hy (Vey (1) pour i=1,2 (6) Couche (3) (Normalisation) : Les noeuds de cette couche sont également fixes et réalise a normalisation des poids des régles floues selon la relation : ¥, 0} =, - jour 1 =1,2 7. ; aa O) Chaque noeud i de cette couche est un noeud circulaire appelé NV. La sortie du noeud i est le degré d’activation normalisé de la régle i «© Couche (4) Conséquence (Défuzzification) : Chaque noeud de cette couche est adaptatif et caleule les sorties des régles en réalisant la fonction : Of = HF =H (pmtq%2 +") pour 1=1,2 (8) Les paramétres {p1 qi 11} sont les paramatres de sortie de la régle i © Couche (5) (Sommation) : La cinquiéme comprend un seul neurone qui fournit la sortie de ANFIS en calculant la somme des sorties de la couche précédente, Sa sortie qui est également celle du réseau est déterminée par la relation suivante : OF == DA, x P= DSi So, Remarque : L'architecture d’ANFIS montre existence de deux couches adaptatives, la Premiére et la Quatriéme : i 4/6 @) pour/ + La Premiére couche présente trois paramétres modifiables {a;, by, ci} liées aux fonctions Gappartenances d’entrées, appelés paramétres des prémisses, + La Quatriéme couche, contienne également trois paramétres modifiables {p, qi, 71} appelés paramétres conséquents [64]. 4) Algorithmes d’apprentissage de VANFIS L’apprentissage & partir d’un ensemble de données conceme I’identification des paramétres des prémisses et des conséquences, la structure du réseau étant fixée. L’algorithme @apprentissage commence par construire un réseau initial, ensuite on applique une méthode dapprentissage par rétro propagation de l’erreur. Jang a proposé d’utiliser une regle hybride dapprentissage qui combine un algorithme de descente de gradient avec une estimation par moindres carrées, on a alors : Alors : Semf +f, (10) f= HCD. +9. HH) +H (PM +4% 1%) ay Done: f = (7.x,).p, +72), +7 + )).P2 +H) +r, — (12) C’est une combinaison linéaire des paramétres conséquents modifiables {py, gn T» P> 42 2}. Notons que dans cet algorithme, on optimise aussi bien les paramétres des prémisses que ceux des conséquents. Durant la passe avant, les paramétres des conséquents sont adaptés alors que les paramétres des prémisses sont maintenus constants, alors que durant la passe arriére, les réles sont inversés (Figure 1.17) : Passe arriére Estimation d'erreur Méthode de la descente de gradient Paramétre des prémisses Non Noeud du signal de sortie Méthode des moindres carrés Paramétre conséquentes Figure 4 : Algorithme D’apprentissage d'ANFIS. s/6fFIS utilise deux types de passages pour la modifi passage en avant : se ae ioatheea (eeu 117), nous pouvons appliquer la méthode des moindres fartmetes de premises Ga eametes conséquents linaires) [59]. Pour ensemble des nous obtenons done un systéme deme pouvons utiliser les données d'apprentissage, ‘Aves Xs matrl axes 13) conetquents: eee Comfenant les paramétres inconnus dans ensemble des paramétres Jax—ap : est un probléme linéaire, la solution pour X est réduite au minimum ication de ces paramétres: Xs(A A AB 4) SI est fixe et $2 est calculé en utilisant Palgorithme de moindre carté de Verreur (LSE : least Squares estimate). (SI : représente les paramétres de prémisse, $2 : représente les paramétres conséquents). 2) Passage en arriere : Pour la Passe en arriére (Figure 1.17), les signaux d'erreurs propagent vers I'arriére. Les Paramétres des prémisses sont adaptés par la méthode de descente [60,64]. S2 est fixe et $1 est calculé en utilisant lalgorithme de Rétro -Propagation. Tableau 1 : Les paramétres a ajuster d'un systéme ANFIS. Passage vers. | Passage En aiere avant paramétre des prémisses Fixe Rétro- propagation | paramélres conséquents ‘Moindres carrés Fixe ©) Les avantages de ' ANFIS « L'exploitation de la connaissance disponible, grace a la base de régles ; La réduction de Ia taille de la base de régles : il suffit d'avoir des régles générales, les détails seront fournis par le RNA ; + Laréduction de la complexité de l'apprentissage : le RN doit simplement apprendre les cas particuliers ou les exceptions, pas le probléme complet.Le 5: chap 5 Algorithmes génétiques Les algorithmes génétiques (AGs) s'inspirent de la théorie de l'évolution,initiée par Charles Darwin au XIXéme sigcle. Dans cette théorie, une population dindividus évolue grice au mécanisme de la reproduction sexuée. Les individus Jes plus adaptés @ leur milieu se reproduisent plus que les autres, favorisant les caractéres les plus adaptés (65), Les algorithmes génétiques font partic de la famille des algorithmes évolutionnaires. Ils s'inspirent de Pévolution naturelle des espéces. Avec ce type de méthodes, il ne s'agit pas de trouver une solution analytique exacte mais de trouver une bonne solution satisfaisante dans un temps de caloul raisonnable, La premiére description du processus des algorithmes génétiques a été donnée par Holland en 1975 [66]. Le travail de son étudiant DeJong [67], @ montré Putilité des algorithmes génétiques pour l'optimisation des fonctions, et & fait le premier effort concerté pour trouver des paramétres optimisés par des AGs, puis Goldberg (1989) les a utilisés pour résoudre des problémes concrets d’optimisation [68-71]. Le but de ces algorithmes génétiques est d’optimiser une fonetion prédefinie, appelee fonction objective, ou fitness ; ils travaillent sur un ensemble de solutions candidates, appelé "population" individus ou chromosomes (on utilisera indifféremment individy ou chromosome). Ces demiers sont constitués d'un ensemble d’éléments, appelés "genes", qui peuvent prendre plusieurs valeurs, appelées "alleles" [69]. Un algorithme génétique est un algorithme stochastique itératif qui opére sur un ensemble de points, partant d'une population initiale, Il est construt en utilisant 3 opérateurs [72] : = Croisement, = Mutation, © Sélection. 5.1 Principes généraux Pour mettre en cuvre un algorithme génétique, + Une représentation génétique du probléme, la forme de chromosomes, + Un mécanisme de génération pour construire une population d’indi Pine fonction qui permet d°évaluer adaptation d'un chromosome a son environnement ce qui offre la possibilité de comparer des individus. Cette fonetion est construite & partir Su tyitere que I’on désire optimiser. L'application de cette fonction & un élément de la population donne sa fitness, « PpPtnode de sélection des chromosomes @ reproduire. Cette sélection est basée sur la reproduction et sur le codage génétique, qui stocke les informations décrivant |’individu sous forme de genes, + Opérateurs de erojsement et de mutation permettant de diversifier la population au cours des générations et d’explorer l’espace d’état, «De paramétres qu’utilise 'algorithme : taille de 1a population, de mutation, nombre total de générations. D'une maniére globale, un algorithme génétique manipule 'es solutions potentielles d'un probléme donné afin d’atteindre 1a solution ‘optimal ou une solution jugée satisfaisante, Dalgorithme génétique est organisée en plusicurs étapes dans la figure (1.20), nous avons défini un géne formé par un seul bit, ce qui est le cas dans de nombreux travaux. Cela veut dire que tous les bits peuvent étre manipulés indépendamment. Cependant, on peut définir un gene par un ensemble de bits et c’est cet ensemble qui sera manipulé par I’algorithme [75] ; } Ia fonction de codage est inutile dans le cas ot la population est initialisée aléatoirement. En effet, on peut tirer au hasard les individus directement dans leur représentation codée. Par contre, la fonction de décodage est nécessaire pour I’évaluation de ces individus. Chromosome ae rr EE or Paramétre 1 aramétre 2 a Se) S| | ae | tla Figure 3 : Exemple d'un chromosome en codage binaire (75). 4) Le codage réel : cela peut-étre utile notamment dans le cas od l'on recherche le maximum d'une fonction réelle (73] : O4/t0Chromosome Ca géne] ane 2 gene 3 10010011 T101011 00011010 1 | ll x1=3.256 — x2=0.658 —x3=10.26 Figure 4 : Ilustration schématique du codage des variables réelles (73). ©) Le codage de Gray : dans le cas d'un codage binaire on utilise souvent la "distance de Hamming" comme mesure de la dissimilarité entre deux éléments de population, cette mesure compte les différences de bits de méme rang de ces deux séquences. Et cest IA que le codage binaire commence montrer ses limites. En effet, deux éléments voisins en termes de distance de Hamming ne codent pas nécessairement deux éléments proches dans l'espace de recherche. Cet inconvénient peut étre évité en utilisant un "codage de Gray" : le codage de Gray est un codage qui a comme propriété qu’entre un élément n et un élément n+ 1, done voisin dans l'espace de recherche, un seul bit différe [73]. 5.3.2 Evaluation L’évaluation consiste & mesurer la performance de chaque individu de la population, On utilise pour cela une fonction directement lige a la fonction objective (fonction a optimiser) appelée fonction fitness. C’est une fonetion réelle positive qui reflete la force de ’individu. Un individu ayant une grande valeur fitness représente une bonne solution au probleme, alors qu’un individu ayant une faible valeur fitness représente une solution médiocre. Dans le cas d'un probléme de minimisation, la fonction fitness peut étre obtenue en utilisant une des maniéres suivantes [76] : Fit(x) = N ~ Foy (x) Si Fyy 2 N , sinon Fit(x) = 0 (W est une constante positive). 1 Foy (2) Fit(x) = —Fey(x) Fit(x) G) Avec : Fit (fitness) ; Fou :(objective). Contrairement aux méthodes d’optimisation classique, aucune condition lige & la dérivabilité, a la continuité, la convexité ou concavité n’est requise pour la fonction objective. II suffit juste qu’elle fournisse une valeur numérique finie pour chaque individu. Cela donne aux algorithmes génétiques un caractére trés attrayant pour la résolution des problémes dont les propriétés mathématiques sont méconnues ou trés délicates A déterminer. 5.3.3 Sélection A Vinverse d’autres techniques d optimisation, les algorithmes génétiques ne requiérent pas hypothése particuliére sur la régularité de la fonction objective. L’algorithme gén nutilise notamment pas ses dérivées suecessives, ce qui rend trés vaste son domaine «application. Aucune hypothése sur la continuité n’est non plus requise. 05/1oN ins. ddans 1a pratique, les algorthmes génétiques sont sensibles & la régularité fonctions qu'ils optimisent. i Le peu d’hypothéses requises permet de traiter des problemes trés comp] ee ean q eptimiser peut ainsi étre le résultat d'une simulation, La sélection permet dictate Statistiquement les meilleurs individus d'une population et d’éliminer les mauvals. 7 exble Plusieurs méthodes de sélection. Les deux principes de sélection suivants sont les plus ouramment utilisé [77] * Sélection par Roulette (Roulette Wheel Sélection), Sélection par Tournoi. 4) Méthode de la roulette de loterie Selon cette méthode, chaque chromosome sera dupliqué dans une nouvelle population Proportionnellement & sa valeur d'adaptation. Son principe est dassocier & chaque individu Ene Portion d'une roue dont la surface dépend uniquement de sa valeur fitness [74]. Un individu présentant une valeur fitness nulle ne sera pas représenté sur Ia roue, il n’aura done Gucune chance d’étre sélectionné, Les individus ayant une grande valeur fitness auront une grande portion et auront, par conséquent, plus de chance détre sélectionnés. D ep Figure 5 : Sélection par la méthode de la roue de loterie (74). Pour réaliser la sélection, il suffit de faire tourner Ia roue autant de fois que le nombre @individus. La figure (122) illustre un exemple de roue de loterie. Les numéros de 1 a 5 représentent les numéros des individus, 5) Méthode du tournoi Le principe de cette méthode est de tirer aléatoirement un groupe dek individus parmi la population, et de sélectionner le meilleur d’entre eux. Ce processus est répété jusqu’a ce que le nombre d’individus de la population intermédiaire soit égal au nombre total d'individus formant Ia population initiale. Nous avons trouvé dans la littérature deux versions différentes de cette méthode, notamment, au niveau de la fagon dont les groupes sont formés. La population est divisée en groupes de & individus. Ensuite, on sélectionne le meilleur de chaque groupe. Il faut & itérations pour remplir la population intermédiaire parce qu’a chaque fois m individus sont sélectionnées ov m est défini par (78: taille de la population x ® La procédure est la suivante: on tire & fois un individu avec remplacement (chaque tirage inclut tous les individus y compris ceux déja sélectionnées). Ensuite, on sélectionne celui qui présente la plus grande valeur fitness pour le placer dans la population intermédiaire. Si N est le nombre total d’individus formant la population alors il faut NV itérations pour remplir la population intermédiaire. 06/40 mLa seule différence que nous avons pu constater, c'est que 1a deuxiéme version ne fait pas obligatoirement participer tous les individus, et par conséquent, elle n’assure pas que le meilleur individu soit présent dans la population intermédiaire. 5.3.4 Croisement L’opérateur de croisement permet la création de nouveaux individus selon un processus tres simple. Il permet Iéchange des informations entre les chromosomes (individus). Deux individus formant un couple sont tirés au sein de la nouvelle population issue de la reproduction, Puis un site de croisement est tiré aléatoirement, Enfin le croisement s‘effectue, les segments finaux des deux parents sont alors échangés autour de ce site, Cet opérateur permet la création de deux nouveaux individus. Un individu sélectionné lors de la reproduction ne subit pas nécessairement l'action d’un croisement. Ce dernier ne s’effectue qu'avec une certaine probabilité (P,). Plus cette probabilité est élevée et plus la population subira de changements, Il se peut que ’action conjointe de la reproduction et du croisement soit insuffisante pour assurer la réussite de Palgorithme génétique. Ainsi dans le cas du codage binaire, certaines informations peuvent disparaitre de la population. En codage réel, une telle situation peut arriver sila population initiale ne contient pas la valeur optimale, Pour remédier & ce probléme l’opérateur de mutation est utilisé (72). Figure 6 : Croisement en codage binaire [69] @) Croisement en I-point : Il consiste & diviser chacun des deux parents en deux parties a la méme position, choisie au hasard et A recopier la partie inféricure du parent & l'enfant et & compléter les génes manquants de enfant a partir de Pautre parent en maintenant lordre des génes. La figure (1.24) présente un exemple illustratif de ce type de croisement [69]. Parenti Parent2 Figure 7 : Croisement en I-point de deux chromosomes [69] c0# Hoi Parent] dissocier chaque parent en 3 fragments. Les 2 fragments en ext Po apie la (respectivement Parent2) sont copiés a !’Enfant 1 (respectivement Enfant de I’Enfant 2 par partie restante de Enfant 1 par les éléments du Parent 2 et la partie restante @© © 7 les éléments du Parent 1 en balayant de gauche & droite et en ne reprenant qué non encore transmis. La figure (1.25) présente un exemple illustratif de ce type de oro D'autres opérateurs de croisement sont proposés dans la littérature comme le SOX (ob- PMX ( partial-mapped crossover), OX (ordre crossover), CX (cycle erossover), JO) Go based order crossover), ER (edge recombination crossover ), ete. [69]. Parent 1 Parent 2 Eon SEHEDE EE : =seeaneeunsesaccese! | te 1 SEOUOGE Enfant 2 Figure 8 : Croisement en 2-points de deux chromosomes (69). 5.3.5 Mutation La mutation apporte l’aléa nécessaire une exploration efficace de I’espace. Bile permet de quitter les extremis locaux. Cet opérateur de mutation est utilisé avec une probabilité Pm. Si B, généré aléatoirement, appartient a [0, Pm], nous appliquons l’opérateur de mutation sur cet individu, Comme pour les croisements, de nombreuses méthodes de mutation ont été présentées dans la littérature, Nous citons les plus connues [69] : = Opérateur dinversion simple : cet opérateur consiste a choisir aléatoirement deux points de coupure et inverser les positions des genes situés au milieu. = Opérateur dinsertion : cet opérateur consiste a sélectionner au hasard un géne et une position dans Je chromosome a muter, puis & insérer le géne sélectionné dans la position choisie, 3.06/46Figure 9 : Mutation : opérateur insertion [69], ~ Opérateur d’échange réciproque : c'est un opérateur qui permet de sélectionner deux genes et de les changer. 1.5.3.6 Elitisme Une stratégie élitiste consiste @ conserver dans la population, d'une génération & l'autre, au moins l'individu ayant la meilleure adaptation. Il apparait qu'une telle stratégie améliore considérablement les performances de I'algorithme génétique pour certaines classes de fonctions, En fait, une stratégie élitiste favorise l'exploitation des meilleures solutions, & travers une recherche locale accentuée [72]. 5.4 Paramétres d’un AG La convergence d’un AG dépend fortement de certains paramétres qu’on doit fixer & ’avance. Dans ce qui suit nous présentons chacun de ces paramétres et leurs réles dans le fonctionnement d'un algorithme génétique [79]. 5.4.1 Taille de la population Les conditions de convergence changent avec la taille de la population ; lorsque celle-ci est grande, sa diversité augmente ce qui diminue la convergence vers un optimum local. Mais le temps d’exécution de chaque génération augmente, et la recherche risque de s’effectuer d’une fagon redondante et |’efficacité de l’algorithme est globalement affectée. Cette taille selon le cas se situe entre 25 et 100 individus. Par contre, si la taille de la population est petite, alors la probabilité de s’attarder sur des minima locaux est grande. 5.4.2 Taux de croisement Le taux de croisement détermine la proportion des individus qui sont croisés parmi ceux qui remplaceront l'ancienne génération, L’opérateur de croisement est appliqué avec une probabilité Pc, et plus cette valeur est grande plus de nouvelles structures (individus) sont introduites dans la nouvelle génération. En effet, si ce taux a été fixé a 1, tout descendant est obtenu par croisement. Mais quand ce taux est élevé, les structures performantes sont trop fréquemment détruites. Par contre, si ce taux est trop bas, la population n’évolue pas assez vite. En général Pe varie entre 0.7 et 1.0. 03, Y ‘Lo5.4.3 Taux de mutation t grand alors I L’opérateur de mutation est appliqué avec une probabilité Pm ; si ce taux est grand alors la recherche devient purement algatoie et la population est diversifié, et Valgorithme génétique perd de son efficacité. Si au contraire ce taux est faible, la population est moins diversifige et en plus il y a risque de stagnation, Des études empiriques conseillent pour l’obtention de bons résultats une fréquence qui se situe autour d’une mutation tous les 1000 bits. A noter que ces paramatres dépendent étroitement du type de probléme & résoudre. 5.5 Avantages et inconvénients des algorithmes génétiques 5.5.1 Avantages Facile & implémenter, Possibilité dincorporer d’autres méthodes (méthodes hybrids), Fournissent plusieurs alternatives (solutions), Bon pour des problémes avec beaucoup d’optimum locaux (évite les optima locaux), L’espace de recherche peut étre complétement exploré, Conceptuellement simple et flexible [79,80]. 5.5.2 Inconvénients 2 vVVVVV v Parfois difficile de trouver : + Un bon codage, + Une bonne fonction d'adaptation, + De bons opérateurs de croisement et de mutation. > Méthode lente, mais au moins, donne une solution en tout temps, | > Ne garantissent pas de trouver la solution optimale dans un temps fini (Aucune garantie sur la valeur des résultats), oo > Moins efficace que d’autres méthodes (hill climbing, Newton-Raphson, recuit sirulé, la recherche tabou, branch and bound,...) [79,80]. », \do/to

Intelligence Artificielle

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Intelligence Artificielle

Transféré par

Droits d'auteur :

Formats disponibles

Vous aimerez peut-être aussi