Vous êtes sur la page 1sur 5

CONCLUSION GNRALE ET PERSPECTIVES

CONCLUSION GNRALE
ET PERSPECTIVES
1. Synthse
Dans ce travail de recherche qui s'inscrit dans le prolongement des travaux sur le
robot hexapode mens par C.Touzet, et A.Johannet, nous nous sommes intresss
dvelopper une approche distribue de la commande du robot et de lapprentissage de la
marche dans un environnement qui peut tre inconnu. Nous nous sommes aussi intresss
dvelopper des techniques de contrle de la posture du robot et de changement de sa
trajectoire.
Les travaux prcdents [Tou 93] [ Joh 95] utilisaient une architecture base de
rseaux de neurones calculs selon un algorithme dapprentissage par renforcement de type
1
Arp [Bar 85]. Cette architecture a donn de bons rsultats en ce qui concerne la gnration
de marches rectilignes stables, parmi lesquelles certaines ont t observes chez les
insectes (marche tripode). Cependant l'approche prsente des limitations : le nombre
possible dactions est rduit deux par segment, la fonction critique utilise attribue le
mme renforcement (pnalit ou rcompense) pour lensemble des pattes, mme lorsque
seulement quelques pattes parmi les six sont responsables du bon ou du mauvais
comportement du robot, enfin il nest pas possible de traiter le cas o l'espace daction est
continu.
Dans nos travaux, l'effort a port sur llaboration de techniques dapprentissage
plus gnrales et mieux adaptes des modles plus complexes du robot hexapode. Une
approche distribue du Q-learning t privilgie. Elle se caractrise par une plus grande
autonomie confre aux agents contrleurs devant optimiser un comportement individuel
compatible avec l'objectif global fix au robot : la marche avec contrle de la posture et de
la trajectoire. Avec cette approche nous avons obtenu de nombreuses solutions de marche
avec la possibilit de prendre en compte des espaces dtat et daction continus.
Lefficacit et lefficience de l'approche ont t vrifies au travers de nombreuses
simulations, et cest en ce sens que nous dirons que les objectifs du travail ont t atteints.

1.1

Ce travail de recherche a t organis autour des trois


activits suivantes :

1. Revue dtaille et tat de lart :


Cette tude bibliographique porte sur les lois de la marche des insectes, les modles
de robots hexapodes et diffrentes approches et mthodes dapprentissage par

155

CONCLUSION GNRALE ET PERSPECTIVES

renforcement dans le cas monoagent ou multiagent. Cette tude nous a permis de faire
voluer notre modle gomtrique de simulation notamment pour prendre en compte le
contrle de la posture. Elle nous a permis de concevoir la fonction critique associe
chaque contrleur de mouvement considr comme agent dot d'une certaine autonomie.
2. Approche conceptuelle :
Chaque contrleur de mouvement (un par patte) est un agent dou d'autonomie et
menant son propre apprentissage avec son propre signal de renforcement pour optimiser
une fonction de gain locale compatible avec l'objectif global fix au robot. Les approches
centralises et distribues de l'apprentissage par renforcement de type Q-learning ont t
compares.
Dans le cas de plusieurs agents contribuant la mme tche, des techniques
d'apprentissage sont tudies pour que chaque agent puisse prendre en compte les dcisions
des autres agents.
Les problmes de contrle de posture et de changement de trajectoire sont traits. La
rsolution de ces problmes supposent de discrtiser les espaces daction et dtat continus.
3. Simulations
Diffrentes simulations et tests on t mens avec pour objectifs :

La gnration de marches rectilignes priodiques stables bases sur une approche


distribue de lapprentissage par renforcement, avec tude de l'influence des
paramtres d'apprentissage.

Une amlioration du critique pour liminer des marches non naturelles

L'analyse de lvolution de la fonction valeur tat-action Q(s,a).

Linfluence du choix des entres sur lapprentissage.

L'valuation des proprits de tolrance aux fautes, cest--dire lorsque certaines


pattes sont en panne

La comparaison entre approche centralise de lapprentissage par renforcement de


type Q-learning et approche distribue (Q-distribu),

Le traitement du changement de trajectoire et le contrle de la posture avec une


approche base sur le Q-multiacteur avec discrtisation des espaces d'tat et d'action
continus.

156

CONCLUSION GNRALE ET PERSPECTIVES

1.2

Les principales contributions de ce travail de recherche


sont :

Une approche distribue de lapprentissage par renforcement de type Q-learning


avec signal de renforcement individuel pour gnrer des marches priodiques.
Comparativement l'approche centralise, la dure dapprentissage est plus courte
et lespace de mmoire ncessaire pour lapprentissage est plus petit.

L'adoption d'une vision multiacteur, chaque patte tant considre comme un agent
situ dot d'une certaine autonomie et pouvant se coordonner avec les autres agents.
Une version Q-multiacteur a t propose o chaque agent, plutt que dignorer les
autres agents, tient compte dans son apprentissage de lexistence dautres agents
constituant un groupe et contribuant la mme tche commune.

L'utilisation d'un modle qui a t propos par E.Celaya et J.M.Porta [Cel 98] avec
des modifications (prise en compte seulement des pattes en contact avec le sol)
pour le contrle de la posture du robot. La version Q-multiacteur propose et le
modle de contrle de la posture ont t mis en oeuvre en simulation pour
contrler le changement de trajectoire du robot. Les espaces d'tat ou d'action tant
dans ce cas continus, il est procd une discrtisation des espaces avec possibilit
d'ajuster les valeurs d'actions pendant l'apprentissage.

2. Principaux rsultats
Dans les rsultats obtenus dans le cas de lapproche distribue de l'apprentissage
des marches priodiques en terrain plat, nous avons tudi linfluence du rglage des
paramtres de simulation sur les rsultats et avons compar lapproche centralise et
lapproche distribue. Les principales conclusions sont les suivantes :

Apprentissage de marches naturelles des insectes selon une approche distribue :

Nous observons que lalgorithme converge vers des marches stables parmi lesquelles
certaines sont observes sur des insectes. Ces marches sont des cycles attracteurs pour les
autres tats.
Influence du critique:
L'laboration de la fonction critique est trs importante. Les principes de marche des
insectes tablis par les biologistes permettent de guider cette laboration. En particulier, on
peut modifier la fonction critique pour liminer des marches non observes sur les insectes.
Influence des paramtres dapprentissage:
Certains paramtres d'apprentissage (pas de gradient, facteur de pondration ) influent
sur le nombre et la facilit de dcouverte de nouvelles marches. La dure autorise de

157

CONCLUSION GNRALE ET PERSPECTIVES

rtraction agit sur la priode des marches trouves et donc sur la vitesse dplacement.
Influence du choix des entres dtat:
Lorsque on limite l'information sur l'tat des pattes, certaines marches ne peuvent plus
tre obtenues mais celles qui sont apprises le sont plus facilement (en moins
d'itrations).
Tolrance aux pannes
L'approche retenue a montr des proprits de tolrance aux pannes puisque des
marches priodiques peuvent tre obtenues mme lorsque certaines pattes sont bloques
en position d'appui.
Evolution de la fonction Q
Il nest pas ncessaire dattendre la convergence de la fonction Q pour que le robot
volue selon une marche priodique. Mais nous avons aussi constat que les courbes Q
peuvent converger sans que tous les agents ne reoivent plus de pnalits. On observe
alors que les courbes Q convergent vers une valeur infrieure la valeur optimale.
Comparaison approche centralise/ dcentralise:
L'approche distribue de l'apprentissage est plus rapide que l'approche centralise : en
moyenne, un nombre infrieur de pas est ncessaire pour trouver une marche et
davantage de marches diffrentes sont dcouvertes.
Changement de trajectoire avec contrle de la posture
En appliquant les algorithmes dvelopps dans ce travail, le robot apprend rejoindre
la trajectoire dsire depuis diffrentes positions et orientations initiales (il apprend
mme faire demi-tour) tout en contrlant sa posture.

3. Perspectives
Les perspectives envisages pour poursuivre ce travail de recherche peuvent tre
rparties selon les diffrentes orientations suivantes :
1. Continuer de travailler avec les mmes approches pour traiter la marche sur un terrain
irrgulier ou inclin.
2. Traiter les problmes d'vitement d'obstacles avec les mmes approches, en exploitant
des informations rcupres par les capteurs tactiles du robot pour dtecter la prsence
d'obstacles. Etudier l'apprentissage de techniques de navigation (apprendre atteindre

158

CONCLUSION GNRALE ET PERSPECTIVES

un but en respectant un critre comme par exemples : longueur de parcours minimal,


loignement de zones dangereuses).
3. Implmentation de la premire partie (gnration des marches priodiques) sur le robot
rel pour comparer les rsultats avec les rsultats de la simulation.
4. Le modle mcanique du robot de notre laboratoire ne permet pas de traiter les points 1,
2, car chaque patte ne possde que deux degrs de libert. Il faudrait donc amliorer le
robot actuel ou en concevoir un second.
5. Travailler les mthodes de coordination entre les agents pour viter les conflits ou
rendre le travail collectif plus efficace. On pourra pour cela s'appuyer sur la thorie des
jeux, ou dvelopper des mthodes de communication entre les agents ou aussi introduire
des mcanismes dinhibition ou dexcitation.
6. Passer un modle dynamique du robot hexapode pour tre plus proche de la ralit du
systme physique du robot (prise en compte des frottements et des forces d'inerties en
cas de dplacements rapides).
7. Traiter le cas o lenvironnement est partiellement observable par chaque agent : dans
ce cas il faut se baser sur les POMDP (Processus de Dcision Markovien Partiellement
Observable).
8. Etudier lapplication de ces approches dans d'autres domaines tels que la Mcatronique
et la Productique. Comme exemple d'application, nous pouvons citer le travail de
J.Reaidhy [Rea 03]. L'objectif de son travail tait ltude et la conduite de systmes de
production dcentraliss dans un environnement dynamique situ : Les machines d'un
atelier de production sont considres comme des agents mettant disposition des
capacits et des disponibilits de production. A chaque ordre de fabrication est aussi
associ un agent dont le but est de faire effectuer par les machines appropries le travail
dsir. Il se pose alors des problmes de prise de dcision et de coordination entre les
composantes autonomes du systme.
Les approches dveloppes dans notre travail pourraient permettre aux agents
d'apprendre maximiser leurs gains (par exemple inversement proportionnel au temps
ncessaire pour effectuer un travail).
Toutes ces propositions sont tudier de manire approfondie et constituent donc
des thmes de recherche porteurs pour des tudes venir.

159

Vous aimerez peut-être aussi