Vous êtes sur la page 1sur 4

Table des matires

INTRODUCTION________________________________________________________ 12
1.

PROBLMATIQUE__________________________________________________ 13

2.

LE BUT DE LA THSE_______________________________________________ 13

3.

SYNTHSE DE LA DMARCHE PROPOSE ___________________________ 14

4.

PLAN DE LA THSE_________________________________________________ 14

5.

LA CONTRIBUTION DE CETTE THSE _______________________________ 16

CHAPITRE 1
1.1

INTRODUCTION____________________________________________________ 17

1.2

DFINITIONS GNRALES__________________________________________ 17

1.2.1.
1.2.2.
1.2.3.
1.2.4.
1.2.5.
1.2.6.
1.2.7.
1.2.8.
1.2.9.
1.2.10.
1.2.11.
1.3

Les insectes_______________________________________________________ 17
Le mouvement ____________________________________________________ 19
Le maintien _______________________________________________________ 20
La stabilit _______________________________________________________ 20
La posture ________________________________________________________ 20
La marche ________________________________________________________ 21
La Locomotion ____________________________________________________ 22
Evitement des obstacles et orientation __________________________________ 22
Marche arrire_____________________________________________________ 23
Changement de vitesse ______________________________________________ 23
Navigation _______________________________________________________ 23

LES MCANISMES DE LA MARCHE DES INSECTES___________________ 24

1.3.1.
1.3.2.

Les diffrentes marches des insectes ___________________________________ 24


Modles de coordination ____________________________________________ 25

1.4

TABLEAU RCAPITULATIF _________________________________________ 28

1.5

CONCLUSION ______________________________________________________ 30

CHAPITRE 2
2.1

INTRODUCTION____________________________________________________ 31

2.2

DIFFRENTES RALISATIONS DE ROBOTS HEXAPODES _____________ 31

2.3

MODLES MATHMATIQUES DU ROBOT HEXAPODE ________________ 36

2.3.1.
2.3.2.
2.3.3.
2.3.4.
2.4

Modles logiques __________________________________________________ 36


Modles gomtriques ______________________________________________ 37
Les modles dynamiques des robots hexapodes___________________________ 40
Conclusion sur les modles de robots hexapode __________________________ 47

LES SYSTMES DE CONTRLE COMMANDE_________________________ 47

2.4.1.

Architecture des systmes de commande ________________________________ 47

2.5

TABLEAU RCAPITULATIF _________________________________________ 52

2.6

CONCLUSION ______________________________________________________ 53

CHAPITRE 3
3.1

INTRODUCTION ____________________________________________________ 54

3.2

APPRENTISSAGE PAR RENFORCEMENT ____________________________ 55

3.3

MODLE DE LAPPRENTISSAGE PAR RENFORCEMENT ______________ 55

3.3.1.
3.3.2.
3.3.3.

Principe__________________________________________________________ 55
Facteurs d'influence ________________________________________________ 57
Processus de Dcision Markoviens ____________________________________ 59

3.3.3.1.
3.3.3.2.

Les variantes de PDM _____________________________________________________ 60


Principe de Bellman et PDM ________________________________________________ 60

3.4

MTHODE DE LA PROGRAMMATION DYNAMIQUE (DP) _______________ 63

3.5

MTHODE DE MONTE CARLO (MC) __________________________________ 63

3.6

LES MTHODES DIFFRENCES TEMPORELLES (TD) _________________ 64

3.6.1.
3.7

Mthode drive de la mthode TD ____________________________________ 65

Q-LEARNING _______________________________________________________ 68

3.7.1.
3.7.2.
3.7.3.
3.7.4.

Dfinition ________________________________________________________ 68
Dilemme exploration / exploitation ____________________________________ 68
Q-learning et POMDP ______________________________________________ 70
Implantations neuronales du Q-learning_________________________________ 70

3.7.4.1.
3.7.4.2.

3.7.5.
3.7.6.

Emploi des rseaux multicouches ___________________________________________ 70


Q-learning rcurrent _______________________________________________________ 71

Q-Kohonen _______________________________________________________ 71
Quelques mthodes d'apprentissage drives du Q-learning _________________ 72

3.8 APPLICATIONS DE L'APPRENTISSAGE PAR RENFORCEMENT AUX


ROBOTS HEXAPODES ___________________________________________________ 72
3.8.1.
3.8.2.
3.8.3.
3.8.4.
3.9

Algorithme Arp et le robot hexapode ___________________________________ 72


Algorithme -learning et comparaison avec Q-learning ____________________ 75
Apprentissage par renforcement des rgles de dcision _____________________ 76
Q-learning hirarchique (HQL) _______________________________________ 77

TABLEAUX RCAPITULATIFS _______________________________________ 77

3.10 CONCLUSION ______________________________________________________ 81


2

CHAPITRE 4
4.1 INTRODUCTION_____________________________________________________ 83
4.2 DIFFRENTES ARCHITECTURES DE COORDINATION _________________ 84
4.3 ARCHITECTURES CENTRALISES ___________________________________ 84
4.4 ARCHITECTURES NON CENTRALISES ______________________________ 85
4.4.1. Architectures hirarchiques___________________________________________ 85
4.4.2. Architectures htrarchiques __________________________________________ 87
4.4.3. Architectures hybrides_______________________________________________ 88
4.5 APPROCHE CENTRALISE DE LAPPRENTISSAGE PAR RENFORCEMENT
89
4.6 APPROCHE DISTRIBUE DE LAPPRENTISSAGE PAR RENFORCEMENT 91
4.7 ACTIONS COLLECTIVES DANS LES SYSTMES DISTRIBUS___________ 92
4.7.1. Des agents ractifs associs la mme tche _____________________________ 92
4.7.2. Q-learning et systmes multi-acteurs ___________________________________ 93
4.7.2.1.
4.7.2.2.
4.7.2.3.

Jeux de Markov ___________________________________________________________ 93


Jeux 2 joueurs somme nulle _______________________________________________ 94
Jeux 2 joueurs somme quelconque __________________________________________ 95

4.8 TABLEAUX RCAPITULATIFS _______________________________________ 96


4.9 CONCLUSION _______________________________________________________ 98

CHAPITRE 5
5.1

INTRODUCTION____________________________________________________ 99

5.2

ROBOT HEXAPODE________________________________________________ 100

5.2.1.
5.2.2.

Description physique ______________________________________________ 100


Modle logique de lhexapode _______________________________________ 102

5.3

PROBLMATIQUE_________________________________________________ 102

5.4

APPROCHE DISTRIBUE DE COMMANDE ET DAPPRENTISSAGE ____ 104

5.4.1.
5.4.2.
5.4.3.
5.5

Choix dune architecture de commande ________________________________ 104


Choix du mode dapprentissage ______________________________________ 104
Apprentissage par renforcement distribu ______________________________ 106

GNRATION MARCHES PRIODIQUES ____________________________ 107

5.6 SIMULATION : GNRATION DE MARCHES SELON LAPPROCHE


DISTRIBUE ___________________________________________________________ 110
5.6.1.

Choix dun critique________________________________________________ 110

5.6.2.

Gnration de diffrents types de marche ______________________________ 110

5.6.2.1.
5.6.2.2.
5.6.2.3.
5.6.2.4.

5.6.3.
5.6.4.
5.6.5.
5.6.6.

Obtention de marches priodiques ____________________________________________


Influence de la fonction critique supplmentaire _________________________________
Influence de la fonction symtrie _____________________________________________
Les cycles attracteurs ______________________________________________________

111
114
116
118

Influence du facteur doubli et du pas du gradient ______________________ 119


Evolution des Fonctions valeurs______________________________________ 124
Influence du choix des entres _______________________________________ 126
Tolrance aux fautes _______________________________________________ 130

5.7 COMPARAISON ENTRE LAPPROCHE CENTRALISE ET LAPPROCHE


DISTRIBUE ___________________________________________________________ 131
5.7.1.
5.7.2.
5.8

Influence de limplmentation de la fonction Q__________________________ 131


Influence du facteur coefficient de pondration et du pas dapprentissage __ 133

RSUM __________________________________________________________ 138

5.9 LIMITATION DE LAPPRENTISSAGE PAR RENFORCEMENT CLASSIQUE


DE TYPE Q-LEARNING__________________________________________________ 139
5.10 MODIFICATIONS APPORTES L'ALGORITHME Q-LEARNING _____ 140
5.10.1. Stratgies individuelle ou collective___________________________________ 140
5.10.2. Comportement collectif ____________________________________________ 142
5.11 RSULTATS DE SIMULATIONS DE CHANGEMENT DE TRAJECTOIRE
AVEC CONTRLE DE LA POSTURE. _____________________________________ 146
5.11.1. Le contrle de la posture ___________________________________________ 146
5.11.2. Changement de trajectoire avec contrle de la posture : Rsultats ___________ 151
5.12 CONCLUSION _____________________________________________________ 154

CONCLUSION GNRALE ET PERSPECTIVES


CONCLUSION GNRALE ______________________________________________ 155
ET PERSPECTIVES _____________________________________________________ 155
1. SYNTHSE__________________________________________________________ 155
1.1
1.2

Ce travail de recherche a t organis autour, des trois activits suivantes : ___ 155
Les principales contributions de ce travail de recherche sont : ______________ 157

2. PRINCIPAUX RSULTATS ___________________________________________ 157


3. PERSPECTIVES _____________________________________________________ 158

BIBLIOGRAPHIE
BIBLIOGRAPHIE _______________________________________________________ 160

Vous aimerez peut-être aussi