Filliat RobotiqueMobile ENSTAParisTech

David FILLIAT
cole Nationale Suprieure de Techniques Avances ParisTech

Robotique Mobile
2
Cette cration est mise disposition selon le Contrat Paternit-Pas dUtilisation Commerciale-
Partage des Conditions Initiales lIdentique 2.0 France disponible en ligne :
http://creativecommons.org/licenses/by-nc-sa/2.0/fr/
ou par courrier postal Creative Commons, 171 Second Street, Suite 300, San Francisco,
California 94105, USA.
Ce document volue rgulirement. La dernire version se trouve sur ma page person-
nelle : http://www.ensta-paristech.fr/~filliat/
Si vous avez des remarques ou des suggestions pour maider le faire progresser, ou sim-
plement si il vous a t utile, nhsitez pas mcrire : david.filliat@ensta-paristech.fr
Dernire mise jour : 5 octobre 2011
Robotique Mobile - david.lliat@ensta-paristech.fr 4
TABLE DES MATIRES
Table des matires
1 Introduction 9
1.1 Robot Mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Objectifs du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 (Trs) Bref aperu historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Exemples dapplications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
I Les bases de la navigation 15
2 Les diffrents types de navigation 19
2.1 Les stratgies de navigation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Les architectures de contrle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Contrleurs Hirarchiques . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2 Contrleurs ractifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.3 Contrleurs hybrides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.4 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 Les sources dinformation 27
3.1 Informations proprioceptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Informations extroceptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.1 Variabilit perceptuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.2 Perceptual aliasing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Utilisation directe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.4 Utilisation dun modle mtrique . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Fusion dinformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Matriels courants en robotique mobile 35
4.1 Les bases mobiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.1 Holonomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.2 Les plates-formes diffrentielles . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.3 Les plates-formes omnidirectionnelles . . . . . . . . . . . . . . . . . . . . 36
4.1.4 Les plates-formes non holonomes . . . . . . . . . . . . . . . . . . . . . . 37
4.1.5 Les plates-formes pattes . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Robotique Mobile - david.lliat@ensta-paristech.fr
TABLE DES MATIRES
4.2 Les capteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.1 Les capteurs proprioceptifs . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.2 Les tlmtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.3 Les camras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.4 Autres capteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
II Navigation ractive 53
5 Navigation vers un but 57
5.1 Vhicules de Braitenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 Modle de Cartwright et Collet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Asservissement visuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6 vitement dobstacles 61
6.1 Mthode des champs de potentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2 Mthode Vector Field Histogram . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.3 Mthode de la fentre dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7 Apprentissage par renforcement 67
7.1 Formalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2 Programmation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2.1 valuation dune politique . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2.2 Amlioration dune politique . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.2.3 Algorithmes dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3 Mthodes de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.3.1 valuation dun politique . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.3.2 Besoin dexploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.3.3 Algorithmes dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.4 Apprentissage par diffrences temporelles . . . . . . . . . . . . . . . . . . . . . 74
7.5 Traces dligibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.6 Application pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.7 Exemple de mise en uvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
III Navigation utilisant une carte 81
8 Localisation, Cartographie et Planication 85
8.1 Les trois problmes de la navigation par carte . . . . . . . . . . . . . . . . . . . . 85
8.2 Quelques hypothses de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
8.2.1 Estimation de la position et de la direction . . . . . . . . . . . . . . . . . . 86
8.2.2 Environnements statiques et dynamiques . . . . . . . . . . . . . . . . . . 87
TABLE DES MATIRES
9 Les reprsentations de lenvironnement 89
9.1 Cartes topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.1.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.1.2 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.1.3 Inconvnients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.1.4 Mise en uvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9.2 Cartes mtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
9.2.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
9.2.2 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9.2.3 Inconvnients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9.2.4 Mise en uvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
9.3 Reprsentations hybrides et hirarchiques . . . . . . . . . . . . . . . . . . . . . . 100
10 Localisation 103
10.1 Diffrentes capacits de localisation . . . . . . . . . . . . . . . . . . . . . . . . . 103
10.2 Estimation de la position par les perceptions . . . . . . . . . . . . . . . . . . . . 105
10.2.1 Cartes topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
10.2.2 Cartes mtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10.2.3 Corrlation de cartes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
10.2.4 Limitations de lestimation de la position par les perceptions . . . . . . . . 110
10.3 Suivi dune hypothse unique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
10.3.1 Cartes topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
10.3.2 Cartes mtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
10.3.3 Le ltrage de Kalman pour la localisation . . . . . . . . . . . . . . . . . . . 112
10.3.4 Limitations du suivi de position . . . . . . . . . . . . . . . . . . . . . . . . 119
10.4 Suivi de plusieurs hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
10.4.1 Suivi explicite de plusieurs hypothses . . . . . . . . . . . . . . . . . . . . 120
10.4.2 Le ltrage Baysien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
10.4.3 Filtrage Baysien dans le cas discret . . . . . . . . . . . . . . . . . . . . . 126
10.4.4 Filtrage particulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.5 Comparaison des mthodes de localisation . . . . . . . . . . . . . . . . . . . . . 133
11 Cartographie 135
11.1 Les problmes de la cartographie . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.1.1 Limitation des mthodes de localisation . . . . . . . . . . . . . . . . . . . 135
11.1.2 Fermetures de boucles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
11.1.3 Cartographie incrmentale et retour en arrire . . . . . . . . . . . . . . . . 136
11.2 Cartographie incrmentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
11.2.1 Cartes Topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
11.2.2 Cartes mtriques : corrlation de scan . . . . . . . . . . . . . . . . . . . . 140
11.2.3 Cartes mtriques : grilles doccupation . . . . . . . . . . . . . . . . . . . . 141
11.2.4 Stratgies dexploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
11.3 Retour sur les modications passes . . . . . . . . . . . . . . . . . . . . . . . . 144
TABLE DES MATIRES
11.3.1 Mthodes de relaxation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
11.3.2 Cartographie par ltrage de Kalman tendu . . . . . . . . . . . . . . . . . 147
11.3.3 Fast SLAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
11.4 Comparaison des mthodes de cartographie . . . . . . . . . . . . . . . . . . . . 154
12 Planication 155
12.1 Espace des congurations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
12.2 Discrtisation de lespace de recherche . . . . . . . . . . . . . . . . . . . . . . . 156
12.3 Recherche de chemin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
12.3.1 Deux types de plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
12.3.2 Calcul de politique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
12.3.3 Calcul dun chemin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
12.4 Exemples de politiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
12.5 Choix de laction avec une position incertaine . . . . . . . . . . . . . . . . . . . . 162
Index 164
Bibliographie 165
CHAPITRE 1. INTRODUCTION
Chapitre 1
Introduction
1.1 Robot Mobile
La robotique est un trs bon exemple de domaine pluri-disciplinaire qui implique de nom-
breuses thmatiques telles que la mcanique, la mcatronique, llectronique, lautomatique, lin-
formatique ou lintelligence articielle. En fonction du domaine dorigine des auteurs, il existe donc
diverses dnitions du terme robot, mais elles tournent en gnral autour de celle-ci :
Un robot est une machine quipe de capacits de perception, de dcision et daction
qui lui permettent dagir de manire autonome dans son environnement
en fonction de la perception quil en a.
FIGURE 1.1 Schma des interactions dun robot avec son environnement. Selon les ap-
proches, un modle interne de lenvironnement peut tre utilis ou non.
Cette dnition sillustre par un schma classique des interactions dun robot avec son envi-
ronnement (Figure 1.1). Les diffrentes notions que nous prsenterons dans ce cours sont es-
sentiellement issues de cette vision de la robotique, trs oriente sur lIntelligence Articielle, qui
1.2. OBJECTIFS DU COURS
place au centre des proccupations lenchanement de ce cycle Perception/Dcision/Action . La
manire dont un robot gre ces diffrents lments est dnie par son architecture de contrle,
qui la plupart du temps va faire appel un modle interne de lenvironnement qui lui permettra de
planier ses actions long terme.
1.2 Objectifs du cours
Lobjectif de ce cours est de fournir un aperu des problmes de la robotique mobile et des
solutions actuelles. Ce cours se veut proche de la recherche, en prsentant des mthodes ap-
parues dans les dernires annes, mais prsente galement les notions de base ncessaires
leur comprhension, ainsi quun panorama de techniques classiques dont la porte va au del de
leur application en robotique mobile. La lecture des nombreuses rfrences des articles scienti-
ques ou des ouvrages de rfrence (la plupart du temps en anglais) nest videment pas utile
pour la comprhension du cours, mais doit permettre dapprofondir des points particuliers hors
de la porte de ce cours.
La robotique mobile est un domaine dans lequel lexprience pratique est particulirement
illustratrice et importante pour la comprhension des problmes. Au del des mthodes prsen-
te dans ce texte, les travaux dirigs ou le projet pratique associs que ralisent les tudiants
apporteront galement leur lot de connaissances irremplaables.
1.3 (Trs) Bref aperu historique
FIGURE 1.2 La tortue de Grey Walter (nomme machina speculatrix et surnomme Elsie)
et une illustration de sa trajectoire pour rejoindre sa niche.
Le terme de robot apparat pour la premire fois dans une pice de Karel Capek en 1920 :
Rossums Universal Robots. Il vient du tchque robota ( servitude) et prsente une vision des
robots comme serviteurs dociles et efcaces pour raliser les taches pnibles mais qui dj vont
se rebeller contre leurs crateurs.
La Tortue construite par Grey Walter dans les anne 1950 (Figure 1.2), est lun des premiers
robots mobiles autonomes. Grey Walter nutilise que quelques composants analogiques, dont
des tubes vide, mais son robot est capable de se diriger vers une lumire qui marque un
but, de sarrter face des obstacles et de recharger ses batteries lorsquil arrive dans sa niche.
Toutes ces fonctions sont ralises dans un environnement entirement prpar, mais restent des
fonctions de base qui sont toujours des sujets de recherche et de dveloppement technologiques
pour les rendre de plus en plus gnriques et robustes.
FIGURE 1.3 A gauche : Robot "Beast" de luniversit John Hopkins dans les annes 1960.
A droite : Le robot Shakey de Stanford en 1969 a t une plate-forme de dmonstration des
recherches en intelligence articielle.
Dans les annes 60, les recherches en lectronique vont conduire, avec lapparition du tran-
sistor, des robots plus complexes mais qui vont raliser des tches similaires. Ainsi le robot
"Beast" (Figure 1.3) de luniversit John Hopkins est capable de se dplacer au centre des cou-
loirs en utilisant des capteurs ultrason, de chercher des prises lectriques (noires sur des murs
blanc) en utilisant des photo-diodes et de sy recharger.
Les premier liens entre la recherche en intelligence articielle et la robotique apparaissent
Stanford en 1969 avec Shakey (Figure 1.3). Ce robot utilise des tlmtres ultrason et une
camra et sert de plate-forme pour la recherche en intelligence articielle, qui lpoque travaille
essentiellement sur des approches symboliques de la planication. La perception de lenviron-
nement, qui lpoque est considre comme un problme spar, voire secondaire, se rvle
particulirement complexe et conduit l aussi de fortes contraintes sur lenvironnement. Ces
dveloppements de poursuivent avec le Stanford Cart dans la n des annes 1970, avec notam-
ment les premires utilisations de la stro-vision pour la dtection dobstacles et la modlisation
1.3. (TRS) BREF APERU HISTORIQUE
FIGURE 1.4 Le Stanford Cart date de la n des annes 1970. Le robot Hilare du LAAS a t
construit en 1977.
de lenvironnement. En France, le robot Hilare est le premier robot construit au LAAS, Toulouse
(Figure 1.4).
Une tape importante est signaler au dbut des annes 1990 avec la mise en avant de
la robotique ractive, reprsente notamment par Rodney Brooks. Cette nouvelle approche de la
robotique, qui met la perception au centre de la problmatique, a permis de passer de gros robots
trs lents de petits robots (Figure 1.5), beaucoup plus ractifs et adapts leur environnement.
Ces robots nutilisent pas ou peu de modlisation du monde, problmatique qui sest avre tre
extrmement complexe.
FIGURE 1.5 Genghis, dvelopp par Rodney Brooks au MIT au dbut des annes 1990.
Ces dveloppements ont continu et larrive sur le march depuis les annes 1990 de plates-
formes intgres telles que le pioneer de la socit Mobile Robots a permis de trs nombreux
laboratoires de travailler sur la robotique mobile et conduit une explosion de la diversit des
thmes de recherche. Ainsi, mme si les problmes de dplacement dans lespace et de mo-
dlisation de lenvironnement restent difciles et cruciaux, des laboratoires ont pu par exemple
travailler sur des approches multi-robot, la problmatique de lapprentissage ou sur les problmes
dinteractions entre les hommes et les robots.
1.4 Exemples dapplications
Aujourdhui, le march commercial de la robotique mobile est toujours relativement restreint
en dehors des robots aspirateurs vendus plusieurs millions dexemplaires. Cependant, il existe
de nombreuses perspectives de dveloppement qui en feront probablement un domaine impor-
tant dans le futur. Les applications des robots peuvent se trouver dans de nombreuses acti-
vits "ennuyeuses, salissantes ou dangereuses" (3 Ds en anglais pour Dull, Dirty, Dangerous),
mais galement pour des applications ludiques ou de service, comme lassistance aux personnes
ges ou handicapes.
FIGURE 1.6 Exemples de robots commerciaux ou de recherche.
1.5. POUR ALLER PLUS LOIN
Parmi les domaines dapplications possibles de la robotique, citons :
La robotique de service (hpital, bureaux, maison),
La robotique de loisir (jouets, robot compagnon),
La robotique industrielle ou agricole (entrepts logistiques, rcolte de productions agricoles,
mines),
La robotique en environnement dangereux (spatial, industriel, militaire, catastrophes natu-
relles).
A cela, sajoute a lheure actuelle des nombreuses plates-formes conues essentiellement
pour les laboratoires de recherche. La gure 1.6 montre quelques exemples de robots existants.
1.5 Pour aller plus loin
Les illustrations de ce chapitre sont, entre autre, tires du livre "ROBOT : mere machine to
transcendent mind" de Hans Moravec [102], dont les illustrations sont disponibles en ligne
1
.
Le livre de Daniel Ichbiah "Robots, Gense dun peuple articiel" [71] donne galement un
bon aperu "grand public" de la robotique et de sont histoire
2
.
1. http ://www.frc.ri.cmu.edu/ hpm/book98/
2. http ://ichbiah.online.fr/pagerobots.htm
Premire partie
Les bases de la navigation
Dans cette partie, nous prsentons les diffrentes catgories de mthodes de navigation utili-
sables pour un robot mobile et les architectures de contrle associes. Nous prsentons ensuite
les informations quun robot pourra utiliser pour se dplacer, ainsi que les capteurs et les plates-
formes couramment utilises en robotique.
CHAPITRE 2. LES DIFFRENTS TYPES DE NAVIGATION
Chapitre 2
Les diffrents types de navigation
2.1 Les stratgies de navigation
Les stratgies de navigation permettant un robot mobile de se dplacer pour rejoindre un
but sont extrmement diverses, de mme que les classications qui peuvent en tre faites. An
de situer les diffrentes mthodes de navigation que nous allons tudier dans un contexte gn-
ral, nous reprenons ici une classication tablie par Trullier et al. [138, 140]. Cette classication
a t tablie en prenant en compte la fois les stratgies des robots et des animaux. Elle pr-
sente lavantage de distinguer les stratgies sans modles internes et les stratgies avec modle
interne.
Cette classication comporte cinq catgories, de la plus simple la plus complexe :
Approche dun objet : cette capacit de base permet de se diriger vers un objet visible
depuis la position courante du robot. Elle est en gnral ralise par une remonte de
gradient base sur la perception de lobjet, comme dans lexemple clbre des vhicules
de Valentino Braitenberg [19] (voir section 5.1) qui utilisent deux capteurs de lumire pour
atteindre ou fuir une source lumineuse. Cette stratgie utilise des actions rexes, dans
lesquelles chaque perception est directement associe une action. Cest une stratgie
locale, cest--dire fonctionnelle uniquement dans la zone de lenvironnement pour laquelle
le but est visible.
Guidage : cette capacit permet datteindre un but qui nest pas un objet matriel direc-
tement visible, mais un point de lespace caractris par la conguration spatiale dun en-
semble dobjets remarquables, ou amers, qui lentourent ou qui en sont voisins. La strat-
gie de navigation, souvent une descente de gradient galement, consiste alors se diri-
ger dans la direction qui permet de reproduire cette conguration. Cette capacit semble
utilise par certains insectes, comme les abeilles [26], et a t utilise sur divers robots
[54, 86, 58, 114] (voir sections 5.2 et 5.3). Cette stratgie utilise galement des actions r-
exes et ralise une navigation locale qui requiert que les amers caractrisant le but soient
visibles.
Action associe un lieu : cette capacit est la premire capacit ralisant une navigation
globale, cest--dire qui permette de rejoindre un but depuis des positions pour lesquelles
2.1. LES STRATGIES DE NAVIGATION
a
D
A
a
a a a
a
a
a
a a
a
Direction prendre pour atteindre le lieu A
Trajectoire suivie par lanimat
Obstacles
Lieux mmoriss
Zone inexplore
FIGURE 2.1 Action associe un lieu. En chaque lieu, reprsent par un cercle, laction
accomplir pour rejoindre le but A est reprsente par une che indiquant la direction suivre
partir de ce lieu. Cette stratgie permet de rejoindre un but distant dans lenvironnement
mais repose sur des chemins gs. Dans cet exemple, le chemin joignant le lieu D au lieu
A et passant par la droite de lobstacle a t appris. Rejoindre le lieu A depuis le lieu D ne
pourra alors tre ralis que par ce chemin. Le raccourci empruntant le chemin de gauche,
par exemple, est inutilisable.
ce but ou les amers qui caractrisent son emplacement sont invisibles (par exemple [114].
Elle requiert une reprsentation interne de lenvironnement qui consiste dnir des lieux
comme des zones de lespace dans lesquelles les perceptions restent similaires, et as-
socier une action effectuer chacun de ces lieux (cf. gure 2.1). Lenchanement des
actions associes chacun des lieux reconnus dnit une route qui permet de rejoindre le
but. Ces modles permettent donc une autonomie plus importante mais sont limits un
but x. Une route qui permet de rejoindre un but ne pourra en effet pas tre utilise pour
rejoindre un but diffrent. Changer de but entranera lapprentissage dune nouvelle route,
indpendante des routes permettant de rejoindre les autres buts.
B
D
A
Possibilit de passer dun lieu un autre
Obstacles
Lieux mmoriss
Zone inexplore
FIGURE 2.2 Navigation topologique. Cette stratgie permet de mmoriser un ensemble
de lieux et les possibilits de passer de lun lautre, indpendamment de tout but. Pour
rejoindre un but, il faut alors une tape de planication qui permet de rechercher, parmi tous
les chemins possibles, le chemin rejoignant le but. Dans notre exemple, le chemin le plus
court entre D et A peut alors tre calcul, mais uniquement parmi les lieux et les chemins
dj connus. Cette stratgie permet, par exemple, de contourner lobstacle par la gauche
mais ne permet pas de le traverser en ligne droite de D A.
Navigation topologique : cette capacit est une extension de la prcdente qui mmo-
rise dans le modle interne les relations spatiales entre les diffrents lieux. Ces relations
indiquent la possibilit de se dplacer dun lieu un autre, mais ne sont plus associes
un but particulier. Ainsi le modle interne est un graphe qui permet de calculer diffrents
chemins entre deux lieux arbitraires. Ce modle ne permet toutefois que la planication de
dplacements parmi les lieux connus et suivant les chemins connus (cf. gure 2.2).
B
D
A
dduite de leur position relative
x
y
Obstacles
Lieux mmoriss
Zone inexplore
FIGURE 2.3 Navigation mtrique. Cette stratgie permet de calculer le chemin le plus court
entre deux lieux mmoriss, permettant mme de planier des raccourcis au sein de zones
inexplores de lenvironnement. Pour cela, la carte mmorise la position mtrique relative de
chacun des lieux visits par le robot. Ainsi il est possible de prvoir un dplacement entre
deux lieux, mme si la possibilit de ce dplacement nest pas enregistre dans la carte.
Dans cet exemple, cette stratgie permet de daller du lieu A au lieu D en traversant la zone
inexplore.
Navigation mtrique : cette capacit est une extension de la prcdente car elle permet
au robot de planier des chemins au sein de zones inexplores de son environnement.
Elle mmorise pour cela les positions mtriques relatives des diffrents lieux, en plus de
la possibilit de passer de lun lautre. Ces positions relatives permettent, par simple
composition de vecteurs, de calculer une trajectoire allant dun lieu un autre, mme si la
possibilit de ce dplacement na pas t mmorise sous forme dun lien (cf. gure 2.3).
Les modles des trois premires catgories utilisent des actions rexes pour guider le robot
et se diffrencient essentiellement par le type de perceptions utilises pour dclencher ces ac-
tions. Ils se regroupent sous le terme gnrique de navigation ractive dont nous parlerons dans
la partie II. Ils peuvent tre trs simple, ne ncessitent pas de modle global de lenvironnement
mais ont un domaine dapplication souvent restreint. Dans le monde vivant, ces stratgies sont
trs rpandues, notamment chez les insectes. Les comportements de ce type restent toutefois
essentiels dans les robots modernes car, du fait de leur simplicit, il sont gnralement excuts
trs rapidement et ils permettent de raliser des taches de bas-niveau, comme lvitement des
obstacles imprvus, essentielles la scurit dun robot.
Les modles des deux dernires catgories autorisent pour leur part une navigation globale
et permettent de rejoindre un but arbitraire au sein de lenvironnement. Ils sappuient pour cela
sur un modle interne du monde, une carte, qui supporte une planication. Ce modle interne
mmorise donc la structure spatiale de lenvironnement, indpendamment dun but prcis. Cha-
2.2. LES ARCHITECTURES DE CONTRLE
cune des positions mmorises dans ce modle interne peut alors tre utilise comme but par
le processus de planication dont le rle est de calculer une route vers ce but. Ce sont ces deux
stratgies qui sont regroupes sous le terme de navigation par carte, objet du chapitre III .
Une telle reprsentation interne est naturelle pour les tres humains, pour lesquels des pro-
cessus cognitifs de haut niveau sont utiliss pour crer et utiliser une carte. Ces processus de
haut niveau sont toutefois trs difcile copier pour un robot rel qui ne dispose que de sys-
tmes rudimentaires de perception et de traitement des informations en comparaison avec un
homme. Par exemple, en environnement urbain, le processus de mise en correspondance de la
carte avec lenvironnement rel an de dterminer sa position fait souvent appel, pour lhomme,
la lecture du nom des rues inscrit sur les btiments, ce qui est relativement difcile automa-
tiser, cause de la diversit des congurations dans lesquelles peuvent ce trouver ces noms.
On notera au passage que lhomme a quasiment toujours recours des amnagements particu-
liers de lenvironnement pour connaitre sa position, par exemple celui qui consiste nommer les
rues ou lancer des satellites dans lespace pour bncier du GPS. Le systme de navigation
idal pour un robot mobile sera probablement celui qui sera capable de tirer partie de toutes ces
informations, qui ne lui taient pas destines lorigine.
Lutilisation de cartes par un robot mobile comme le font les hommes est probablement hors de
notre porte pendant quelques annes, cependant il existe galement des preuves de lexistence
de reprsentations internes similaires de telles cartes chez les animaux, par exemple chez les
rats. Ces reprsentations sont identiables au niveau neurologiques dans certaines parties de
leur cerveau, notamment dans lhippocampe. Cela montre que des cartes sont utilise par des
tres vivants, sans le support de concept abstraits tels que les utilisent les humains. Ce type de
carte qui fait appel des structures neurologiques de base et probablement des perceptions
relativement simples, est un paradigme intressant pour les robots mobiles.
En robotique mobile, comme pour lhomme ou certains animaux, lutilisation de cartes est
quasiment indispensable pour permettre deffectuer des tches de navigation dans des condi-
tions environnementales complexes, qui ne sont pas spcialement adaptes pour le robot. La
construction et lutilisation de telles cartes posent cependant de nombreux problmes, notam-
ment pour garantir ladquation entre la carte et le monde rel. Pour cette raison, la plupart des
robots trouvent aujourdhui un compromis entre une approche ractive et une approche utilisant
une carte an de bncier de la rapidit et de la robustesse de la premire et de la capacit de
dplacement long terme de la seconde.
2.2 Les architectures de contrle
Un robot est un systme complexe qui doit satisfaire des exigences varies et parfois contra-
dictoires. Un exemple typique pour un robot mobile est larbitrage qui doit tre fait entre lexcution
la plus prcise possible dun plan prtabli pour atteindre un but et la prise en compte dlments
imprvus, tels que les obstacles mobiles. Ces arbitrages, que ce soit au niveau du choix de stra-
tgie, ou au niveau de lutilisation des capteurs, des effecteurs ou des ressources de calcul, sont
rgls par un ensemble logiciel appel architecture de contrle du robot. Cette architecture per-
met donc dorganiser les relations entre les trois grandes fonctions que sont la perception, la
dcision et laction .
Nous pouvons reprendre la dnition de Ronald Arkin [4] de lart de concevoir de telles archi-
tectures :
Robotic architecture is the discipline devoted to the design of highly specic and individual robots
from a collection of common software building blocks.
Selon cette dnition une architecture doit donc tre conue pour un robot prcis, mais en
utilisant des modules gnriques. De manire plus gnrale il existe galement des rgles de
conception relativement gnrales qui permettent de raliser ces implmentations. En fonction
de ces rgles, les architectures de contrle peuvent tre classes en trois grandes catgories
que nous dtaillerons par la suite : les contrleurs hirarchiques, les contrleurs ractifs et les
contrleurs hybrides (Figure 2.4). Comme le prcise cette dnition, toutes ces architectures ne
diffrent pas forcement par les mthodes lmentaires employes mais plutt par leur agence-
ment et leur relations.
A B C
PERCEPTION
PLANIFICATION
ACTION
PERCEPTION ACTION
PLANIFICATION
PERCEPTION ACTION
FIGURE 2.4 Illustration des architectures classiques des contrleurs pour les robots mo-
biles : Hirarchique (A), Ractive (B) et Hybride (C) (Voir le texte pour la description dtaille).
2.2.1 Contrleurs Hirarchiques
Historiquement, les premiers robots mobiles drivs des recherches en intelligence articielle
utilisaient des contrleurs hirarchiques (cf. gure 2.4 A) dont le fonctionnement repose essentiel-
lement sur la capacit de dcision travaillant sur un modle du monde suppos quasiment-parfait.
Ces architectures fonctionnent selon un cycle rigide de modlisation de lenvironnement, plani-
cation des actions au sein de cette reprsentation, puis excution du plan. La capacit de dcision
tait issue des premiers travaux en intelligence articielle et reposait essentiellement sur des trai-
tements de donnes symboliques. Ces architectures ont rapidement montr leurs limites et leur
incapacit fonctionner dans un environnement qui ne soit pas statique et simpli lextrme.
Lessentiel des problmes de ces architectures provient de lutilisation dun modle interne
central qui est le seul pris en compte pour guider le robot. Elles se trouvent confrontes tout les
problmes des premiers dveloppements de lintelligence articielle symbolique.
Ces architectures supposent premirement quun modle informatique du monde puisse re-
prsenter toutes les informations pertinentes pour le dplacement du robot. Or un tel modle ne
peut tre sufsant dans un environnement dynamique car au moment de la ralisation de lac-
tion lenvironnement peut avoir sufsamment chang pour que la dcision ne soit plus valide. Ce
problme tait particulirement crucial au dbut de la robotique mobile ou les capacits de calcul
limites entranaient des temps de planication de lordre de plusieurs dizaines de minutes. Mais
laugmentation des capacits de calcul ne suft pas rsoudre ce problme qui ne permet pas
de grer un environnement de travail raliste. Cest un problme intrinsque li dune part la
trop grande longueur de la boucle qui relie la perception laction et dautre part linvalidit de
lhypothse de monde clos faite en intelligence articielle
1
.
De plus, ces architectures permettent peu de contrle sur lexcution des actions. En effet,
une fois laction choisie, elle est excute en supposant le modle du monde correct et il ny a pas
de retour direct de la perception sur lexcution de laction. Les carts modles/environnement ne
peuvent tre pris en compte que via un nouveau cycle perception/modlisation/planication, ce
qui, par dnition, est trs peu ractif et conduit rapidement de graves problmes.
2.2.2 Contrleurs ractifs
Rodney Brooks [20] a propos une solution radicale tous ces problmes sous la forme dune
architecture ractive (cf. gure 2.4 B). Dans cette architecture, un ensemble de comportements
ractifs, fonctionnant en parallle, contrle le robot sans utiliser de modle du monde. Cette ar-
chitecture supprime videmment les problmes ds aux diffrences entre la ralit, dune part,
et le modle de lenvironnement du robot, dautre part, mais limite clairement les tches que peut
effectuer le robot (cf. [77] pour une critique). En effet, sans reprsentation interne de ltat de
lenvironnement, il est trs difcile de planier une suite dactions en fonction dun but atteindre.
Les robots utilisant cette architecture sont donc en gnral efcaces pour la tche prcise pour
laquelle ils ont t conus, dans lenvironnement pour lequel ils ont t prvus, mais sont souvent
difciles adapter une tche diffrente.
Les russites de ces architectures sont lies au couplage direct entre la perception et laction
qui permet une prise en compte trs rapide des phnomnes dynamiques de lenvironnement.
En donc une bonne robustesse dans des environnements complexes.
Comme nous lavons mentionn, ces architectures sont en gnral bases sur plusieurs com-
portements : vitement dobstacles, dplacement alatoire, dplacement vers un but, fuite dun
point... Pour guider le robot, il faut donc choisir chaque instant lequel de ces comportements
activer. Ce problme est connu dans la litrature scientique sous le nom de slection de laction.
La solution propose par Brooks, larchitecture de subsomption [21] est devenue un classique et
utilise une hirarchie des comportements qui se dclenchent donc selon un ordre de priorit en
fonction des perceptions du robot.
1. Lhypothse de monde clos dit que la reprsentation symbolique dun problme va tre sufsante pour pouvoir
reprsenter toutes les consquences des actions ralises dans ce monde. Cela savre impossible en pratique pour
des problmes autre que des problmes jouets (par exemple un monde de cubes poss sur une table).
2.2.3 Contrleurs hybrides
La plupart des contrleurs actuellement utiliss choisissent une solution intermdiaire entre
ces deux approches sous la forme dune architecture hybride [104, 3] (cf. gure 2.4 C). Cette
architecture se compose de deux niveaux. Le premier est charg des tches de navigation de
haut niveau, telles que la localisation, la cartographie et la planication. Pour cela, il sappuie sur
un second niveau ractif qui est charg dexcuter les commandes avec le plus de prcision pos-
sible et de grer les lments non modliss de lenvironnement tels que les obstacles inconnus
ou dynamiques. Laction conjointe de ces deux niveaux permet de ragir rapidement face aux
variations imprvues de lenvironnement, tout en permettant la ralisation dactions planies
plus long terme.
Le bas niveau de ces architectures peut tre ralis sous forme de comportements, tels que
ceux utiliss dans les architectures ractives. Ces comportements sont des boucles sensorimo-
trices qui relient les action aux perceptions avec un phase de dcision trs courte, qui assure la
ractivit. Dans le mme temps, les informations sensorielles sont utilises par le haut niveau
dans une boucle sensorimotrice une chelle de temps beaucoup plus longue. Cest la mise en
parallles de ces deux chelles de temps qui fait la force de ces architectures.
Les exemples darchitectures hybrides foisonnent (4D/RCS, 3T, Harpic...) car de trs nom-
breux laboratoires et organismes travaillant sur la robotique ont dvelopp leur architecture de ce
type.
2.2.4 Pour aller plus loin
Deux livres intressants sur le sujet :
Introduction to AI Robotics de Robin Murphy, MIT Press
Behavior based robotics de Ronald C. Arkin, MIT Press
CHAPITRE 3. LES SOURCES DINFORMATION
Chapitre 3
Les sources dinformation
Tous les capteurs utiliss en robotique mobile fournissent des informations appartenant lune
de deux grandes catgories dinformations : les informations proprioceptives et les informations
extroceptives.
Les informations proprioceptives sont des informations internes au robot qui le renseignent,
dans le cas de la navigation, sur son dplacement dans lespace. Ces informations peuvent
provenir de la mesure de la rotation de ses roues ou de la mesure de lacclration grce
une centrale inertielle. Un processus dintgration permet alors, en accumulant ces in-
formations au cours du temps, destimer la position relative de deux points par lesquels le
robot est pass.
Les informations extroceptives ou plus simplement les perceptions, sont des informations
caractristiques dune position que le robot peut acqurir dans son environnement. Ces
informations peuvent tre de nature trs varie. Par exemple, un robot peut mesurer la
distance des obstacles avec des capteurs infrarouges ou utiliser une camra.
Ces deux sources dinformation ont des proprits opposes que nous dtaillons dans les
deux sections suivantes.
3.1 Informations proprioceptives
Les informations proprioceptives renseignent sur le dplacement du robot dans lespace. Elles
constituent donc une source dinformation trs importante pour la navigation. Cependant, la pr-
cision de cette information se dgrade continuellement au cours du temps, la rendant inutilisable
comme seule rfrence long terme. Cette dgradation continuelle provient de lintgration tem-
porelle des mesures effectues par les capteurs internes. En effet, chaque capteur produit une
mesure bruite du dplacement instantan, de la vitesse ou de lacclration du robot. Ce bruit,
via le processus dintgration qui a pour but destimer le dplacement, conduit invitablement
une erreur croissante.
Malgr ce dfaut important, les informations proprioceptives ont lavantage de dpendre assez
peu des conditions environnementales qui perturbent fortement les informations perceptives. La
vision, par exemple sera fortement perturbe si lenvironnement est plong dans le noir, mais
3.2. INFORMATIONS EXTROCEPTIVES
les informations proprioceptives fourniront une information identique, que lenvironnement soit
clair ou non. De plus, comme nous le verrons dans la section suivante, si deux lieux identiques
du point de vue des perceptions se trouvent dans lenvironnement, les informations perceptives
ne permettent pas de les diffrencier. Les informations proprioceptives sont alors le seul moyen
de les distinguer.
En robotique, cette information a de plus lavantage de la simplicit de manipulation. En ef-
fet, le processus dintgration fournit directement une estimation de la position du robot dans un
espace euclidien dot dun repre cartsien. Dans ce type de repre, tous les outils de la gom-
trie mathmatique sont utilisables. Ils permettent, par exemple, deffectuer des calculs de chemin
relativement simples lorsque lon connat la position du but et des obstacles.
3.2 Informations extroceptives
Les informations extroceptives, ou plus simplement les perceptions , fournissent un lien
beaucoup plus fort entre le robot et son environnement. En effet, les informations propriocep-
tives fournissent des informations sur le dplacement du robot, alors que les informations percep-
tives fournissent des informations directement sur la position du robot dans lenvironnement. Ces
informations assurent un ancrage dans lenvironnement, en permettant de choisir des percep-
tions qui peuvent tre utilises comme points de repre. Ces points de repre sont indpendants
des dplacements du robot et pourront tre reconnus quelle que soit lerreur accumule par les
donnes proprioceptives. La reconnaissance de ces points est videmment soumise une in-
certitude, mais pas une erreur cumulative, ce qui les rend utilisables comme rfrence long
terme.
3.2.1 Variabilit perceptuelle
Pour tre utile, un systme de perception doit donc permettre de distinguer le plus de lieux
possible. Pour cela, il doit tre capable de distinguer le plus de dtails possibles, an de faire la
diffrence entre deux lieux diffrents mais dapparences similaires. Or laugmentation de cette
capacit distinguer de petites variations dans lenvironnement rend le systme sensible au
problme de la variabilit perceptuelle , cest dire au changement de perception au cours du
temps pour un lieu donn. Cette variabilit peut tre due au bruit inhrent au processus de mesure
o des variations de lenvironnement non signicatives pour le problme de navigation qui nous
concerne, par exemple le changement de luminosit. Pour saffranchir de ce problme, il faut en
gnral mettre en place des processus de traitement des perceptions qui permettront de ne pas
dpendre de ces variations et de correctement identier un lieu donn.
3.2.2 Perceptual aliasing
En cherchant limiter la dpendance aux variations de lenvironnement, le concepteur de
robot aboutit en gnral au problme du perceptual aliasing ou dAmbigut des perceptions. Ce
problme dsigne lincapacit dun systme de perception distinguer de manire unique tous
les lieux dun environnement. Cette situation est trs courante lorsque les robots utilisent des
capteurs de distance aux obstacles tels que les capteurs ultrasons. Dans un environnement
intrieur de tels capteurs sont, par exemple, capables de mesurer la position du robot par rapport
un coin, mais ne fournissent aucune information sur la position le long dun couloir rectiligne.
Toutes les positions le long dun couloir correspondent alors des perceptions identiques.
Il est possible dutiliser des capteurs qui fournissent des donnes plus prcises ou plus dis-
criminantes. Dans le cas des capteurs de distance, il est, par exemple, possible dutiliser un
tlmtre laser qui pourra distinguer les renfoncements des portes et sera ainsi plus prcis. Mais
mme en utilisant des capteurs plus informatifs, comme une camra, ce problme nit par ap-
paraitre lorsque la taille de lenvironnement augmente. Il existe toujours une limite matrielle ou
logicielle au del de laquelle lidentication unique de toutes les positions dun environnement
est impossible. Il nest donc pas possible, en gnral, de rgler compltement le problme du
perceptual aliasing, mais seulement den repousser lapparition. Il faut donc bien tudier les cap-
teurs ncessaires en fonction des traitements ralisables et de lenvironnement vis pour limiter
ce problme.
3.2.3 Utilisation directe
Les capteurs sur un robot mobile peuvent tre de nature trs varie et tre utiliss de nom-
breuses faons diffrentes. Il est toutefois possible de distinguer deux utilisations distinctes de
leurs donnes pour la navigation. Ces deux utilisations dpendent de lutilisation ou non dun mo-
dle mtrique associ au capteur, modle qui permet de traduire les valeurs brutes du capteur
en informations sur la gomtrie de lenvironnement. Ce modle permet notamment de prvoir la
variation des mesures renvoyes par ce capteur en fonction du dplacement du robot.
Les perceptions peuvent tre utilises de manire directe, sans aucun modle mtrique, pour
comparer directement deux positions en examinant les perceptions recueillies en ces lieux. Cette
mthode ne permet cependant que de reconnatre des lieux de lenvironnement pralablement
explors par le robot. Sans modle de la variation des capteurs, il est en effet impossible de
prvoir les valeurs que les capteurs relveront dans un lieu inexplor, mme sil est proche ou
entour de lieux connus.
Pour une telle utilisation directe, seules deux procdures permettant, dune part, de mmoriser
une perception et, dautre part, de comparer deux perceptions, sont alors ncessaires. Ces pro-
cdures peuvent tre mises en uvre partir de tous les types de capteurs existants. Il est, par
exemple, possible dutiliser la couleur dominante de lenvironnement autour du robot, la tempra-
ture (en supposant quelle caractrise une zone de lenvironnement, comme pour une chambre
froide), la force du signal wi ou le temps de retour dune onde sonore quand elle est envoye
dans une direction donne. La seule proprit utilise est la constance des valeurs mesures
par un capteur pour un lieu donn. Cette constance permet de reconnatre un lieu dj visit ou
didentier un lieu nouveau dans lenvironnement.
3.2.4 Utilisation dun modle mtrique
La seconde mthode dutilisation dun capteur consiste utiliser un modle mtrique associ
. Un tel modle permet de traduire les informations donnes par le capteur dans un espace
mtrique qui est en gnral le mme que celui utilis pour estimer la position du robot grce
lodomtrie. Il est ainsi possible destimer la position dobjets de lenvironnement par rapport au
robot, et ainsi de prvoir les donnes que ce capteur relvera pour des positions diffrentes du
robot. Lutilisation dun tel modle nest toutefois possible que pour certains capteurs. Il est, par
exemple, possible dutiliser un tel modle associ un capteur ultrasons, un tlmtre laser
ou une paire de camras stroscopique, mais pas un capteur dodeur.
a b
FIGURE 3.1 Un modle mtrique pour un capteur permet deux utilisations de ses donnes.
La premire est similaire celle qui traite de telles donnes sans modle mtrique et requiert
la simple mmorisation de ce qui est peru en un lieu donn (Partie a). La seconde utilise ces
donnes pour reconstituer les objets rencontrs dans lenvironnement, objets qui pourront
tous tre mmoriss dans un cadre de rfrence commun, indpendamment de la position
depuis laquelle ils ont t perus (Partie b).
Avec un tel modle, les valeurs des capteurs peuvent tre utilises simplement pour caractri-
ser chaque lieu atteint par le robot (cf. gure 3.1a). La mthode est alors la mme que celle mise
en place quand les capteurs sont utiliss sans modle mtrique. Lutilisation dun modle m-
trique prsente toutefois lavantage que les informations recueillies ont une smantique plus forte
et une certaine indpendance au point de vue du robot. En effet, ces informations caractrisent la
structure spatiale locale de lenvironnement, en plus de la simple apparence de lenvironnement
depuis la position du robot. Cette structure spatiale peut alors tre utilise lors de la comparaison
de diffrents lieux. Il est par exemple possible de reconnatre un couloir en fonction de sa largeur,
indpendamment de la position du robot dans ce couloir. En effet, sans utilisation de modles
mtriques, deux perceptions recueillies en des positions diffrentes du couloir seront simplement
diffrentes. En utilisant un modle mtrique, il est possible de calculer la largeur du couloir, par
exemple, partir des donnes recueillies et ainsi de dterminer si ces deux positions peuvent
correspondre au mme couloir.
Cependant, grce un modle mtrique, les perceptions peuvent tre utilises de manire
diffrente. En effet, dans lutilisation prcdente, sans modle mtrique, elles sont utilises pour
y
x
a b c
A1
I1
A2
A3 ?
I2
A3 ?
A3
I1
A1 A2
I2
?
?
Environnement
Odomtrie
Modle mtrique
Pas de modle mtrique
Odomtrie
Mmorisation directe
Modle mtrique
Cadre de rfrence commun
FIGURE 3.2 Un modle mtrique des perceptions permettent dinfrer les valeurs qui de-
vraient tre perues pour des positions encore non visites. Dans cet exemple, les donnes
A1 et A2 sont perues en deux positions relies par des donnes proprioceptives I1 (partie
a). Lutilisation dun modle mtrique permet de fusionner ces informations dans un cadre de
rfrence commun o des objets sont reprsents, ici deux murs orthogonaux (partie b, haut).
Sans modle mtrique, ces donnes peuvent seulement tre mmorises de manire spa-
re (partie b, bas). Dans le cas de lutilisation dun modle mtrique, les donnes peuvent
ensuite tre utilises pour estimer la perception A3 pour une nouvelle position relie la pr-
cdente par les donnes proprioceptives I2. Ici, le modle permet dinfrer que les donnes
A3 correspondent un coin de murs (partie c, haut). Sans un tel modle, seules les positions
visites peuvent tre reconnues, et aucune infrence ne peut tre faite pour les positions non
visites (partie c, bas).
caractriser lapparence de lenvironnement depuis un lieu. Cette caractrisation ne permet pas
didentier individuellement des objets distants du robot qui pourraient servir de points de repres,
les amers. Lutilisation dun modle mtrique permet lidentication de tels points (cf. gure 3.1b).
La perception de ces amers permet alors, en retour, dobtenir des informations sur la position
du robot. Cette utilisation des perceptions offre lavantage supplmentaire de permettre au robot
dinfrer les valeurs que mesureront les capteurs dans des positions diffrentes, mais voisines de
sa position courante (cf. gure 3.2). Par exemple, si un robot peroit un mur cinq mtres devant
lui, il peut prdire quen avanant dun mtre, il percevra le mur quatre mtres. Un autre moyen
de prsenter cette proprit est de dire que les perceptions seules permettent destimer la position
mtrique relative de deux lieux (cf. gure 3.3). Ainsi, si un robot peroit deux fois un mur devant
lui, dabord cinq mtres puis quatre mtres, il pourra en dduire quil a avanc dun mtre.
Cette proprit permet au robot destimer sa position avec prcision sur une part plus importante
de son environnement et ne limite plus la localisation aux lieux dj visits. Cet avantage est une
consquence directe de la fusion des informations proprioceptives et des perceptions au sein
dune mme reprsentation, qui permet le passage dun type dinformation lautre.
A1
A2
I1 = 0
A1
A2
I1?
A2
A1
b a c
Environnement
Modle mtrique
Pas de modle mtrique
Correspondance
Correspondance
DIFFERENT
I1
I1
FIGURE 3.3 Un modle mtrique des capteurs permet dinfrer la position relative I1 de deux
lieux depuis lesquelles des perceptions A1 et A2 ont t ralises (partie a). Cette estimation
requiert dabord la recherche dun objet de lenvironnement commun aux deux perceptions
(partie b, haut). Lutilisation de cet objet commun rend alors possible lestimation de la position
relative I1 des deux lieux (partie c, haut). Sans modle mtrique, seule la similarit de deux
perceptions peut tre mesure (partie b, bas). Il est alors seulement possible destimer si ces
deux situations peuvent correspondre au mme lieu ou non, cest--dire si I1 est nulle ou non
(partie c, bas).
Toutefois, la mise au point dun tel modle mtrique peut tre difcile. La relation qui lie la
valeur mesure par un capteur la position des objets du monde rel peut tre, en effet, trs
complexe. Dans le cas des capteurs ultrasons, par exemple, si un mur se trouve juste dans laxe
du capteur, sa distance est simplement mesure par le temps mis par londe sonore pour revenir
au capteur. Mais, dans le cas o le mur est fortement inclin par rapport au capteur, lcho peut ne
pas revenir en direction du capteur qui ne dtectera alors aucun obstacle. Un autre problme vient
de la texture des murs. Un mur recouvert de textile ou dun matriau souple renverra les chos
trs diffremment dun mur de bton. En consquence, pour une distance donne, le capteur
percevra des distances diffrentes suivant le matriau des murs. Ces deux exemples montrent
que le modle mtrique associ un capteur ne dpend pas que du capteur. Il dpend aussi
fortement de proprits locales de lenvironnement qui sont difciles ou impossibles prendre en
compte dans un modle du capteur seul.
3.3 Fusion dinformations
En rsum, les informations proprioceptives sont simples utiliser, mais drivent au cours du
temps, tandis que les perceptions ne drivent pas, mais souffrent des problmes de variabilit
perceptuelle et dAmbigut.
La solution pour rsoudre ces problmes est de fusionner ces deux types dinformation. Il est
par exemple possible dutiliser les informations proprioceptives an de distinguer deux positions
physiquement diffrentes mais similaires pour le systme perceptif. Ainsi deux lieux, dont la po-
sition relative mesure par les donnes proprioceptives est non nulle, ne seront pas confondus.
Cette solution est celle qui est mise en uvre dans la majorit des systmes de navigation, car
elle permet dutiliser les deux sources dinformations en limitant les dfauts inhrents chacune.
Ainsi la dgradation progressive des informations proprioceptives est compense par la recon-
naissance de positions de lenvironnement grce aux perceptions. Inversement, le problme de
perceptual aliasing est rgl par lutilisation des donnes proprioceptives.
Comme nous le verrons dans ce cours, il existe de nombreuses mthodes pour utiliser conjoin-
tement les deux sources dinformations. Ces mthodes diffrent par leur capacit utiliser de
manire plus ou moins efcace les avantages des deux types dinformations. Dune manire g-
nrale, la qualit dun systme de navigation dpend fortement de cette capacit.
3.3. FUSION DINFORMATIONS
CHAPITRE 4. MATRIELS COURANTS EN ROBOTIQUE MOBILE
Chapitre 4
Matriels courants en robotique mobile
4.1 Les bases mobiles
Nous prsentons rapidement les diffrents types de bases mobiles utilises en robotique,
en nous focalisant sur les plateformes mobiles terrestres pour le milieu intrieur. Ce cours ne
portant pas sur les mthodes de commande, nous ne rentrerons pas en dtails dans les modles
cinmatiques ou dynamiques associs. Nous ne parlerons pas non plus des effecteurs permettant
au robot dagir sur son environnement, tels que les bras articuls.
4.1.1 Holonomie
En robotique, une plateforme est dite holonome lorsque que le nombre de degrs de liberts
contrlables est gal au nombre total de degrs de libert.
Pour un robot se dplaant sur un plan, il y a 3 degrs de libert (deux translations et une ro-
tation). A partir dune position donne, une plateforme holonome devra donc pouvoir se dplacer
en avant, sur le cot et tourner sur elle-mme. Cette capacit permet de contrler trs simplement
le robot car tous les dplacements imaginables sont ralisables, ce qui simplie le problme de
planication de trajectoire.
De nombreuses plateformes simples ne sont pas holonomes. Cest par exemple le cas des
voitures, ce qui oblige manuvrer pour raliser certaines trajectoires. Par exemple, il est n-
cessaire de faire un crneau pour raliser un dplacement latral. Ces contraintes devront donc
tre prises en compte lors de la planication de trajectoires. Nous allons cependant voir quelques
mcanismes permettant dobtenir des plateformes holonomes, ou sen approchant.
4.1.2 Les plates-formes diffrentielles
Une des congurations les plus utilises pour les robots mobiles dintrieur est la conguration
diffrentielle qui comporte deux roues commandes indpendamment. Une ou plusieurs roues
folles sont ajoutes lavant ou larrire du robot pour assurer sa stabilit (Figure 4.1). Cette
plate-forme est trs simple commander, puisquil suft de spcier les vitesses des deux roues,
4.1. LES BASES MOBILES
et permet de plus au robot de tourner sur place. Cette possibilit permet de traiter dans certains
cas le robot comme un robot holonome, ce qui va simplier la planication de dplacement et la
commande du robot.
r
l
v
1
FIGURE 4.1 Exemple de plate-forme diffrentielle. Pioneer 2 DX de la socit MobileRobots.
Urban Robot de la socit iRobot.
Lestimation du dplacement par odomtrie est galement trs simple partir de la mesure
des vitesses de rotation des deux roues
1
et
2
. Les vitesses de translation v et de rotation
sont en effet donnes par :
v =

1
r +
2
r
2
=

1
r
2
r
2l
Ce type de plate-forme peut galement tre utilis avec des chenilles ce qui fournit une capa-
cit de franchissement de petits obstacles intressante (Figure 4.1). Ces plates-formes peuvent
ainsi tre utilises en extrieur ou dans des dcombres. Lutilisation de chenilles conduit cepen-
dant une odomtrie trs bruite cause du contact mal dni entre les chenilles et le sol qui
glissent beaucoup, notamment lors des rotations. Lestimation de la direction par lodomtrie sur
ce type de plates-formes est donc en gnral rapidement inutilisable.
4.1.3 Les plates-formes omnidirectionnelles
Les plates-formes omnidirectionnelles permettent de dcoupler de manire plus nette le contrle
de la rotation et de la translation dun robot et sont donc quasiment holonomes.
Il existe diffrents types de plateformes omnidirectionnelles. Le premier utilise trois ou quatre
roues qui tournent la mme vitesse pour fournir une translation et un mcanisme qui permet
dorienter simultanment ces roues dans la direction du dplacement souhaite (Figure 4.2).
Le corps du robot lui-mme neffectue pas de rotation mais uniquement des translations. Ce
systme permet un contrle trs simple et relativement rapide car les changement de direction
ne concernent que les roues et peuvent donc se faire trs vite. Par contre ces plates-formes sont
relativement limites en capacit de franchissement et requirent un sol trs plan.
Une deuxime catgorie de plateformes utilise des roues dites "sudoises", qui noffrent pas
de rsistance au dplacement latral (Figure 4.3). La plateforme comporte trois roues dont les
axes sont xes. Les dplacements dans toutes les directions et en rotation sont obtenus en faisant
varier individuellement les vitesses des roues. La plateforme tourne sur place lorsque les trois
FIGURE 4.2 Exemple de plate-forme omnidirectionnelle roues orientables.
FIGURE 4.3 Exemple de plate-forme omnidirectionnelle roues sudoises.
roues tournent dans le mme sens, la mme vitesse. Lorsque une roue est xe, et que les deux
autres tournent en sens oppos, la plateforme avance en direction de la roue xe. Diffrentes
combinaisons de vitesses permettent dobtenir des dplacements quelconques.
4.1.4 Les plates-formes non holonomes
Des plates-formes non holonomes, telles que les voitures, sont galement utilises en ro-
botique mobile (Figure 4.4). Cest plus particulirement le cas dans le domaine des vhicules
intelligents. Ces plates-formes sont toutefois plus difcile commander car elle ne peuvent pas
tourner sur place et doivent manuvrer, ce qui peut tre difcile dans des environnements en-
combrs. La commande de ces plates-formes pour raliser un dplacement particulier est un
problme part entire que nous naborderons pas dans ce cours. Par contre, il est possible
de prendre en compte ces contraintes de manire relativement simple dans la planication (voir
chapitre III).
4.1. LES BASES MOBILES
FIGURE 4.4 Exemple de plate-forme non holonome de type Ackerman.
4.1.5 Les plates-formes pattes
FIGURE 4.5 Exemples de robots pattes. Hexapode de AAI Canada, Aibo de Sony, Nao de
Aldebarran Robotics.
Des plates-formes deux, quatre ou six pattes peuvent galement tre utilise. Elle ont lavan-
tage thorique de pouvoir se dplacer sur des terrains assez complexes, mme si en pratique la
plupart de ces plates-formes ne fonctionnent que sur des sols plans.
Les plates-formes six pattes sont relativement pratiques car le robot peut tre en quilibre
permanent sur au moins 3 pattes, ce qui facilite le contrle. Les plates-formes deux ou quatre
pattes sont plus complexes commander et le simple contrle de la stabilit et dune allure de
marche correcte reste aujourdhui difcile, ce qui les rend en gnral relativement lentes. Lodo-
mtrie de ce type de plates-formes est de plus gnralement dassez faible qualit. Ces diffrents
facteurs font que ces plates-formes sont rarement utilises quand lapplication vise a un besoin
prcis de positionnement et de navigation. De telles plates-formes commencent cependant
apparatre relativement grande chelle (par exemple le robot Nao de Aldebarran Robotics).
4.2 Les capteurs
Nous prsentons dans cette section les capteurs les plus couramment utiliss en robotique
mobile pour les besoins de la navigation ainsi que des modles probabilistes associs qui seront
utiliss dans plusieurs mthodes de navigation.
4.2.1 Les capteurs proprioceptifs
Les capteurs proprioceptifs permettent une mesure du dplacement du robot. Ce sont les
capteurs que lon peut utiliser le plus directement pour la localisation, mais ils souffrent dune
drive au cours du temps qui ne permet pas en gnral de les utiliser seuls.
Odomtrie
Lodomtrie permet destimer le dplacement de la plateforme partir de la mesure de rotation
des roues (ou du dplacement des pattes). La mesure de rotation est en gnral effectue par
un codeur optique dispos sur laxe de la roue, ou sur le systme de transmission (par exemple
sur la sortie de la boite de vitesse pour une voiture). Le problme majeur de cette mesure est
que lestimation du dplacement fournie dpend trs fortement de la qualit du contact entre la
roue (ou la patte) et le sol. Elle peut tre relativement correcte pour une plate-forme deux roues
motrices sur un sol plan de qualit uniforme, mais est en gnral quasiment inutilisable seule pour
un robot chenille par exemple. Pour limiter ce problme, il peut tre intressant de positionner
le codeur optique sur une roue non motrice qui glissera moins. Notons cependant que lerreur
de ces mthodes se retrouve en gnral principalement sur lestimation de la direction du robot,
tandis que la mesure de la distance parcourue est souvent de meilleure qualit.
Modle probabiliste
La majorit des modles de localisation et de cartographie prsents dans ce cours (voir
chapitre III) vont faire appel un modle probabiliste de cette mesure. Il existe deux types de mo-
dles : les modles directs (donnant la probabilit de la mesure en fonction du dplacement rel)
et les modles inverses (donnant la probabilit du dplacement rel en fonction de la mesure).
Dans le cas de lodomtrie, la plupart des mthodes utilisent un modle inverse an dinterprter
les mesures ralises.
Il existe divers types de modles, mais les plus simples et les plus utiliss sont des modles
supposant que les paramtres du mouvement (direction et longueur d du dplacement, change-
ment de direction du robot, cf Figure 4.6, gauche) sont statistiquement indpendants et soumis
un bruit Gaussien :
P(d, , |d
o
,
o
,
o
) = e
_
dd
o
d
_
2
e
_
2
e
_
2
o d, , sont les valeurs relles et d
o
,
o
,
o
les valeurs observes.
4.2. LES CAPTEURS
FIGURE 4.6 Modle probabiliste de lodomtrie. Paramtres du dplacement gauche.
Exemple de densit de probabilit aprs un dplacement rectiligne droite.
En gnral, les carts types de ces diffrentes gaussiennes (
d
,
) dpendent de la
valeur de la mesure : lerreur sur la longueur du dplacement pourra par exemple tre proportion-
nelle cette longueur :
d
= d
Il est possible dutiliser des modles beaucoup plus ns de lodomtrie reposant sur le pro-
cessus physique utilis pour la mesure du dplacement. Il est par exemple possible de faire une
hypothse de bruit gaussien sur le capteur ralisant la mesure de rotation de chaque roue puis,
par calcul, den dduire lerreur sur lestimation du dplacement du robot. Cependant, une telle
prcision nest souvent pas ncessaire dans de nombreux algorithmes.
Comme nous le verrons au chapitre sur la localisation, ces modles probabilistes peuvent tre
utiliss pour gnrer des positions possibles du robot selon la distribution de probabilit dduite
de la mesure de lodomtrie.
Les systmes radar doppler et optiques
Au lieu de mesurer le dplacement par des mesures sur les roues, il est possible dutiliser
un radar point vers le sol qui permet de mesurer la vitesse du vhicule par effet Doppler. Il
existe aussi des systmes optiques, bass sur le mme principe que les souris dordinateur,
qui mesurent le dplacement du vhicule en analysant le mouvement relatif du sol (gure 4.7).
Ces systmes prsentent lavantage dtre plus prcis que la mesure passant par les roues,
notamment car ils sont indpendants des drapages possible de ces roues. Il sont cependant en
gnral relativement chers et encombrants et sont assez rares sur les petites plates-formes.
FIGURE 4.7 Exemple dodomtre optique Correvit L-CE de CORRSYS- DARTON Sensor-
systeme GmbH.
Les systmes inertiels
La mesure de dplacement potentiellement la plus able provient de la mesure des accl-
rations de la plate-forme par des capteurs inertiels. Cette mesure est potentiellement able car
elle ne dpend pas de la nature locale de lenvironnement, cependant les capteurs inertiels sont
tous entachs de bruit de mesure qui produit une drive de lestimation de la position au cours du
temps.
La qualit des mesures inertielles dpend trs fortement du type de capteurs utilises. His-
toriquement, les premiers capteurs ont t raliss base de systmes mcaniques et peuvent
fournir des mesures extrmement prcise, au prix dun cot et dune masse trs levs. Ces der-
nires annes ont vu apparatre de nouvelles technologies de capteurs, notamment bass sur
les techniques de micro-lectronique, qui ont permis la ralisation de capteurs inertiels bas cot
et lapparition de ces capteurs dans des produits grand public. La prcision de ces capteurs est
toutefois de quelques ordres de grandeur plus faible, ce qui rend leur utilisation isole quasiment
impossible. Ces capteurs fournissent toutefois un trs bon complment lodomtrie, notamment
pour lestimation de la direction.
Lacclration en translation de la plate-forme est mesure par des acclromtres. On dis-
pose en gnral deux acclromtres pour prendre des mesures dans deux directions perpendi-
culaires du plan de dplacement du robot. Un troisime peut tre dispos verticalement an de
mesurer lacclration en trois dimensions.
Lacclration angulaire est mesure par des gyromtres. On dispose en gnral un gyro-
mtre selon laxe vertical, qui permet ainsi de mesurer langle de lacet du robot. Deux autres
gyromtres peuvent tre positionns selon deux axes du plan de dplacement an destimer la
direction en trois dimensions.
Il est galement possible de mesurer la rotation du robot par rapport un axe de rfrence en
utilisant un gyroscope. Cette mesure seffectue en gnral par rapport un axe de rfrence mis
en rotation et isol mcaniquement le plus possible du robot, ce qui rend sa direction indpen-
dante de la direction du robot. Cette mesure peut tre moins bruite que lintgration du signal
dacclration mais dpend trs fortement de la qualit de la ralisation mcanique du systme,
4.2. LES CAPTEURS
qui dpend trs directement du prix du gyroscope.
Enn, les magntomtres permettent, par la mesure du champ magntique terrestre, de d-
duire la direction du nord. Ces capteurs peuvent utiliser diffrentes technologies et ont lavantage
de fournir une direction de rfrence stable au cours du temps (au contraire des gyroscopes qui
drivent). Ces capteurs sont toutefois trs dlicats utiliser en intrieur car ils sont trs sensibles
aux masses mtalliques prsentes dans les btiments et leur structure. En pratique, on les utilise
donc principalement en extrieur en apportant le plus grand soin leur positionnement sur le
robot pour viter les inuences des composants du robot, notamment les moteurs lectriques.
FIGURE 4.8 Centrale intertielle Crista de Cloud Cap Technology.
Lensemble de ces lments (acclromtres, gyromtres, magntomtres) peut tre runi
pour former une centrale inertielle qui permet destimer compltement les six degrs de liberts
de la position dans un espace 3 dimensions. Les centrales inertielles bas cot sont cependant
aujourdhui de qualit insufsante pour une utilisation isole, tandis que les centrales de qualit
correcte restent trs chres. Ce domaine est cependant en volution rapide avec larrive de
nouvelles technologies et lapparition de centrales bas cot de bonne qualit devrait se faire
dans les prochaines annes.
Lutilisation des donnes fournies par ce type de senseurs passe aussi en gnral par un mo-
dle probabiliste, qui peut tre du type de celui prsent pour lodomtrie. Cependant, la gestion
du bruit interne de ces capteurs demande en gnral des modles beaucoup plus prcis, qui
estiment explicitement la drive des capteurs an de la corriger. Ceci permet de bncier de
modles plus prcis en sortie galement.
4.2.2 Les tlmtres
Il existe diffrents types de tlmtres, qui permettent de mesurer la distance aux lments
de lenvironnement, utilisant divers principes physiques.
Tlmtres ultrason
Les tlmtres ultrason sont historiquement les premiers avoir t utiliss. Il utilisent la
mesure du temps de vol dune onde sonore rchie par les obstacles pour estimer la distance
Zone aveugle
Obstacle
Tlmtre
Distance mesure
cone de diffusion de londe sonore
FIGURE 4.9 Principe du tlmtre ultrasons et exemple de tlmtre rel.
(Figure 4.9). Ces tlmtres sont trs simple et peu cher, et sont donc trs rpandus, mais pos-
sdent de nombreux inconvnients.
En premier lieu, deux tlmtres voisins ne peuvent tre utiliss simultanment, car il est
impossible de savoir par lequel des deux tlmtres une onde rchie a t mise (phnomne
de crosstalk). Un robot possdant plusieurs tlmtres doit donc les activer lun aprs lautre,
ce qui entrane un taux de rafrachissement global des mesures relativement faible.
Ces tlmtres possdent une zone aveugle, de quelques centimtres, en dessous de la-
quelle ils ne peuvent dtecter les obstacles. Cette zone est due a une temporisation entre lmis-
sion de londe sonore et le dbut de la dtection de londe rchie qui est ncessaire pour ne
pas perturber cette mesure.
De plus, londe rchie est trs sensible aux conditions environnementales locales. Ainsi, si
langle entre lobstacle et la direction de londe sonore est trop faible, il ny aura pas de retour de
londe sonore et lobstacle ne sera pas peru. Londe de retour dpend galement de la texture
de lobstacle. Un mur couvert de moquette pourra par exemple ne pas tre dtect.
Les tlmtres ultrason dtectent les obstacles se situant dans un cne relativement large
(dangle au sommet denviron 30 degrs). Cette caractristique peut tre la fois un avantage
et un inconvnient. Cest un inconvnient car un obstacle dtect nest pas localis en angle
lintrieur du cne de dtection, et on obtient donc une mesure de la position relativement
imprcise. Cest par contre un avantage car des lments relativement ns (les pieds de table ou
de chaise par exemple) sont dtects dans ce cne, alors quil pourraient ne pas tre dtects
par des tlmtres ayant un angle douverture trs n.
Tlmtres infrarouge
Les tlmtres infrarouges possdent lavantage davoir un cne de dtection beaucoup plus
restreint. Il utilisent une lumire infrarouge au lieu dune onde sonore pour la dtection et peuvent
tre bass sur diffrentes techniques qui permettent de recueillir plus ou moins dinformation.
Il est possible de mesurer simplement le retour ou le non-retour dune impulsion code, ce
4.2. LES CAPTEURS
FIGURE 4.10 Principe du tlmtre infrarouge triangulation et exemple de tlmtre rel
(Sharp).
qui permet de dtecter la prsence ou labsence dun obstacle dans une certaine portion de
lespace. Il est galement possible de raliser une triangulation sur le faisceau de retour de londe
lumineuse, ce qui permet davoir une mesure de la distance de lobstacle (gure 4.10).
Les inconvnients de ces tlmtres sont lis leur porte, en gnral relativement restreinte,
et leur sensibilit aux sources de lumires qui contiennent un fort rayonnement infrarouge. Un
projecteur du type de ceux utiliss pour la tlvision point sur le robot, par exemple, sature en
gnral compltement le rcepteur et empche toute dtection dobstacle. Ils sont galement
trs sensibles la couleur et la nature de la surface de lobstacle (par exemple, ils dtectent
difcilement les vitres et les obstacles noir mats).
Tlmtres laser
Les tlmtres les plus utiliss lheure actuelle pour des applications de cartographie et de
localisation sont les tlmtres laser balayage. Ils utilisent un faisceau laser mis en rotation an
de balayer un plan, en gnral horizontal, et qui permet de mesurer la distance des objets qui
coupent ce plan (Figure 4.11, 4.11). Cette mesure peut tre ralise selon diffrentes techniques
soit en mesurant le temps de vol dune impulsion laser, soit par triangulation.
Les tlmtres courants ont une bonne rsolution angulaire car ils permettent dobtenir une
mesure de distance tout les demi degrs, sur une zone de 180 ou 360 degrs selon les modles.
La mesure est de plus relativement prcise (avec un bruit de lordre de quelques centimtres)
une distance relativement grande (plusieurs dizaines de mtres). La frquence dacquisition est
en gnral de lordre de la dizaine de Hertz, voire proche de la centaine pour certains modles.
Ces tlmtres sont trs utiliss en environnement intrieur car il fournissent des donnes
abondantes et prcises sur la position des objets caractristiques de lenvironnement tels que
les murs. Ils possdent toutefois un certain nombre dinconvnients. En premier lieu, leur zone
de perception est restreinte un plan et ne permet donc pas de dtecter les obstacles situs
hors de ce plan (un petit objet pos au sol par exemple). Ils ne peuvent pas non plus dtecter les
objets ne rchissant pas correctement la lumire du laser (en premier lieu les vitres, mais aussi
certains objets trs rchissants, tels que les objets chroms). Pour limiter ces inconvnients,
il est possible de les utiliser en conjonction avec des capteurs ultrason qui ont un cne de
Tlmtre
Mesure obtenue
FIGURE 4.11 Illustration du principe de fonctionnement dun tlmtre Laser et un exemple
de Tlmtre Laser balayage, fournissant 720 mesure rparties sur 360 degrs, 5 Hz
(marque Ibeo).
dtection plus large et qui peuvent dtecter les vitres.
Enn, la plupart des algorithmes de cartographie et de localisation existants supposent que
le plan de mesure du tlmtre laser reste horizontal et hauteur constante, ce qui nest plus
vrai en cas de sol irrgulier ou, dans la majorit des cas, en extrieur. Il est alors ncessaire de
passer une localisation et une cartographie en 3D.
FIGURE 4.12 Un exemple de tlmtre laser balayage selon 2 axes ( gauche) et de
camera permettant dobtenir une image de profondeur de 320x240 pixels ( droite).
Il existe des tlmtres laser balayant lespace selon deux axes 4.12. Ils permettent ainsi
dobtenir une image de distance selon un angle solide de lordre de quelques dizaines de degrs
dans les deux dimensions. Ces tlmtres restent toutefois cher et fragile du fait de la mcanique
ncessaire au balayage. De plus, la frquence dacquisition est relativement faible (de lordre de
4.2. LES CAPTEURS
quelques Hertz), ce qui pose problme lorsque le robot est en mouvement. Ces tlmtres sont
donc plutt destins des applications relativement statiques comme la cration de modles 3D.
Il existe galement des systmes sans balayage permettant dobtenir une image de profon-
deur de la mme manire quune camra couleur standard. Plusieurs technologies sont utilises,
soit par mesure de temps de vol dune impulsion laser ou infrarouge, soit par triangulation partir
de projecteurs infrarouges. Ces capteurs sont rcents, mais sont trs intressants pour la robo-
tique mobile car ils permettent dobtenir une information dense une frquence assez leve
(image de profondeur de 320x240 30 Hz pour la camra Kinect par exemple, gure 4.12). Ces
informations peuvent tre couples une image couleur, on parle alors de camra RGBD (D pour
Depth). Il reste cependant certaines limitations, notamment pour lemploi en extrieur o linfor-
mation de profondeur peut tre perdue cause de la lumire du soleil qui masque la lumire
infrarouge.
FIGURE 4.13 Un exemple de tlmtre laser balayage a 64 nappes conu par Velodyne.
Enn, principalement pour les vhicules intelligents, il existe un compromis qui consiste
utiliser plusieurs nappes laser avec diffrentes inclinaisons an davoir des modles assez prcis
de lenvironnement sur 360 degrs (gure 4.13). Ces capteurs restent assez lourds et chers, mais
permettent de raliser quasiment lensemble des tches ncessaires pour un vhicule comme la
localisation, la cartographie et la dtection de pitons ou de vhicules.
Modle probabiliste
Les modles probabilistes associs aux tlmtres permettent de donner la probabilit de la
mesure en fonction de la distance relle de lobstacle. Pour les capteurs ralisant plusieurs me-
sures, les probabilits sont en gnral estimes pour chacune des mesures individuelles prises
depuis une position, puis agglomres par produit en supposant les mesures indpendantes :
P(Scan|Obstacles) =
M
i=1
P(mesure
i
|Obstacles)
FIGURE 4.14 Modle probabiliste de tlmtre par composition dvnements lmentaires
et exemple dapplication sur des donnes relles de sonars ou de tlmtres laser (tir de
[135]).
Pour estimer la probabilit dune mesure individuelle, il est possible dutiliser une simple loi
gaussienne autour de la distance relle comme modle probabiliste, mais les modles sont en
gnral un peu plus volus et utilisent une combinaison de lois qui modlisent plusieurs phno-
mnes qui peuvent tre responsables de la mesure (Figure 4.14) :
la mesure effective de lobstacle vis, modlis par une gaussienne en gnral
la perception dun obstacle imprvu, par exemple une personne ou un objet dynamique non
prsent dans la reprsentation du monde, modlis par une loi dcroissante telle quune
exponentielle
la non dtection dun cho, qui donne une mesure la distance maximale du tlmtre,
modlis par un pic.
Les paramtres de cette combinaison de lois peuvent tre rgls manuellement ou estims
partir dun ensemble de mesures, par exemple en utilisant un algorithme de maximisation de
lesprance. Ces modles peuvent tre adapts tout les types de tlmtres (gure 4.14).
4.2. LES CAPTEURS
4.2.3 Les camras
Lutilisation dune camra pour percevoir lenvironnement est une mthode attractive car elle
semble proche des mthodes utilises par les humains et fournit un grande quantit dinforma-
tion sur lenvironnement. Le traitement des donnes volumineuses et complexes fournies par
ces capteurs est cependant souvent difcile, mais cest une voie de recherche trs explore et
prometteuse pour la robotique.
Camras simples
Une camra standard peut tre utilise de diffrentes manires pour la navigation dun robot
mobile. Elle peut tre utilise pour dtecter des amers visuels (des points particuliers qui servent
de repre, tels que des portes ou des afches) partir desquels il sera possible de calculer la
position du robot. Si ces amers sont simplement ponctuels, ou de petite taille, il sera en gnral
simplement possible destimer leur direction. Dans le cas ou les amers sont des objets connus
en 2 ou 3 dimensions, il sera en gnral possible destimer compltement la position du robot par
rapport la leur. Elle peut galement tre utilise pour dtecter des guides de navigation pour
le robot, tels que des routes ou des couloirs.
FIGURE 4.15 Illustration du principe de base du ot optique.
Il est galement possible dutiliser globalement une image pour caractriser une position ou
un point de vue dans lenvironnement. Il faudra alors comparer cette image aux nouvelles images
acquises par le robot pour savoir si le robot est revenu cette position. Cette comparaison peut
faire appel diffrentes techniques, notamment celles utilises dans le domaine de lindexation
dimage.
Lorsque le robot est en mouvement, il est galement possible de tirer parti du ot optique
(le mouvement apparent des objets dans limage, voir gure 4.15), an davoir une estimation de
la distance des objets. En effet, les objets les plus proches ont un dplacement apparent plus
important que les objets lointains. Cette mthode permet notamment de raliser un vitement
dobstacles ou de raliser une reconstruction tridimensionnelle de lenvironnement (par des tech-
niques connues sous le nom de structure from motion, voir section 4.2.3).
Camras stroscopiques
FIGURE 4.16 Exemple de donnes fournies par des camras stroscopiques.
Lorsque lon dispose de deux camras observant la mme partie de lenvironnement partir
de deux points de vue diffrents, il est possible destimer la distance des objets et davoir ainsi
une image de profondeur (Figure 4.16), qui peut tre utilise pour lvitement dobstacles ou la
cartographie. Cette mthode suppose toutefois un minimum dlments saillants dans lenviron-
nement (ou un minimum de texture) et peut tre limite, par exemple dans un environnement dont
les murs sont peint de couleurs uniformes. La qualit de la reconstruction risque galement de
dpendre fortement des conditions de luminosit. La rsolution et lcartement des deux camras
impose galement les profondeurs minimum et maximum qui peuvent tre perues, ce qui peut
tre limitatif pour la vitesse de dplacement du robot.
Des techniques similaires peuvent galement tre utilises pour estimer la profondeur partir
dune camra en mouvement (mthodes de structure from motion, voir par exemple [67]), la
difcult tant alors destimer la fois la profondeur et les positions relatives de la camra lors de
la prise des deux images.
Camras panoramiques
Les camras panoramiques (catadioptriques) sont constitues dune camra standard poin-
tant vers un miroir de rvolution (par exemple un simple cne, ou un prol plus complexe qui
peut sadapter la rsolution exacte que lon veut obtenir sur le panorama) (gure 4.17). Limage
recueillie permet davoir une vision de lenvironnement sur 360 degrs autour de la camera. Le
secteur angulaire vertical observ dpend de la forme du miroir et peut tre adapt aux besoins
de chaque application (Figure 4.17).
Ce type de camra est trs pratique pour la navigation car une image prise par une camera
panoramique oriente verticalement permet de caractriser une position, indpendamment de la
direction du robot. En effet, pour une position donne et pour deux orientations diffrentes, la
mme image sera forme par la camra, une rotation autour du centre prs, tandis que pour
une camra standard, oriente horizontalement, la scne serait diffrente.
Ces camras sont donc trs pratiques lorsque lon caractrise une position de manire glo-
bale, mais peuvent aussi tre utilises pour dtecter des amers ou pour estimer le ux optique.
Dans ce cas, toutefois, comme la gomtrie de limage forme est relativement complexe et
4.2. LES CAPTEURS
FIGURE 4.17 Principe des camras panoramiques catadioptriques, exemple dimage obte-
nue et illustration du ux optique.
comme la rsolution obtenue varie normment selon la direction observe, les algorithmes
doivent tre adapts, ce qui pose un certain nombre de problmes.
Concernant le ux optique, cependant, les camras panoramiques possdent lavantage de
contenir toujours le point dexpansion et le point de contraction dans limage, ce qui rend lestima-
tion du mouvement beaucoup plus aise (gure 4.17).
4.2.4 Autres capteurs
Les capteurs tactiles
Les robots peuvent tre quips de capteurs tactiles, qui sont le plus souvent utiliss pour
des arrts durgence lorsquil rencontre un obstacle qui navait pas t dtect par le reste du
systme de perception.
Ces capteurs peuvent tre de simples contacteurs rpartis sur le pourtour du robot. Il ne
dtectent alors le contact quau dernier moment. Il est galement possible dutiliser des petites
tiges arques autour du robot pour servir dintermdiaire ces contacteurs, ce qui permet une
dtection un peu plus prcoce et donne ainsi plus de marge pour arrter le robot.
Les balises
Dans certaines applications, il est galement possible dutiliser des balises dont on connat la
position, et qui pourront tre facilement dtectes par le robot, an de faciliter sa localisation.
Des techniques trs diverses peuvent tre utilises pour ces balises. On peut par exemple
utiliser un signal radio, mis de manire omnidirectionnel par la balise. Le robot sera alors quip
dune antenne directionnelle qui lui permettra de dtecter la direction des diffrentes balises, an
de dduire sa position par triangulation.
On peut galement utiliser des codes couleurs ou des codes barres qui pourront tre dtects
par une camra.
Le GPS
Les besoins de localisation tant omniprsents dans de trs nombreux secteurs de la vie
actuelle, lide davoir un systme de localisation le plus universel possible donn lieu lap-
parition du Global Positionning System (GPS). Cest un systme de balises dont on a plac les
balises sur des satellites en orbite terrestre et qui est par consquent accessible de quasiment
partout la surface du globe. Ce systme permet donc davoir une mesure de sa position dans
un repre global couvrant la terre avec une prcision variant de quelques dizaines de mtres
quelques centimtres suivant les quipements.
Ce systme est cependant loin de rsoudre tous les problmes de localisation des robots mo-
biles. Il fonctionne en effet difcilement dans des environnements urbains, et nest pas utilisable
lintrieur des btiments. Sa prcision est de plus souvent trop faible pour quun robot terrestre
puissent utiliser ces informations seules. En pratique, il est souvent coupl un systme inertiel
qui permet de palier aux pertes du signal GPS et il ne remplace de toute faon pas les capteurs
du robot qui lui permettent de percevoir son environnement immdiat, qui constitue la source
dinformation principale pour la navigation court terme (par exemple lvitement dobstacles, par
opposition la navigation long terme qui consiste rejoindre un but distant).
Sensors for Mobile Robots : Theory and Application, Everett
Une version en ligne est disponible :
http://www-personal.engin.umich.edu/~johannb/my_book.htm
Deuxime partie
Navigation ractive
Dans cette partie, nous prsentons diffrentes stratgies de navigation ractive. Ces stra-
tgies peuvent tre utilises dans des architectures de contrle purement ractives, mais aussi
comme modules de bas-niveau dans une architecture hybride. Par dnition, les stratgies de
navigation ractives nutilisent que les valeurs courantes des capteurs (ou des valeurs sur une
petite fentre temporelle), et non des donnes provenant dun modle interne, pour dcider de
laction effectuer.
CHAPITRE 5. NAVIGATION VERS UN BUT
Chapitre 5
Navigation vers un but
Nous commenons ici par des mthodes de navigation correspondant aux deux premires
catgories de stratgies de navigation dnies dans le chapitre 2, cest dire lapproche dun but
dni par un objet ou une conguration damers.
5.1 Vhicules de Braitenberg
Dans son livre Vehicles : Experiments in Synthetic Psychology, Valentino Braitenberg [19]
dcrit une srie dexpriences dans lesquelles des robots extrmement simples peuvent montrer
des comportements complexes, quun observateur humain associe en gnral diffrents types
dmotions telles que la peur ou lagression. Nous nous intressons ici simplement la structure
de ces robots, qui permet de raliser simplement des comportements pour rejoindre un but visible.
Cette structure est devenue larchtype des mthodes ractives simples.
But
M
1
M
2 C
1
C
2
FIGURE 5.1 Dans les vhicules de Braitenberg, la vitesse de chacun des deux moteurs du
robot dpend de la valeurs de deux capteurs qui dtectent la lumire mise par le but.
Dans le livre de Braitenberg, le but est matrialis par une lumire, visible depuis tout lenvi-
ronnement. Le robot est simplement une plate-forme diffrentielle, constitue de deux roues dont
5.2. MODLE DE CARTWRIGHT ET COLLET
on commande les vitesses de rotation et munie de deux capteurs de lumire situs de part et
dautre de lavant du robot (Figure 5.1). Larchitecture interne du robot est simplement constitue
de liens entre ces capteurs et les moteurs qui permettent de calculer la vitesse des moteurs en
fonction des valeurs des capteurs.
En faisant varier les paramtres des connexions, il est alors possible de dnir diffrents
comportements du robot. Si la vitesse de chaque moteur est relie la valeur du capteur du cot
oppos avec un coefcient positif, le robot se dirigera naturellement vers le but. Si, par contre,
la vitesse de chaque moteur est relie la valeur du capteur du mme cot avec un coefcient
positif, le robot fuira le but.
Ces vhicules ralisent simplement une remonte ou une descente de gradient sur lintensit
de la lumire. Ils correspondent un simple contrleur proportionnel en automatique et sont donc
relativement sujets des oscillations dans le comportement du robot. Ils supposent de plus que
le but est visible depuis tout lenvironnement, ce qui est rarement le cas en pratique. Ce modle
est donc intressant car cest la mthode la plus simple possible pour raliser un dplacement
vers un but, mais est difcile utiliser dans une application relle.
5.2 Modle de Cartwright et Collet
Le snapshot model a t conu pour expliquer comment des abeilles peuvent utiliser des
informations visuelles pour rejoindre un point donn de lenvironnement. Il permet un robot de
rejoindre un but dont la position est dnie par la conguration damers de lenvironnement autour
de ce but.
Amer
Amer
Amer
FIGURE 5.2 Exemple de snapshot caractrisant la position du but. Le robot mmorise un
panorama contenant la position et la taille apparente des amers.
Le systme perceptif du robot doit lui permettre de dtecter la direction et la taille des amers
autour de lui. Le robot commence par mmoriser le but en enregistrant la conguration des amers
vus depuis la position de ce but (un snapshot, Figure 5.2).
CHAPITRE 5. NAVIGATION VERS UN BUT
Perception courantes
Perceptions depuis le but
FIGURE 5.3 Pour atteindre le but, chaque amer peru est associ un des amers mmo-
riss. Pour chaque appariement, on dduit un vecteur tangentiel dont la norme augmente
avec lcart entre amer perus et mmoriss. La somme de ces vecteurs donne la direction
prendre pour atteindre le but.
Lorsque, par la suite, le robot veut rejoindre ce but, il prend une nouvelle image des amers
et, par comparaison entre la conguration courante et la conguration mmorise au but, il peut
dduire de manire trs simple la direction dans laquelle se dplacer pour atteindre le but. Cette
comparaison est base sur un appariement entre les amers perus et les amers mmoriss,
chaque appariement permettant de calculer un vecteur dont la somme, pour tous les apparie-
ments damers, donne la direction prendre pour rejoindre le but (Figure 5.3). Le robot effectue
alors un dplacement de longueur xe dans cette direction puis recommence le processus tant
que le but nest pas atteint.
L encore, le systme est trs simple et ralise une descente de gradient sur la conguration
des amers an datteindre le but. Il ne fonctionne cependant pas sur lensemble de lenviron-
nement et la qualit du comportement obtenu dpend beaucoup de la conguration des amers
qui sont utiliss, un ensemble damers lointains et bien rpartis tout autour du robot donnant les
meilleurs rsultats. La qualit de lappariement entre les amers est galement primordiale, en
effet, si un amer peru est associ au mauvais amer mmoris, le vecteur de dplacement dduit
sera faux. Le modle original supposait des amers noirs sur fond blanc, sans identit particulire,
pour lequel lappariement est relativement hasardeux. Il nest donc pas applicable en pratique.
Dautres travaux ont utilis des amers colors et diffrentes contraintes sur lappariement qui
permettent une meilleur robustesse et sont donc applicables des robots rels [58].
La plupart des implantations de ce modles supposent de plus que la direction du robot est
connue an de faciliter lappariement. Avoir une estimation correcte de cette direction peut se
rvler difcile en pratique.
5.3. ASSERVISSEMENT VISUEL
5.3 Asservissement visuel
Lasservissement visuel [30] (document disponible en ligne
1
) est une technique dasservisse-
ment de la position dun robot qui est base directement sur linformation extraite dune image,
sans modlisation intermdiaire de lenvironnement. Dveloppes lorigine pour la commande
des robots manipulateurs, ces techniques permettent galement la commande de robots mobiles.
FIGURE 5.4 Illustration du principe de lasservissement visuel : lerreur entre une image
courante et une image but (cart entre les croix rouges et vertes ici) est utilise pour calculer
une commande qui permettra au robot datteindre la position correspondant limage but.
Dans ces approches, le but atteindre est spci par limage que le robot devra percevoir
depuis cette position. Diffrentes mesures sont ralises sur cette image (par exemple la dtec-
tion de points dintrts) et la commande du robot est conue pour amener 0 lcart entre la
mesure ralise sur limage courante et la mesure ralise sur limage cible (gure 5.4). Les choix
de mesures dans limage et de la loi de commande peuvent tre trs varis, et vont conditionner
les trajectoires obtenues par le robot, leur stabilit, leur robustesse aux mauvaises perceptions
ou aux mauvaises modlisations du systme, etc...
Nous ne dtaillerons pas ici ces approches, mais il existe plusieurs applications intressantes
en robotique mobile [15, 123, 34]. Notons que ces modles sont souvent tendus pour fournir une
navigation long terme en enchainant des tches de contrle local sur des squences dimages.
Par exemple, [15] prsente un systme permettant de guider un robot en environnement intrieur
partir du suivi de motifs dtects sur le plafond par une camra pointe la verticale. En
enchanant des asservissements sur une squence dimages, ce systme permet au robot de
refaire une trajectoire qui a t montre au pralable par un oprateur. De mme, [123] et [34]
ralisent le guidage dun vhicule en extrieur laide dune camra pointe vers lavant.
1. http://www.irisa.fr/lagadic/pdf/2002_hermes_chaumette.pdf
CHAPITRE 6. VITEMENT DOBSTACLES
Chapitre 6
vitement dobstacles
Lvitement dobstacles est un comportement de base prsent dans quasiment tous les ro-
bots mobiles. Il est indispensable pour permettre au robot de fonctionner dans un environnement
dynamique et pour grer les carts entre le modle interne et le monde rel.
Les mthodes que nous prsentons sont efcaces condition davoir une perception correcte
de lenvironnement. Elles seront par exemple trs efcaces avec un tlmtre laser, mais donne-
ront des rsultats plus bruits avec des sonars. Pour limiter ce problme, il est possible dappliquer
ces mthodes sur une reprsentation locale (cest--dire de lenvironnement proche du robot et
centre sur le robot) de lenvironnement qui sera construite en fonction des donnes de quelques
instants prcdents. Cette reprsentation intermdiaire permettra de ltrer une grande partie du
bruit des donnes individuelles (en particulier pour les sonars).
Il faut galement faire attention ce que les capteurs dtectent tous les obstacles. Par
exemple un laser balayage ne verra pas les objets au dessous ou au dessus de son plan
de balayage, et pourra voir du mal percevoir les vitres. Pour cette raison, on utilise souvent une
nappe laser couple des sonars, ou un systme de plusieurs nappes laser inclines.
6.1 Mthode des champs de potentiel
Dans la mthode dvitement dobstacles par champs de potentiels, on assimile le robot une
particule se dplaant suivant les lignes de courant dun potentiel cr en fonction de lenvironne-
ment peru par le robot. Ce potentiel traduit diffrents objectifs tels que lvitement dobstacles ou
une direction de dplacement prfre. Il est calcul par sommation de diffrentes primitives de
potentiels traduisant chacun de ces objectifs (Figure 6.1). Ces diffrents potentiels peuvent avoir
une tendue spatiale limite ou non (par exemple, navoir une inuence que prs des obstacles)
et leur intensit peut dpendre ou non de la distance.
Le gradient de ce potentiel donne, en chaque point de lespace, la direction de dplacement
du robot (Figure 6.1). Comme cest ce gradient, et non la valeur absolue du potentiel, qui nous
intresse, il est possible de calculer directement en chaque point sa valeur par une simple somme
vectorielle en ajoutant les valeurs issues des diffrents potentiels primitifs. Ainsi, pour un robot
se dplaant en ligne droite en espace ouvert et vitant les obstacles quil peut rencontrer, nous
6.1. MTHODE DES CHAMPS DE POTENTIEL
Dplacement selon
une direction
Eloignement dune
paroi
Rpulsion
dun point
Attraction
vers un point
Potentiel
Ligne de
courant
FIGURE 6.1 Illustration de potentiels primitifs dont la combinaison guide les dplacements
du robot. Le robot se dplacera selon les lignes de courant.
FIGURE 6.2 Illustration de la combinaison de diffrents potentiels primitifs.
obtenons par exemple les lignes de courant illustres gure 6.2.
De plus, dans la pratique, pour lvitement dobstacles, le potentiel est en gnral calcul dans
lespace relatif au robot et ne sert qua dcider de la vitesse et de la direction courante. Il nest
donc ncessaire de lestimer que pour la position courante du robot, en sommant simplement la
contribution des diffrents lments perus (Figure 6.3).
Le principal inconvnient de cette mthode dvitement dobstacles est lexistence, pour cer-
taines congurations dobstacles (relativement courantes) de minimum locaux du potentiel qui ne
permettent pas de dcider de la direction prendre (Figure 6.3). Ce problme peut tre trait de
diffrentes faons. Il est par exemple possible de dclencher un comportement particulier lorsque
lon rencontre un tel minimum (dplacement alatoire, suivi de murs ....). Il est aussi possible
dimposer que le potentiel calcul soit une fonction harmonique, ce qui garanti quil nait pas de
minima, mais rend son estimation beaucoup plus lourde en calcul.
Le principe de ces champs de potentiels est formalis sous le nom de schma moteur par R.
Arkin [4]. Pour lui, un schma moteur est une action dnie sous forme de potentiel en fonction
des perceptions du robot. Ces schmas sont utiliss comme contrleur de bas niveau dans une
architecture hybride.
FIGURE 6.3 Gauche : Illustration de la combinaison de diffrents potentiels primitifs dans
lespace relatif au robot. Droite : Exemple de minimum local dans un champ de potentiel.
6.2 Mthode Vector Field Histogram
La mthode "Vector Field Histogram" [17] a t conue spciquement pour utiliser une grille
doccupation locale construite a partir de capteurs ultrasons. Cette grille est construite de ma-
nire trs rapide par la mthode "Histogrammic in motion mapping" (voir section 11.2.3) qui pro-
duit une grille dont chaque cellule contient un nombre dautant plus lev quelle a souvent t
perue comme contenant un obstacle (Figure 6.4 haut).
Un histogramme reprsentant loccupation de lenvironnement autour du robot est ensuite
construit partir de cette grille doccupation locale. Pour cela, lenvironnement est discrtis en
secteurs angulaires pour lesquels la somme des valeurs des cellules est calcule (gure 6.4 bas).
Un seuil permettant de tolrer un certain bruit est ensuite utilis pour dterminer les directions
possibles pour le robot : toutes les directions dont la valeur est infrieure au seuil sont consid-
res. Le choix de la direction est nalement ralis parmi les directions possibles en fonction de
contraintes externes (par exemple la direction la plus proche de la direction du but).
Cette mthode est extrmement rapide (elle fonctionne sur un PC 386 20MHz !) et a permis
historiquement un dplacement ractif des vitesses assez leves (environ 1 m/s). Diverses
amliorations pour permettre le rglage de la vitesse du robot en fonction de la densit des
obstacles ou de la largeur de lespace angulaire libre sont possibles.
6.3 Mthode de la fentre dynamique
La mthode de la fentre dynamique [47] permet de slectionner une trajectoire locale du ro-
bot qui va viter les obstacles et dont les variations dans le temps vont respecter des contraintes
telles que les capacits de freinage maximales du robot. Pour appliquer lalgorithme, les tra-
jectoires locales sont paramtres et peuvent prendre des formes diffrentes en fonction des
contraintes dholonomie du robot par exemple. Une mthode simple applicable de nombreuses
plateformes est dutiliser les vitesses de translation et de rotation du robot.
La mthode de la fentre dynamique permet donc, partir de la perception locale de len-
vironnement, de slectionner un couple (v, ) de vitesses de translation et de rotation du robot
qui rpond diffrentes contraintes, dont celle dviter les obstacles. Un tel couple de vitesses,
6.3. MTHODE DE LA FENTRE DYNAMIQUE
Obstacle
+1
+1
2
6 5
5 8 3
3 5
8 6
1
1
2
6 5
5 8 3
3 5
8 6
1
1
0
1
...
11
...
0
11
Seuil
Secteur
Somme des cellules
FIGURE 6.4 Partie suprieure : Grille doccupation locale construite par la mthode "Histo-
grammic in motion mapping". La grille est construite dans le rfrentiel du robot : un compteur
est incrment pour chaque cellule appartenant au secteur angulaire dans lequel un obstacle
a t dtect et les valeurs sont dplaces dune cellule lautre en fonction des dplace-
ments du robot. Partie Infrieure : Utilisation de lhistogramme des obstacles pour dterminer
la direction de dplacement du robot.
lorsquil est appliqu au robot, produit une trajectoire circulaire, pour laquelle la satisfaction des
diffrentes contraintes peut tre value. A lissu de lvaluation de toutes les contraintes pour
tous les couples de vitesses possibles, la mthode de la fentre dynamique permet de slection-
ner le couple le plus pertinent (qui rpond le mieux aux contraintes).
v2,2 = succs
v1,1 = chec
Environnement rel
Perceptions du robot
v2,2
v1,1
FIGURE 6.5 Contrainte dvitement dobstacles pour la mthode de la fentre dynamique.
La premire contrainte est la contrainte dvitement dobstacles. Cest une contrainte dure au
sens ou elle est binaire (succs / chec) et doit obligatoirement tre satisfaite. Elle est value
pour chacune des trajectoires possibles partir de la perception locale de lenvironnement
un instant donn et de la position estime du robot un pas de temps x dans le futur pour
la trajectoire courante. Si le robot na pas rencontr dobstacles cet horizon, la contrainte est
respecte ; dans le cas contraire, elle ne lest pas (Figure 6.5).
v
min max
vmax
Vitesses conduisant
percuter un obstacle
Vitesses conduisant
un dplacement sur
Vitesses courantes
Vitesses accessibles au
prochain pas de temps
FIGURE 6.6 Fentre de slection des vitesses tenant compte de la dynamique du robot.
Le respect ou le non respect de cette contrainte est report dans un graphe des vitesses qui
indique, pour chaque couple de vitesses possible (donc chaque trajectoire), si le robot va ou ne va
pas rencontrer un obstacle (Figure 6.6). Dans ce graphe, il est alors possible de tracer la fentre
des vitesses accessibles au prochain pas de temps partir des vitesses courantes du robot et
6.3. MTHODE DE LA FENTRE DYNAMIQUE
des valeurs dacclration et dclration maximales. Cest cette fentre qui donne son nom la
mthode car elle permet de prendre en compte la dynamique du robot ( travers la capacit de
freinage et dacclration). Il reste alors choisir, au sein de cette fentre, un couple de vitesses
qui ne conduise pas percuter un obstacle pour garantir un dplacement sr du robot.
v
min max
vmax
Direction prfrentielle
FIGURE 6.7 Contrainte souple exprimant une prfrence sur la direction prendre.
Pour faire le choix parmi toutes les vitesses possibles au sein de cette fentre, il est possible
dutiliser des contraintes souples supplmentaires pour exprimer des prfrences au sein de cet
espace des vitesses accessibles. Ces contraintes sexpriment par une fonction de cot G(v, )
qui est en gnral la somme de plusieurs termes. Ces termes peuvent exprimer une prfrence
a priori sur les vitesses, une prfrence pour les trajectoires sloignant le plus des obstacles, ou
une prfrence de direction si lon dispose par exemple dune estimation de la direction dun but
long terme (Figure 6.7). Le couple de vitesses minimisant ce cot au sein de la fentre est alors
slectionn. Il garantit un dplacement sans rencontrer dobstacles et le meilleur respect possible
des contraintes souples dans ce cadre.
Dans la pratique, les valeurs des diffrentes contraintes sont values en diffrents points du
graphe des vitesses, le nombre de points dpendant notamment de la puissance de calcul dispo-
nible et de la complexit de lvaluation de chaque contrainte. Lutilisation de la fentre dynamique
est trs intressante pour un robot se dplaant rapidement, ou pour un robot ayant des capaci-
ts dacclration et de ralentissement limites. Elle permet alors de produire un dplacement du
robot sr et rgulier. Pour des robots qui ont une forte capacit dacclration et de dclration
(par exemple un robot lger avec de bons moteurs lectriques), on peut considrer que toutes les
vitesses sont accessibles presque instantanment. Il peut alors tre sufsant de ne considrer
que la cinmatique, et non la dynamique, ce qui se traduit par la prise en compte dun seul point
du graphe, et non dune fentre. La recherche du couple de vitesse est ainsi simplie.
CHAPITRE 7. APPRENTISSAGE PAR RENFORCEMENT
Chapitre 7
Apprentissage par renforcement
Les mthodes que nous avons vu jusqu prsent sont des associations entre perceptions
et actions conues par des ingnieurs. Or il existe des techniques dapprentissage (notamment
lapprentissage par renforcement) permettant de crer des associations de ce type partir din-
formations dassez haut niveau sur la tche raliser.
Lapprentissage par renforcement est une mthode qui permet de trouver, par un processus
dessais et derreurs, laction optimale effectuer pour chacune des situations que le robot va
percevoir an de maximiser une rcompense. Cest une mthode dapprentissage oriente ob-
jectif qui va conduire un contrleur optimal pour la tche spcie par les rcompenses. Cette
mthode est de plus non supervise car la rcompense ne donne pas laction optimale raliser
mais simplement une valuation de la qualit de laction choisie. Elle permet enn de rsoudre les
problmes de rcompense retarde pour lesquels il faut apprendre a sacrier une rcompense
court terme pour obtenir une plus forte rcompense long terme et donc apprendre de bonnes
squences dactions qui permettront de maximiser la rcompense long terme.
Du fait de toutes ces caractristiques, lapprentissage par renforcement est une mthode
particulirement adapte la robotique.
7.1 Formalisation
Le problme de lapprentissage par renforcement pour un agent se formalise partir des
lments suivants :
Un ensemble dtats S correspondant la perception que lagent a de lenvironnement,
Un ensemble dactions possibles A ,
Une fonction de rcompense R : {S, A} R.
Lagent va interagir avec son environnement par pas de temps discrets, en percevant ltat
de lenvironnement s
t
, en choisissant une action a
t
en fonction de cet tat et en recevant la
rcompense r
t+1
associe (Figure 7.1).
Lvolution du robot dans son environnement est rgi par un Processus de Dcision Markovien
(MDP en anglais) qui dcrit lvolution de ltat et de la rcompense en fonction des actions du
robot. Ce MDP (7.2), qui spcie compltement la tche du robot par le jeu des rcompenses, se
7.1. FORMALISATION
Environnement
tat S
rcompense R
action A
FIGURE 7.1 Formalisation du problme dapprentissage par renforcement.
dcrit simplement laide de deux fonctions :
Une fonction de transition P
a
ss
= P(s
t+1
= s
|s
t
= s, a
t
= a) qui donne la probabilit de
passer dans ltat s
lorsque lagent effectue laction a dans ltat s,

Une fonction de rcompense R
a
ss
= E(r
t+1
|s
t
= s, a
t
= a, s
t+1
= s
) qui donne la rcom-

pense moyenne lorsque lagent passe de ltat s s
en faisant laction a.
FIGURE 7.2 Exemple de MDP trs simple. Chaque case correspond un tat et, pour
chaque tat, 4 actions sont possibles qui conduisent aux cases voisines. La rcompense est
nulle partout, sauf pour les actions qui mnent la case "S", pour lesquelles la rcompense
est 1.
Le comportement de lagent est dni par une politique : {S, A} [0, 1], qui guide lagent
de manire probabiliste en spciant, pour chaque tat s la probabilit de raliser laction a (et
donc
a
(s, a) = 1). Le but de lapprentissage par renforcement va tre de trouver la politique
optimale
maximisant la rcompense long terme

1
.
1. Lapprentissage par renforcement nutilise que ltat courant pour prendre une dcision, il suppose donc que
toute linformation ncessaire est contenue dans cet tat. Le problme est donc considr comme tant Markovien,
ce qui est rarement le cas en pratique en robotique. Si le problme est non markovien, cest a dire si pour un
mme tat deux actions diffrentes sont optimales en fonction dune variable inconnue au robot, lapprentissage par
La rcompense long terme, que nous appellerons revenu R
t
, peut tre dnie de diffrentes
manires en fonction de la tche considre. Si la tche consiste rpter des pisodes qui
durent un nombre de pas de temps xe, le revenu pourra tre la somme des rcompenses ins-
tantanes pendant un pisode. Si au contraire la tche se droule de manire continue, le revenu
pourra se dnir comme la somme des rcompenses futures pondres par une exponentielle
dcroissante :
R
t
=
k=0
k
r
t+k+1
o [0, 1] est un facteur indiquant limportance que lon accorde aux rcompenses futures.
Les algorithmes dapprentissage par renforcement que nous verrons plus loin utilisent qua-
siment tous une fonction de valeur V
(Figure 7.3) qui permet, pour une politique donne,

destimer le revenu moyen (les rcompenses futures) pour un tat donn si lon suit la politique
considre :
V
(s) = E
(R
t
|s
t
= s)
FIGURE 7.3 La fonction de valeur optimale dans notre exemple : pour chaque tat, le niveau
de gris indique la rcompense long terme qui sera obtenue en prenant le chemin le plus
court vers le but.
Ces fonctions de valeurs peuvent aussi se dnir non pas pour un tat mais pour un tat et
une action ralise dans cet tat :
Q
(s, a) = E
(R
t
|s
t
= s, a
t
= a)
La fonction de valeur pour un tat s tant la moyenne des Q
(s, a), pondres par la probabi-

lit de chaque action :
V
(s) =
a
(s, a)Q
(s, a)
renforcement fournira la politique optimale, mais seulement dans lensemble des politiques myopes, nayant pas
toutes les informations pour une dcision optimale.
7.1. FORMALISATION
Une proprit essentielle de ces fonctions de valeur va permettre de crer les diffrents algo-
rithmes dapprentissage, il sagit de la relation de rcurrence connue sous le nom dquation de
Bellman :
V
(s) =
a
(s, a)
P
a
ss
_
R
a
ss
+V
(s
Cette quation traduit une cohrence de la fonction de valeur en reliant la valeur dun tat
la valeur de tous les tat qui peuvent lui succder . Elle se dduit simplement de la dnition de
v
de la manire suivante :
V
(s) = E
(R
t
|s
t
= s)
= E
k=0
k
r
t+k+1
|s
t
= s)
= E
(r
t+1
+
k=0
k
r
t+k+2
|s
t
= s)
=

a
(s, a)
P
a
ss
_
R
a
ss
+E
k=0
k
r
t+k+2
|s
t+1
= s
__
=

a
(s, a)
P
a
ss
_
R
a
ss
+V
(s
La fonction de valeur permet de caractriser la qualit dune politique, elle donne, pour chaque
tat, le revenu futur si lon suit cette politique. Elle permet galement de comparer les politiques
en dnissant un ordre partiel :

s,V
(s) V
(s)
Cet ordre permet de dnir la fonction de valeur de la politique optimale (Figure 7.3) que
lapprentissage par renforcement va chercher estimer :
V
(s) = max
(s)
fonction qui peut aussi sexprimer pour un couple tat-action :
Q
(s, a) = max
(s, a)
avec la relation suivante :
Q
(s, a) = E(r
t+1
+V
(s
t+1
)|s
t
= a, a
t
= a)
Il est galement possible dcrire une relation de rcurrence pour la fonction de valeur opti-
male qui sera lgrement diffrente de lquation de Bellman. On parle alors dquation dopti-
malit de Bellman, qui peut scrire :
V
(s) = max
a
E (r
t+1
+V
(s
t+1
)|s
t
= s, a
t
= a)
= max
a

s
P
a
ss
_
R
a
ss
+V
(s

soit, pour la fonction Q :
Q
(s, a) = E
_
r
t+1
+max
a
(s
t+1
, a
)|s
t
= s, a
t
= a
_
=

s
P
a
ss
_
R
a
ss
+max
a
(s
, a
)
_
Intuitivement, cette quation traduit par loprateur max
a
le fait que la politique optimale choisit
laction qui va maximiser le revenu.
Si lenvironnement est un MDP ni, ces quations de Bellman ont une solution unique qui
va donc donner pour chaque tat la rcompense maximale que pourra recueillir lagent partir
de cet instant. A partir de la connaissance de V
, il est trs simple de construire une politique

optimale, en associant chaque tat la ou les actions a
qui permettent de raliser le maximum

de lquation doptimalit de Bellman :
a
= argmax
a
E (r
t+1
+V
(s
t+1
)|s
t
= s, a
t
= a)
ou, si lon utilise la fonction Q :
a
= argmax
a
Q
(s, a)
il faut cependant noter que la construction de la politique partir de V
ncessite la connaissance
du modle du monde an destimer r
t+1
et s
t+1
. Cette connaissance est inutile si lon utilise Q
.
Tout le problme pour lapprentissage va donc tre destimer V
ou Q
pour en dduire une

politique optimale. On peut remarquer que si lon connat compltement le problme (cest a dire si
lon connat P
a
ss
et R
a
ss
), il est possible de calculer directement V
ou Q
en rsolvant le systme
des quations doptimalit de Bellman pour chaque tat. Cette solution est peu applicable en
robotique car lenvironnement est en gnral inconnu et de plus elle ne correspond pas des
caractristiques souhaitables de lapprentissage tel que la capacit apprendre par essais et
erreurs.
7.2 Programmation dynamique
La programmation dynamique est un ensemble de mthodes permettant de calculer une po-
litique optimale dans un MDP connu, en utilisant les proprits des quations de Bellman. Nous
supposons donc dans cette section que le modle de lenvironnement est connu. La program-
mation dynamique va chercher estimer la fonction de valeur optimale V
an den dduire une

politique optimale.
7.2.1 valuation dune politique
La premire tape de la programmation dynamique est lestimation de la fonction de valeur
pour une politique donne . Cela peut se faire soit en rsolvant le systme des quations de
7.2. PROGRAMMATION DYNAMIQUE
Bellman, soit en utilisant une procdure itrative, que nous prfrerons car elle sapplique plus
naturellement, notamment en cas de contraintes temps-rel. Cette procdure utilise le fait que la
fonction de valeur V
est le point xe de lquation de Bellman :

V(s) =
a
(s, a)
P
a
ss
_
R
a
ss
+V(s
Nous pouvons ainsi utiliser cette quation comme tape de mise--jour permettant de calculer
une suite de fonctions V
k
qui convergera vers V
:
V
k+1
(s) =
a
(s, a)
P
a
ss
_
R
a
ss
+V
k
(s
)
_
La mthode de programmation dynamique va donc utiliser cette mise--jour tant que les modi-
cations max
s
(|V
k+1
V
k
) seront suprieures un seuil donn pour fournir une approximation de
V
.
7.2.2 Amlioration dune politique
Aprs lvaluation dune politique, il va tre possible de calculer une meilleur politique partir
de sa fonction de valeur associe. En effet, pour une politique donne, il ny a aucune raison que
la fonction de valeur satisfasse lquation doptimalit de Bellman, cest dire que lon peut avoir :
(s) = argmax
a
E (r
t+1
+V
(s
t+1
)|s
t
= s, a
t
= a)
Par contre, on peut prouver que la politique
dnie par :
(s) = argmax
a
E (r
t+1
+V
(s
t+1
)|s
t
= s, a
t
= a) (7.1)
est meilleure ou quivalente la politique , ce qui nous permet damliorer notre politique initiale.
De plus, si la politique
ainsi dnie nest pas meilleure que (cest dire si V
=V
), la
dnition de
(eq 7.1) est lquation doptimalit de Bellman, qui prouve donc que la politique
obtenue est optimale.
7.2.3 Algorithmes dapprentissage
Lvaluation et lamlioration de politique peuvent tre utilises de diffrentes manires pour
estimer une politique optimale pour un MDP donn.
Le premire mthode, litration de politique utilise simplement ces deux phases de manire
itrative :
0
V
1
V
1
. . .
Dans ce processus, cependant, lvaluation de politique est elle-mme un processus itratif,

qui ne va converger qua une erreur donne prs et de plus tre potentiellement trs long.
Une autre mthode pour converger vers la politique optimale est damliorer la politique avant
mme davoir une estimation correcte de sa valeur. On peut par exemple faire un nombre xe
ditrations dvaluation avant de faire une amlioration. Le cas ou on ne fait quune itration
dvaluation de la politique est lalgorithme ditration de valeur, pour lequel les deux tapes se
rduisent une seule :
V
k+1
(s) = max
a

s
P
a
ss
_
R
a
ss
+V
k
(s
)
_
et qui converge vers V
.
Pour les problmes avec de trs grands espaces dtats, le fait de parcourir tout les tats
pour la mise--jour peut tre difcile en soit. Il est dans ce cas possible dutiliser une mthode de
programmation dynamique asynchrone qui ralise la mise--jour de litration de valeur pour un
tat slectionn au hasard, ou en fonction du comportement de lagent. Cette mthode converge
galement vers V
condition de visiter la limite tout les tats un nombre inni de fois. Elle
possde lavantage de fournir rapidement une approximation de la fonction de valeur.
7.3 Mthodes de Monte-Carlo
Le fait de devoir connatre lenvironnement pour apprendre une stratgie rend les mthodes
de programmation dynamique peu utiles en robotique. Les mthodes de Monte-Carlo que nous
allons voir dans cette section vont utiliser les mmes ides (estimer la fonction de valeur puis
amliorer la politique), mais en ayant recours des expriences ralises dans lenvironnement
plutt qu un modle.
7.3.1 valuation dun politique
Lestimation de la fonction de valeur va se raliser partir dun ensemble de squences tat-
action-rcompenses-tat-action .... ralises par lagent. Pour les tats de ces squences, il est
alors possible destimer V simplement par la moyenne des revenus :
V(s) =
1
N(s)
Revenu(s)
o N(s) est le nombre de squences ou apparat s et Revenu(s) est le revenu aprs la premire
visite de ltat s, cest dire la somme pondre des rcompenses aprs cette visite
2
.
Cette mthode de Monte-Carlo a de plus lavantage destimer la valeur de chaque tat ind-
pendemment, contrairement la programmation dynamique qui doit estimer simultanment tout
les tats, ce qui permet par exemple de se concentrer sur des zones de lespace dtats plus
importantes pour lobjectif du robot.
Cette mthode sapplique de la mme faon pour une fonction Q(s, a), ce qui est encore plus
intressant, car pour trouver la politique optimale partir de V
il faut disposer dun modle de

2. Il est galement possible dintgrer les nouvelles squences de manire itrative en utilisant un mise jour du
type V(s) V(s) +[R(s) V(s)].
7.4. APPRENTISSAGE PAR DIFFRENCES TEMPORELLES
lenvironnement, ce qui nest pas le cas en utilisant Q
. Lutilisation de Q et de la mthode de
Monte-Carlo permet donc de dcouvrir la politique optimale sans aucun modle de lenvironne-
ment, en utilisant uniquement des expriences ralise dans cet environnement.
7.3.2 Besoin dexploration
La mthode de Monte-Carlo prsente doit estimer les valeurs Q(s, a) partir des rcom-
penses obtenues aprs avoir ralis laction a dans ltat s. Ceci suppose donc que tout ces
couples (s, a) soient rencontrs une innit de fois la limite. Ceci est particulirement pro-
blmatique, car toutes les politiques ne peuvent garantir cette proprit. Il faut donc ajouter au
comportement dni par la politique un comportement dexploration qui va assurer que toutes les
actions seront ralises avec un certaine probabilit (mme faible).
Deux solutions existent pour rsoudre ce problme. La premire consiste contraindre les
politiques pour quelles associent au moins une faible probabilit proportionelle un paramtre
toutes les actions. Lapprentissage converge ainsi vers la politique optimale au sein de cette
classe. Cette probabilit garanti une exploration exhaustive et peut tre diminue au cours du
temps lorsque les donnes sufsantes pour valuer la politique ont t recueillies. Cette mthode
sappelle contrle on policy car elle modie la politique effectivement suivie par lagent et value
cette politique modie.
La seconde mthode est une mthode off policy car elle value une politique tandis que
lagent en suit une autre. Cette autre politique choisit en gnral laction de la politique originale
avec une probabilit 1 et une action alatoire avec une probabilit . Pour valuer la politique
originale, lvaluation de Monte-Carlo utilise simplement les parties nales des squences pour
lesquelles le choix daction correspond au choix qui aurait t fait par la politique originale, mais
modie les pondrations des rcompenses pour compenser les diffrences de probabilit de
choix des actions entre les deux politiques.
7.3.3 Algorithmes dapprentissage
Lapprentissage utilisant un mthode de Monte-Carlo se fait en alternant lvaluation dune
politique et son amlioration en prenant laction maximisant le revenu dans chaque tat. Cette
alternance peut se raliser de plusieurs manires, comme pour la programmation dynamique.
Soit lvaluation est complte avant de raliser une amlioration, soit il est possible dalterner une
valuation utilisant une seule squence, puis une amlioration.
7.4 Apprentissage par diffrences temporelles
Les deux mthodes que nous avons vu prcdemment ont chacune un avantage important.
La mthode de Monte-Carlo permet dapprendre partir dexpriences, sans aucun modle de
lenvironnement. La programmation dynamique pour sa part possde la proprit intressante
dutiliser les estimations des tats successeurs pour estimer la valeur dun tat, on parle de
bootstrap. Cette caractristique permet une convergence beaucoup plus rapide (en terme de
nombre dexemples tats/actions/rcompenses) que la mthode de Monte-Carlo. Les mthodes
dapprentissage par diffrences temporelles vont runir ces deux proprits et constituent les
mthodes les plus utiles en pratique en robotique.
FIGURE 7.4 Illustration de la mthode des diffrences temporelles. La valeur dun tat est
mise jour en fonction de la rcompense immdiate (exemple du schma 2) et des estima-
tions prcdentes de la fonction de valeur (exemple du schma 4).
Lvaluation de politique va donc se faire partir dexpriences comme pour la mthode de
Monte-Carlo qui utilise une moyenne pour estimer la valeur dun tat. Cette moyenne mise sous
forme itrative conduit lquation suivante :
V(s
t
) V(s
t
) +[R
t
V(s
t
)]
avec
R
t
= r
t+1
+r
t+2
+.... +
p
r
t+p+1
Par rapport cette quation, lide est ici dutiliser lestimation du revenu partir de la rcom-
pense suivante et de la valeur de ltat suivant, au lieu dutiliser les rcompenses de la suite de
lexprience. La mthode des diffrences temporelles utilise donc la mise--jour suivante :
V(s
t
) V(s
t
) +[r
t+1
+V(s
t+1
) V(s
t
)]
Cette mise a jour se fait naturellement de manire incrmentale, au fur et mesure des
expriences de lagent. Lquivalent de cette mise jour pour la fonction Q est donn par :
Q(s
t
, a
t
) Q(s
t
, a
t
) +[r
t+1
+Q(s
t+1
, a
t+1
) Q(s
t
, a
t
)]
Cette mthode est appele Sarsa (pour State, Action, Reward, State, Action) et ralise une
estimation on policy de la politique suivie car elle utilise laction a
t+1
qui dpend de de la poli-
tique.
La mthode la plus importante de lapprentissage par renforcement est probablement le Q-
Learning qui est la variante off policy de Sarsa qui va utiliser le maximum de la fonction sur les
actions suivantes au lieu de laction effectivement ralise :
Q(s
t
, a
t
) Q(s
t
, a
t
) +
_
r
t+1
+max
a
Q(s
t+1
, a) Q(s
t
, a
t
)
_
(7.2)
Cet algorithme fait converger Q vers Q
indpendemment de la politique suivie, tant que cette

politique garanti une exploration exhaustive (cad une probabilit non nulle pour toutes les actions
dans tous les tats).
Comme pour les autres mthodes, la politique optimale se dduit simplement de la fonction
valeur optimale.
7.5. TRACES DLIGIBILIT
7.5 Traces dligibilit
Les mthodes utilisant les diffrences temporelles que nous avons vues prcedement per-
mettent de remplacer la n dun pisode qui serait utilis par une mthode de Monte-Carlo pour
estimer le revenu par la valeur estime de ltat suivant. Or au cours de lapprentissage, cette
valeur nest pas forcment correcte et pourrait tre remplace par dautres valuations.
Le premier exemple est lutilisation de n pas du futur, qui conduit la mthode des diffrences
temporelles n pas. Dans cette mthode, le revenu est estim par une quation de la forme :
R
t
= R
n
t
= r
t+1
+r
t+2
+. . . +
n
(r
t+n+1
+V(s
t+n+1
))
La mise a jour se ferait alors par lquation :
V(s
t
) V(s
t
) +[R
n
t
V(s
t
)]
Il est galement possible destimer R
t
en utilisant des moyennes pondres de R
n
t
:
R
t
=
i
a
i
R
i
t
avec a
i
= 1.
Un cas particulier interessant de cette dernire mthode est lutilisation dune pondration
exponentielle qui va faire dcroitre limportance des expriences au fur et a mesure de leur loi-
gnement dans le temps :
R
t
= (1)
i=1
i
R
i
t
Ce cas particulier est intressant car il peut sappliquer simplement en utilisant les valeurs
passes des rcompenses, au lieu des valeurs futures (on dmontre que les mises jour sont
les mmes). On utilise pour cela une valeur auxiliaire appele trace dligibilit que lon dnit de
la manire rcursive suivante :
e
t
(s) =
_
e
t1
(s) si s = s
t
e
t1
(s) +1 si s = s
t
FIGURE 7.5 Illustration de la mthode des traces deligibilits. La mthode des diffrences
temporelles est utilise, mais propage avec une dcroissance tous les tats de lhistorique
de lagent.
La mise jour des valeurs se fait alors pour chaque tat proportionellement la valeur de son
ligibilit (Figure 7.5) :
V(s
t
) V(s
t
) +e(s
t
)[r
t+1
+V(s
t+1
) V(s
t
)]
Lide de cette mise jour est de remplacer la mise jour dun tat en utilisant des rcom-
penses futures par la mise jour des tats passs en utilisant la rcompense courante. Cela
donne au nal lalgorithme TD()
3
(algorithme 7.1). Cet algorithme se dcline simplement pour
les extension Sarsa() et Q().
Algorithm 7.1 Algorithme TD()
1: Initialiser V(s) alatoirement et e(s) = 0 pour tout s
2: for all pisodes do
3: Initialise s
4: for all pas de lpisode do
5: a (s)
6: Executer a, recueillir r et ltat suivant s
7: r +V(s
) V(s)
8: e(s) e(s) +1
9: for all s do
10: V(s) V(s) +e(s)
11: e(s) e(s)
12: end for
13: s s
14: end for

15: end for
7.6 Application pratique
En robotique mobile, les espaces dentre et de sortie des capteurs et des effecteurs sont
rarement discrets, ou, si ils le sont, le nombre dtat est trs grand. Or lapprentissage par renfor-
cement tel que nous lavons dcrit utilise des espaces dtat et daction qui doivent tre de taille
raisonnable pour permettre aux algorithmes de converger en un temps utilisable en pratique.
Pour permettre dutiliser lapprentissage par renforcement, plusieurs approches sont pos-
sibles. La premire consiste discrtiser manuellement le problme an de fournir des espaces
de quelques centaines dtats qui pourront tre utiliss directement par des versions naves des
algorithmes (utilisant par exemple simplement des tableaux de valeurs Q[s][a], cest cette m-
thode que nous avons utilis dans lexemple de la section suivante). Il faut cependant bien faire
attention au choix des discrtisations an quelle permettent un apprentissage correct en four-
nissant des tats et des actions qui conduisent notamment des rcompenses cohrentes. Ce
3. TD pour Temporal Differences
7.7. EXEMPLE DE MISE EN UVRE
choix peut tre relativement simple pour des capteurs intuitifs comme les capteurs de distance,
mais tre complexe voir impossible si lespace dentre est plus abstrait ou si sa structure est peu
connue (par exemple pour un jeu comme le backgammon).
s a
Q(s,a)
erreur = rt+1 + max Q(st+1,a) - Q(s,a)
FIGURE 7.6 Exemple de rseau de neurones simple permettant lapproximation de Q(s, a).
La seconde mthode va permettre de travailler directement dans les espaces dtats conti-
nus des capteurs en utilisant des mthodes dapproximation de fonction. En effet, pour utiliser
lapprentissage par renforcement, il est simplement ncessaire destimer correctement la fonc-
tion Q(s, a) (par exemple). Or cette estimation peut se faire directement par un approximateur de
fonction continu, par exemple un rseau de neurones (gure 7.6), que lon entraine laide des
donnes recueillies sur le problme. Lutilisation de ce type dapproximation permet de travailler
directement dans lespace continu et donc de limiter les effets parasites qui pourraient appa-
ratre suite un mauvais choix de discrtisation. Ces mthodes peuvent possder cependant des
inconvnients, notamment de raliser un apprentissage non local (comme dans le cas des r-
seaux de neurones), ce qui entraine des modications incontrles de valeurs pour des couples
(s, a) qui ne sont pas ceux pour lesquels on ralise lapprentissage. Certaines mthodes utilisant
dautres types dapproximation (comme la rgression pondre localement [118]) permettre de
saffranchir de ces contraintes.
7.7 Exemple de mise en uvre
Dans cette exemple, nous avons utilis un algorithme de Q-Learning trs simple pour ap-
prendre un robot viter les obstacles. Le robot possde un tlmtre laser et une base mobile
diffrentielle. Nous avons discrtis les donnes du tlmtre selon le schma de la gure 7.7
pour constituer un espace dentre de 2187 tats. Les actions ont t discrtise en trois actions
lmentaires : avancer, tourner droite, tourner gauche.
La rcompense tait de -10 lorsque le robot percute un obstacle (il est alors remis son point
de dpart) et +3 lorsque le robot choisit laction davancer. Lalgorithme de Q-Learning utilise un
0
1
2
3 4
5
6
a b c
FIGURE 7.7 Discrtisation de lespace dtats : pour chaque secteur, de 0 6, une valeur
O
i
est calcule en fonction de la prsence ou de labsence dobstacles dans les zones a, b
et c : 0 si un obstacle est dans a, 1 si un obstacle est dans b et 2 sinon. Ltat s est la valeur
en base 3 fournie par les des O
i
:
k
3
k
O
k
. Dans lexemple, O
0
= 2, O
1
= 2, O
2
= 1, O
3
=
1, O
4
= 2, O
5
= 2, O
6
= 2 et donc s = 2150.
simple tableau de 2187x3 cases pour reprsenter la fonction Q. La courbe 7.8 donne lvolution
au cours du temps des rcompenses obtenues sur des pisodes de 100 pas de temps. Les pas
de temps ont une longueur variable et correspondent aux changements dtat. Un pisode dure
en moyenne 35 secondes. La gure illustre galement les trajectoires alatoires initiales et le
rsultat aprs convergence de lalgorithme.
R
c
o
m
p
e
n
s
e
Expriences
0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350
-150
-100
-50
0
50
200
100
150
200
traj 003 traj 185
FIGURE 7.8 Rcompenses obtenues au cours du temps et exemples de trajectoires obte-
nues au premier pisode et lpisode 185.
Reinforcement Learning : An Introduction de Richard S. Sutton and Andrew G. Barto. MIT
Press, Cambridge, MA, 1998. A Bradford Book. Disponible en ligne
4
Le reinforcement learning repository : http://www-anw.cs.umass.edu/rlr/
4. http://www.cs.ualberta.ca/~sutton/book/the-book.html
Troisime partie
Navigation utilisant une carte
Cette partie prsente les mthodes de navigation bases sur des cartes qui permettent un
robot de prendre en compte des buts long terme en utilisant des informations mmorises sur
la structure de son environnement. Ces mthodes se basent sur trois processus : la cartographie,
la localisation et la planication, dtaills dans les diffrents chapitres.
CHAPITRE 8. LOCALISATION, CARTOGRAPHIE ET PLANIFICATION
Chapitre 8
Localisation, Cartographie et Planication
8.1 Les trois problmes de la navigation par carte
Le processus complet qui permet un robot de mmoriser son environnement, puis de sy
dplacer pour rejoindre un but, peut tre dcoup en trois phases : la cartographie, la localisation
et la planication. Ces trois phases permettent de rpondre aux trois questions fondamentales
pour la tche de navigation [93] : O suis-je ? O sont les autres lieux par rapport moi ? et
Comment puis-je atteindre mon but ?
La cartographie est la phase qui permet la construction dune carte retant la structure
spatiale de lenvironnement partir des diffrentes informations recueillies par le robot.
Une telle carte tant disponible, la localisation permet alors de dterminer la position du
robot dans la carte qui correspond sa position dans son environnement rel.
La planication , enn, est la phase qui permet, connaissant la carte de lenvironnement et
la position actuelle du robot, de dcider des mouvements effectuer an de rejoindre un
but x dans lenvironnement.
Ces trois phases sont videmment fortement interdpendantes. Lordre dans lequel elles sont
cites fait directement apparatre le fait que la seconde phase dpend de la premire. En effet,
estimer sa position au sein dune carte de lenvironnement suppose implicitement que cette carte
existe et quelle contient la position courante du robot. De mme, la troisime phase dpend des
deux premires, car la planication suppose que lon connaisse sa position et que la carte de
lenvironnement reprsente une portion de lenvironnement contenant au moins un chemin reliant
cette position au but qui doit tre atteint.
Mais la relation entre les deux premires phases est plus subtile quune simple relation dan-
triorit : cest le mme problme que pour luf et la poule. Chacun des deux lments peut, en
effet, tre considr comme pralable lautre mais dpend aussi de lautre pour sa ralisation.
Dans le cas de la cartographie et de la localisation, nous avons dj vu que la localisation repose
sur une phase pralable de cartographie. Mais pour construire une carte, il est ncessaire de
savoir o ajouter, dans la carte partielle dj existante, toute nouvelle information recueillie par
le robot. Cela requiert donc une phase pralable de localisation au sein de la carte partielle dj
existante. Pour un robot compltement autonome, il est donc impossible de ne pas traiter ces
8.2. QUELQUES HYPOTHSES DE TRAVAIL
deux problmes simultanment. Dans la littrature scientiques, on parle ainsi de problme de
"Simultaneous Localization and Mapping" (SLAM) .
Dans le cas o lon autorise un oprateur humain intervenir dans le processus, il est vi-
demment possible de dcoupler ces deux phases. Dans les applications relle, il est frquent que
lon fournisse au robot une carte construite au pralable et quon ne sintresse qu lestimation
de la position au sein de cette carte pour quil puisse accomplir sa tche. La carte peut alors tre
obtenue de diffrentes manires. Il est par exemple possible dutiliser un plan darchitecte dun
btiment pour le transformer en une carte utilisable par le robot. Il est galement possible dutili-
ser le robot dans une phase supervise de cartographie. Au cours de cette phase, la position du
robot peut-tre calcule de manire prcise par un dispositif externe au systme de navigation,
et ne ncessite donc pas que le systme estime de lui-mme la position. Connaissant la position
prcise du robot, il est alors relativement simple de construire une carte de lenvironnement. Il
est galement possible dutiliser un algorithme de SLAM comme sur un robot autonome, mais
de corriger la carte avant de lutiliser rellement. Cela permet notamment dajouter des obstacles
"virtuels" pour interdire certains passages tels que les escaliers.
8.2 Quelques hypothses de travail
8.2.1 Estimation de la position et de la direction
A ce stade, il convient de prciser la notion de position que nous emploierons. En effet, la
position dun robot est dnie la fois par son emplacement spatial, estim par rapport un
point de rfrence et par sa direction, estime par rapport une direction de rfrence. Ces deux
quantits sont couples mais ont des statuts qui peuvent tre distincts en pratique.
Lors du mouvement, la direction du robot inuence la manire dont varie sa position, mais peut
parfois tre contrle indpendamment. Dans le cas de plates-formes holonomes, ce dcouplage
permet notamment de simplier le processus de planication en ne tenant pas compte de la
direction du robot, laquelle peut tre contrle sans inuencer la position. La variable importante
est alors la position du robot, la direction devant tre estime pour pouvoir agir, mais non pour
planier.
Cette indpendance relative au niveau de la planication peut conduire des systmes des-
timation de la position et de la direction spars. Cette sparation est supporte par le fait que
la direction dun robot peut tre mesure par des capteurs indpendamment de lestimation de
sa position. Il est par exemple possible dutiliser une boussole qui mesure la direction par rapport
la direction du ple magntique, ou un gyroscope qui mesure la direction par rapport une
direction arbitraire xe.
Le choix de reprsenter et destimer de manire spare la position et la direction ninterdit
toutefois pas des interactions entre ces informations. Lestimation de la position utilisera videm-
ment celle de la direction pour pouvoir intgrer de nouvelles donnes lors du mouvement du robot.
Lestimation de la direction pourra galement dpendre de la position par un systme de recalage
qui utilisera la perception dun point de rfrence connu depuis une position connue pour estimer
la direction.
CHAPITRE 8. LOCALISATION, CARTOGRAPHIE ET PLANIFICATION
Ceci dit, la majorit des systmes mtriques (voir section 9.2) vont nanmoins estimer la
position et la direction ensemble, soit en 2D (3 degrs de libert), soit en 3D (6 DDL).
8.2.2 Environnements statiques et dynamiques
Il convient galement de prciser les types denvironnements que nous considrons ici. En ef-
fet, les robots sont amens se dplacer dans une grande varit denvironnements qui peuvent
tre regroups en deux grandes catgories : les environnements statiques et les environnements
dynamiques. Les environnements statiques sont des environnements qui ne subissent pas de
modications au cours du temps. Cette stabilit concerne la fois leur structure spatiale et leur
apparence pour les capteurs du robot. Cela exclut la majorit des environnements dans les-
quels les humains voluent quotidiennement. Les environnement dynamiques, pour leur part,
prsentent des caractristiques qui voluent au cours du temps. La plupart des environnements
courants appartiennent videmment la seconde catgorie. Par exemple, un environnement de
bureau est dynamique, du fait des personnes qui y travaillent, des chaises qui y sont dplaces
ou des portes qui y sont ouvertes ou fermes.
Il est, de plus, possible de distinguer deux catgories dlments dynamiques. La premire
catgorie regroupe les lments variables qui ne caractrisent pas lenvironnement. De tels l-
ments peuvent tre considrs comme du bruit qui na pas dintrt dans la modlisation de
lenvironnement pour la planication. Cest, par exemple, le cas des personnes voluant dans un
bureau, ou des chaises dplaces. Ces environnements peuvent tre considrs comme consti-
tus dune partie statique sur laquelle se superposent diffrentes sources de bruit. La partie
statique est la partie la plus importante modliser pour parvenir une navigation efcace. Deux
effets du bruit doivent toutefois tre pris en compte. Il faut premirement veiller ce quil nem-
pche pas la ralisation de commandes issues de la planication. Cela est en gnral ralis
par le systme de contrle (dans le cadre dune architecture hybride, voir section 2.2.3), spar
du systme de navigation, qui ralise linterface avec la partie physique du robot. De plus, il faut
prendre en compte ce bruit au niveau de la cartographie et de la localisation an quil ne nuise
pas la modlisation de la seule partie statique de lenvironnement et ne conduise pas une
mauvaise estimation de la position. Les mthodes de navigation actuelles (prsentes dans ce
cours) sont plus ou moins robustes face ces bruits, mais cette robustesse reste gnralement
limite, surtout pour la partie cartographie. Il commence cependant apparatre des mthodes
prenant explicitement en compte ces lments dynamiques, qui permettent denvisager dutiliser
des robots dans des environnements assez fortement bruits (par exemple [143]).
La seconde catgorie dlments dynamiques regroupe les lments variables qui caract-
risent lenvironnement et peuvent avoir un intrt pour la planication. Cest, par exemple, le cas
des portes qui modient la structure spatiale de lenvironnement et peuvent entraner des modi-
cations de trajectoires en fonction de leur tat. Ils doivent donc tre enregistrs dans la carte si
lon veut pouvoir les prendre en compte.
La plupart des systmes de navigation robotiques sintressent aux environnements appar-
tenant lune des deux premires catgories. Les environnements sont donc supposs tre soit
statiques, soit entachs dun bruit qui ninuence pas la planication. Ces systmes sintressent
8.2. QUELQUES HYPOTHSES DE TRAVAIL
donc modliser la partie statique des environnements qui va tre utile pour la localisation et
la planication. Il faut toutefois noter que ces systmes, qui ne modlisent pas les lments dy-
namiques de la seconde catgorie, sont nanmoins capable dvoluer dans des environnements
qui contiennent de tels lments. Pour ce faire, ces systmes sont en gnral capables de v-
rier que la trajectoire planie est correctement excute. En cas de problme dexcution, un
chemin alternatif ne passant pas par la zone qui ne peut tre atteinte est alors recherch. Cette
mthode, qui ne modlise pas explicitement les portes, par exemple, est nanmoins capable de
provoquer des dtours si une porte ferme bloque un chemin.
CHAPITRE 9. LES REPRSENTATIONS DE LENVIRONNEMENT
Chapitre 9
Les reprsentations de lenvironnement
Les deux utilisations possibles des perceptions prsentes dans le chapitre 3 (avec et sans
modle mtrique) trouvent un parallle dans deux types de reprsentations de lenvironnement.
Lorsquaucun modle mtrique nest utilis pour les capteurs, les donnes sont en gnral
mmorises dans une carte topologique [82, 131] (cf. gure 9.1). Dans une telle carte, un en-
semble de lieux et leurs relations de voisinage sont mmorises. Chaque lieu est dni au moyen
de perceptions recueillies lorsque le robot se trouve la position correspondante. Les relations
entre lieux sont en gnral dduites des donnes proprioceptives.
En revanche, lorsquun modle mtrique des capteurs est utilis, les donnes peuvent tre
mmorises au sein dune carte mtrique [101, 29] (cf. gure 9.1) qui rassemble dans un mme
cadre de rfrence les donnes proprioceptives et les perceptions. La carte contient alors un en-
semble dobjets, ayant chacun une position associe. Naturellement, il est possible de construire
une carte topologique lorsquun modle mtrique est utilis. Dans ce cas, toutefois, les percep-
tions ne sont en gnral pas utilises pour estimer la position relative des lieux visits, mais
seulement pour caractriser ces lieux.
Il est galement possible dutiliser des reprsentation hybrides qui vont avoir des caract-
ristiques la fois topologiques et mtriques an de bncier des avantages de chacune des
approches.
Notons que la notion de topologique et de mtrique est diffrente de celle mentionne pour
les stratgies de navigation dans lintroduction. Ici, cette notion fait rfrence la manire dont
les informations sont mmorises et non la stratgie de navigation utilise. Ainsi une carte to-
pologique pourra contenir des informations mtriques et pourra tre utilise pour une stratgie
de navigation mtrique, au sens donn dans lintroduction. Dans la suite de ce cours, le concept
topologique/mtrique fera toujours rfrence au type de carte utilis, et non la stratgie corres-
pondante.
9.1. CARTES TOPOLOGIQUES
FIGURE 9.1 Les cartes utilises en robotique peuvent tre de deux types : les cartes topo-
logiques, dune part, qui mmorisent un ensemble de lieux, ainsi que les manires de se d-
placer de lun lautre (dans cet exemple, des pices et des couloirs) et les cartes mtriques,
dautre part, qui mmorisent un ensemble dobjets perus (des murs dans cet exemple) avec
une position dans un cadre de rfrence global.
9.1 Cartes topologiques
9.1.1 Description
Les cartes topologiques permettent de reprsenter lenvironnement du robot sous forme de
graphe. Les nuds du graphe correspondent des lieux, cest--dire des positions que le ro-
bot peut atteindre. Les artes liant les nuds marquent la possibilit pour le robot de passer
directement dun lieu un autre et mmorisent en gnral la manire de raliser ce passage.
La dtection et la mmorisation des lieux reposent en gnral sur deux procdures qui uti-
lisent les perceptions. La premire permet simplement de comparer deux perceptions et donc de
reconnatre un lieu de la carte ou de dtecter un lieu nouveau. La seconde procdure permet de
mmoriser un nouveau lieu ou dadapter la dnition dun lieu lors des passages successifs du
robot en ce lieu. Comme nous lavons dj mentionn, la reconnaissance dun lieu est soumise
aux problmes de la variabilit perceptuelle et du perceptual aliasing . En consquence, la pre-
mire procdure peut donner des rsultats errons. Par exemple, un lieu dj visit peut ne pas
tre reconnu, ou un lieu nouveau peut tre confondu avec un lieu dj mmoris. Pour rsoudre
ces problmes, la reconnaissance des lieux fera donc appel aux donnes proprioceptives en plus
des perceptions. De nombreuses mthodes, dont les plus importantes seront dcrites dans la
suite du cours, ont t mises en uvre dans ce but.
Les donnes mmorises dans les artes du graphe sur les relations de voisinage entre lieux
proviennent, pour leur part (en gnral), des donnes proprioceptives. Cela est caractristique
des cartes topologiques, dans lesquelles les perceptions ne sont en gnral pas utilises pour
estimer les positions relatives des lieux visits, mais seulement pour reconnatre un lieu. Ces
donnes peuvent tre des informations sur les positions relatives des nuds, ou des informations
sur les actions effectuer pour parcourir cette arte.
9.1.2 Avantages
Un avantage important des cartes topologiques est quelles ne requirent pas de modle m-
trique des capteurs pour fusionner les donnes proprioceptives et les perceptions au sein dune
reprsentation unie de lenvironnement. Cela est avantageux pour deux raisons. Dune part,
ces modles mtriques peuvent, comme nous lavons vu, tre difciles obtenir ou savrer peu
ables. Se passer de modle mtrique permet ainsi par exemple dutiliser simplement des images
panoramiques pour la reconnaissance de lieux. Dautre part, le fait de ne pas fusionner les deux
sources dinformations permet de sparer les inuences des erreurs correspondantes. En effet,
lestimation de la position dobjets, lorsque lon utilise un modle mtrique, dpend la fois des
valeurs mesures par les capteurs et de la position du robot. Une erreur sur la position dun
objet peut donc provenir des deux sources. Dterminer la contribution de chacune des sources
peut tre difcile. Dans les cartes topologiques, au contraire, le bruit sur les mesures des cap-
teurs inue principalement sur la reconnaissance des lieux, tandis que le bruit sur les donnes
proprioceptives inue principalement sur la position associe chaque lieu.
La mmorisation de lenvironnement sous forme dun ensemble de lieux distincts autorise
en gnral une dnition des lieux plus directement relie aux capacits perceptives du robot.
En effet, comme les perceptions ne sont pas transformes dans un repre mtrique, il ny a
pas de limitation au type de capteurs utilisables (cf. la section 3.2). Cette utilisation directe des
perceptions permet un meilleur ancrage dans lenvironnement, cest--dire une meilleure mise en
relation du robot avec son environnement. Puisque la carte est trs proche des donnes brutes
perues par le robot, il est en gnral assez simple de comparer et de mmoriser des lieux de
lenvironnement.
Cette proximit avec les donnes brutes conduit en gnral la reprsentation topologique
utiliser beaucoup moins de concepts de haut niveau que les reprsentations mtriques. La carte
topologique reste ainsi proche des possibilits du robot, en mmorisant ses perceptions et ses
dplacements possibles, indpendamment de concepts de plus haut niveau tels que des objets
ou des obstacles.
La discrtisation de lenvironnement correspondant au choix des lieux reprsents dans la
carte est un autre point fort des cartes topologiques. Cette discrtisation est en effet trs utile
pour la planication des mouvements du robot, qui se rduit alors la recherche de chemin dans
un graphe. Cette recherche est, en terme de complexit algorithmique, beaucoup plus simple
que la recherche dun chemin dans un espace continu deux dimensions. Cet avantage est
encore plus important lorsque les lieux reprsents dans la carte correspondent des structures
humaines telles que les portes, les couloirs ou les pices. La discrtisation permet alors de dcrire
et de rsoudre les problmes de manire naturelle pour les humains, par exemple en donnant
lordre daller au bureau B744, plutt que de dire daller la position dnie par les coordonnes
x=354,y=285.
9.1.3 Inconvnients
Comme nous lavons dj mentionn, lutilisation directe des perceptions sans modle m-
trique empche destimer ces donnes pour des positions non visites. En consquence, les
cartes topologiques ncessitent en gnral une exploration trs complte de lenvironnement
pour le reprsenter avec prcision. En particulier, tous les lieux intressants que lon souhaite
trouver dans la carte devront tre visits au moins une fois au cours de la construction de la
carte, parce quils ne peuvent pas tre perus distance. Dans le cas o les lieux reprsents
sont des structures dassez haut niveau (comme des couloirs ou des pices), cela nest pas g-
nant car ces lieux sont peu nombreux et une exploration exhaustive est donc relativement rapide.
En revanche, dans les cartes topologiques reprsentant des lieux avec une assez grande densit
spatiale, cela peut tre un inconvnient, car lexploration complte de lenvironnement demandera
un temps important.
La reconnaissance des lieux de lenvironnement peut galement tre difcile dans le cas de
capteurs trs bruits, ou denvironnements trs dynamiques. Elle est, de plus, trs sensible au
problme de perceptual aliasing . Ces difcults conduisent des problmes de fausse recon-
naissance, cest--dire la reconnaissance dun lieu donn alors que le robot se trouve dans un
autre lieu. leur tour, ces fausses reconnaissances conduisent une mauvaise topologie de la
carte et des liens qui relient des nuds de la carte qui ne sont pas physiquement relis dans
lenvironnement. Ces difcults rendent problmatique la construction de cartes topologiques
dans des environnements de grande taille, car la carte rsultante risque dtre incohrente. Il de-
vient alors trs difcile destimer correctement la position du robot au sein de cette carte et de lui
ajouter de nouvelles informations sans erreurs.
Comme nous lavons vu, la reprsentation de lenvironnement peut tre assez proche des
donnes brutes des capteurs du robot, ce qui peut tre un avantage du point de vue de lautono-
mie du robot. Toutefois, cette reprsentation centre sur lindividu peut poser des problmes pour
la rutilisation de la carte. En effet, le manque de reprsentation de lenvironnement indpen-
dante de lindividu et labsence de modle mtrique des capteurs ne permettra pas dadapter la
carte un robot avec des capteurs lgrement diffrents. En effet, si lon dispose dun tel modle,
ladaptation se fait simplement au niveau du modle de capteur, sans modication de la carte
elle-mme. Cela est plus difcile avec une carte topologique, au sein de laquelle il est quasiment
impossible de changer les donnes recueillies par un capteur pour les transformer en donnes
telles quun autre capteur aurait pu les acqurir. De plus, cette reprsentation centre sur un in-
dividu est moins naturelle pour un oprateur humain, plus habitu aux reprsentations objectives
du type plan darchitecte, ce qui peut tre gnant lorsque lon souhaite une interaction forte entre
un oprateur et le robot.
9.1.4 Mise en uvre
Dnition des nuds
Le choix de ce que vont reprsenter les nuds de la carte dtermine tout le processus de
construction de la carte topologique. Ce choix est li aux capacits de perception dont on a dot
le robot, lequel devra tre capable de dtecter les lieux en question. La localisation et la mise
jour de la carte se feront chaque fois quun tel lieu aura t dtect. La dtection de ces lieux
peut tre contrainte par les choix dun oprateur humain ou tre compltement autonome.
Nuds dnis par le concepteur
La premire possibilit est de dnir directement quels lieux doivent tre dtects par le robot
et comment ils doivent ltre. Des procdures sont alors crites qui permettent de dtecter sp-
ciquement chaque type de lieu. Le choix le plus courant est lutilisation de couloirs, de portes et
dintersections [33, 69, 83, 125]. Lorsque ce choix est fait, un trs petit nombre de lieux diffrents
peuvent tre dtect, ce qui rend le problme du perceptual aliasing omniprsent. Les systmes
concerns dpendent donc en gnral fortement des donnes proprioceptives pour parvenir
utiliser ces reprsentations.
FIGURE 9.2 Exemples de cartes topologiques avec des noeuds dnis des positions
canoniques et des liens mtriques ( gauche) et avec des noeuds denses et des positions
mtriques associes ( droite).
Nuds dnis des positions canoniques
Plutt que de dnir compltement les lieux que peut dtecter le robot, le concepteur peut
simplement dnir dans quels types de situations le robot peut enregistrer un lieu, laissant le soin
de dnir chaque lieu prcisment au moment de la dcouverte du lieu (gure 9.2, gauche).
Par exemple, le concepteur peut doter le robot de la capacit gnrale de dtecter des portes.
Lorsque le robot dtectera une porte, il enregistrera un nouveau nud dans la carte, mais ce
nud sera dni par la situation prcise dans laquelle il se trouve quand il rencontre cette porte.
Il pourra, par exemple, enregistrer la couleur de la porte, le numro qui est inscrit dessus ou une
image de lenvironnement vu depuis cette position. Cette mthode de dnition des nuds a t
propose par Kuipers et Byun [82] sous le nom de distinctive places, puis utilise sous une forme
diffrente par Engelson et McDermott [43] et par Kortenkamp et Weymouth [80] sous le nom de
gateways.
Nuds dnis de manire non supervise
La troisime mthode pour dnir les nuds dun carte topologique consiste les dnir
comme des zones o les perceptions sont approximativement constantes (gure 9.2, droite).
Cela est obtenu en gnral par la catgorisation non supervise des perceptions [9, 36, 51, 54,
84, 93, 98, 105, 141, 142]. Ces perceptions sont donc regroupes en catgories contenant des
donnes similaires, sans que ces catgories soient spcies par un concepteur humain. Chaque
catgorie correspond alors un ou plusieurs nuds de la carte. Le nud correspondant une
catgorie tant unique dans le cas o il ny a pas de perceptual aliasing. Cette mthode est
bien adapte des robots autonomes car la catgorisation ne ncessite aucun superviseur, ni
aucune dnition a priori des donnes correspondant un nud. A ce titre, elle est utilise dans
tous les systmes de navigation qui sinspirent des comportements de navigation des animaux
[6, 12, 25, 124, 137].
Pour mettre en uvre une telle approche, il faut dnir un critre qui permette de dcider
quand un nouveau lieu a t atteint. Le choix le plus vident est de comparer constamment la
situation courante celle du prcdent nud reconnu. Lorsque la diffrence est sufsamment
importante, on considre quun nouveau lieu a t atteint. Cette mthode est utilise par certains
modles [51, 54, 84, 98, 105], mais requiert que les perceptions soient compares en temps
rel, ce qui peut-tre difcile pour certains capteurs (les camras, par exemple). Dautres mo-
dles considrent donc plus simplement quun nouveau nud a t atteint lorsque la distance
parcourue depuis la dernire reconnaissance est assez grande [6, 137, 142, 145].
Dnition des artes
Les artes reliant les nuds permettent de mmoriser des donnes sur les relations de voi-
sinage entre lieux reprsents par les nuds. Ces donnes sont en gnral obtenues grce
aux informations proprioceptives. Elles peuvent tre plus ou moins prcises et reprsentes sous
diverses formes.
Relation dadjacence
La premire information que porte une arte est une information dadjacence entre les deux
lieux reprsents par les nuds quelle connecte. Cette relation peut tre bidirectionnelle ou non.
Lexistence dune arte signie donc que le robot peut passer directement dun lieu lautre, sans
passer par un lieu intermdiaire. Si certains modles ne mmorisent que cette information dad-
jacence [51, 55, 69, 79, 106, 141], cette information est prise en compte dans tous les modles,
mme si des informations supplmentaires sont enregistres dans les artes.
Relations mtriques
Des informations mtriques sur la position relative des lieux peuvent tre mmorises dans
les artes. Ces informations portent en gnral sur la position relative des lieux relis par larte
[43, 66, 82, 83, 105, 125, 127, 142] (gure 9.2, gauche). Elles sont fournies et quanties
par les donnes proprioceptives lorsque le robot se dplace dun lieu lautre. Cette mthode
prsente lavantage de limiter laccumulation de lerreur des donnes proprioceptives, puisque
ces donnes ne sont utilises que sur la distance reliant un nud un autre. Cette distance
est en gnral assez courte pour viter une accumulation derreurs trop importante. Les cartes
topologiques utilisant de telles informations mtriques sont appeles par certains auteurs cartes
diktiomtriques [43], ou carte topo-mtriques [13].
Association de positions aux nuds
Dans le but dintgrer les donnes proprioceptives une carte topologique, il est galement
possible dassocier une position chacun des nuds (gure 9.2, droite). Cette position se
mesure dans lespace dans lequel sexpriment les donnes proprioceptives et correspond la
position des diffrents lieux dans lenvironnement. Ce type de carte se rapproche fortement des
cartes mtriques, la diffrence que seuls les lieux visits par le robot, et non les objets per-
us par le robot, sont mmoriss. Linconvnient, par rapport lapproche prcdente, est quil
est ncessaire de corriger les informations proprioceptives car elles ne sont plus utilises lo-
calement. Chaque nud ayant une position dans un cadre de rfrence global, il est possible
de se contenter de cette information, sans ajouter de liens entre les nuds [108, 6, 12]. Tou-
tefois, certains modles utilisent galement des liens pour mmoriser linformation dadjacence
[98, 137, 84, 146, 36, 142, 33]. Comme linformation de position de chaque nud est absolue, ce
type de carte peut tre appel carte diktiomtrique absolue.
Relation implicite
Dans certains cas, il est possible de retrouver les relations de position entre les lieux au vu
des seules perceptions qui les reprsentent. Cela est possible, par exemple, lorsque les lieux
sont dnis par la conguration damers distants qui peuvent tre perus par le robot lorsquil
se trouve cette position. Un certain nombre damers communs, visibles depuis deux lieux diff-
rents permettront davoir des informations sur la position relative de ces lieux. Lexistence damers
communs peut donc tre utilise comme lien implicite [93, 124, 25].
9.2 Cartes mtriques
9.2.1 Description
Dans une carte mtrique, lenvironnement est reprsent par un ensemble dobjets auxquels
sont associes des positions dans un espace mtrique, gnralement en deux dimensions. Cet
espace est, la plupart du temps, celui dans lequel sexprime la position du robot estime par
les donnes proprioceptives. Les perceptions permettent, en utilisant un modle mtrique des
capteurs, de dtecter ces objets et destimer leur position par rapport au robot. La position de ces
objets dans lenvironnement est alors calcule en utilisant la position estime du robot. La fusion
des deux sources dinformation au sein dun mme cadre de reprsentation est caractristique
des cartes mtriques.
Les objets mmoriss dans la carte peuvent tre trs divers et seront dtaills dans la suite
de cette section. Dans certaines implantations, ces objets correspondent aux obstacles que le
robot pourra rencontrer dans son environnement. La carte de lenvironnement correspond alors
directement lespace libre, cest--dire lespace dans lequel le robot peut se dplacer.
9.2. CARTES MTRIQUES
9.2.2 Avantages
Lavantage principal des cartes mtriques est de permettre de reprsenter lensemble de len-
vironnement, et non un petit sous-ensemble de lieux comme le font les cartes topologiques. Cette
reprsentation complte permet ainsi destimer avec prcision et de manire continue la position
du robot sur lensemble de son environnement. De plus, cette reprsentation complte ne se li-
mite pas aux positions physiquement explores, mais stend toutes les zones que le robot a
pu percevoir depuis les lieux quil a visits. Cette proprit peut permettre la construction dune
carte plus exhaustive de lenvironnement en un temps plus court.
Un autre avantage des cartes mtriques est li au fait que la position du robot est dnie de
manire non ambigu par ses coordonnes au sein de lespace dans lequel la carte est reprsen-
te. Il sensuit une utilisation simple et directe de toutes les informations mtriques fournies par les
donnes proprioceptives ou les perceptions. Cela est un avantage par rapport aux cartes topolo-
giques o les positions possibles du robot sont limites aux nuds prsents dans la carte et sont
donc relativement imprcises. Une telle reprsentation, dans laquelle chaque nud peut couvrir
une zone tendue de lenvironnement, rend plus difcile lutilisation des donnes mtriques car
la position relative de deux zones est moins bien dnie.
La reprsentation de lenvironnement indpendante de lindividu utilise dans les cartes m-
triques apporte un certain nombre davantages supplmentaires. Comme nous lavons mentionn
propos des cartes topologiques, une telle reprsentation permet une rutilisation plus facile
dune carte sur des robots diffrents, quips de capteurs diffrents, lessentiel de ladaptation se
droulant au niveau des modles mtriques des capteurs. Ce type de reprsentation est aussi
facilement interprtable par un humain, ce qui peut tre important dans le cas o il doit intervenir
dans les dplacements du robot.
Cette reprsentation peut de plus utiliser des concepts de plus haut niveau, tels que des
objets, des obstacles ou des murs. Cela permet un apport de connaissance plus facile de la
part des humains, par exemple pour imposer que les murs dtects soient perpendiculaires ou
parallles.
9.2.3 Inconvnients
Lors de lutilisation de cartes mtriques, les donnes proprioceptives ont en gnral une im-
portance suprieure celle quelles ont dans lutilisation dun carte topologique. Par consquent,
une odomtrie plus able peut tre requise. Le niveau de abilit ncessaire peut tre atteint en
imposant des limitations sur lenvironnement du robot. Par exemple, il est possible dimposer que
tous les couloirs soient orthogonaux, an de pouvoir corriger efcacement la drive de lestimation
de la position.
Comme nous lavons mentionn dans la section 3.2, un modle mtrique des capteurs peut
tre difcile obtenir. Les problmes lis au bruit des capteurs et la difcult de modliser
de manire able leur relation avec lenvironnement constituent donc un point faible des cartes
mtriques.
Enn, le calcul de chemin au sein des cartes mtriques peut tre plus complexe, car la pla-
nication se droule dans un espace continu et non dans un espace pralablement discrtis,
comme cest le cas pour les cartes topologiques. De nombreuses mthodes recourent dailleurs
lextraction dune carte topologique depuis la carte mtrique pour raliser cette opration de
planication [87].
9.2.4 Mise en uvre
Deux mthodes principales sont utilises pour mmoriser des informations sous forme de
carte mtrique. La premire mthode consiste extraire explicitement des objets des perceptions
et les enregistrer dans la carte avec leur position estime. Les objets peuvent tre de types trs
varis et se situer diffrents niveaux dabstraction. La seconde mthode sattache reprsenter
directement lespace libre accessible au robot et les zones dobstacles quil ne peut pas franchir,
sans avoir recours lidentication dobjets individuels.
Reprsentation dobjets
Points
Les objets les plus simples qui peuvent tre utiliss sont des points [93, 111, 44] que lon
appelle dans ce cas amers (terme de marine dsignant des points de repre remarquables). Ces
points correspondent des objets de lenvironnement de taille sufsamment petite, ou situs suf-
samment loin du robot, pour pouvoir tre considrs comme ponctuels (gure 9.3, gauche).
Ils possdent linconvnient que la perception dun point de lenvironnement ne suft pas d-
terminer de manire unique la position du robot. Ce type de points de repre est par consquent
relativement pauvre et contraint la dtection de plusieurs objets pour assurer une localisation
prcise. De plus, reconnatre un tel point de manire non ambigu est souvent difcile et requiert
une bonne capacit de discrimination de la part des capteurs. Cependant, certains modles ne
requirent pas cette identication et utilisent des points indistinguables.
Certains modles ont recours des ensembles de points dissmins sur la surface des objets
de lenvironnement [94, 63, 134] (gure 9.3, droite). Ces points sont en gnral obtenus par
des tlmtres laser, qui permettent den recueillir un grand nombre avec une rsolution spatiale
leve. Les objets sont ainsi dnis par la conguration densembles de points, et non plus par
des points uniques. Cette mthode prsente donc lavantage de ne pas recourir lidentication
individuelle de chaque point.
Points orients
An dobtenir plus dinformation sur la position du robot par la perception dun seul objet, il
est possible de doter chaque objet ponctuel dune orientation. La perception dun tel point orient
permet alors destimer la position du robot de manire unique. Un tel type de point peut cor-
respondre un point de rfrence sur un objet non ponctuel de lenvironnement [68, 129], par
exemple langle dun obstacle, peru grce un tlmtre laser [18].
Frontire des objets
Les frontires des diffrents objets et obstacles de lenvironnement peuvent tre directement
reprsentes par des objets gomtriques de plus haut niveau que des points. Des lignes ou des
9.2. CARTES MTRIQUES
FIGURE 9.3 Exemples de cartes mtriques base de points isols (on parle alors damers,
gauche, repris de [109]) et de carte base de scans lasers (chaque cercle est le centre
dun scan laser regroupant les points de la mme couleur, droite).
FIGURE 9.4 Exemple de carte base de segments dtects par un tlmtre laser (repris
de [52]).
polygones sont trs souvent utiliss (gure 9.4). Ces objets sont extraits densemble de points
perus par des capteurs ultrasons [39, 53] ou des tlmtres laser [103, 41, 28, 52]. Des
cylindres et des plans, dtects par des capteurs ultrasons sont aussi utiliss [92], ainsi que
des structures de plus haut niveau, comme des plans en trois dimension, dtects par stro-
vision [8].
Reprsentation de lincertitude
Dans la plupart des systmes, la manire dont est reprsente et gre lincertitude est
cruciale. Lincertitude concernant les objets mmoriss dans la carte est de deux types. Le
premier concerne lincertitude sur les paramtres des objets, par exemple sur leur position
dans lenvironnement. Ce type dincertitude provient des erreurs de localisation du robot lors
de la perception dun objet, ou dun bruit au niveau du capteur. Il est, dans la majorit des
cas, reprsent de manire probabiliste, notamment par la variance de paramtres considrs
[129, 8, 103, 92, 68, 44, 28]. Toutefois, dautres mthodes peuvent tre utilises, par exemple des
intervalles [43] ou des ensembles ous [53].
Le second type dincertitude se place un niveau plus fondamental. Il porte sur la qualit
de la correspondance entre la carte et lenvironnement. Il mesure avec quelle conance un objet
prsent dans la carte correspond effectivement un objet de lenvironnement. En effet, il peut
arriver que des erreurs de perception fassent apparatre des objets qui nexistent pas dans lenvi-
ronnement. Cette incertitude est caractristique des environnements dynamiques, dans lesquels
des objets sont susceptibles de se dplacer, dapparatre ou de disparatre. Elle est gre, pour
une grande partie, au niveau des capteurs, les procdures permettant la dtection dobjet m-
moriser tant conues pour ignorer au maximum les lments instables de lenvironnement. Au
niveau de la carte, la plupart des modles traitent ce problme au moment de la mise jour. Il
est par exemple possible de supprimer les objets qui auraient d tre perus, mais qui restent
introuvables par le robot. Certain modles toutefois modlisent explicitement cette incertitude au
moyen dun paramtre de crdibilit [92]. Ce paramtre permet une plus grande tolrance aux
accidents de perception en mesurant la abilit dobjets comme point de repre.
Reprsentation de lespace libre
Un des premiers modles pour ce type de reprsentation est celui de la grille doccupation
[101, 131, 147]. Dans ce modle, lenvironnement est entirement discrtis suivant une grille
rgulire avec une rsolution spatiale trs ne (cf. gure 9.5). Une probabilit doccupation est
associe chaque lment de cette grille. Cette probabilit mesure la conance dans le fait que
lespace correspondant dans lenvironnement est effectivement occup par un obstacle. Lavan-
tage dune telle reprsentation est quelle utilise directement les valeurs des capteurs de distance
an de mettre jour les probabilits doccupation des cellules. Elle permet donc de supprimer la
phase dextraction dobjets qui est souvent coteuse en temps de calcul et source de bruit.
Les grilles doccupation utilisent cependant une quantit de mmoire importante, qui crot
proportionnellement la surface de lenvironnement. Pour saffranchir de ce problme, certains
modles font appel des discrtisations irrgulires de lespace [5] ou des discrtisations hi-
rarchiques. De telles discrtisations permettent de sadapter la complexit de lenvironnement,
en reprsentant de manire grossire les grands espaces libres et plus nement les contours des
9.3. REPRSENTATIONS HYBRIDES ET HIRARCHIQUES
FIGURE 9.5 Un exemple de grille doccupation utilise pour reprsenter un environnement.
Les zones sombres indiquent une forte probabilit de prsence dun obstacle (Repris de
[131]).
obstacles.
9.3 Reprsentations hybrides et hirarchiques
Au del des deux grandes catgories topologiques et mtriques, il existe toute une gamme
de reprsentations hybrides mlangeant ces deux approches.
Nous avons dj mentionn un premier type de reprsentations pouvant tre considres
comme hybrides : les reprsentations topo-mtriques qui sont des cartes topologiques contenant
des informations mtriques sur les artes du graphe (gure 9.2, gauche). Ce type de reprsen-
tation est par exemple bien adapt pour construire des cartes partir de la vision : chaque nud
du graphe peut tre associ une image, reli ses voisins par des informations obtenues par
lodomtrie du robot ou par odomtrie visuelle [13].
Les nuds de la carte topo-mtrique peuvent aussi contenir des informations plus complexes,
telles que des cartes mtriques locales (par exemple [136] et gure 9.6). Lintrt de ces reprsen-
tations est de contenir des cartes mtriques prcises pour des zones plus simples cartographier
et dans lesquelles la navigation devra tre prcise (notamment les pices) et de ne reprsenter
les couloirs (plus difcile cartographier du fait de leur taille et du manque de points de repres)
que comme liens topologiques entre pices. Ces cartes prsentent ainsi lavantage de ne pas
demander une localisation trs prcise sur une zone trs tendue.
Enn, au del des cartes brutes construites par les mthodes que nous allons prsenter dans
ce cours, il devient de plus en plus important dintroduire diffrents niveaux dinformation dans
les cartes pour sadapter aux diffrentes tches dun robot de service par exemple. En particulier,
il commence apparaitre des cartes contenant des informations smantiques. Ces informations
se situent un niveau plus haut que lespace libre ou les obstacles reprsent dans les cartes
brutes et peuvent concerner par exemple les pices dtectes dans lenvironnement, le type
de ces pices (cuisine, salon...) ou les objets prsents dans lenvironnement [97, 72, 112]. Ces
FIGURE 9.6 Un exemple de carte hybride mlangeant des cartes mtriques locales pour les
pices et une carte topologique globale. Les positions relatives des cartes locales sont alors
connues de manire imprcise car les couloirs ne sont pas cartographis prcisment, mais
simplement suivis pour aller dune porte une autre.
FIGURE 9.7 Un exemple de carte hirarchique se basant sur une carte mtrique dont est
extrait une carte topologique. Les nuds de cette carte topologique sont ensuite associs
une catgorie (repris de [112]).
9.3. REPRSENTATIONS HYBRIDES ET HIRARCHIQUES
types de reprsentations sont souvent hirarchiques : sur la base dune carte mtrique, une carte
topologique est construite, puis les nuds sont classis suivant leur types et permettent de m-
moriser les objets associs (gure 9.7). Les informations smantiques peuvent tre utiles dans de
nombreuses situations, par exemple pour chercher un objet (une assiette sera plus probablement
dans la cuisine), ou pour la navigation : la connaissance du type dobstacle peut ainsi permettre
denvisager de pousser certains objets tels que les chaises.
Nous ne dtaillerons pas dans ce cours la construction de ce types de cartes car elle font
en gnral appel lintgration de trs nombreuses mthodes diffrentes et sont lobjet de re-
cherches trs actives.
CHAPITRE 10. LOCALISATION
Chapitre 10
Localisation
Ce chapitre prsente les principales mthodes de localisation. On pourra trouver une descrip-
tion succincte dun grand nombre dautres mthodes dans [45]. La prsentation est ralise selon
une classication personnelle en trois grandes catgories qui me semble utile la comprhen-
sion, mais qui nest pas forcement utilise couramment dans la littrature.
10.1 Diffrentes capacits de localisation
Il existe trois types de capacits regroupes sous le terme localisation, de complexits
diffrentes.
Le suivi de position, est la capacit de mettre jour une estimation existante de la position
au vu de donnes proprioceptives ou de perceptions nouvellement acquises. Dans le cas
des donnes proprioceptives, cette mise jour concerne un dplacement du robot et va
en gnral diminuer la prcision de lestimation courante de la position, cause de lerreur
sur la mesure. Dans le cas de perceptions, au contraire, cette mise jour va en gnral
permettre damliorer cette estimation grce au lien avec lenvironnement fourni par ces
donnes. Lutilisation de cet ancrage dans lenvironnement est fondamental pour assurer
que lestimation de la position rete correctement la position du robot dans lenvironne-
ment rel. Cette mise jour intgrant les deux types de donnes permet de combiner les
avantages inhrents aux deux types dinformation an destimer au mieux la position du
robot. En pratique, toutefois, le suivi de position est problmatique car il repose sur une
estimation initiale de la position qui doit souvent tre fournie par une source extrieure. De
plus, si la position estime scarte trop de la position relle du robot, il peut trs bien tre
impossible de parvenir corriger lerreur et de retrouver la position relle, ce qui conduit
une drive de lalgorithme.
la localisation globale, est plus gnrale et permet de retrouver la position du robot sans
quaucune estimation initiale ne soit fournie. Cette capacit est trs importante du point de
vue de lautonomie, car elle permet au robot de trouver sa position initiale, dans toutes les
conditions, sans intervention extrieure. Elle permet, par exemple, de couper lalimentation
dun robot des ns de maintenance, puis de remettre ce robot dans une position quel-
10.1. DIFFRENTES CAPACITS DE LOCALISATION
conque de lenvironnement sans se soucier dinitialiser correctement son estimation de la
position.
la troisime capacit est la capacit retrouver la position dun robot kidnapp, cest
dire dun robot dont on a une estimation de la position, mais dont lestimation est fausse
car il a t dplac, sans que le systme de localisation nen soit inform. Par rapport
la localisation globale, ce cas prsente la difcult supplmentaire de parvenir dtecter
que la position actuellement suivie nest plus correcte. Cette phase est dlicate car il faut
distinguer entre les cas o les perceptions sont simplement temporairement bruites, sans
que le robot ait t dplac, et les cas o le robot a rellement t dplac.
Les capacits de suivi de position et de localisation globale ont des proprits duales. Comme
le note Piasecki [110], dans le contexte dune carte mtrique, le suivi de position est une mthode
locale, continue, qui effectue rgulirement de petites corrections lestimation de la position du
robot. Cette mthode effectue de telles corrections en se basant sur des objets de lenvironnement
et la manire dont ils ont t perus par le robot. Lidentication de ces objets est de plus simplie
grce lestimation initiale de la position qui permet, en cas de perceptual aliasing, de dcider
quel est lobjet qui a t peru parmi les diffrents objets correspondant aux perceptions.
Au contraire, la localisation globale est une mthode globale, discontinue, qui effectue excep-
tionnellement des corrections de grande ampleur de la position estime. Sa premire tche, avant
destimer une position, est de dterminer quels objets de lenvironnement correspond chacune
des perceptions du robot. Cette tche peut tre trs simple dans le cas o la carte ne contient que
des amers diffrents, mais est en gnral assez complexe car plusieurs amers sont identiques
cause du perceptual aliasing.
Comme nous lavons soulign, le suivi de position permet de fusionner et de tirer parti des in-
formations proprioceptives et des perceptions disponibles pour le robot. Cette mthode ne conduit
toutefois qu une estimation qui est localement la meilleure approximation possible de la posi-
tion. En effet, la recherche est contrainte par lestimation prcdente de cette position. La position
estime sera donc celle qui est la plus en accord avec les donnes recueillies, dans le voisinage
de cette estimation prcdente. Lestimation rsultante peut donc trs bien ne pas correspondre
la position qui, sur lensemble de la carte, correspond le mieux aux donnes.
En principe, la localisation globale permet une telle estimation optimale. Au niveau de lutili-
sation des donnes disponibles pour le robot, il existe de nouveau deux classes de mthodes de
localisation globale :
La premire, qui ne fonctionne que dans des environnements o il nexiste aucun percep-
tual aliasing, fait appel uniquement aux perceptions disponibles en une position donne.
Nous lappellerons dans ce cours infrence directe de position.
La seconde, qui fonctionne dans tous les environnements, fusionne au contraire les infor-
mations proprioceptives et les perceptions, comme le fait le suivi de position. Toutefois, au
lieu de restreindre la recherche par une estimation prcdente de la position, elle estime
parmi toutes les positions possibles au sein de la carte celle qui correspond le mieux aux
donnes prsentes et passes recueillies par le robot. Les mthodes de cette catgorie
reposent, dune faon ou dune autre, sur le suivi de plusieurs hypothses de position, ce
qui permet de gnraliser le suivi de position en utilisant de manire plus efcace les infor-
mations disponibles.
Dans la suite de ce chapitre, nous allons prsenter plus prcisment les diffrentes mthodes
de localisation. Nous allons dabord voir comment il est possible destimer la position dun robot
au vu des seules perceptions (section 10.2). Puis, dans le cas de systmes perceptifs soumis au
perceptual aliasing, nous verrons comment il est possible dintgrer les informations propriocep-
tives, de manire locale (section 10.3) puis globale (section 10.4), an de lever les ambiguts
restantes.
10.2 Estimation de la position par les perceptions
Dans cette section, nous rsumons les diffrentes mthodes qui peuvent tre utilises pour
estimer la position dun robot laide des seules perceptions. Dans le cas o lenvironnement
est exempt de perceptual aliasing , cette tape suft dterminer la position du robot de ma-
nire unique. Cette mthode est alors la premire mthode de localisation globale mentionne
prcdemment. Dans le cas o le perceptual aliasing est prsent, ces mthodes sont galement
utilises mais elles serviront reprer plusieurs positions possibles pour le robot au sein de
lenvironnement. Le suivi de position ou la seconde mthode de localisation globale qui seront
prsents dans les paragraphes suivants doivent alors tre utiliss en sus pour slectionner la
position correcte.
10.2.1 Cartes topologiques
Dans le cas des cartes topologiques, estimer la position partir des seules perceptions est
extrmement simple. En effet, parmi tous les lieux reprsents dans la carte, la position du robot
est celle dun des nuds qui correspond le mieux aux perceptions courantes. La recherche de
ces nuds passe donc par la comparaison des perceptions du robot avec les perceptions m-
morises dans chacun des nuds de la carte. Les nuds qui sont identiques ou sufsamment
similaires sont alors reconnus comme positions possibles du robot.
En labsence de perceptual aliasing, tous les nuds de la carte correspondent des situa-
tions diffrentes. Cette tape est alors sufsante pour la localisation complte du robot car le
nud reconnu est unique. Diffrents systmes perceptifs ont t utiliss pour implanter de tels
modles. Certains auteurs utilisent des images panoramiques de lenvironnement pour dnir
les nuds de la carte [80, 51]. Dautre modles utilisent les directions ou les distances damers
ponctuels tous discernables, soit en simulation [25, 93, 139, 124], soit sur des robots rels [9, 54].
Lutilisation dimages panoramiques permet par exemple de raliser un systme de locali-
sation partir dune mthode dindexation dimages [128]. Il suft en effet davoir une base de
donnes indexant les images des diffrents nuds de la carte, puis, pour se localiser, de recher-
cher dans cette base limage la plus proche de limage courante. Cette image nous donnera le
nud correspondant la position courante. Lindexation peut par exemple utiliser une analyse
10.2. ESTIMATION DE LA POSITION PAR LES PERCEPTIONS
en composantes principales
1
qui va dterminer une base sur laquelle il sera possible de projeter
chaque image. Les coordonnes de chaque images dans cette base fournissent ainsi un repr-
sentation de faible dimension de chaque nud de la carte. Pour la localisation, il suft de projeter
limage courante sur la base et de chercher limage ayant les coordonnes les plus proches.
Lorsquune position dans un espace mtrique est associe chacun des nuds de la carte,
la localisation permet en outre de dterminer la position mtrique du robot. Cette position peut
simplement tre la position du nud reconnu, mais il est souvent possible dobtenir une prci-
sion supplmentaire. En effet, au lieu de tenir simplement compte du nud le plus conforme aux
perceptions courantes, il est possible de tenir compte de chacun des nuds, selon son degr de
similarit avec ces perceptions. La mthode mise en uvre dans de tels modles pour raliser
cette estimation de position sappelle dans la terminologie des neurosciences le codage par po-
pulation de vecteurs [56]. Cette mthode consiste estimer la position du robot par la moyenne
des positions des diffrents nuds, pondres par le degr de similarit de chaque nud avec
les perceptions du robot. Cette mthode donne une estimation prcise de la position du robot,
mais suppose une relative continuit de lenvironnement. Elle suppose en effet que des lieux si-
milaires seront proches les uns des autres pour que la moyenne des positions ait un sens. Les
perceptions doivent donc varier de manire relativement continue avec la position.
Lorsque les modles permettent la gestion du perceptual aliasing (par une des mthodes d-
crites dans les paragraphes suivants), les lieux peuvent galement tre dnis par des images
panoramiques de leur environnement [6, 40, 66, 141, 113, 142], ou par la conguration des po-
sitions damers distants [12, 137]. Mais, puisque le perceptual aliasing sera gr par ailleurs,
des dnitions plus simples des nuds peuvent galement tre adoptes, au prix dune moins
grande discrimination. Certains modles utilisent ainsi les valeurs brutes de capteurs de distance
[105, 98, 82, 69, 66, 108], ou la conguration des murs autour du robot an de dtecter des angles
de couloirs ou des embranchements [83, 33, 125, 27, 106, 127, 130].
10.2.2 Cartes mtriques
Dans le cas des cartes mtriques, diverses mthodes destimation de la position existent.
Lorsque les perceptions sont constitues damers ponctuels, une mthode de triangulation peut
tre utilise [14, 59, 93, 96]. Cette mthode repose sur la mesure de la direction et de la distance
damers ponctuels connus. La perception de trois amers de ce type permet en effet de dnir
la position du robot de manire unique. Un simple calcul mathmatique permet donc destimer
cette position partir des positions des amers. Ce calcul peut galement tre approch par des
rseaux de neurones, [111], ou par des mthodes heuristiques qui permettent une meilleure
rsistance au bruit [144]. Lorsque cette mthode est utilise avec des cartes ne comportant pas
de perceptual aliasing, chaque amer est unique et cette mthode permet destimer directement
de manire non ambigu la position du robot. En cas de perceptual aliasing, certains amers ne
peuvent tre distingus et il faut tenir compte de lestimation prcdente de la position an de
pouvoir identier correctement les diffrents amers et estimer correctement la position.
Certains types dobjets fournissent plus dinformation que des amers ponctuels, sans toutefois
1. voir par exemple http://fr.wikipedia.org/wiki/Analyse_en_composantes_principales
Perception
Point Ligne Objet bidimentionnel
Positions possibles
FIGURE 10.1 Les amers que peut reprer un robot fournissent plus ou moins dinformation
sur sa position en 2 dimensions. La dtection dun amer ponctuel permet de savoir que le
robot se trouve sur un cercle entourant lamer. Un amer rectiligne permet de connatre la
distance du robot perpendiculairement cet amer, mais pas sa position le long de cet amer.
Enn, un amer ayant une tendue spatiale en deux dimensions permet de dnir la position
du robot de manire unique.
permettre une estimation non ambigu de la position. Par exemple, cest le cas des murs dont la
perception fournit une information sur la distance du robot ce mur, mais pas sur sa position le
long de ce mur (cf. gure 10.1). Certains modles utilisent de tels types dobjets, qui permettent
dafner une estimation prcdente de la position, mais pas destimer directement cette position
[28, 73, 117].
Lorsque les objets mmoriss dans la carte ont une certaine tendue spatiale en deux dimen-
sions, il est par contre possible dutiliser la perception dun seul objet an destimer directement la
position du robot. Les amers utiliss peuvent alors tre des objets tridimensionnels dtects par
une camra [126], les angles des obstacles dtects par un tlmtre laser [7, 18, 57, 73] ou un
capteur ultrason [92, 117], des segments dtects en utilisant une camra [8] ou un tlmtre
laser [28, 31, 103].
Carte locale Carte globale
Position
Comparaison
FIGURE 10.2 Pour estimer la position dun robot, il est possible de construire une carte
locale reprsentant lenvironnement proche de la position courante. La comparaison de cette
carte locale et de la carte globale de lenvironnement permet alors de trouver la position.
10.2. ESTIMATION DE LA POSITION PAR LES PERCEPTIONS
Dautre modles, enn, nestiment pas directement la position du robot au vu des perceptions,
mais reposent sur la comparaison dune carte mtrique locale avec la carte mtrique globale (cf.
gure 10.2). La carte mtrique locale est construite soit partir des seules perceptions courantes,
soit partir des donnes proprioceptives et des perceptions recueillies sur un court laps de temps.
Le problme est alors de trouver la portion de carte globale qui correspond le mieux la carte
locale. Cette mthode est trs souvent utilise avec les grilles doccupation [107, 119, 122, 131],
ainsi quavec des donnes brutes de tlmtres laser [94, 65, 41]. Le polygone de visibilit, qui
entoure la zone despace libre visible depuis la position courante du robot peut aussi tre utilis
[62, 75]. Comme nous le verrons dans la section suivante, ces mthodes sont souvent utilises
sur un espace de recherche restreint par une estimation initiale de la position. Elles peuvent
cependant tre utilises pour la localisation globale [107, 62, 75].
10.2.3 Corrlation de cartes
Dans cette section, nous allons dtailler une mthode de corrlation de cartes qui permet
de chercher, pour deux cartes de dimensions rduites, la transformation (translation+rotation) qui
permet la meilleure superposition. Cette transformation permet alors de corriger lestimation de
position du robot. Cette mthode peut tre utilise avec diffrents types de cartes, dont les grilles
doccupation, mais donne des rsultats particulirement efcaces avec des donnes issues dun
tlmtre laser (Figure 10.3).
FIGURE 10.3 Exemple de rsultat de corrlation de mesures laser. La partie gauche montre
les mesures afches la position mesure par lodomtrie. La partie droite montre le rsultat
de la corrlation.
Il existe de nombreuses mthodes de mise en correspondance de scans lasers, telle que
la mthode Iterated Closest Point (ICP) [95] ou des mthodes bases sur lapproche RANdom
SAmple Consensus (RANSAC) [76] que nous ne prsenterons pas toutes ici. La mthode que
nous avons choisi de prsenter [116] est une mthode simple qui est relativement robuste et
rsistante au bruit. Elle est base sur les histogrammes des directions des tangentes au scan
laser.
La premire tape consiste calculer pour chaque point du scan la droite tangente en utilisant
la mthode des moindres carrs. On cherche pour cela la droite qui fournit la plus faible erreur
quadratique sur un ensemble comprenant quelques points avant et quelques points aprs le point
courant (Figure 10.4).
i
D
e1
ej
e2
FIGURE 10.4 Illustration de la mthode de calcul de la tangente en chaque point du scan.
Pour chaque point i, on cherche les paramtres de la droite qui donnent la plus faible erreur
quadratique e
2
j
.
On construit ensuite lhistogramme des directions de ces tangentes, aprs avoir ltr les points
pour lesquels la qualit de lapproximation des tangentes est trop faible. Cet histogramme contient
alors des pics lorsque des ensembles de points correspondent un mur rectiligne de lenviron-
nement. Aprs avoir construit ces histogrammes de direction pour les deux scans, on cherche le
dcalage de ces histogrammes qui fournit la meilleure corrlation. Dans lhypothse o les deux
scans ont t perus en des points de lenvironnement assez proches et reprsentent donc a peu
prs la mme zone, ce dcalage correspond la rotation qui aligne les deux scans (Figure 10.5
gauche).
dx
dx
FIGURE 10.5 Illustration de la mthode de recalage par corrlation dhistogrammes. Reca-
lage en rotation ( gauche) et en translation ( droite).
Une fois la direction recale, pour corriger la translation, on projette les points selon la direc-
tion principale des tangentes. On construit ensuite lhistogramme du nombre de points projets
sur la perpendiculaire cette direction et, en cherchant le maximum de corrlation entre les
histogrammes correspondant aux deux scans, on corrige le dcalage en translation selon cette
10.3. SUIVI DUNE HYPOTHSE UNIQUE
direction (Figure 10.5 droite). On recommence ensuite cette procdure dans la direction perpen-
diculaire.
Cette mthode fonctionne bien ds quil y a des structures rectilignes dans lenvironnement
qui conduisent des histogrammes contenant des pics pour lesquels le recalage par corrlation
fonctionne bien. Ils faut toutefois prendre un certain nombre de prcautions qui ne sont pas d-
tailles ici, notamment faire un ltrage intelligent des scan an de ne garder que les points qui ne
correspondent ni du bruit, ni des lments dynamiques. Il faut galement veiller ne raliser
ce recalage que pour des scans qui ont t perus des positions effectivement proches, sous
peine de recueillir des rsultats trs fantaisistes. Pour sassurer de ce point, il est possible de v-
rier la qualit de la corrlation des histogrammes an de vrier a posteriori que les deux scans
reprsentaient des portions similaires de lenvironnement.
10.2.4 Limitations de lestimation de la position par les perceptions
Lhypothse dun environnement sans perceptual aliasing est relativement forte, car beau-
coup de capteurs en robotique sont limits et bruits. De plus, les environnements intrieurs, de
type bureaux, peuvent tre trs rguliers et prsenter de nombreuses zones apparemment si-
milaires pour le robot. Toutefois, les environnement courants contiennent souvent sufsamment
dinformations accessibles des capteurs prcis et efcaces. Un tre humain, par exemple, na
aucun mal se reprer dans un immeuble de bureaux, en lisant les numros crits sur les portes
(trouver son chemin jusqu la sortie est un autre problme!). Il est donc thoriquement possible
de concevoir des systmes sufsamment discriminants pour tre capables de se reprer grce
aux seules perceptions et une carte prcise. Il est de plus possible damnager lenvironnement
an de simplier la tche de perception pour le robot (comme le montre lexemple des numros
de porte). Cette solution nuit toutefois lautonomie du robot puisquil est alors limit aux envi-
ronnements bien dnis qui ont t prpars lavance. Le rejet de cette dernire solution et la
difcult de raliser des capteurs sufsamment discriminant conduit donc la plupart des systmes
de navigation robotique prendre en compte le perceptual aliasing et utiliser les donnes pro-
prioceptives pour dterminer leur position de manire unique. Nous allons dcrire les diffrentes
mthodes qui peuvent tre utilises dans la suite de ce chapitre.
10.3 Suivi dune hypothse unique
Lorsque les perceptions ne sufsent pas pour estimer la position de manire unique, une
seconde source destimation de la position du robot est ncessaire pour lever lambigut. Cette
seconde estimation provient, dune part de la position dtermine lors de la prcdente phase
de localisation et, dautre part, des donnes proprioceptives recueillies depuis cet instant. Les
mthodes prsentes dans cette section utilisent cette seconde estimation pour slectionner ou
calculer, chaque instant, la position qui est la plus cohrente vis--vis de cette estimation. Les
positions estimes grce aux perceptions qui ne sont pas compatibles avec la position prcdente
sont simplement ignores.
10.3.1 Cartes topologiques
Dans une carte topologique, slectionner le nud correct parmi les nuds correspondant
aux perceptions peut reposer simplement sur ladjacence avec le nud prcdent. Dans ce cas,
le nud slectionn est celui qui est connect au nud reprsentant la position prcdente.
Cette information est toutefois rarement sufsante et les relations mtriques mmorises dans
les artes entre nuds sont souvent utilises en complment. Le nud slectionn est donc
celui dont la position relative par rapport au nud prcdent correspond le mieux aux donnes
proprioceptives [82, 83, 33, 105]. Lorsquune position mtrique est associe chaque nud,
cest le nud dont la position est la plus proche de la position estime par lodomtrie qui est
slectionn [12, 84, 145].
Certains modles fonctionnent dans le sens oppos. Au lieu dutiliser les donnes proprio-
ceptives pour slectionner un nud parmi les nuds possibles, ils utilisent ces donnes pour
restreindre lensemble des nuds possibles et utilisent ensuite les perceptions pour slectionner
le nud correct parmi ceux-ci. Les perceptions sont, par exemple, utilises pour choisir un nud
parmi tous les nuds adjacents au nud prcdent [141], ou parmi les nuds sufsamment
proches de la position estime par lodomtrie [142].
Enn, certains modles intgrent les deux tapes en une seule en calculant la probabilit que
chaque nud reprsente la position courante. Cette probabilit intgre, dune part, la similarit
du nud avec les perceptions courantes, et dautre part sa proximit avec la position estime par
lodomtrie. Le nud ayant la plus forte probabilit peut alors tre reconnu [98], ou la position
peut tre estime par codage par population de vecteurs en utilisant les probabilits calcules
[6, 137].
10.3.2 Cartes mtriques
Dans une carte mtrique, lestimation initiale de la position est utilise pour restreindre les-
pace de recherche de la position correspondant aux perceptions. Dans le cas o la carte contient
des objets, une estimation de la position permet de simplier le problme de lappariement entre
les objets perus et ceux de la carte. En effet, dans le cas o les senseurs sont soumis un
fort perceptual aliasing, de nombreux objets identiques, situs des positions diffrentes, sont
prsents dans la carte. Lorsque le robot peroit un objet, dterminer quel objet a t peru exige
dexaminer un grand nombre de possibilits. Lestimation de la position du robot permet donc
destimer la position des objets perus et donc de dterminer quels objets de la carte ils cor-
respondent. Ce choix se fait en gnral en appariant simplement chaque objet peru lobjet
mmoris identique le plus proche [8, 28, 31, 39, 57, 92, 103, 129, 144]. Une fois lappariement
effectu, les objets sont identis sans ambigut et permettent donc destimer la position de
manire unique.
Lorsque la position est dtermine par la mise en correspondance dune carte locale et dune
carte globale, la position estime est utilise pour restreindre la recherche de la position don-
nant la meilleure correspondance entre les deux cartes [119, 122, 131, 147]. La recherche du
maximum de correspondance est simplement effectue sur une zone limite autour de la position
estime prcdemment. La zone tant de faible tendue, le problme de perceptual aliasing se
pose moins et la recherche conduit en gnral une position unique.
Lorsque la position correspondant aux perceptions a t identie de manire unique, elle
peut tre considre directement comme la nouvelle estimation de la position du robot [147, 57,
144]. Cependant la plupart des modles considrent que cette estimation est entache derreur,
de la mme manire que lestimation initiale provenant de lodomtrie. La nouvelle position du
robot est donc en gnral une combinaison de ces deux positions. La plupart des modles [8, 129,
103, 31, 92, 119, 14, 18, 94, 28] utilisent un ltre de Kalman [99] pour raliser cette combinaison.
Ce ltre permet de calculer une estimation optimale de la position du robot, connaissant les deux
positions et leurs covariances respectives. Il constitue une mthode classique de localisation et
est dcrit en dtails dans la section 10.3.3. Dautres mthodes sont galement utilisables pour
combiner ces deux informations, par exemple la minimisation dune fonction de cot relie ces
deux positions [131], ou lutilisation de la mthode des moindres carrs rcursifs [16].
10.3.3 Le ltrage de Kalman pour la localisation
Principe
Le ltre de Kalman [99] permet destimer ltat dun systme partir dune prdiction bruite
de son volution et de mesures bruites de cet tat. Cest un ltre rcursif optimal, qui suppose
que le systme considr est linaire et les bruits blancs (de moyenne nulle). Pour la localisation
en robotique mobile, ltat du systme est la position du robot, la prdiction de lvolution provien-
dra des donnes odomtriques et les mesures proviendront des perceptions, qui permettent de
calculer la position grce la carte. Dans la suite, nous prsentons succinctement la description
mathmatique du ltre avant de donner un exemple dapplication.
Le ltre donne chaque instant une estimation

X
t
de la valeur de ltat X
t
du systme, ainsi
quune estimation de la prcision de cette estimation sous forme de sa matrice de covariance
P
t
2
.
Lvolution de ltat du systme est modlise par lquation linaire suivante :
X
t+1
= A.X
t
+B.u
t
+
evo
(10.1)
o A et B sont des matrices, u
t
est lodomtrie releve par le robot ou le vecteur des com-
mandes qui lui sont donnes et
evo
est le bruit sur lestimation de ltat, suppos desprance
nulle et de variance Q = E{
evo
T
evo
}.
Une mesure Y
t
effectue sur ltat du systme sera donne par lquation linaire :
Y
t
= H.X
t
+
obs
(10.2)
ou H est la matrice dobservation et
obs
le bruit de mesure, suppos de moyenne nulle et de
variance P
Y
= E{
obs
T
obs
}.
Le fonctionnement du ltre se droule en quatre tapes (Figure 10.6) :
2. Si on note le bruit comme une variable alatoire N de moyenne nulle, avec

X
t
= X
t
+N, la matrice de cova-
riance est donnes par P
t
= E{N.N
T
} = E{(X

X)(X

X)
T
}. En pratique, N et X sont inconnus, mais le ltre de
Kalman fournit directement une estimation de P
t
Mise jour
Observation
reelle
X
^
P
X
Y
X P
X
* *
Y P
Y
Prdiction
de letat
Prdiction
de lobservation
*
Odometrie
FIGURE 10.6 Schma de fonctionnement du ltre de Kalman.
Prdiction de ltat linstant courant X
t
, ainsi que de sa covariance P
t
partir du mo-
dle dvolution, de lestimation au pas de temps prcdent et de la commande depuis cet
instant :
X
t
= A.

X
t1
+B.u
t
(10.3)
La covariance est galement prdite par la formule :
P
t
= A.

P
t1
.A
T
+B.Q.B
T
(10.4)
Prdiction de lobservation partir du modle dobservation et de lestimation de ltat :
Y
t
= H.X
t
(10.5)
Observation de ltat : on obtient, grce au systme perceptif, une mesure Y
t
, dont on
estime le bruit P
Y
grce au modle du processus de perception.
Correction de ltat prdit par mise jour proportionnellement lerreur entre lobserva-
tion prdite et lobservation ralise :
X
t+1
= X
t
+K(Y
t
Y
t
) (10.6)
P
t+1
= P
t
KHP
t
(10.7)
ou K est le gain de Kalman, calcul pour minimiser lerreur destimation au sens des
moindres carrs et donn par la formule :
K = P
t
H
T
.(H.P
t
.H
T
+P
Y
)
1
(10.8)
Ces quatre tapes sont utilises chaque nouvelle information de dplacement et de percep-
tion, an de mettre jour lestimation de ltat du systme.
Application dans le cas mono variable
Pour montrer le fonctionnement intuitif de ce ltre, prsentons son application dans un cas
trivial : le cas o ltat du systme est dcrit par une variable scalaire X =x, de variance P
t
=
x
2
.
Si on suppose de plus que lobservation permet dobtenir directement la valeur de ltat : Y
t
=y =x
avec une variance P
Y
=
y
2
, le gain du ltre scrit simplement :
K =

x
2
x
2
+
y
2
et lquation de mise jour devient :
x = x
x
2
x
2
+
y
2
(y x
) (10.9)
=

x
2
y +
y
2
x
x
2
+
y
2
(10.10)
La mise jour revient donc faire une moyenne pondre par la variance de la prdiction
et de lobservation. Cette moyenne donne plus dimportance la valeur ayant la variance la plus
faible et donc la plus able (Figure 10.7).
0
40
0
1
x*
y
x
^
x* = 10
2
x*
= 10
y = 20
2
y
= 50
x = 11.66
2
x
= 8.33
^
^
FIGURE 10.7 Illustration du ltre de Kalman dans le cas mono variable. La valeur estime est
la moyenne des valeurs prdites et observes pondres par leurs variances. Ici, lestimation
x est plus proche de x
qui une variance plus faible.

Intuitivement, le ltre de Kalman va donc accorder plus dimportance aux valeurs pour les-
quelles lincertitude est la plus faible et les privilgier lors de la mise jour. En pratique ces
variances sont souvent bases sur des estimations empiriques (notamment en robotique pour
lodomtrie et les capteurs). Il faut donc faire trs attention ne pas sous-estimer ces incerti-
tudes de mesure, car, dans ce cas, le ltre de Kalman convergerait vers ces mesures, ce qui
peu conduire une divergence du ltre si ces mesures ne sont pas rellement aussi able que
lestimation de covariance le laisse penser.
Le ltrage de Kalman tendu
Le ltre prsent dans la section prcdente suppose des quations dvolution et dobser-
vation linaires, ce qui nest pas le cas en robotique mobile ds que lon reprsente la direction
du robot. Pour tendre le ltrage aux systmes non-linaires, le ltre de Kalman tendu linarise
simplement les quations grce un dveloppement de Taylor.
Partant des quations non linaires suivante :
X
t+1
= f (X
t
, u
t
) +
evo
(10.11)
Y
t
= h(X
t
) +
obs
(10.12)
on utilise les matrices Jacobiennes A et H dnies par :
A
i j
=
f
i
x
j
(10.13)
H
i j
=
h
i
x
j
(10.14)
Avec ces deux matrices Jacobiennes, le principe du ltre de Kalman reste exactement le
mme, en remplaant simplement les quations du ltre de Kalman original par les quations
suivantes :
X
t
= f (X
t
, u
t
)
P
t
= A.

P
t1
.A
T
+B.Q.B
T
Y
t
= h(X
t
)
K = P
t
H
T
.(H.P
t
.H
T
+P
Y
)
1
X
t+1
= X
t
+K(Y
t
Y
t
)
P
t+1
= P
t
KHP
t
(10.15)
(10.16)
(10.17)
(10.18)
(10.19)
(10.20)
Application la localisation sans perceptual aliasing
Supposons, titre dexemple, un robot dont on peut commander la vitesse de translation
v et de rotation . Ltat que lon cherche estimer est simplement sa position dans le plan :
X
t
= (x, y, ). Le vecteur de commande est u
t
= (v, ), ce qui conduit lquation dvolution du
systme :
f (X
t
, u
t
) =
_
_
x +v.dt.cos()
y +v.dt.sin()
+.dt
_
_
Nous supposons de plus que le bruit entachant cette estimation est indpendant pour chaque
variable et proportionnel aux vitesses :
Q =
_
_
T
.v 0 0
0
T
.v 0
0 0
R
.
_
_
Supposons enn que le systme de perception permette de mesurer directement la position,
par rfrence la carte. Lquation dobservation sera simplement :
h(X
t
) =
_
_
x
y
_
_
et nous estimons un bruit constant sur cette mesure :
P
y
=
_
_
O
0 0
0
O
0
0 0
O
_
_
Les matrices Jacobiennes correspondant ces quations, obtenues en drivant f et h sont
donc :
A =
_
_
1 0 sin()
0 1 cos()
0 0 1
_
_
H =
_
_
1 0 0
0 1 0
0 0 1
_
_
Compte tenu du fait quici H = I, lalgorithme du ltre de Kalman tendu se simplie :
X
t
= f (X
t
, u
t
)
P
t
= A.

P
t
.A
T
+B.Q.B
T
Y
t
= X
t
K = P
t
(P
t
+P
Y
)
1
X
t+1
= X
t
+K(Y X
t
)
P
t+1
= P
t
KP
t
Pour linitialisation de lalgorithme, nous supposons connatre une estimation de la position du
robot :
X
0
=
_
_
x
0
y
0
0
_
_
P
0
=
_
_
x
0
0 0
0
y
0
0
0 0
0
_
_
et nous appliquons les quations de mise jour pour chaque nouveau dplacement ou
chaque nouvelle perception.
Application la localisation avec perceptual aliasing
En cas de perceptual aliasing, plusieurs valeurs de la mesure proviennent de la phase dob-
servation. Il faut donc choisir parmi ces valeurs la valeur correspondant la position relle du
robot qui sera utilise pour la mise jour.
Lorsque lobservation donne une mesure de la position, il est possible de slectionner sim-
plement la mesure la plus proche de la position prdite pour le robot. Dans le cas gnral, il est
prfrable dutiliser la distance de Mahalanobis , qui est une mesure de distance normalise par
la covariance. Cette mesure permet par exemple de privilgier une mesure plus lointaine mais
moins prcise qui aura en fait une probabilit plus grande de correspondre la mesure prdite
(Figure 10.8).
X
Y1
Y2
FIGURE 10.8 Illustration de lintrt de la distance de Mahalanobis. La mesure Y1 est plus
proche de X en distance euclidienne mais les incertitudes font que ces mesures sont incom-
patibles. La distance de Mahalanobis sera plus faible pour Y2 et X du fait que les incertitudes
montrent que ces mesures peuvent provenir de la mme variable.
Pour deux valeurs X et Y de covariances P
X
et P
Y
, cette distance vaut :
d
2
=
1
2
(X Y)
T
(P
X
+P
Y
)
1
(X Y) (10.21)
ce qui se traduit dans le cas scalaire par une simple pondration par les variances :
d
2
=
(x y)
2
2(
2
x
+
2
y
)
Dans le cas du ltrage de Kalman, cette distance est utilise entre lobservation prdite et les
diffrentes observations faites sur le systme :
d
2
=
1
2
(Y
Y)
T
(P
Y
+P
Y
)
1
(Y
Y)
=
1
2
(H.X
Y)
T
(H.P
t
.H
T
+P
Y
)
1
(H.X
Y)
partir des distances de Mahalanobis des diffrentes observations lobservation prdite, il
est possible de slectionner lobservation la plus proche ou de choisir un seuil qui permettra de
dterminer si une des observations correspond bien ltat courant. Si une des observation est
en dessous de ce seuil, elle est utilise pour la mise jour du ltre, sinon, on considre que ltat
na pas pu tre mesur et on ne fait pas de correction de la prdiction.
Lune des principales faiblesses du ltre de Kalman pour la localisation provient prcisement
de cette phase didentication (dappariement) des lments perus. En effet, en cas de mauvais
choix d une mauvaise prdiction de la position du robot ou a une erreur de perception, lerreur
destimation de la position sera conrme, voir augmente. Un tel processus conduit rapidement
une divergence du ltre et une perte de la position du robot.
Le ltre de Kalman sans parfum (unscented)
FIGURE 10.9 Principe de fonctionnement du ltre de Kalman sans parfum, illustr sur un
exemple mono dimensionnel. Le ltre tendu (EKF) peut conduire de fortes erreurs pour
des fonctions non-linaires car il nutilise que la moyenne et la drive en ce point. Le ltre
sans parfum (UKF) utilise plusieurs points pour estimer les paramtres de la gaussienne
transforme.
La linarisation utilise par le ltre de Kalman tendu peut poser problme lorsque le modle
est fortement non-linaire ou lorsque les dplacements ou les erreurs de perception sont grandes.
Dans certain cas, lestimation de la covariance aprs transformation peut tre trs mauvaise
(Figure 10.9). Pour ces cas l, il existe une autre manire de linariser les quations qui conduit
au ltre de Kalman "sans parfum" (Unscented) [74].
Au lieu de linariser lquation non-linaire autour de la moyenne de la variable, ce ltre utilise
plusieurs point dchantillonnage partir de la gaussienne de dpart, calcule leurs correspon-
dants via lquation non-linaire et estime la variance de la gaussienne partir de ces corres-
pondants (Figure 10.9). Cette stratgie permet une bien meilleure prdiction de ltat, que ce soit
pour lvolution ou lobservation et permet donc dtendre le domaine de fonctionnement du ltre
de Kalman pour traiter des problmes avec des mises jour de plus grande ampleur. Elle est
cependant plus couteuse en calcul que le simple EKF.
10.3.4 Limitations du suivi de position
1
2
3
4
1
2
3
4
Environnement rel
Donnes proprioceptives
Perceptions
Estimation initiale
1
2
3
4
Estimation initiale
Estimation de la position avec une estimation initiale correcte
Estimation de la position avec une estimation initiale incorrecte
a
b
c
FIGURE 10.10 La position estime par le suivi de position dpend fortement de lestimation
initiale de la position. Dans cet exemple, le robot mesure son dplacement dans un couloir (1
et 3) dans lequel il dtecte des portes (2 et 4) sans tre capable de les reconnatre individuel-
lement (Partie a). Le systme de localisation va estimer la position du robot en intgrant ces
donnes. Si lestimation initiale de la position est proche de la position correcte, le systme
de localisation sera capable destimer prcisment la position relle du robot (Partie b). Tou-
tefois, si lestimation initiale de la position est trop loigne de la position relle, le systme
fournira une estimation de la position qui nest que localement optimale et ne correspondra
pas la position relle (Partie c).
La limitation principale de toutes ces mthodes de suivi de position est quelles ne garan-
tissent une bonne estimation de la position que localement, autour de lestimation initiale de la
position. En pratique, si cette estimation initiale est trop loigne de la position relle, ces mo-
dles ne pourront pas estimer correctement la position du robot (cf. gure 10.10). Ces modles
ne garantissent donc pas que la position calcule soit la position de la carte qui corresponde glo-
balement le mieux aux donnes recueillies par le robot et donc la position relle la plus probable.
Ce problme prend toute son importance lorsque lestimation de la position est perturbe la
suite dinformations proprioceptives ou de perceptions errones. En effet, de telles informations
10.4. SUIVI DE PLUSIEURS HYPOTHSES
errones peuvent faire diverger lestimation de la position de telle manire que le systme soit
par la suite incapable de retrouver une estimation correcte de la position.
La position correcte du robot pourra cependant tre retrouve par lune des mthodes de
localisation globale dcrites dans la section prcdente. Cette position pourra ensuite tre utilise
comme nouvelle position initiale dans le processus de suivi de position. Toutefois, il est galement
possible dutiliser une des mthodes de localisation globale dcrites dans la n de ce chapitre qui
permettent de ne plus dpendre dune estimation initiale correcte de la position. Cette seconde
solution, qui ne requiert pas lutilisation spare de deux mthodes de localisation sera en gnral
plus robuste, mais parfois moins prcise.
10.4 Suivi de plusieurs hypothses
La localisation globale, lorsque le robot est soumis au perceptual aliasing, ne peut se faire
quen utilisant de manire optimale les informations proprioceptives et les perceptions. Contraire-
ment au suivi de position qui utilise lestimation prcdente de la position pour slectionner lune
des positions caractrises par les perceptions et ignorer les autres, il faut tenir compte chaque
tape de toutes ces positions possibles. Ces positions conduisent des hypothses qui peuvent
tre mises jour en fonction des donnes proprioceptives et quil faut comparer, an de choisir la
plus pertinente chaque tape (cf. gure 10.11).
10.4.1 Suivi explicite de plusieurs hypothses
Ce suivi de plusieurs hypothses peut tre ralis de manire explicite, en grant une liste des
hypothses en question. Lorsque des donnes proprioceptives sont disponibles, chaque hypo-
thse est simplement mise jour de manire reter le dplacement du robot (cf. gure 10.11c).
Lorsque de nouvelles perceptions sont disponibles, lensemble des positions de la carte suscep-
tibles de correspondre ces perceptions est dtermin. Cet ensemble est ensuite compar
lensemble des hypothses. Si une hypothse correspond une position perue, cette hypothse
est alors mise jour en utilisant les perceptions par une mthode similaire celle permettant le
suivi de position, par exemple un ltre de Kalman. Les positions perues qui ne correspondent
aucune hypothse sont utilises pour crer de nouvelles hypothses associes la position
correspondante. La crdibilit de chacune des hypothses est ensuite value, gnralement en
fonction de la proximit de lhypothse avec une position correspondant aux perceptions du robot
(cf. gure 10.11d). Ainsi, une hypothse verra sa crdibilit augmenter si elle est proche dune
des positions correspondant aux perceptions du robot, elle la verra diminuer dans le cas contraire.
De nouvelles hypothses peuvent galement tre ajoutes pour les positions correspondant aux
perceptions qui ne correspondent aucune hypothse existante.
De tels modles ont t implments en utilisant des cartes topologiques [37] o les diff-
rentes hypothses correspondent diffrents noeuds de la carte. Il existe galement des modles
de ce type utilisant des cartes mtriques [110, 73]. Ces derniers modles utilisent en gnral plu-
sieurs ltres de Kalman en parallle et permettent de rsoudre en grande partie les problmes de
1
2
3
Environnement rel
Donnes proprioceptives
Perceptions
Utilisation de la perception 1
Utilisation des donnes proprioceptives 2
Utilisation de la perception 3
0,25 0,25 0,25 0,25
Hypothse de position Crdibilit de lhypothse
0,33 0,33 0,33
0,1 0,7 0,04
a
b
c
d 0,08 0,08
FIGURE 10.11 Le suivi de plusieurs hypothses permet de dterminer la position au sein de
la carte qui globalement correspond le mieux aux donnes recueillies par le robot. Dans cet
exemple, le robot est capable destimer son dplacement dans un couloir (2) dans lequel il
dtecte des portes (1 et 3) sans tre capable de les reconnatre individuellement (Partie a). La
perception dune porte sans aucune estimation pralable de la position permet simplement
de crer plusieurs hypothses de position pouvant correspondre cette perception. Il est,
ce stade impossible de dcider quelle hypothse est correcte (Partie b). Lintgration des
donnes proprioceptives permet de mettre jour la position de chacune des hypothses, mais
ne permet pas de les discriminer (Partie c). Des nouvelles perceptions permettent destimer la
crdibilit relative de chacune des hypothses en rendant plus crdibles les hypothses dont
la position correspond aux perceptions courantes et moins crdible les autres. (Partie d).
Lhypothse ayant alors la plus forte crdibilit correspond la position qui rend le mieux
compte des donnes recueillies par le robot.
divergence du ltre de Kalman employ seul. Cette technique est connue sous le nom de multi
hypothesis tracking (MHT) [73].
10.4.2 Le ltrage Baysien
Les mthodes de localisation multi-hypothses peuvent tre vues dans un cadre plus large,
celui du ltrage Baysien. Cette mthode de ltrage permet dintgrer de manire similaire les
deux types dinformations (odomtrie et perceptions), mais ne gre en gnral pas explicitement
les hypothses de position. Les diffrentes hypothses sont ici remplaces par une distribution
de probabilit de prsence du robot sur lensemble des positions possibles de la carte. Cette
reprsentation permet donc de considrer chacune des positions au sein de la carte comme une
position possible du robot dont il faut valuer la probabilit. Nous prsentons dabord le cadre
gnral qui permet la gestion de cette distribution de probabilit, avant de voir comment il peut
tre utilis en pratique dans des cas discrets ou continus.
Le ltrage Baysien regroupe un ensemble de mthodes destimation dtat utilisant les pro-
babilits et plus particulirement la loi de Bayes :
P(X|Y) =
P(Y|X)P(X)
P(Y)
(10.22)
Dans le cadre de la localisation en robotique mobile, X est en gnral la position et Y une
perception de lenvironnement. Cette loi nous permet donc destimer la probabilit P(X|Y) des
positions, connaissant une perception, cest dire prcisment ce que nous cherchons calcu-
ler pour localiser un robot. Pour ce calcul, nous aurons besoin de P(Y|X), la probabilit dune
perception connaissant la position, qui peut tre calcule grce la carte de lenvironnement
et au modle du capteur utilis. Nous aurons galement besoin dune estimation des probabili-
ts des positions P(X) avant cette perception, ainsi que de la probabilit globale P(Y) de cette
perception. Dans un ltre Baysien, cette formule est utilise de manire rcursive et P(X) est
donc simplement lestimation prcdente de la probabilit des positions. Quant P(Y), il peut
tre remplac par un artice de calcul lors de lutilisation de la formule. En effet, par la loi des
probabilits marginales :
P(Y) =
X
P(Y|X)P(X)
ce qui permet dutiliser la loi de Bayes pour calculer les probabilits P(X|Y) de la manire sui-
vante :
X, temp
X|Y
= P(Y|X)P(X)
P(Y) =

X
temp
X|Y
X, P(X|Y) =
temp
X|Y
P(Y)
Dans cette quation, le terme P(X) est la probabilit a priori (prior en anglais), P(X|Y) est la
probabilit a posteriori (posterior en anglais). La puissance de cette quation rside dans le fait
quelle permet de transposer une quantit simple valuer, P(Y|X), en une quantit plus difcile
estimer et qui nous intresse, P(X|Y). La vraisemblance P(Y|X) est simple valuer car elle
est le produit dun raisonnement causal : connaissant une carte, un modle de capteur et une po-
sition, on peut facilement prvoir les mesures que devraient renvoyer ce capteur. P(X|Y), pour sa
part, est le fruit dun raisonnement de diagnostic et il est difcile valuer car une perception Y ne
permet pas de dnir simplement une position, mais peut correspondre plusieurs, notamment
dans le cas du perceptual aliasing
3
.
Nous venons de voir comment la loi de Bayes permet de mettre jour une probabilit de
position en fonction dune perception. Pour la localisation dun robot mobile, il faut galement
pouvoir intgrer leffet dun dplacement sur une distribution de probabilit. Cela se fait aussi trs
simplement grce lquation suivante (loi des probabilits marginales) :
P(X|U) =
P(X|U, X
)P(X
) (10.23)
Dans cette quation, P(X|U, X
) est un modle du dplacement du robot, qui donne la proba-

bilit dune position X si le robot excute laction U dans la position X
. Ce modle ne dpend
que du robot et correspond souvent au modle dodomtrie que nous avons vu au dbut du
cours. Comme prcdemment, la probabilit a priori, P(X
), est le fruit dune estimation ltape

prcdente.
X X X
Y Y Y
U U
t-1 t t+1
t-1 t
t-1 t t+1
FIGURE 10.12 Illustration des dpendances considres pour la localisation dun robot
partir dune suite de perceptions et de dplacements. Une che indique que la valeur la
pointe dpend de la valeur lorigine.
Pour localiser un robot, nous cherchons videment estimer la position partir de nombreux
dplacements et de nombreuses observations : P(x
t
|u
1
, y
2
, ..., u
t1
, x
t1
). Pour pouvoir raliser
les calculs de manire rcursive, lhypothse de Markov est utilise : on suppose que les percep-
tions ne dpendent que de ltat courant et que la position aprs un dplacement ne dpend que
de la position prcdente. Ceci est illustr par le rseau baysien de la gure 10.12 qui montre
les dpendances entre variables et correspond aux simplications suivantes :
P(y
t
|x
t
, u
1
, y
2
, ..., u
t1
) = P(y
t
|x
t
)
P(x
t
|u
1
, y
2
, ..., u
t1
, x
t1
) = P(x
t
|u
t1
, x
t1
)
3. Ceci est trs gnral et tout a fait intuitif. Dans le domaine mdical, par exemple, il est simple de prvoir de la
vre (lobservation) si lon sait que lon a la grippe (ltat). Le raisonnement inverse est plus difcile car la vre peut
correspondre plusieurs maladies.
Partant de ces diffrents lments, le ltrage Baysien permet donc destimer de manire
rcursive ltat dun systme partir dune estimation de son volution et de mesures sur cet tat.
Pour pouvoir appliquer ce ltrage, nous avons besoin des lments suivants, qui sont tous connus
ou qui peuvent tre dnis grce aux modles du robot, des capteurs et de lenvironnement :
Un modle dobservation (de capteur) P(y|x) qui donne, pour une position x donne, la
probabilit de la mesure y.
Un modle dvolution (daction) P(x|u, x
) qui donne la probabilit que le robot arrive en x

si il excute laction u en x
.
Une suite dactions et de perceptions u
1
, y
2
, ..., u
t1
, y
t
.
Une estimation initiale de la position P
0
(x), qui peut, par exemple, tre uniforme dans le cas
de la localisation globale ou qui peut tre une rpartition gaussienne si nous connaissons
la position initiale du robot.
Le ltre permet destimer la position en fonction des donnes mesures :
P(x
t
|u
1
, y
2
, ..., u
t1
, y
t
), ce que nous noterons par la suite (en version continue) Bel(x
t
) (de
langlais Belief State). Lquation de mise jour rcursive permet alors destimer Bel(x
t
) en
fonction de Bel(x
t1
). Cette quation se drive de la manire suivante, en utilisant les loies
prsentes ci-dessus :
Bel(x
t
) = P(x
t
|u
1
, y
2
, ..., u
t1
, y
t
)
(Bayes) = P(y
t
|x
t
, u
1
, y
2
, ..., u
t1
)P(x
t
|u
1
, y
2
, ..., u
t1
)
(Markov) = P(y
t
|x
t
)P(x
t
|u
1
, y
2
, ..., u
t1
)
(probtotales) = P(y
t
|x
t
)
P(x
t
|u
1
, y
2
, ..., u
t1
, x
t1
)P(x
t1
|u
1
, y
2
, ..., u
t1
)dx
t1
(Markov) = P(y
t
|x
t
)
P(x
t
|u
t1
, x
t1
)P(x
t1
|u
1
, y
2
, ..., u
t1
)dx
t1
= P(y
t
|x
t
)
P(x
t
|u
t1
, x
t1
)Bel(x
t1
)dx
t1
Pour rsumer, lestimation de ltat par un ltre Baysien correspond lutilisation de lqua-
tion de mise jour suivante, pour une perception y
t
et un dplacement u
t1
:
Bel(x
t
) = P(y
t
|x
t
)
P(x
t
|u
t1
, x
t1
)Bel(x
t1
)dx
t1
(10.24)
Le ltrage Baysien regroupe en fait un grand nombre dapproches connues sous des noms
diffrents qui se diffrentient par la manire dont la distribution de probabilit Bel(x
t
) est re-
prsente (gure 10.13). Le ltre de Kalman est par exemple une implantation de ce ltre avec
des distributions de probabilits gaussiennes et des modles linaires. Le ltre de kalman multi-
hypothses correspond une reprsentation sous forme de somme de gaussiennes. Nous allons
voir dans la n de ce chapitre deux autres mthodes qui utilisent soit une reprsentation discrte
soit une reprsentation sous forme dun ensemble dchantillon. Dans ce dernier cas, le ltre
sappelle le ltre particulaire.
FIGURE 10.13 Le ltrage Baysien correspond diffrents algorithmes en fonction de la
manire dont sont reprsentes les probabilits.
Reprsenter la position du robot par une telle distribution de probabilits permet dintgrer la
totalit des informations recueillies au cours du temps. Elle est mise jour, dune part chaque
dplacement du robot, et donc chaque nouvelle donne proprioceptive, et dautre part chaque
nouvelle perception. De manire image, les donnes proprioceptives permettent de dplacer
les probabilits dune position une autre pour reter le dplacement du robot. Les perceptions
permettent de moduler les probabilits de chaque position. Ainsi, les positions pour lesquelles
les perceptions prvues laide de la carte sont similaires aux donnes perues voient leurs
probabilits augmenter, tandis que les autres voient leurs probabilits diminuer.
Lorsquon utilise une telle distribution de probabilit, la position du robot calcule est en g-
nral donne par lhypothse ayant la plus forte probabilit [66, 69, 125, 127, 24, 49]. Cependant
dautres estimations telles que la moyenne des positions pondres par leurs probabilits peuvent
tre utilises [27], ou des versions intermdiaires telle que la moyenne des x% des meilleurs po-
sitions.
La distribution de probabilits obtenue dpend faiblement des conditions initiales et peut donc
tre initialise une distribution uniforme lorsquaucune information nest disponible sur la posi-
tion du robot. La position sera alors retrouve, mme si le robot est soumis un trs fort percep-
tual aliasing, assurant ainsi la localisation globale du robot dans tous les environnements. Ces
mthodes sont extrmement robustes en pratique et mettent en uvre un systme de localisation
compltement autonome, ne dpendant daucune intervention extrieure [133].
Ces qualits reposent toutefois de manire importante sur le fait que la carte de lenviron-
nement est complte. En effet, les systmes de suivi de plusieurs hypothses ncessitent une
estimation correcte des probabilits des diffrentes positions possibles. Or une carte partielle de
lenvironnement rend une telle estimation partir des perceptions difcile. Pour cette raison, ces
systmes sont en gnral utiliss pour la localisation sur des cartes construites dans une phase
pralable.
10.4.3 Filtrage Baysien dans le cas discret
Pour appliquer le ltrage Baysien que nous avons prsent dans le cas continu, il faut choisir
une manire de reprsenter les distributions de probabilits. Une premire approche consiste
discrtiser lenvironnement et donner chaque position discrte une probabilit approximant la
valeur de la distribution continue. Cette approche a t utilise la fois avec des cartes topolo-
giques o les nuds sont utiliss comme positions possibles, [27, 66, 69, 79, 106, 108, 125, 127,
130] et avec des cartes mtriques, pour lesquelles il est possible de discrtiser lensemble des
positions, la manire des grilles doccupation [24, 49, 133].
Algorithm 10.1 Procdure UpdatePerception(Bel(x
i
),y) ;
1: = 0
2: for all x
i
do
3: Bel
(x
i
) = P(y|x
i
)Bel(x
i
)
4: = +Bel
(x
i
)
5: end for
6: for all x
i
do
7: Bel
(x
i
) = Bel
(x
i
)/
8: end for
9: Return Bel
(x
i
)
Algorithm 10.2 Procdure UpdateMouvement(Bel(x
i
),u) ;
1: for all x
i
do
2: Bel
(x
i
) =
x
k
P(x
i
|u, x
k
)Bel
(x
k
)
3: end for
4: Return Bel
(x
i
)
Quelle que soit la discrtisation choisie, lalgorithme reste le mme. Il sagit dvaluer la pro-
babilit Bel(x
i
) que le robot soit situ sur ltat x
i
de la carte. Ceci est fait par deux procdures
diffrentes selon que lon cherche intgrer une perception ou des donnes proprioceptives. Pour
une perception, on utilisera la procdure de lalgorithme 10.1. Les probabilits P(y|x
i
) proviennent
soit dun modle de capteur mtrique pour les grilles doccupation, soit dun modle comparant
une perception avec les donnes mmorises dans les nuds pour la carte topologique. Pour
un dplacement on utilisera lalgorithme 10.2. La gure 10.14, tire de [48] montre un exemple
dvolution de la probabilit de position dun robot.
FIGURE 10.14 Exemple dvolution de la probabilit de position au cours du temps. Figure
tire de [48].
Limplantation nave de cet algorithme conduit une mise jour quadratique en fonction du
nombre dtats (O(N)), ce qui peut tre rapidement lourd calculer. Cependant, le modle proba-
biliste de dplacement P(x|u, x
) est en gnral nul ds que lon sloigne de la position spcie

par la commande u depuis ltat x
. Si lon note p le nombre dtats pour lequel le modle est non

nul, on peut facilement crire un algorithme en O(np), qui est donc linaire en le nombre dtats
de la carte.
10.4.4 Filtrage particulaire
Il est galement possible dutiliser une autre mthode pour reprsenter une distribution de
probabilit continue sur lespace de la carte [46] sans discrtisation de la carte. Cette mthode,
le ltrage particulaire est lune des plus efcaces pour la localisation.
Pour reprsenter la distribution de probabilit Bel(x), cette mthode utilise un chantillonage
en un ensemble de particules qui permet dapprocher la distribution. En effet, considrons que la
position du robot est la position moyenne dnie par la distribution de probabilit Bel(x) :
Position =
x
x.Bel(x)dx
Supposons par ailleurs que lon soit capable de gnrer un ensemble de N chantillons de po-
sition
i
, que nous appellerons particules, selon la distribution de probabilit Bel(x) (Figure 10.15
P
X
P
X
f
w
FIGURE 10.15 Gauche : Illustration de la mthode de reprsentation dune distribution de
probabilit par des particules. Les particules sont tires alatoirement selon la loi repr-
senter. Droite : Illustration de la mthode de reprsentation dune distribution de probabilit
par des particules tires selon une loi dimportance. Les particules sont tires alatoirement
selon la loi et ont chacune un poids associ w = f /.
gauche). On peut alors approcher la position par :
Position
1
N
i
Cest cet ensemble de particules qui va permettre de reprsenter la distribution de probabilits
de positions du robot. Tout le problme revient alors tre capable de gnrer rcursivement un
ensemble de particules rparties selon la loi Bel(x).
Dans notre cas, il est videment impossible a priori de gnrer de tels chantillons car Bel(x)
est une distribution inconnue que nous cherchons valuer. Pour pouvoir nanmoins approcher
cette fonction, nous allons introduire une fonction auxiliaire (x), appele fonction dimportance
selon laquelle nous allons tirer nos particules. En effet, avec de telles particules, rparties selon
une loi (x), il est galement possible dapprocher Bel(x). Pour cela, nous commenons par
crire :
Bel(x) =
Bel(x)
(x)
(x) = w(x)(x)
avec
w(x) =
Bel(x)
(x)
et donc, si nous gnrons les chantillons alatoires
i
selon la fonction dimportance (connue
car nous lavons choisie), nous pouvons estimer la position par :
Position =
x
x.Bel(x)dx =
x
x.w(x)(x)
1
N
i
w(
i
)
i
Ainsi la distribution Bel(x) peut sapprocher sous la forme dun ensemble de particules tires
selon une loi (x), chaque particule ayant un poids associ w(x) (Figure 10.15 droite). La dif-
cult dchantillonner selon Bel(x) reste cache dans la difcult de calculer le poids de chaque
particule w(x), mais grce un choix judicieux de (x) nous pouvons arriver rendre ce calcul
possible en utilisant lquation de mise jour du ltrage Baysien.
En effet, dans le cas qui nous intresse :
Bel(x
t
) = P(y
t
|x
t
)
P(x
t
|u
t1
, x
t1
)Bel(x
t1
)dx
t1
(10.25)
en choisissant (intelligemment) (x) =
P(x|u
t1
, x
t1
)Bel(x
t1
)dx
t1
, nous obtenons :
w() =
Bel
t
()
()
=
P(y
t
|)
P(|u
t1
, x
)
Bel
t1
(x)dx
P(|u
t1
, x
t1
)Bel(x
t1
)dx
t1
= P(y
t
|)
Cette valeur est simple calculer car elle ne dpend que de la carte et du modle de capteurs
pour la position dun chantillon .
w
U
FIGURE 10.16 Illustration de la mise jour de lensemble des particules en utilisant les
dplacements.
Le problme du calcul des poids est donc rgl avec ce choix de (x) =
P(x|u
t1
, x
t1
)Bel(x
t1
)dx
t1
. Reste a voir comment il est possible dchantillonner des par-
ticules selon cette loi. Comme nous utilisons une mthode rcursive, Bel(x
t1
) est approche
sous la forme dun ensemble de particules
t1
, chacune associe un poids w
t1
. A partir de
ces particules, lchantillonnage selon (x), se droule en deux tapes : une mise jour selon le
modle dvolution P(x|u
t1
, x
t1
), puis un r-chantillonnage des particules pour correspondre
la loi (x).
Pour la premire tape, les particules sont mises jour partir du modle de dplacement
en tirant de manire alatoire, pour chaque particule
i
, une particule
i
selon la loi P(x|u
t1
,
i
).
Lensemble des
i
reprsente alors la distribution

P(x|u
t1
, x
t1
)Bel(x
t1
)dx
t1
, mais la fonc-
tion dimportance selon laquelle ils sont rpartis nest pas celle que nous voulons (Figure 10.16).
w
1
w
2
w
N
w
i
w
3
w
4
v
1
v
2
v
i
v
1
w
1
v
2
w
2
v
3
w
3
v
4
w
4
v
5
w
4
v
6
w
5
=
=
=
=
=
=
.
.
.
FIGURE 10.17 Illustration de la mthode dchantillonage. Lensemble de particules w est
r-chantillonn en lensemble v.
La seconde tape a pour but dobtenir un chantillonnage selon la fonction dimportance
P(x|u
t1
, x
t1
)Bel(x
t1
)dx
t1
. Pour cela, il faut r-chantillonner, ce qui peut se faire selon
une mthode appele Stochastic universal sampling [11]. Cette mthode consiste choisir N
particules
i
selon des points qui-rpartis sur un cercle sur lequel sont disposs lensemble
initial des particules selon des secteurs angulaires de taille proportionnelle leur poids (Figure
10.17). Cette mthode permet de multiplier les particules qui ont des poids levs, et de rduire
le nombre dchantillons correspondant aux particules de poids faibles (Figure 10.18).
Algorithm 10.3 Procdure Filtrage Particulaire(
t1
i
,w
t1
i
,u,y) ;
1: for all i do
2: Tirer une particule
i
selon la loi P(x|u,
t1
i
)
3: end for
4: r-chantillonner les particules
i
selon les poids w
t1
i
.
5: = 0
6: for all i do
7: Calculer le poids w
t
i
= p(y|
i
)
8: = +w
t
i
9: end for
10: for all i do
11: Normaliser les poids w
t
i
= w
t
i
/
12: end for
13: Return
t
i
=
i
, w
t
i
En rsum, la localisation par ltrage particulaire seffectue selon lalgorithme 10.3, et est
illustr sur la gure 10.19. Intuitivement, lalgorithme permet de concentrer les particules dans les
w
w
FIGURE 10.18 Illustration de leffet de la mthode de r-chantillonnage. Les particules
ayant initialement un poids fort conduisent des zones de particules plus denses. Les parti-
cules ayant initialement un poids faible conduisent des zones de particules moins denses.
zones de plus fortes probabilits, o elles auront des poids plus fort. Cest un algorithme au nal
extrmement simple et particulirement robuste.
Cette version de base demande cependant un rglage relativement prcis des paramtres,
notamment des modles probabilistes de perception et de lodomtrie pour donner des rsultats
satisfaisant.
Le nombre de particules utiles pour approcher correctement la probabilit de position peut
galement tre relativement dlicat choisir. En effet, si il y a trop peu de particules, les zones de
fortes probabilits risquent de ne pas tre bien reprsentes et le r-chantillonnage ne permettra
pas de concentrer les particules autour de la position la plus probable, et le ltre ne convergera
donc pas. On parle alors de rarfaction des particules.Ce problme est dautant plus important
pour la localisation globale, pour laquelle les particules sont initialises alatoirement sur tout
lenvironnement. Si il ny a pas initialement de particule proche de la position relle du robot, le
ltre ne pourra pas la dcouvrir.
Augmenter le nombre de particules permet en gnral de rsoudre le problme, mais aug-
mente proportionnellement le temps de calcul, ce qui est rapidement problmatique. Il existe donc
de nombreuses variantes et amliorations de la mthode, qui permettent par exemple de slec-
tionner automatiquement le nombre de particules optimal pour fournir une approximation correcte
de la position [50], ou de raliser des mises jour partielles pour respecter un temps de calcul
limite [85].
Position t-1
Particules t-1
Position t
Mise jour par le
dplacement
R-chantillonage
Mise jour par les
perceptions
FIGURE 10.19 Illustration du fonctionnement de lalgorithme de ltrage particulaire. Les
particules se concentrent autour des positions de plus forte probabilits.
10.5 Comparaison des mthodes de localisation
Le tableau de la gure 10.20 rsume les grandes caractristiques et compare les diffrentes
mthodes de localisation prsentes dans ce cours.
Topologique Topologique Mtrique Mtrique Mtrique
hypothse hypothses Filtre de Multi Filtres
unique multiples Kalman Kalman particulaires
Modles
de Quelconque Quelconque Gaussien Gaussien Quelconque
senseur
Capacit
de Suivi Global Suivi Global Global
localisation
Consommation
Mmoire ++ ++ + + ++
Consommation
Calcul + ++ + ++ ++
Simplicit
dImplmentation ++ + + - ++
Prcision - - ++ ++ +
Robustesse + ++ - + ++
FIGURE 10.20 Comparaison des mthodes de localisation.
Les mthodes topologiques sont en gnral assez simples implanter puisquil sagit essen-
tiellement de crer une procdure de comparaison de perceptions. Cependant, pour obtenir une
robustesse correcte, cette procdure doit nanmoins tre faite avec soin et peut devenir com-
plexe. La localisation directe a partir des seules perceptions est difcile envisager dans des
environnements non triviaux. Lajout de suivi multi-hypothses dans ce cadre permet cependant
damliorer la robustesse de manire assez simple. Les cartes topologiques conduisent cepen-
dant une localisation relativement imprcise et demandent un certain nombre de comporte-
ments sensori-moteurs efcaces pour les dplacements entre lieux. Un des gros inconvnients
des cartes topologiques, comme nous le verrons plus loin, se situe plutt au niveau de leur cra-
tion, qui peut tre complexe automatiser.
Concernant les mthodes mtriques, le ltre de Kalman connat un grand succs mais peut
tre difcile rgler et risque de diverger. Lutilisation de multi-Kalman permet damliorer sensi-
blement les choses et donne une trs bonne prcision, mais conduit des implantations assez
complexes et difciles matriser. Les ltres particulaires sont une bonne solution, en particulier
pour leur robustesse et leur simplicit dimplantation, mais peuvent aussi tre difciles rgler et
lourds en temps de calcul.
10.5. COMPARAISON DES MTHODES DE LOCALISATION
CHAPITRE 11. CARTOGRAPHIE
Chapitre 11
Cartographie
Ce chapitre prsente diffrentes mthodes de cartographie selon une classication person-
nelle en fonction de la capacit de ces mthodes revenir ou non sur les donnes passes.
11.1 Les problmes de la cartographie
11.1.1 Limitation des mthodes de localisation
Comme nous lavons expliqu dans le chapitre 8 la cartographie est indissociable de la locali-
sation, ce qui implique de disposer dune mthode de localisation robuste pour esprer avoir une
carte correcte. Ceci est le principal problme lors de la phase de cartographie, car une localisation
correcte repose en gnral sur une bonne carte de lenvironnement.
La tche de cartographie est donc intrinsquement plus complexe que celle de localisation. En
effet, la localisation revient rechercher, parmi les positions possibles reprsentes dans la carte,
celle qui correspond le mieux la position courante du robot. Cette recherche se droule donc
dans un espace ferm, car on postule que la position recherche se trouve parmi les positions
enregistres dans la carte. Dans le cas de la cartographie, une difcult importante provient du
fait que lestimation de la position du robot se droule dans un espace ouvert, puisque le robot
peut dcouvrir des zones encore inconnues. De plus cet espace est de faible dimension pour
la localisation (3 en gnral), tandis que la construction de la carte se droule dans un espace
de beaucoup plus grande dimension. Par exemple, pour une carte de N amers 2D, il y aura
2N paramtres. Or que ce soit pour la cartographie ou la localisation, les donnes disponibles
(odomtrie et perceptions) restent les mmes, et il faudra donc mieux les exploiter pour construire
une carte.
Lincompltude de la carte rend de plus la plupart des mthodes de localisation globale pr-
cdemment voques difciles utiliser car elles supposent une comparaison des probabilits
des diffrentes hypothses de position. Or avec une carte en cours de construction, le robot peut
se situer dans une zone qui nest pas encore cartographie et il sera donc impossible dvaluer
la probabilit de cette position. La plupart des systmes reposent donc sur une mthode de loca-
lisation qui ralise un suivi de position. En effet, si le robot atteint un lieu qui nest pas reprsent
11.1. LES PROBLMES DE LA CARTOGRAPHIE
dans la carte, il est possible, grce ces mthodes locales, de dnir sa position par rapport
une position prcdente connue au sein de la carte.
11.1.2 Fermetures de boucles
FIGURE 11.1 Un exemple simple denvironnement contenant un cycle.
Lutilisation de systmes de localisation effectuant un suivi de position lors de la cartographie
pose cependant certains problmes car, comme nous lavons vu au chapitre prcdent, ces m-
thodes peuvent diverger et conduire une estimation errone de la position sans possibilit de
retrouver la position relle du robot. Ce problme est particulirement important au cours du pro-
cessus de cartographie car les erreurs de localisation conduisent des mises jour errones de
la carte, ce qui peut conduire des erreurs durables dans les futures tentatives de localisation.
Ces erreurs sont cruciales dans les environnements cycliques, cest--dire dans des environ-
nements contenant des boucles dont les diffrentes parties ne sont pas toutes visibles par les
capteurs les unes partir des autres (cf. gure 11.1). En effet, dans de tels environnements,
les erreurs de cartographie durant le parcours du cycle peuvent empcher la reconnaissance de
la fermeture du cycle et conduire des cartes la topologie errone (cf. gure 11.2). Il existe
dailleurs des algorithmes spcialement adapts la dtection de fermetures de boucles an de
pouvoir corriger ce type derreurs [1].
11.1.3 Cartographie incrmentale et retour en arrire
Un autre problme important de la cartographie est le choix de la reprsentation utilise pour
mmoriser les informations qui serviront par la suite au robot. Nous avons dj prsent les
rponses ce problme en prsentant les diverses structures de cartes, mais il faut garder
lesprit que le choix de cette structure a une grande inuence sur la qualit du processus de
cartographie. Le choix de la reprsentation va dterminer la possibilit de faire ou non des mises
jour globales et efcaces lorsque de nouvelles informations sont disponibles.
On peut distinguer deux grandes catgories de mthodes de cartographie. La cartographie
incrmentale [134] constitue une premire mthode simple de construction de carte. Elle permet
Carte topologique Carte mtrique Environnement rel
FIGURE 11.2 Lorsque la position du robot est estime par une mthode de suivi de position,
les erreurs saccumulent pendant le parcours dun cycle. Lors de la fermeture de ce cycle, le
systme peut alors tre incapable de reconnatre la position initiale du robot, ce qui conduit
a une carte incorrecte, dans le cas topologique (partie gauche) comme dans le cas mtrique
(partie droite).
simplement dajouter localement de nouvelles informations dans la carte partir de lestimation
courante de la position du robot. Cependant, si cette estimation se rvle fausse a posteriori, il
est impossible de revenir sur les modications qui ont t effectues. Cette limitation se rvle
problmatique dans les environnements contenant des cycles parce que la fermeture dun tel
cycle donne une information importante sur les erreurs des estimations prcdentes de la po-
sition du robot. Cette information est ignore par les systmes de cartographie incrmentale et
conduit, dans le cas denvironnements cycliques des cartes dans lesquelles les erreurs vont se
concentrer dans une petite zone (cf. gure 11.2 et 11.3).
La cartographie incrmentale constitue la mthode de base de nombreux systmes utilisant
des cartes topologiques. Cette mthode est galement utilise pour la cration de grilles doccu-
pation que nous dcriront plus loin.
La seconde catgorie de systmes de cartographie regroupe les systmes qui permettent
dintgrer des informations a posteriori sur les positions passes du robot (gure 11.3). Il faut
noter que lintgration de donnes a posteriori sur les positions passes est relativement simple
dans les cartes topologiques grce la sparation des donnes proprioceptives et des percep-
tions que cette reprsentation implique. En effet, des erreurs dans lestimation de la position du
robot ninuent que sur les informations mmorises dans les liens de la carte, et non sur les
perceptions qui sont mmorises dans les nuds. Ainsi, revenir sur une modication passe de
la carte, lorsque des nouvelles informations sur la position du robot sont disponibles, requiert
simplement de modier les informations mmorises dans les liens et ne concerne pas les per-
ceptions mmorises. Dans le cas des cartes mtriques, la modication dune position passe
va avoir des rpercussions sur les perceptions (via le modle mtrique) et va donc rendre les
modications dues aux retours en arrire assez profondes. Pour permettre de tels retours en
arrire, il faut alors utiliser un moyen de mmoriser les perceptions en les reliant la position
depuis laquelle elles ont t perues. Cela peut se faire en mmorisant les perceptions indpen-
11.2. CARTOGRAPHIE INCRMENTALE
Environnement rel Carte partielle
Cartographie incrmentale Cartographie avec retour en arrire
FIGURE 11.3 Illustration des capacits de cartographie sur une carte topologique. En bas
gauche, la cartographie incrmentale ne fera que des corrections locales lors dune fermeture
de boucles. En bas droite, une mthode de cartographie avec retour en arrire pourra
potentiellement corriger toute la carte pour rduire les erreurs.
damment (des scans lasers par exemple), mais nest pas possible pour certaines reprsentations
(notamment les grilles doccupation).
11.2 Cartographie incrmentale
Les modles de cartographie incrmentale utilisent donc une mthode de suivi de position
pour estimer la position du robot par rapport la carte existante. Au vu de cette position, si
la carte ne reprsente pas le lieu ou les objets perus par le robot, ceux-ci sont ajouts la
carte. En revanche, si ce lieu est dj reprsent, la carte est adapte en fonction des nouvelles
perceptions.
11.2.1 Cartes Topologiques
Pour construire une carte topologique, nous commenons donc par estimer la position du
robot. Dans les cartes topologiques sans perceptual aliasing [124, 25, 93, 51, 146, 55, 10], il suft
de comparer les perceptions courantes avec les donnes mmorises dans chacun des nuds
de la carte. Si aucun des nuds ne correspond sufsamment bien aux donnes courantes, cela
signie que le lieu nest pas reprsent dans la carte et quil devra donc tre ajout. Au contraire,
si la similitude des donnes courantes avec un nud de la carte est sufsante, ce nud sera
reconnu comme la position courante du robot. Le choix entre ces deux alternatives est le point
difcile du processus de cartographie. En effet, dans le cas de la simple localisation, il suft de
trouver le nud correspondant le mieux la situation courante pour trouver la position du robot.
Dans le cadre de la cartographie, il faut de plus utiliser un seuil pour dcider si le lieu le plus
similaire est la position courante du robot ou non : si la similitude est suprieure ce seuil, le
nud est reconnu, sinon un nouveau lieu est cr. Cette utilisation dun seuil rend le processus
de cartographie potentiellement plus instable que la localisation seule.
Lorsque le perceptual aliasing est pris en compte, percevoir un lieu diffrent de tous les lieux
mmoriss dans la carte permet toujours de conclure que ce lieu est nouveau. Mais des per-
ceptions qui correspondent un lieu dj mmoris ne sont pas sufsantes pour dterminer si
le lieu est nouveau ou sil est connu car un lieu nouveau peut tre similaire un lieu dj visit.
La position prcdente du robot doit donc tre prise en compte pour dterminer si un lieu est
nouveau ou sil correspond un nud mmoris. Si la position prdite par lodomtrie depuis le
lieu prcdent ne correspond pas au lieu dj mmoris, le lieu est considr comme nouveau et
ajout la carte [82, 43, 84, 145, 83, 142, 105, 12]. Certains modles intgrent directement les
informations perceptuelles et la position pour la reconnaissance des nuds, se ramenant ainsi
au cas o il ny a pas de perceptual aliasing [6, 137, 33, 98].
Une fois le noeud reconnu ou cr, les perceptions sont utilises pour corriger les donnes
mmorises dans ce nud. Cela permet davoir une meilleure estimation des perceptions carac-
trisant le lieu grce au ltrage du bruit sur ces donnes. Les donnes proprioceptives recueillies
depuis le nud prcdent sont ensuite utilises pour crer ou modier larte qui joint le nud
prcdent au nud courant. Ce processus de cartographie est dcrit par lalgorithme 11.1
Algorithm 11.1 Algorithme de cartographie topologique pour un dplacement u et des per-
ceptions Y
1: if Il existe noeud
i
compatible avec u, Y et Position
t1
then
2: Position
t
= noeud
i
3: else
4: Position
t
= nouveau noeud
5: end if
6: Mettre jour donnes de Position
t
avec Y
7: Mettre jour la connexion Position
t1
- Position
t
avec u
Comme nous lavons mentionn prcdemment, dans le cas o des informations mtriques
sont mmorises entre les lieux, la carte obtenue peut alors se rvler incohrente. Dans les
mthodes de cartographie incrmentale, la cohrence peut tre assure par lassociation dune
position chacun des nuds de la carte [6, 137, 33, 98, 84], ou par une adaptation locale des
valeurs des liens (gure 11.3). Dans le cas o ces valeurs seront ensuite simplement utilises de
manire locale
1
, sans chercher estimer les relations mtriques entre lieux distants, le maintien
1. Par exemple pour guider un robot entre deux nuds voisins via lodomtrie relative
de la cohrence peut tre simplement nglig [82, 43].
11.2.2 Cartes mtriques : corrlation de scan
Une premire mthode simple de cartographie mtrique incrmentale consiste simplement
utiliser une mthode de corrlation de scans lasers ou de cartes locales. Lorsque le robot pro-
gresse dans une zone encore non cartographie, la corrlation est simplement effectue entre la
carte locale courante et la carte locale prcdente. La nouvelle carte locale est ensuite ajoute
la carte de lenvironnement sa position estime (Figure 11.4).
FIGURE 11.4 Exemple de carte mtrique cre par corrlation de scans. Chacun des cercles
reli par une ligne indique le centre dun scan ajout la carte (repris de [32]).
Lorsque le robot revient ensuite dans une zone dj cartographie aprs avoir parcouru une
boucle, la corrlation peut tre faite entre la carte locale courante et la portion de la carte globale
la plus proche de la position actuelle (en non uniquement avec la carte locale prcdente). Ceci
permet de r-estimer la position du robot dans la portion de carte dj construite, mais ne corrige
pas la carte le long de la boucle. Nous verrons plus loin (section 11.3.1) comment tendre ces
mthodes pour corriger ces erreurs.
Cette mthode est en gnral sufsante lorsquelle est utilises avec les donnes dun tl-
mtre laser et dans un environnement de taille limite ne contenant pas de grands cycles. Lors
de la fermeture de grands cycles, par contre, elle montre rapidement ses limites car les erreurs de
localisation ne permettent pas de trouver la bonne portion de carte avec laquelle faire la corrla-
tion. La mthode choue alors, mais il est possible dajouter des procdures spciques qui font
une recherche globale lorsquun cycle semble tre ferm et permettent de rattraper ces checs
[64].
11.2.3 Cartes mtriques : grilles doccupation
Une autre mthode de cartographie incrmentale trs populaire est la construction de grille
doccupation. Rappelons que les grilles doccupation sont une reprsentation de lenvironnement
dans laquelle lespace est discrtis en cellules rgulires et dont chaque cellule a une probabilit
associe dtre occupe par un obstacle (Figure 11.5). Le construction de grille doccupation est
lune des premires mthodes de cartographie a avoir t dveloppe.
FIGURE 11.5 Exemple de grille doccupation cre partir de mesures dun tlmtre laser.
Dans les premiers travaux de leurs crateurs, Moravec et Elves [101, 131], la construction de
grilles doccupation supposait la position du robot connue. Dans des dveloppements ultrieurs,
toutefois, la grille en cours de construction est utilise pour estimer la position du robot. On utilise
pour cela des techniques de mise en correspondance de grilles similaires celles prsentes
dans la section 10.2.3. Ces mthodes de recalage permettent de limiter la drive de lodom-
trie, mais ne sont en gnral pas sufsantes pour garantir une cartographie correcte dans les
environnement cycliques. Pour rsoudre ce problme, il est possible dutiliser des hypothses
sur lenvironnement, an de permettre le recalage de lodomtrie durant la cartographie. Lhypo-
thse la plus couramment utilise suppose que les murs de lenvironnement sont rectilignes et
orthogonaux [131, 83], ce qui permet de corriger facilement lestimation de la direction du robot.
Aprs avoir estim la position du robot, les valeurs des diffrentes cellules de la grille doc-
cupation sont mises jour en fonction des perceptions. Pour cela, nous disposons dun modle
des capteurs P(occ
i
|s) qui, pour une perception s donne, nous fournit la probabilit doccupation
des cellules dans le champ de vision du capteur en fonction de la valeur renvoye par le capteur.
Ce modle probabiliste est en gnral similaire ceux prsents dans la section 4.2.2 pour la
distance au capteur et utilise une erreur gaussienne pour lcart entre la direction de la cellule et
la direction du capteur.
Nous cherchons donc accumuler ces mesures pour estimer la probabilit pour la cellule i
dtre occupe en fonctions de toutes mesures prcdentes : P(occ
T
i
) = P(occ
i
|s
1
, ..., s
T
). Pour
cela, nous utilisons, comme souvent, la formule de Bayes pour extraire la probabilit de la dernire
mesure en fonction des autres variables :
P(occ
T
i
) =
P(s
T
|occ
i
, s
1
, ..., s
T1
)P(occ
i
|s
1
, ..., s
T1
)
P(s
T
|s
1
, ..., s
T1
)
En faisant lhypothse que le monde est statique, qui se traduit par le fait que les mesures sont
conditionnellement indpendantes si lon connat la valeur de la cellule de la carte, nous pouvons
simplier :
P(occ
T
i
) =
P(s
T
|occ
i
)P(occ
T1
i
)
P(s
T
|s
1
, ..., s
T1
)
notre modle de capteur nous donnant P(occ
i
|s
T
), nous le faisons apparatre en utilisant
Bayes une nouvelle fois :
P(occ
T
i
) =
P(occ
i
|s
T
)P(s
T
)
P(occ
i
)
P(occ
T1
i
)
P(s
T
|s
1
, ..., s
T1
)
Dans cette quation nous ne connaissons pas P(s
T
) ni P(s
T
|s
1
, ..., s
T1
). Pour pouvoir esti-
mer P(occ
T
i
), nous allons utiliser le fait que la valeur doccupation est binaire. Nous commenons
par calculer la probabilit que la cellule soit vide P( occ
T
i
), ce qui se fait de la mme manire :
P( occ
T
i
) =
P( occ
i
|s
T
)P(s
T
)
P( occ
i
)
P( occ
T1
i
)
P(s
T
|s
1
, ..., s
T1
)
et nous permet en utilisant le rapport des deux valeurs, de se dbarrasser des termes g-
nants.
P(occ
T
i
)
P( occ
T
i
)
=
P(occ
i
|s
T
)
P( occ
i
|s
T
)
P( occ
T1
i
)
P(occ
T1
i
)
P( occ
i
)
P(occ
i
)
et en utilisant le fait que P( occ
i
) = 1P(occ
i
), nous obtenons :
P(occ
T
i
)
1P(occ
T
i
)
=
P(occ
i
|s
T
)
1P(occ
i
|s
T
)
1P(occ
T1
i
)
P(occ
T1
i
)
1P(occ
i
)
P(occ
i
)
il est alors possible dextirper P(occ
T
i
) de cette expression, mais il est plus simple de chercher
estimer directement la valeur l
i
dnie par :
l
T
i
= log
_
P(occ
T
i
)
1P(occ
T
i
)
_
qui se calcule simplement par :
l
T
i
= log
_
P(occ
i
|s
T
)
1P(occ
i
|s
T
)
_
+log
_
1P(occ
i
)
P(occ
i
)
_
+l
T1
i
(11.1)
Ceci nous fournit une rgle simple de mise jour incrmentale des valeurs l
T
i
en fonction
des valeurs prcdentes et du modle de capteur. La valeur P(occ
i
) est une valeur initiale de
la probabilit doccupation. Elle est en gnral choisie gale 0,5 mais peut tre plus faible
ou plus forte si lon souhaite intgrer un a priori sur le fait que lenvironnement contient une
densit plus ou moins grande dobstacles. On retrouve ensuite la probabilit doccupation par :
p(occ
T
i
) = 11/e
l
T
i
Il existe galement des moyens plus simples de mise jour des grilles, qui consistent sim-
plement estimer la probabilit doccupation dune cellule en fonction du nombre de perceptions
de cette cellule qui ont eu lieu. Ainsi, si on note occ(x, y) le nombre de fois o un obstacle a t
dtect dans cette cellule et vide(x, y) le nombre de fois o cette cellule est apparue vide car le
faisceau du tlmtre a travers cette cellule, on peut simplement estimer la probabilit par :
P
occ
(x, y) =
occ(x, y)
vide(x, y) +occ(x, y)
Une variante encore plus simple pour crer une grille doccupation est une mise jour utilisant
un simple dcompte dans lequel on ajoute une certaine valeur xe la probabilit doccupation
dune cellule si un obstacle y est dtect et on retranche une autre valeur xe si la cellule a t
traverse par le faisceau [78] (voir aussi la section 6.2). Cette mthode, nomme "histogrammic in
motion mapping (HIMM)" prsente cependant linconvnient de ne pas converger vers une valeur
xe lorsque le nombre de perceptions dune cellule tend vers linni. Elle est de plus relativement
sensible au bruit et suppose des rglages dlicats de paramtres pour tre adapte un robot
spcique.
11.2.4 Stratgies dexploration
Pour limiter les erreurs de cartographie dans ce types de mthodes, il est possible dutiliser
une exploration active de lenvironnement, plutt que de passivement mmoriser les donnes
recueillies par le robot. Dans le cadre des cartes topologiques, il est par exemple possible, lors-
quun nud a t reconnu, de chercher atteindre un des nuds voisins mmoris dans la carte
[82]. Si ce second nud est correctement dtect, il permet de conrmer la dtection du nud
prcdent qui est alors mis jour. Dautre modles utilisent une exploration active de lenvironne-
ment pour diriger le robot vers les zones pour lesquelles lincertitude de la carte est grande dans
le but de la rduire [42]. Enn certains modles sont capables de gnrer des hypothses sur
des portions non visites de lenvironnement qui sont ensuite vries grce une procdure qui
dirigera le robot dans les zones o de telles hypothses ont t faites [83]. Des stratgies dex-
plorations peuvent galement tre utilises an de garantir un exploration rapide et exhaustive de
lenvironnement [131, 83, 147].
11.3. RETOUR SUR LES MODIFICATIONS PASSES
Dune manire gnrale, de telles procdures permettent donc, dune part, de limiter les er-
reurs de cartographie en insistant sur les zones incertaines et en vitant que lestimation de la
position ne devienne trop mauvaise et, dautre part, de garantir une exploration exhaustive de
lenvironnement.
11.3 Retour sur les modications passes
Dans les mthodes de cartographie prcdentes, les modications apportes la carte au
cours du processus de cartographie se font donc en supposant que lestimation de la position
du robot au moment de cette modication est correcte. Or cette estimation se rvle en gnral
fausse, ou entache derreur, a posteriori. Dans ce cas, les modications de la carte ont t
effectues de manire incorrecte, et il serait souhaitable de pouvoir revenir sur ces modications
pour prendre en compte les nouveaux indices sur les positions passes du robot. La plupart des
modles de cartographie utiliss actuellement, que nous prsentons dans ce paragraphe, en sont
capables.
11.3.1 Mthodes de relaxation
FIGURE 11.6 Illustration du principe des mthodes de relaxation.
Une premire mthode pour prendre en compte la nouvelle information de position est de
propager lerreur tout le long du cycle parcouru par le robot. Cette mthode peut sappliquer
des cartes topologiques ou des cartes de scans (voir section 11.2.2). Intuitivement, cela
correspond identier la carte un rseau de ressorts, dont les positions au repos correspondent
aux positions relatives des nuds (gure 11.6). Lerreur lors de la fermeture de boucle correspond
alors un dsquilibre dans ce rseau de ressort. Pour obtenir une carte globalement cohrente
et qui respecte au mieux les positions relatives des nuds, il suft de calculer la position de repos
du rseau de ressorts (dou le terme de mthodes de relaxation).
FIGURE 11.7 Principe de la mthode de relaxation itrative de [35, 2].
Il existe diffrents algorithmes de relaxation. Nous prsentons ici un algorithme itratif trs
simple qui donne de bons rsultats [35, 2]. Le principe de cet algorithme est de calculer la position
de chaque nud partir de celle de ses voisins itrativement jusqu convergence des positions
(gure 11.7). Ainsi pour chaque nud i, les trois tapes suivantes sont appliques :
Estimation de la position du nud i depuis chaque voisin j :
(x
i
)
j
= x
j
+d
ji
cos(
ji
+
j
) (11.2)
(y
i
)
j
= y
j
+d
ji
sin(
ji
+
j
) (11.3)
(
i
)
j
=
j
+
ji
(11.4)
et estimation de la variance du nud i depuis le nud j :
(v
i
)
j
= v
j
+v
ji
Estimation de la variance du nud i par la moyenne harmonique des estimations depuis
les voisins :
v
i
=
n
i
j
1
(v
i
)
j
(11.5)
(11.6)
o n
i
est le nombre de voisins du nud i.
Estimation de la position du nud comme la moyenne pondre des estimations depuis
ses voisins :
x
i
=
1
n
i
j
(x
i
)
j
v
i
(v
i
)
j
(11.7)
y
i
=
1
n
i
j
(y
i
)
j
v
i
(v
i
)
j
(11.8)
i
= arctan
_
_
j
sin((
i
)
j
)
(v
i
)
j
j
cos((
i
)
j
)
(v
i
)
j
_
_
(11.9)
(11.10)
La gure 11.8 montre un exemple de lapplication de cet algorithme une carte topo-mtrique.
Les nuds entours montrent les fermetures de boucles, cest dire les retours dtects une
position prcdente qui sont utiliss pour contraindre le graphe.
FIGURE 11.8 Exemple de carte topo-mtrique obtenue par vision pour la dtection de fer-
meture de boucle et relaxation, superpose une carte mtrique de rfrence obtenue par
corrlation de scans lasers (tir de [2]).
Cet algorithme donne de bons rsultats, mais peut tre assez lent converger. En effet, si
lon applique la mise jours tous les nuds dans un ordre xe (lordre de cration des nuds
par exemple), lerreur qui est localise sur une seule arte au dpart ne sera propage que sur un
voisin supplmentaire chaque tour. Pour acclrer la convergence, il est possible de simplement
r-ordonner la mise jour des nuds an que lerreur se diffuse plus rapidement.
Cest ce que propose par exemple lalgorithme TORO (Tree-based netwORk Optimizer) [61]
qui construit un arbre associ au graphe de la carte pour dterminer un ordre optimal de mise
FIGURE 11.9 Illustration de la construction de larbre associ un graphe de lalgorithme
TORO (tir de [61]). Lordre de mise jour optimal des nuds pour la relaxation est donn
par le parcours de larbre : 1, 2, 9, 3, 4, 7 ...
jour. Cet arbre est construit simplement en ajoutant chaque nouveau nud comme ls du plus
ancien de ses voisins (gure 11.9). La mthode de mise jour de la position des nuds est en-
suite applique dans lordre donn par le parcours descendant de larbre. Ainsi dans lexemple de
la gure 11.9, lerreur
2
initialement concentre sur larte entre les noeuds 1 et 9 sera propage
lors du premier parcours de la carte aux nuds 9 et 2, puis 3, 4, 7. Avec une mise jour dans
lordre de cration des nuds, la propagation aurait simplement t faite aux nuds 2, 3, 4... La
premire mise jour naurait donc modi que la position du nuds 9 et aurait t nulle pour les
autres.
11.3.2 Cartographie par ltrage de Kalman tendu
Le ltrage de Kalman tendu (section 10.3.3) peut aussi tre utilis pour la cartographie.
Cest cette mthode qui tait lorigine prsente sous le terme SLAM [129, 91]. Le terme SLAM
est depuis devenu plus gnrique et la cartographie par ltrage de Kalman tendu se retrouve
souvent sous le nom "EKF SLAM".
Le ltrage est ici utilis non seulement pour estimer la position du robot, mais aussi pour es-
timer la position des diffrents lments enregistrs dans la carte. Cette mthode est en gnral
utilise avec des cartes reprsentant lenvironnement sous forme dobjets gomtriques simples
tels que des points ou des segments. Elle va permettre dutiliser les relations mesures entre le
robot et ces objets pour estimer leurs diffrentes positions.
Plus gnralement, lide est donc dutiliser un ltrage Baysien estimant la fois les positions
du robot (x
t
) et des objets de la carte (c
t
) :
Bel(x
t
, c
t
) = p(y
t
|x
t
, c
t
)

p(x
t
, c
t
|x
t1
, c
t1
, u
t1
)Bel(x
t1
, c
t1
)dx
t1
dc
t1
2. Dnie comme lcart entre la position relative des nuds enregistre dans larte et la position relative cal-
cule par la diffrence de leur position absolue
Cette quation peut tre simplie en utilisant lhypothse de monde statique, qui est utilise
dans la plupart des modles, et qui entrane donc que la carte de lenvironnement reste la mme
au cours du temps (c
t
= c
t1
). Il faut bien distinguer cette hypothse du fait que notre estimation
de la probabilit des diffrentes cartes (Bel(x
t
, c
t
)) volue au cours du temps, et donc que la carte
que nous supposons reprsenter lenvironnement (la plus probable en gnral) change au cours
du temps. En utilisant cette hypothse, lquation du ltrage devient alors :
Bel(x
t
, c
t
) = p(y
t
|x
t
, c
t
)

p(x
t
|x
t1
, u
t1
)Bel(x
t1
, c
t1
)dx
t1
dc
t1
Comme pour la localisation, ce ltrage peut tre implment de diffrentes manires, par
exemple en utilisant un ltre de Kalman ou un ltrage particulaire (voir section suivante). Il peut
galement tre utilis avec diffrentes formes de cartes, qui rendent son implantation plus ou
moins aise. La technique communment nomme EKF SLAM consiste en limplantation de ce
ltrage sous la forme dun ltre de Kalman tendu, en utilisant une carte contenant des amers qui
peuvent tre des points ou des segments. Cest historiquement la premire implantation de ce
type de cartographie [129].
Dtaillons a titre dexemple une implantation de cette mthode utilisant une carte contenant
des amers ponctuels. Dans un tat o la carte contient N amers, on utilise un vecteur dtat
contenant la position du robot et des diffrents amers. Le vecteur dtat est donc de dimension
2N+3 :
Bel(x
t
, c
t
) =
_
_
x
y
x
a1
y
a1
.
.
.
x
aN
y
aN
_
_
La matrice de covariance associe permet de mmoriser les relations qui ont t perues
entre les amers et entre les amers et le robot. Cest lutilisation de ces covariances lors de la
mise jour qui permettra un retour sur les modications passes au sens ou elle permettra de
propager toute nouvelle information de position du robot vers les lments dont la position relative
avec le robot est connue (cd les lments avec lesquels la covariance est non nulle).
Supposons que lon commande les vitesses de rotation et de translation du robot u = (v, ),
lquation dvolution ne modiera que la position du robot et sera alors :
f (X
t
, u) =
_
_
x +v.dt.cos()
y +v.dt.sin()
+.dt
x
a1
y
a1
.
.
.
x
aN
y
aN
_
_
Ce qui donne la matrice jacobienne :
A =
_
_
1 0 sin() 0 . . . 0
0 1 cos() 0 . . . 0
0 0 1 0 . . . 0
0 . . . . . . . . . . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 . . . . . . . . . . . . 0
_
_
enn si lon suppose que lors de la perception de lamer i, on mesure sa position relative dans
le repre li au robot en coordonnes polaires (r
i
,
i
), lquation dobservation sera :
h
i
(X
t
) =
_
_
(x x
ai
)
2
+(y y
ai
)
2
atan2(
y
ai
y
x
ai
x
)
_
la matrice jacobienne de lquation dobservation scrira alors :
H
i
=
_
_
(xx
ai
)
(xx
ai
)
2
+(yy
ai
)
2
(yy
ai
)
(xx
ai
)
2
+(yy
ai
)
2
0
(yy
ai
)
(xx
ai
)
2
+(yy
ai
)
2

(xx
ai
)
(xx
ai
)
2
+(yy
ai
)
2
1
_
_
Pour estimer la fois la position des amers et du robot, il sufra alors de drouler les quations
du ltrage de Kalman tendu :
Prdiction de ltat :
X
t
= f (

X
t1
, u
t
) (11.11)
et de la covariance :
P
t
= A.

P
t1
.A
T
+Q (11.12)
Prdiction de lobservation :
Y
t
= h(X
t
) (11.13)
Observation : on obtient une mesure Y, dont on estime le bruit P
Y
grce au modle du
processus de perception.
Correction de ltat prdit :
X
t
= X
t
+K(Y Y
t
) (11.14)
P
t
= P
t
KHP
t
(11.15)
ou K est le gain de Kalman :
K = P
t
H
T
.(H.P
t
.H
T
+P
Y
)
1
(11.16)
Cette mise jour suppose que lamer peru soit dj dans la carte et donc dans le vecteur
dtat. Si lamer dtect par le robot nest pas dans la carte, il est simplement ajout la n
du vecteur dtat et toutes les matrices sont agrandies de 2 lignes (et ventuellement colonnes)
correspondantes.
1
2
3 4
1
2 2
1
4
A B C
FIGURE 11.10 Illustration de lalgorithme de SLAM par ltrage de Kalman. Dans la partie A,
le robot, dans sa position initiale, peroit les amers 1 et 2 qui sont ajouts la carte. Dans
la partie B, le robot sest dplac (on dispose dune estimation bruite de sa position par
lodomtrie) et il peroit les deux amers 3 et 4. Dans la partie C, on a considr que les amers
2 et 3 taient le mme amer, ce qui a permis de mieux estimer sa position et de corriger
lestimation de la position du robot. Lamer 4 a t ajout la carte.
Il reste un problme important dans la mthode dcrite car elle suppose que lon soit ca-
pable didentier les amers, cest dire de savoir quel amer i correspond un amer peru. Or,
en utilisant de simples points ou segments de droites, cela se rvle difcile cause du trs fort
perceptual aliasing. Comme pour la localisation, il y a deux mthodes possibles pour rsoudre ce
problme. La premire est de particulariser chaque amer, par exemple en utilisant une image de
lenvironnement autour de lamer an de pouvoir lidentier individuellement. Cette mthode est
rarement sufsante car avec laugmentation de la taille de lenvironnement on retombe en gnral
sur le problme de perceptual aliasing. La seconde solution repose sur des amers indistinguables
et slectionne lamer correct en se basant sur sa position estime. Pour cela, on estime la po-
sition absolue de lamer peru partir de la position estime du robot, puis on considre quil
correspond lamer de la carte dont la position est la plus proche. Cette mise en correspondance
peut galement utiliser une distance de Mahalanobis (voir section 10.3.3), ou utiliser des critres
supplmentaires qui caractrisent les amers. Si les amers sont des segments, par exemple, on
peut chercher le segment le plus proche qui ait la mme direction que le segment peru.
Lalgorithme 11.2 dcrit nalement le processus complet de cette mthode de cartographie.
Cette mthode est galement illustre graphiquement dans la gure 11.10.
Algorithm 11.2 Algorithme de SLAM pour un dplacement u et un amer peru Y
1: Prdiction de ltat X
t
= f (

X
t1
, u
t
)
2: Estimation de la position et de la variance de lamer peru x
Y
, y
Y
,
x
Y
,
y
Y
3: for all Amer i do
4: Calcul de la distance de Mahalanobis d
2
i
=
1
2
(Y Y
i
)
T
(P
Y
+P
Y
i
)
1
(Y Y
i
)
5: end for
6: Slection de lamer j de la carte tel que d
j
soit minimal
7: if d
j
< Seuil : lamer est dj dans la carte then
8: Prdiction de lobservation Y
j
t
= h
j
(X
t
)
9: Correction de ltat prdit

X
t+1
= X
t
+K(Y Y
j
t
)
10: else
11: ajout de lamer peru la carte
12: end if
La principale faiblesse de cette mthode rside dans la phase dappariement qui peut en-
traner une divergence de lalgorithme en cas derreur. En effet, dans ce cas, non seulement la
position de lamer appari par erreur sera mal estime, mais cette mauvaise estimation sera pro-
page aux autres amers, via la matrice des covariances, ainsi qua la position du robot. Cette
mauvaise estimation de la position du robot produira par la suite de nouvelles erreurs dapparie-
ment qui se succderont et entraneront la divergence complte de lalgorithme.
Un autre inconvnient est la complexit des calculs requis, qui augmente en O(N
2
) avec le
nombre damers de la carte. Ceci est li la taille de la matrice de covariances qui est N N.
Or cette matrice mmorise les interrelations entre les positions des amers et du robot et est
ncessaire la bonne estimation de ces positions.
Pour rduire la complexit des calculs, il est cependant possible de rduire la taille de cette
matrice en ngligeant certaines interrelations entre amers. Ceci peut se faire par exemple en ne
mmorisant les covariances quau sein de cartes locales, dont lassemblage couvre lensemble
de lenvironnement. Diverses mthodes existent, utilisant diffrentes manires de dcouper la
carte globale et de propager les informations entre cartes locales (par exemple [109]).
11.3.3 Fast SLAM
La mthode dappariement des amers utilise dans la mthode du SLAM EKF est la source
de la plupart des problmes de cette mthode. Elle repose en effet sur lhypothse que lestima-
tion de la position du robot est approximativement correcte pour fournir un appariement correct.
On peut donc remarquer que si la position du robot est parfaitement connue, le problme se sim-
plie normment car la mise en correspondance ne pose plus de problme et il reste simplement
estimer correctement la position des amers, ce qui est relativement trivial (sous lhypothse de
la connaissance de la position du robot).
Cette remarque a inspir la mthode de cartographie nomme Fast SLAM [100, 70, 60]. Dans
cette mthode, on mmorise un grand nombre de trajectoires possibles, dont on value la pro-
babilit, et pour ces trajectoires, on construit simplement la carte partir des perceptions. Cet
ensemble de trajectoires correspond en fait un chantillonage de la distribution de probabilit
sur ces trajectoires au moyen dun ltre particulaire . Pour la construction de la carte partir de
lune de ces trajectoires, on utilise le ltrage de Kalman, mais dans des conditions beaucoup plus
favorables. En effet, comme la trajectoire est connue, les perceptions successives des diffrents
amers deviennent indpendantes et il nest plus ncessaire de mmoriser lensemble des cova-
riances, mais seulement les variances des amers individuels. On passe ainsi dune complexit
en O(N
2
) une complexit en O(N) pour la partie ltrage de Kalman. Il faut cependant y ajouter
la complexit du ltrage particulaire sur les trajectoires, mais globalement, lalgorithme est plus
stable et moins gourmand en calculs que le SLAM original.
Cette mthode de sparation du problme de SLAM et un ltre particulaire pour la partie non
gaussienne et en un ltre de Kalman pour une partie du sous problme est une mthode trs
gnrale connue sous le nom de Rao-Blackwellisation du ltre.
FIGURE 11.11 Avant la fermeture dun cycle, un trs grand nombre de trajectoires sont va-
lues. Aprs fermeture, le ltre particulaire sur les trajectoires slectionne automatiquement
celle correspondant effectivement au cycle (image tire de [70]).
La force de ces mthodes est surtout apparente lors de la fermeture de grands cycles. En
effet, avant la fermeture, un grand nombre de trajectoires diffrentes sont mmorises, ce qui
permet davoir une forte probabilit que lune delle corresponde la trajectoire prcise du cycle.
Aprs la fermeture du cycle, le r-chantillonage du ltre particulaire slectionne naturellement
les trajectoires correctes et permet ainsi une cartographie correcte du cycle (Figure 11.11). Ce
r-chantillonage entraine cependant une forte perte dinformation, puisque la plupart des tra-
jectoires estimes avant la fermeture de boucle sont ignores (cest le problme classique de
rarfaction des particules des mthodes de ltrage particulaire, voir section 10.4.4). Cette perte
dinformation devient problmatique dans des environnements contenant plusieurs cycles, no-
tamment dans le cas de cycles imbriqus.
FIGURE 11.12 Exemple de carte construite par la mthode du FastSLAM. Cette carte
contient de nombreux couloirs et plusieurs boucles et reprsente donc un problme difcile
pour le SLAM (image tire de [60]).
Une mthode de cartographie trs similaire au FastSLAM permet de construire une carte
mtrique directement partir des donnes laser [70]. Elle nutilise pas de ltre de Kalman, mais
repose sur un chantillonage des trajectoires possibles par un ltre particulaire et sur un algo-
rithme rapide de corrlation de scans pour lvaluation des probabilits des trajectoires. Cette
mthode permet de construire de trs grandes carte contenant plusieurs cycles (Figure 11.12).
11.4. COMPARAISON DES MTHODES DE CARTOGRAPHIE
11.4 Comparaison des mthodes de cartographie
Les mthodes de cartographie les plus simples sont les mthodes de cartographie incrmen-
tales topologiques, elles montrent cependant rapidement leurs limites en terme de robustesse et
demandent souvent une mise au point importante pour obtenir une capacit de reconnaissance
de nuds sufsamment ables.
Concernant la cartographie mtrique, les mthodes de corrlation de scans laser et de grille
doccupation sont galement assez simples mettre en oeuvre et sont sufsantes pour des envi-
ronnements de taille restreinte, ne contenant notamment pas trop de cycles. Elles sont donc trs
populaires.
Les mthodes de SLAM seront en gnral plus efcaces, mais plus complexes mettre en
oeuvre. La version basique du SLAM utilisant un ltre de Kalman reste cependant assez simple,
mais au prix dun manque de robustesse en cas de mauvaises perceptions ou de mauvaise
odomtrie et dune grande sensibilit la qualit de lassociation de donnes. Le FastSLAM
quant lui est plus complexe mais apporte de rels gains de robustesse, il est cependant limit
par le problme de rarfaction des particules qui devient problmatique pour les environnements
de grande taille contenant plusieurs cycles.
Les archives de la "SLAM summer school" de 2002 contenant de nombreux articles et tuto-
riels :
http://www.cas.kth.se/SLAM/
Un site regroupant de nombreux algorithmes de SLAM en open-source :
http://www.openslam.org/
Le livre "Probabilitic Robotics" de Sebastian Thrun, Wolfram Burgard et Dieter Fox [135] d-
taille de manire trs prcise lensemble des algorithmes de SLAM.
CHAPITRE 12. PLANIFICATION
Chapitre 12
Planication
Connaissant une carte de lenvironnement et la position du robot au sein de cette carte, il
est possible de calculer une trajectoire pour rejoindre un but. Nous dcrirons dans ce chapitre
quelques mthodes simples pour la planication restreinte des dplacements en 2D. Pour un
aperu plus large des techniques de planication, on pourra par exemple se reporter [88] ou
[90].
12.1 Espace des congurations
Dans le cadre de ce cours, nous considrons des robots capables de se dplacer dans un
espace 2 dimensions dont les commandes inuent avec des relations simples sur la position
dans cet espace (via la vitesse et la direction). Le calcul des dplacements peut donc se faire
directement dans lespace de la carte, en vitant seulement les positions qui conduiraient des
collisions avec les obstacles. Dans un cadre plus gnral, la planication est plutt ralise dans
lespace des degrs de libert du robot appel espace des congurations (qui peut tre beaucoup
plus grand que lespace des mouvements, par exemple pour un bras manipulateur). Les obstacles
de lespace des dplacements sont alors traduits dans lespace des congurations par des C -
obstacles, qui correspondent aux congurations des degrs de libert qui vont faire percuter un
obstacle au robot.
FIGURE 12.1 Illustration de lespace des congurations dans le cas 2D. Gauche : Carte des
obstacles. Droite : espace des congurations contenant les positions accessibles au robot
sans percuter les obstacles (en blanc).
12.2. DISCRTISATION DE LESPACE DE RECHERCHE
Dans le cas 2D pour un robot holonome , lespace des congurations que nous utiliserons
sera donc simplement lespace de travail auquel nous enlverons toutes les positions conduisant
percuter un obstacle (gure 12.1), cest dire les obstacles euxmme, plus une marge de
scurit autour des obstacles correspondant au rayon du robot.
12.2 Discrtisation de lespace de recherche
Les algorithmes de planication utilisent en gnral des mthodes de recherche de chemin
dans des graphes. Il faut donc reprsenter la carte sous la forme dun graphe. Les cartes topo-
logiques fournissent directement ce graphe, mais dans le cas des cartes mtriques, qui repr-
sentent lespace de manire continue, ces techniques ne sont utilisables quaprs discrtisation
de lespace libre reprsent dans la carte. Pour ce faire, certains modles intgrent directement
cette dcomposition au niveau de la cartographie, en construisant une carte topologique paral-
llement la carte mtrique [5, 29, 131, 22]. Dautres modles font appel des dcompositions
de lespace libre spciques la planication. Notons quil existe galement des techniques,
tels les champs de potentiel analogues ceux dcrits dans le chapitre sur la navigation rac-
tive [87, 38, 104] qui permettent de calculer des chemins directement dans le domaine continu,
sans phase pralable de discrtisation. Nous naborderons cependant pas ces techniques dans
ce cours.
FIGURE 12.2 Exemples de dcompositions en cellules de lespace libre dans les cartes
mtriques.
Il existe deux catgories de mthodes pour discrtiser lespace de recherche des cartes m-
triques. Les mthodes de la premire catgorie font appel des dcompositions en cellules, de
diffrents types, qui permettent de reprsenter la topologie de lespace libre [87, 104] (cf. gure
12.2). La dcomposition exacte permet de reprsenter lensemble de lespace libre, laide de
cellules de formes irrgulires qui joignent les sommets des obstacles. La dcomposition en cel-
lules rgulires pave lespace libre de carrs, sur-estimant donc la surface des obstacles, ce qui
peut tre gnant si les cellules sont grandes. Ce type de reprsentation peut aussi correspondre
en pratique une grille doccupation pour laquelle ce problme ne se pose pas. Enn une re-
prsentation hirarchique telle que le quadtree permet dutiliser des cellules de taille variable
en fonction de la complexit locale de lenvironnement et de reprsenter donc nement lespace
libre tout en limitant loccupation mmoire. Les cellules obtenues sont ensuite utilises de ma-
nire similaire aux nuds des cartes topologiques dans le processus de planication, les cellules
adjacentes tant considres comme relies par une arte.
FIGURE 12.3 Exemples de dcompositions en chemins pr-calculs dans les cartes m-
triques.
Les mthodes de la seconde catgorie font appel au pr-calcul de chemins entre des points
rpartis dans lenvironnement [87, 88] (cf. gure 12.3). Le graphe de visibilit utilise les angles
dobstacles qui sont les points que le robot devra contourner pour viter ces obstacles. Le dia-
gramme de Vorono utilise les points quidistants de plusieurs obstacles qui permettent de g-
nrer des chemins passant le plus loin possible des obstacles. La mthode "Rapidly exploring
Random Trees" [89] quant elle, construit un arbre alatoirement en vriant que les branches
cres ne rencontrent pas les obstacles. Cette mthode est trs efcace car elle permet dchan-
tillonner lespace sans le parcourir de manire exhaustive et peut aussi prendre en compte les
contraintes de non-holonomie du robot. Les point sont ensuite utiliss comme les nuds dune
carte topologique, tandis que les chemins pr-calculs reliant les nuds seront utiliss comme
les artes de cette carte.
FIGURE 12.4 Exemple de planication de chemin dans une carte mtrique. Deux portions
de trajectoire sont calcules pour relier le point de dpart et le but des points de lespace
discrtis (points 1 et 2 dans cet exemple). Un chemin est ensuite calcul dans lespace
discrtis entre ces deux points. La trajectoire rsultante peut ensuite tre optimise pour
supprimer les effets de la discrtisation.
La planication du chemin entre deux points de lenvironnement se ralise alors en deux
12.3. RECHERCHE DE CHEMIN
tapes. La premire tape permet de calculer un chemin direct entre, dune part, le point de dpart
et le point le plus proche dans lespace discrtis et, dautre part, le point de lespace discrtis
le plus proche du but et le but en question. La seconde tape permet ensuite de calculer un
chemin entre ces deux points de lespace discrtis, en utilisant une des mthodes dcrites dans
le prochain paragraphe. Ces trois parties de trajectoires sont ensuite assembles pour obtenir
le chemin reliant le point de dpart au but. Une phase doptimisation supplmentaire peut tre
utilise pour limiter les effets de la discrtisation et lisser la trajectoire (cf. gure 12.4). Dans le cas
de la dcomposition de lespace libre en cellules, les points de lespace discrtis utiliss peuvent
tre les centres des cellules ou les milieux des cts des cellules. Dans le cas de lutilisation de
chemins pr-calculs, ces points sont simplement les points de passage de ces chemins.
12.3 Recherche de chemin
A partir dune carte mtrique discrtise ou dune carte topologique reprsente sous forme
dun graphe, il existe diffrentes mthodes pour calculer un chemin entre la cellule de dpart et
la cellule but. Nous distinguons ici les mthodes selon le type de plans quelles gnrent.
12.3.1 Deux types de plan
Le premier type de plan qui peut tre gnr contient une suite dactions effectuer par le
robot, ou une suite de points atteindre an de rejoindre le but. Les algorithmes classiques de
recherche dans les graphes, tels que lalgorithme de Dijkstra, A
, ou lune de leurs nombreuses

variantes, peuvent tre utiliss pour calculer ce type de plan [93, 79, 81, 120, 106, 5, 38]. La taille
raisonnable des cartes topologiques classiquement utilises en robotique rend ces algorithmes
sufsamment efcaces en pratique. Ce type de plan pose toutefois des problmes lors de son
excution si le robot ne parvient pas atteindre lun des points du chemin calcul, ou sil sloigne
de la trajectoire et que sa position correspond un nud qui ne fait pas partie du chemin plani.
La solution ces problmes est alors de recommencer le processus de planication en prenant
en compte la nouvelle position de dpart (ce qui peut mme se produire indniment en cas de
problme). Ce processus de replanication est souvent inutilement coteux en calcul car un grand
nombre des oprations ncessaires auront dj t effectues lors de la planication prcdente.
Un second type de plan peut tre utilis, qui associe chacune des positions possibles du
robot au sein de la carte laction quil doit effectuer pour atteindre son but. Ce type de plan est ap-
pel politique (comme pour lapprentissage par renforcement, section 7) ou plan universel [121].
Le rsultat est alors une stratgie de dplacement similaire la stratgie daction associe un
lieu mentionne dans la section 2.1. Lenchanement de reconnaissances de positions et de ra-
lisations des actions associes ces positions permet donc de gnrer une route joignant le but.
Ce type de plan prsente lavantage de permettre au robot datteindre le but, aussi longtemps
quil possde une estimation correcte de sa position. En effet, le chemin prcis rejoignant le but
nest pas spci et le robot peut donc scarter du chemin direct entre la position initiale et le but
sans entraner de replanication.
Une politique est plus lourde calculer que les plans du type prcdent car toutes les positions
de la carte doivent tre envisages, sans utiliser les heuristiques des algorithmes prcdents qui
permettent de restreindre lexploration de lespace de recherche. Toutefois, cette augmentation
est rapidement compense si le robot scarte du chemin direct vers le but. Dans ce cas, en
effet, la planication doit tre reprise pour le premier type de plan, alors que cest inutile pour une
politique. Le calcul dune politique reste donc en gnral praticable pour les cartes de taille limite
typiques de la robotique mobile.
12.3.2 Calcul de politique
Pour calculer une telle politique, une simple recherche en largeur dans le graphe en partant du
but peut tre utilise. Cette mthode se retrouve sous le nom de breadth rst search, spreading
activation [98, 10] ou wavefront propagation [104]. Ces deux derniers noms viennent de lanalogie
entre lordre de parcours du graphe et la manire dont un uide progresserait sil schappait du
but pour se rpandre dans le graphe.
Plutt que dassocier directement une action chaque tat, le calcul dune politique passe
souvent par le calcul dun potentiel associ chaque tat qui augmente en fonction de la distance
ncessaire pour atteindre le but depuis ltat courant. A partir de ce potentiel, il est alors trs
simple de retrouver les actions effectuer par une simple descente de gradient.
Pour calculer ce potentiel, des cots lmentaires sont associs chaque nuds et chaque
lien entre les nuds. Les cots associs aux liens traduisent en gnral la distance entre nuds,
tandis que les cots associs aux nuds permettent de marquer des zones viter ou favoriser
pour les trajectoires du robot.
Algorithm 12.1 Algorithme de Dijkstra
1: S = ensemble vide ; R = ensemble de tous les nuds ;
2: for all Noeuds i do
3: d(i) = +;
4: end for
5: d(but) = 0 ;
6: while R nest pas vide do
7: u = Extract-Min-d(R)
8: S = S union u
9: for all Noeud v voisin de u do
10: if d(v) > d(u) + w(u,v) + w(v) then
11: d(v) = d(u) + w(u,v) + w(v)
12: end if
13: end for
14: end while
La mthode la plus simple pour calculer le potentiel est lalgorithme de Dijkstra (12.1), qui,
partant du but fait chaque tape la mise jour du nuds suivant de potentiel le plus faible. Cet
algorithme suppose que tous les cots utiliss sont positifs ou nuls.
12.3. RECHERCHE DE CHEMIN
Algorithm 12.2 Algorithme de Bellman-Ford
1: {%} Retourne FAUX si il y a un cycle de cot total ngatif
2: for all Noeuds i do
3: d(i) = +;
4: end for
5: d(but) = 0 ;
6: for i=1 jusqu Nombre de sommets do
7: for all liens (u,v) du graphe do
9: d(v) = d(u) + w(u,v) + w(v)
10: end if
11: end for
12: end for
13: for all liens (u,v) du graphe do
15: return FAUX
16: end if
17: end for
18: return VRAI
Une seconde mthode pour calculer ces potentiels lorsque certains cots sont ngatifs est
lutilisation de lalgorithme de programmation dynamique de Bellman-Ford (12.2), aussi connu
sous le nom de value itration, notamment en apprentissage par renforcement [22, 131, 23]. Une
itration de cet algorithme utilise quasiment la mme mthode de mise a jour que lalgorithme
de Dijkstra mais sans utiliser le mme ordre dans les mises jour des nuds. En prsence de
cots ngatifs, cette itration doit tre rpte autant de fois quil y a de nuds pour garantir la
convergence. De plus il peut arriver quun cycle du graphe ait un poids total ngatif, ce qui ne
permet pas de trouver de chemin de cot minimal. Lalgorithme retourne FAUX dans ce cas.
La gure 12.5 permet de comparer lordre des mises jour des valeurs de potentiels pour
lalgorithme de Dijkstra et pour Value Iteration, qui aboutissent au mme rsultat.
12.3.3 Calcul dun chemin
Si lon ne souhaite que calculer un chemin, il est par exemple possible demployer lalgorithme
A
. Cet algorithme utilise exactement le mme mcanisme que lalgorithme de Dijkstra, mais uti-
lise une heuristique pour choisir le nud suivant explorer au lieu dexplorer systmatiquement
les nuds voisins des nuds dj planis. Cette heuristique doit fournir une valuation la plus
rapide possible de la distance entre le nud courant et le but (par exemple simplement la distance
euclidienne en supposant quil ny a pas dobstacles). La mise en place dune bonne heuristique
assure de trouver trs rapidement un chemin vers le but, mais ne garantit pas forcement loptima-
lit (ce qui nest souvent pas trs important en pratique).
FIGURE 12.5 Propagation des valeurs de potentiel selon lalgorithme utilis. Les poids as-
socis aux noeuds (ici les cases dune grille doccupation) sont nuls, et les poids des liens
sont la distance entre deux noeuds. La range du haut montre les rsultats de lalgorithme de
Dijkstra, celle du bas ceux de Value Iteration.
12.4 Exemples de politiques
FIGURE 12.6 Gauche : Potentiel et exemple de trajectoires avec des poids de liens gaux
la distance entre noeuds. Centre : Poids associ aux noeuds fonction de la distance aux
obstacles. Droite : Exemples de trajectoires obtenues en utilisant les poids de limage du
centre.
La gure 12.6 donne gauche un exemple de champ de potentiel obtenu en utilisant un poids
nul pour les nuds et la distance entre nuds comme poids sur les liens. Avec ce type de carte,
ce choix pose le problme de gnrer des trajectoires trs proche des obstacles, qui peuvent tre
dangereuses pour le robot.
Pour viter ce problme, il est possible dassocier un poids dpendant de la distance lobs-
tacle le plus proche chacun des noeuds. Ceci a pour but de pnaliser les trajectoires proches
des murs et de guider le robot selon laxe des couloirs au lieu de longer un des murs. La gure
12.5. CHOIX DE LACTION AVEC UNE POSITION INCERTAINE
12.6 montre droite le poids associ aux nuds et les trajectoires obtenues.
12.5 Choix de laction avec une position incertaine
Lorsque la position estime par le systme de localisation est non ambigu, lutilisation dune
politique se rsume simplement au choix de laction associe avec la position courante. Toutefois,
les systmes ralisant le suivi de plusieurs hypothses fournissent galement une estimation de
la probabilit de prsence du robot en diffrentes positions. Il peut donc se rvler utile de tenir
compte de ces probabilits pour slectionner laction excuter.
Probabilit de prsence
la position correspondante
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.2
FIGURE 12.7 Exemple de lintrt dune procdure de vote dans le cas o la situation du
robot est incertaine. Si lon choisit laction associe la position la plus probable, le robot
ira en haut, ce qui correspondra laction correcte avec une probabilit 0, 2. En utilisant une
mthode de vote, laction choisie sera daller droite, ce qui sera correct avec une probabilit
0, 8.
Diffrentes mthodes permettent de prendre ces probabilits en compte. Une premire m-
thode consiste utiliser une mthode de vote [127, 27]. Pour cela, une action est simplement
associe chacun des nuds de la carte, en utilisant une des mthodes dcrites au paragraphe
prcdent. Un score est alors calcul pour chaque action. Ce score est la somme des probabilits
des nuds auxquels chaque action est associe. Laction ayant le score le plus lev est alors
excute. Cette mthode est efcace dans les cas de grande ambigut dans la localisation, o
la probabilit de la position la plus probable est seulement trs lgrement suprieure aux autres.
Dans ce cas, en effet, si la direction associe la position la plus probable est incorrecte, cette
mthode permet de lignorer et de choisir une direction associe plusieurs autres hypothses
de position qui se rvlera correcte dans un plus grand nombre de cas (cf. gure 12.7).
La mthode prcdente tente de diriger le robot vers le but quelle que soit lincertitude de
lestimation de sa position. Or si cette estimation est trs incertaine, il est souvent plus judicieux
de chercher dabord mieux lestimer avant de chercher rejoindre le but. Il est ainsi possible
de mesurer la conance dans lestimation courante de la position pour choisir une action. Cette
conance peut tre simplement mesure par lentropie de la distribution de probabilit [27, 132].
Ainsi, si lentropie de la distribution de probabilit reprsentant la position est trop leve, une
action permettant de diminuer cette entropie sera slectionne. Lutilisation de telles stratgies
permet par exemple dviter des zones dans lesquelles lincertitude de localisation est plus grande
(par exemple les larges espaces ouverts), et de privilgier les zones plus favorables lestimation
de la position (par exemples les zones o se trouvent des points de repre ables). Cette mthode
a t prsente sous le nom de "Coastal Navigation" [115].
Robot Motion Planning and Control de J.-P. Laumond. Lectures Notes in Control and Informa-
tion Sciences 229. Springer, 1998 [88]. Disponible en ligne :
http://homepages.laas.fr/jpl/book.html
Planning algorithms de Steven M. LaValle, Cambridge University Press, 2006 [90]. Disponible
en ligne :
http://planning.cs.uiuc.edu/
INDEX
Index
Amers, 19, 48, 97
Braitenberg, 19, 57
Carte mtrique, 89
Carte topologique, 89
Cartographie, 85, 135
Distance de Mahalanobis, 117
FastSLAM, 152
Filtre de Kalman, 112, 147
Filtre de Kalman tendu, 115
Filtre particulaire, 124, 127, 152
Holonomie, 35, 37, 156
Informations proprioceptives, 27
Localisation, 85, 103
MDP, 67
Modle mtrique, 29, 30
Modle Probabiliste, 39, 46
Navigation mtrique, 21
Navigation par carte, 22
Navigation ractive, 21
Navigation topologique, 21
Perception/Dcision/Action, 9, 10, 23
Perceptions, 28
Perceptual aliasing, 28, 90, 92, 105
Planication, 21, 85, 155
Politique, 68, 158, 159
Q-Learning, 75
Rao-Blackwellisation, 152
SLAM, 86, 147
Snapshot Model, 58
Stratgies de navigation, 19
Variabilit perceptuelle, 28
BIBLIOGRAPHIE
Bibliographie
[1] A. Angeli, D. Filliat, S. Doncieux, and J.-A. Meyer. A fast and incremental method for loop-
closure detection using bags of visual words. IEEE Transactions On Robotics, Special Issue
on Visual SLAM, 2008. Cit page 136
[2] A. Angeli, D. Filliat, S. Doncieux, and J.-A. Meyer. Visual topological slam and global locali-
zation. In Proceedings of the International Conference on Robotics and Automation (ICRA),
2009. 2 citations pages 145 et 146
[3] R. Arkin. Towards the unication of navigational planning and reactive control. In Procee-
dings of the AAAI Spring Symposium on Robot Navigation, pages 15, 1989. Cit page 25
[4] Ronald Arkin. Behavior-Based Robotics. The MIP Press, 1998. 2 citations pages 23 et 62
[5] A. Arleo, J. del R. Milln, and D. Floreano. Efcient learning of variable-resolution cognitive
maps for autonomous indoor navigation. In IEEE Transactions on Robotics and Automation,
volume 15, pages 9901000, 1999. 3 citations pages 99, 156, et 158
[6] A. Arleo and W. Gerstner. Spatial cognition and neuro-mimetic navigation : A model of
hippocampal place cell activity. Biological Cybernetics, Special Issue on Navigation in Bio-
logical and Articial Systems, 83 :287299, 2000. 5 citations pages 94, 95, 106, 111, et 139
[7] A. Arsenio and M. I. Ribeiro. Absolute localization of mobile robots using natural landmarks.
In Proceedings of the International Conference on Electronics, Circuits and Systems, 1998.
Cit page 107
[8] N. Ayache and O. Faugeras. Maintaning representations of the environment of a mo-
bile robot. IEEE Transactions on Robotics and Automation, 5(6) :804 819, 1989.
4 citations pages 99, 107, 111, et 112
[9] I. A. Bachelder and A. M. Waxman. Mobile robot visual mapping and localization : A view-
based neurocomputational architecture that emulates hippocampal place learning. Neural
Networks, 7(6/7) :10831099, 1994. 2 citations pages 94 et 105
[10] I. A. Bachelder and A. M. Waxman. A view-based neurocomputational system for relational
map-making and navigation in visual environments. Robotics and Autonomous Systems,
16 :267298, 1995. 2 citations pages 138 et 159
[11] J. E. Baker. Reducing bias and inefciency in the selection algorithm. In Proceedings of the
Second International Conference on Genetic Algorithms, pages 1421. Lawrence Erlbaum
Associates (Hillsdale), 1987. Cit page 130
BIBLIOGRAPHIE
[12] K. Balakrishnan, O. Bousquet, and V. Honavar. Spatial learning and localization in rodents :
A computation model of the hippocampus and its implications for mobile robots. Adaptive
Behavior, 7(2) :173216, 1999. 5 citations pages 94, 95, 106, 111, et 139
[13] S. Bazeille and D. Filliat. Incremental topo-metric slam using vision and robot odometry.
In Proceedings of the International Conference on Robotics and Automation (ICRA), 2011.
2 citations pages 95 et 100
[14] M. Betke and K. Gurvits. Mobile robot localization using landmarks. In Proceedings of the
IEEE International Conference on Robotics and Automation (ICRA-94), volume 2, pages
135142, 1994. 2 citations pages 106 et 112
[15] G. Blanc, Y. Mezouar, and P. Martinet. Indoor navigation of a wheeled mobile robot along
visual routes. In Proceedings of the IEEE International Conference on Robotics and Auto-
mation, 2005. Cit page 60
[16] D. Boley, E. Steinmetz, and K. Sutherland. Robot localization from landmarks using recur-
sive total least squares. In Proceedings of the IEEE International Conference on Robotics
and Automation (ICRA-96), volume 4, pages 13811386, 1996. Cit page 112
[17] J. Borenstein and Y. Koren. The vector eld histogram - fast obstacle avoidance for mobile
robots. IEEE Journal of Robotics and Automation, 7 :278288, 1991. Cit page 63
[18] G. Borghi and D. Brugali. Autonomous map learning for a multi-sensor mobile robot using
diktiometric representation and negotiation mechanism. In Proceedings of the International
Conference on Advanced Robotics (ICAR-95), 1995. 3 citations pages 97, 107, et 112
[19] Valentino Braitenberg. Vehicles : Experiments in Synthetic Psychology. The MIT Press,
[20] R. A. Brooks. Intelligence without representation. Articial Intelligence, 1(47) :139159,
1991. Cit page 24
[21] Rodney A. Brooks. How to Build Complete Creatures Rather than Isolated Cognitive Simu-
lators. In Architectures for Intelligence, pages 225239, 1991. Cit page 24
[22] J. Buhmann, W. Burgard, A. B. Cremers, D. Fox, T. Hofmann, F. Schneider, J. Strikos, and
S. Thrun. The mobile robot rhino. AI Magazine, 16(1), 1995. 2 citations pages 156 et 160
[23] W. Burgard, A. B. Cremers, D. Fox, D. Hhnel, G. Lakemeyer, D. Schulz, W. Steiner, and
S. Thrun. The interactive museumtour-guide robot. In Proceedings of the Fifteenth National
Conference on Articial Intelligence (AAAI-98). The MIT Press, 1998. Cit page 160
[24] W. Burgard, D. Fox, D. Hennig, and T. Schmidt. Estimating the absolute position of a mobile
robot using position probability grids. In Proceedings of the Thirteenth National Conference
on Articial Intelligence (AAAI-96), pages 896901, 1996. 2 citations pages 125 et 126
[25] N. Burgess, M. Recce, and J. OKeefe. A model of hippocampal function. Neural Networks,
7 :10651081, 1994. 4 citations pages 94, 95, 105, et 138
[26] B. A. Cartwright and T. S. Collett. Landmark maps for honeybees. Biol. Cybern., 57 :8593,
1987. Cit page 19
BIBLIOGRAPHIE
[27] A. R. Cassandra, L. P. Kaelbling, and J. A. Kurien. Acting under uncertainty : Discrete
bayesian models for mobile-robot navigation. In Proceedings of IEEE/RSJ International
Conference on Intelligent Robots and Systems, 1996. 4 citations pages 106, 125, 126, et 162
[28] J. A. Castellanos, J. M. M. Montiel, J. Neira, , and J. D. Tardos. The SPmap : A probabilistic
framework for simultaneous localization and map building. IEEE Transactions on Robotics
and Automation, 15(5) :948953, 1999. 4 citations pages 99, 107, 111, et 112
[29] R. Chatila and J. Laumond. Position referencing and consistent world modelling for mobile
robots. In Proceedings of the IEEE International Conference on Robotics and Automation
(ICRA-85), pages 138170, 1985. 2 citations pages 89 et 156
[30] F. Chaumette. La commande des robots manipulateurs, chapter Asservissement visuel.
Trait IC2, Herms, 2002. Cit page 60
[31] I. J. Cox. Blanche - an experiment in guidance and navigation of an autonomous
robot vehicle. IEEE Transactions on Robotics and Automation, 7(2) :193204, 1991.
3 citations pages 107, 111, et 112
[32] A. Dalgalarrondo, D. Dufourd, and D. Filliat. Controlling the autonomy of a reconnaissance
robot. In SPIE Defense and Security 2004 Symposium. Unmanned Ground Vehicle Tech-
nology VI Conference, 2004. Cit page 140
[33] G. Dedeoglu, M. Mataric, and G. S. Sukhatme. Incremental, online topological map building
with a mobile robot. In Proceedings of Mobile Robots XIV - SPIE, pages 129139, 1999.
5 citations pages 93, 95, 106, 111, et 139
[34] A. Diosi, S. Segvic, A. Remazeilles, and F. Chaumette. Experimental evaluation of autono-
mous driving based on visual memory and image based visual servoing. IEEE Trans. on
Intelligent Transportation Systems, 2011. Cit page 60
[35] T. Duckett, S. Marsland, and J. Shapiro. Learning globally consistent maps by relaxation.
In Proceedings of the International Conference on Robotics and Automation (ICRA2000),
pages 3841 3846, 2000. Cit page 145
[36] T. Duckett and U. Nehmzow. Experiments in evidence based localisation for a mobile robot.
In D. Corne and J. L. Shapiro, editors, Proceedings of the AISB 97 workshop on Spatial
Reasoning in Animals and Robots. Springer, 1997. 2 citations pages 94 et 95
[37] T. Duckett and U. Nehmzow. Mobile robot self-localization and measurement of perfor-
mance in middle scale environments. Robotics and Autonomous Systems, 1-2(24), 1998.
Cit page 120
[38] G. Dudek and M. Jenkin. Computational Principles of Mobile Robotics. Cambridge Univer-
sity Press, 2000. 2 citations pages 156 et 158
[39] G. Dudek and P. MacKenzie. Model-based map construction for robot localization. In
Proceedings of Vision Interface 1993, 1993. 2 citations pages 99 et 111
[40] S. Egerton and V. Callaghan. From mammals to machines : Towards a biologically inspi-
red mapping model for autonomous mobile robots. In Procceding of the 6th International
Conference on Intelligent Autonomous Systems (IAS-6), 2000. Cit page 106
BIBLIOGRAPHIE
[41] T. Einsele. Real-time self-localization in unknown indoor environments using a panorama
laser range nder. In Proceedings of the IEEE/RSJ International Conference on Intelligent
Robots and Systems (IROS-97), pages 697703, 1997. 2 citations pages 99 et 108
[42] S. P. Engelson. Continuous map learning for mobile robots. Extended Abstract for the 3rd
French-Israeli Symposium on Robotics, 1995. Cit page 143
[43] S. P. Engelson and D. V. McDermott. Error correction in mobile robot map learning. In
Proceedings of the IEEE International Conference on Robotics and Automation (ICRA-92),
1992. 6 citations pages 93, 94, 95, 99, 139, et 140
[44] H. Feder, J. Leonard, and C. Smith. Adaptive mobile robot navigation and mapping. Inter-
national Journal of Robotics Research, 18(7) :650668, 1999. 2 citations pages 97 et 99
[45] D. Filliat and J.-A. Meyer. Map-based navigation in mobile robots - i. a review of localisa-
tion strategies. Journal of Cognitive Systems Research, submitted for publication, 2001.
Cit page 103
[46] D. Fox, W. Burgard, F. Dellaert, and S. Thrun. Monte carlo localization : Efcient position es-
timation for mobile robots. In Proceedings of the Sixteenth National Conference on Articial
Intelligence (AAAI-99). AAAI, 1999. Cit page 127
[47] D. Fox, W. Burgard, and S. Thrun. The dynamic window approach to collision avoidance.
IEEE Robotics and Automation Magazine, 4(1), 1997. Cit page 63
[48] D. Fox, W. Burgard, and S. Thrun. Markov localization for mobile robots in dynamic envi-
ronments. Journalof Articial Intelligence Research, 11, 1999. Cit page 127
[49] D. Fox, W. Burgard, S. Thrun, and A. B. Cremers. Position estimation for mobile robots
in dynamic environments. In Proceedings of the Fifteenth National Conference on Articial
Intelligence (AAAI-98), pages 983988, 1998. 2 citations pages 125 et 126
[50] Dieter Fox. Kld-sampling : Adaptive particle lters and mobile robot localization. In In
Advances in Neural Information Processing Systems (NIPS, 2001. Cit page 131
[51] M. Franz, B. Scholkopf, P. Georg, H. Mallot, and H. Bulthoff. Learning view graphs for robot
navigation. Autonomous Robots, 5 :111125, 1998. 3 citations pages 94, 105, et 138
[52] A. Garulli, A. Giannitrapani, A. Rossi, and A. Vicino. Mobile robot slam for line-based
environment representation. In Decision and Control, 2005 and 2005 European Control
Conference. CDC-ECC05. 44th IEEE Conference on, pages 20412046. IEEE, 2005.
[53] J. Gass and A. Martn. Mobile robot localization using fuzzy maps. In T. Martin and
A. Ralescu, editors, Fuzzy Logic in AI - Selected papers from the IJCAI 95 Workshop,
number 1188, pages 207224. Springer-Verlag, 1997. Cit page 99
[54] P. Gaussier, C. Joulain, J.P. Banquet, S. Lepretre, and A. Revel. The visual homing problem:
an example of robotics/biology cross-fertilisation. Robotics and autonomous systems, 30(1-
2) :155180, 2000. 3 citations pages 19, 94, et 105
[55] P. Gaussier, S. Leprtre, C. Joulain, A. Revel, M. Quoy, and Banquet J. P. Animal and robot
learning : experiments and models about visual navigation. In Proceedings of the Seventh
European Workshop on Learning Robots, 1998. 2 citations pages 94 et 138
BIBLIOGRAPHIE
[56] A. P. Georgopoulos, A. B. Schwartz, and R. E. Kettner. Neuronal population coding of
movement direction. Science, (233) :14161419, 1986. Cit page 106
[57] J. Gomes-Mota and M. I. Ribeiro. Mobile robot localisation on reconstructed 3d models. Ro-
botics and Autonomous Systems, 31(1-2) :1730, 2000. 3 citations pages 107, 111, et 112
[58] S. Gourichon and J.-A. Meyer. Using colored snapshots for short-range guidance in mobile
robots. International Journal of Robotics and Automation, submitted for publication, Special
Issue on Biologically Inspired Robots, 2001. 2 citations pages 19 et 59
[59] R. Greiner and R. Isukapalli. Learning to select useful landmarks. IEEE Transactions on
Systems, Man, and Cybernetics-Part B,Special Issue on Learning Autonomous Robots,
26(3), 1996. Cit page 106
[60] G. Grisetti, C. Stachniss, and W. Burgard. Improving Grid-based SLAM with Rao-
Blackwellized Particle Filters by Adaptive Proposals and Selective Resampling. In Robotics
and Automation, 2005. ICRA 2005. Proceedings of the 2005 IEEE International Conference
on, pages 24322437, 2005. 2 citations pages 152 et 153
[61] Giorgio Grisetti, Cyrill Stachniss, and Wolfram Burgard. Nonlinear constraint network opti-
mization for efcient map learning. Trans. Intell. Transport. Sys., 10 :428439, September
[62] L. J. Guibas, R. Motwani, and P. Raghavan. The robot localization problem. Algorithmic
Foundations of Robotics, pages 269282, 1995. Cit page 108
[63] J. Gutmann and K. Konolige. Incremental mapping of large cyclic environments. In Procee-
dingsof the IEEE International Symposium on Computational Intelligence in Robotics and
Automation (CIRA-2000), 2000. Cit page 97
[64] J. Gutmann and Kurt Konolige. Incremental mapping of large cyclic environments. In Proc.
IEEE International Symposium on Computational Intelligence in Robotics and Automation
(CIRA), page 318325, Monterey, California, 1999. Cit page 140
[65] J. S. Gutmann and C. Schlegel. Amos : Comparison of scan matching approaches for
self-localization in indoor environments,. In Proceedings of the 1st Euromicro Workshop on
Advanced Mobile Robots. IEEE Computer Society Press, 1996. Cit page 108
[66] V. V. Hafner. Learning places in newly explored environments. In J. A. Meyer, A. Ber-
thoz, D. Floreano, H. L. Roiblat, and S. W. Wilson, editors, Sixth International Conference
on simulation of adaptive behavior : From Animals to Animats (SAB-2000). Proceedings
Supplement., pages 111120. ISAB, 2000. 4 citations pages 94, 106, 125, et 126
[67] R. I. Hartley and A. Zisserman. Multiple View Geometry in Computer Vision. Cambridge
University Press, ISBN : 0521540518, second edition, 2004. Cit page 49
[68] P. Hbert, S. Betg-Brezetz, and R. Chatila. Decoupling odometry and exteroceptive per-
ception in building a global world map of a mobile robot : The use of local maps. In Pro-
ceedings of the IEEE International Conference on Robotics and Automation (ICRA-1996),
pages 757764, 1996. 2 citations pages 97 et 99
BIBLIOGRAPHIE
[69] J. Hertzberg and F. Kirchner. Landmark-based autonomous navigation in sewerage pipes.
In Proceedings of the First Euromicro Workshop on Advanced Mobile Robots. IEEE Com-
puter Society Press, 1996. 5 citations pages 93, 94, 106, 125, et 126
[70] D. Hhnel, D. Fox, W. Burgard, and S. Thrun. A highly efcient fastslam algorithm
for generating cyclic maps of large-scale environments from raw laser range measure-
ments. In Proceedings of the Conference on Intelligent Robots and Systems (IROS), 2003.
[71] Daniel Ichbiah. Robots, Gnse dun peuple articiel. Minerva, 2005. Cit page 14
[72] I. Jebari, S. Bazeille, E. Battesti, H. Tekaya, M. Klein, A. Tapus, D. Filliat, C. Meyer, S. Ieng,
R. Benosman, E. Cizeron, J.-C. Mamanna, and B. Pothier. Multi-sensor semantic mapping
and exploration of indoor environments. In Proceedings of the 3rd International Conference
on Technologies for Practical Robot Applications (TePRA), 2011. Cit page 100
[73] P. Jensfelt and S. Kristensen. Active global localisation for a mobile robot using multiple hy-
pothesis tracking. In Proceedings of the IJCAI-99 Workshop on Reasoning with Uncertainty
in Robot Navigation, 1999. 3 citations pages 107, 120, et 122
[74] S. Julier and J. Uhlmann. A new extension of the Kalman lter to nonlinear systems. In Int.
Symp. Aerospace/Defense Sensing, Simul. and Controls, Orlando, FL, 1997. Cit page 118
[75] O. Karch and T. Wahl. Relocalization theory and practice. Discrete Applied Mathematics :
Special Issue on Computational Geometry, 93, 1999. Cit page 108
[76] Hee-Young Kim, Sung-On Lee, and Bum-Jae You. Robust laser scan matching in dyna-
mic environments. In Proceedings of the 2009 international conference on Robotics and
biomimetics, ROBIO09, pages 22842289. IEEE Press, 2009. Cit page 108
[77] D. Kirsh. Today the earwig, tomorrow man? Articial Intelligence, 47 :161184, 1991.
Cit page 24
[78] Y. Koren and J. Borenstein. Histogramic in-motion mapping for mobile robot obstacle avoi-
dance. IEEE Transaction on Robotics and Automation, 7(4) :535539, 1991. Cit page 143
[79] D. Kortenkamp, M. Huber, F. Koss, W. Belding, J. Lee, A. Wu, C. Bidlack, and S. Rogers.
Mobile robot exploration and navigation of indoor spaces using sonar and vision. In Procee-
dings of the AIAA/NASA Conference on Intelligent Robots in Field, Factory, Service, and
Space (CIRFFSS 94), pages 509519, 1994. 3 citations pages 94, 126, et 158
[80] D. Kortenkamp and T. Weymouth. Topological mapping for mobile robots using a combina-
tion of sonar and vision sensing. In Proceedings of the Twelfth National Conference on Arti-
cial Intelligence (AAAI-94), pages 979984, Seattle, WA, 1994. 2 citations pages 93 et 105
[81] B. J. Kuipers. The spatial semantic hierarchy. Articial Intelligence, (119) :191233, 2000.
Cit page 158
[82] B. J. Kuipers and Y. T. Byun. A robot exploration and mapping strategy based on a semantic
hierarchy of spatial representations. Robotics and Autonomous Systems, 8 :4763, 1991.
8 citations pages 89, 93, 94, 106, 111, 139, 140, et 143
BIBLIOGRAPHIE
[83] C. Kunz, T. Willeke, and I. Nourbakhsh. Automatic mapping of dynamic ofce environments.
In In Proceedings of the IEEE International Conference on Robotics and Automation (ICRA-
97), volume 2, pages 16811687, 1997. 7 citations pages 93, 94, 106, 111, 139, 141, et 143
[84] A. Kurz. Alef : An autonomous vehicle which learns basic skills and construct
maps for navigation. Robotics and Autonomous Systems, 14 :172183, 1995.
[85] C. Kwok, D. Fox, and M. Meila. Adaptive real-time particle lters for robot localization. In
Proc. of the IEEE International Conference on Robotics & Automation, 2003. Cit page 131
[86] D. Lambrinos, R. Mller, T. Labhart, R. Pfeifer, and R. Wehner. A mobile robot employing
insect strategies for navigation. Robotics and Autonomous Systems, special issue : Biomi-
metic Robots, 30 :3964, 2000. Cit page 19
[87] J.-C. Latombe. Robot Motion Planning. Boston : Kluwer Academic Publishers, Boston,
1991. 3 citations pages 97, 156, et 157
[88] J.-P. Laumond. Robot Motion Planning and Control. Lectures Notes in Control and Infor-
mation Sciences 229. Springer, 1998. 3 citations pages 155, 157, et 163
[89] Steven M. Lavalle. Rapidly-exploring random trees : A new tool for path planning. Technical
report, 1998. Cit page 157
[90] Steven M. LaValle. Planning Algorithms. Cambridge University Press, May 2006.
[91] J. J. Leonard and H. F. Durrant-Whyte. Simultaneous map building and localization for an
autonomous mobile robot. pages 14421447, 1991. Cit page 147
[92] J. J. Leonard, H. F. Durrant-Whyte, and I. J. Cox. Dynamic map building for an auto-
nomous mobile robot. International Journal of Robotics Research, 11(4) :8996, 1992.
[93] T. S. Levitt and D. T. Lawton. Qualitative navigation for mobile robots. Articial Intelligence,
44 :305360, 1990. 8 citations pages 85, 94, 95, 97, 105, 106, 138, et 158
[94] F. Lu and E. Milios. Globally consistent range scan alignment for environment mapping.
Autonomous Robots, 4 :333349, 1997. 3 citations pages 97, 108, et 112
[95] F. Lu and E. Milios. Globally consistent range scan alignment for environment mapping.
Auton. Robots, 4 :333349, October 1997. Cit page 108
[96] C. Madsen, C. Andersen, and J. rensen. A robustness analysis of triangulation-based robot
self-positioning. In Proceedings of the 5th Symposium for Intelligent Robotics Systems,
1997. Cit page 106
[97] O. Martnez Mozos, R. Triebel, P. Jensfelt, A. Rottmann, and W. Burgard. Supervised se-
mantic labeling of places using information extracted from sensor data. Robotics and Auto-
nomous Systems, 55(5) :391402, May 2007. Cit page 100
[98] M. J. Mataric. Integration of representation into goal-driven behaviour-based ro-
bots. IEEE Transactions on Robotics and Automation, 8(3) :304312, 1992.
6 citations pages 94, 95, 106, 111, 139, et 159
BIBLIOGRAPHIE
[99] P. S. Maybeck. Stochastic Models, Estimation and Control. Academic Press, 1979.
Cit page 112
[100] M. Montemerlo, S. Thrun, D. Koller, and B. Wegbreit. FastSLAM : A factored solution to
the simultaneous localization and mapping problem. In Proceedings of the AAAI National
Conference on Articial Intelligence, Edmonton, Canada, 2002. AAAI. Cit page 152
[101] H. Moravec and A. Elfes. High resolution maps from wide angular sensors. In Proceedings
of the IEEE International Conference On Robotics and Automation (ICRA-85), pages 116
121, St. Louis, 1985. IEEE Computer Society Press. 3 citations pages 89, 99, et 141
[102] Hans Moravec. ROBOT : mere machine to transcendent mind. Oxford University Press,
1995. Cit page 14
[103] P. Moutarlier and R. Chatila. An experimental system for incremental environment modeling
by an autonomous mobile robot. In Experimental Robotics 1, pages 327346. Springer-
Verlag, 1990. 4 citations pages 99, 107, 111, et 112
[104] R. R. Murphy. Introduction to AI Robotics. The MIT Press, 2000.
3 citations pages 25, 156, et 159
[105] U. Nehmzow and C. Owen. Robot navigation in the real world : Experiments with man-
chesters fortytwo in unmodied, large environments,. Robotics and Autonomous Systems,
33(4) :223242, 2000. 4 citations pages 94, 106, 111, et 139
[106] I. Nourbakhsh, R. Powers, and S. Bircheld. Dervish, an ofce navigating robot. AI Maga-
zine, 16(2) :5360, 1995. 4 citations pages 94, 106, 126, et 158
[107] C. F. Olson. Probabilistic self-localization for mobile robots. IEEE Transactions on Robotics
and Automation, 16(1), 2000. Cit page 108
[108] S. Oore, G. Hinton, and G. Dudek. A mobile robot that learns its place. Neural Computation,
9 :683699, 1997. 3 citations pages 95, 106, et 126
[109] D. Glvez-Lpez P. Pinis, L. M. Paz and J.D. Tards. Ci-graph slam for 3d reconstruction
of large and complex environments using a multicamera system. International Journal of
Field Robotics, September/October 2010. 2 citations pages 98 et 151
[110] M. Piasecki. Global localization for mobile robots by multiple hypothesis tracking. Robotics
and Autonomous Systems, 16 :93104, 1995. 2 citations pages 104 et 120
[111] T. J. Prescott. Spatial representation for navigation in animats. Adaptive Behavior, 4(2),
[112] Andrzej Pronobis. Semantic Mapping with Mobile Robots. PhD thesis, Royal Institute of
Technology (KTH), Stockholm, Sweden, June 2011. 2 citations pages 100 et 101
[113] D. Radhakrishnan and I. Nourbakhsh. Topological localization by training a vision-based
transition detector. In Proceedings of the 1999 IEEE/RSJ International Conference on In-
telligent Robots and Systems (IROS-99), 1999. Cit page 106
[114] A. Remazeilles and F. Chaumette. Image-based robot navigation from an image memory.
Robotics and Autonomous Systems, 55(4), 2007. 2 citations pages 19 et 20
BIBLIOGRAPHIE
[115] Nicholas Roy and Sebastian Thrun. Coastal navigation with mobile robots. In In Advances
in Neural Processing Systems 12, pages 10431049, 1999. Cit page 163
[116] Thomas Rfer. Building consistent laser scan maps. In In Proc. of the 4th European Work-
shop on Advanced Mobile Robots (Eurobot 2001), volume 86 of Lund University Cognitive
Studies, pages 83 ? 90, pages 8390, 2001. Cit page 108
[117] A. Safotti and L. P. Wesley. Perception-based self-localization using fuzzy locations.
In Reasoning with Uncertainty in Robotics, volume 1093 of Lecture Notes in Computer
Science. Springer-Verlag, 1995. Cit page 107
[118] S. Schaal, C. G. Atkeson, and S. Vijayakumar. Real-time robot learning with locally weigh-
ted statistical learning. In International conference on robotics and automation (icra2000),
2000. Cit page 78
[119] B. Schiele and J. Crowley. A comparison of position estimation techniques using occupancy
grids. In Proceedings of the IEEE International Conference on Robotics and Automation
(ICRA-94), pages 16281634, 1994. 3 citations pages 108, 111, et 112
[120] B. Scholkopf and H. A. Mallot. View-based cognitive mapping and path planning. Adaptive
Behavior, 3(3) :311348, 1995. Cit page 158
[121] M. J. Schoppers. Universal plans for reactive robots in unpredictable environments. In
Proceedings of the 10th International Joint Conference on Articial Intelligence (IJCAI 87),
pages 10391046, Milan, Italy, 1987. Cit page 158
[122] A. C. Schultz and W. Adams. Continuous localization using evidence grids. In Proceedings
of the IEEE International Conference on Robotics and Automation (ICRA-98), pages 2833
2839, 1998. 2 citations pages 108 et 111
[123] S. Segvic, A. Remazeilles, A. Diosi, and F. Chaumette. A mapping and localization frame-
work for scalable appearance-based navigation. Computer Vision and Image Understan-
ding, 113(2) :172187, February 2009. Cit page 60
[124] P. E. Sharp. Computer simulation of hippocampal place cells. Psychobiology, 19(2) :103
115, 1991. 4 citations pages 94, 95, 105, et 138
[125] H. Shatkay and L. P. Kaelbling. Learning topological maps with weak local odometric infor-
mation. In Proceedings of the Fifteenth International Joint Conference on Articial Intelli-
gence, 1997. 5 citations pages 93, 94, 106, 125, et 126
[126] R. Sim and G. Dudek. Learning visual landmarks for pose estimation. In Proceedings
of the IEEE International Conference on Robotics and Automation (ICRA-1999), 1999.
Cit page 107
[127] R. Simmons and S. Koenig. Probabilistic navigation in partially observable environments.
In S. Mellish, editor, Proccedings of IJCAI95, Montreal,Canada, 1995. Morgan Kaufman
Publishing. 5 citations pages 94, 106, 125, 126, et 162
[128] Danijel Skocaj, Horst Bischof, and Ales Leonardis. A robust pca algorithm for building
representations from panoramic images. In Proceedings of the 7th European Conference
on Computer Vision-Part IV, ECCV 02, pages 761775, London, UK, UK, 2002. Springer-
Verlag. Cit page 105
BIBLIOGRAPHIE
[129] R. Smith, M. Self, and P. Cheeseman. Estimating uncertain spatial relationships in robotics.
In J. F. Lemmer and L. N. Kanal, editors, Uncertainty in Articial Intelligence, pages 435
461. Elsevier, 1988. 6 citations pages 97, 99, 111, 112, 147, et 148
[130] G. Theocharous, K. Rohanimanesh, and S. Mahadevan. Learning hierarchical partially
observable markov decision processes for robot navigation. In Proceedings of the IEEE
Conference on Robotics and Automation, 2001. 2 citations pages 106 et 126
[131] S. Thrun. Learning metric-topological maps for indoor mo-
bile robot navigation. Articial Intelligence, 99(1) :2171, 1999.
10 citations pages 89, 99, 100, 108, 111, 112, 141, 143, 156, et 160
[132] S. Thrun. Probabilistic algorithms in robotics. AI Magazine, 21(4) :93109, 2000.
Cit page 162
[133] S. Thrun, M. Bennewitz, W. Burgard, A. B. Cremers, F. Dellaert, D. Fox, D. Haehnel, C. Ro-
senberg, N. Roy, J. Schulte, and D. Schulz. Minerva : A second generation mobile tour-
guide robot. In Proceedings of the IEEE International Conference on Robotics and Auto-
mation (ICRA-1999), 1999. 2 citations pages 125 et 126
[134] S. Thrun, W. Burgard, and D. Fox. A real-time algorithm for mobile robot mapping with appli-
cations to multi-robot and 3d mapping. In Proceedings of the IEEE International Conference
on Robotics and Automation (ICRA-2000), 2000. 2 citations pages 97 et 136
[135] Sebastian Thrun, Wolfram Burgard, and Dieter Fox. Probabilistic Robotics (Intelligent Ro-
botics and Autonomous Agents series). Intelligent robotics and autonomous agents. The
MIT Press, 2005. 2 citations pages 47 et 154
[136] Nicola Tomatis, Illah R. Nourbakhsh, and Roland Siegwart. Hybrid simultaneous locali-
zation and map building : a natural integration of topological and metric. Robotics and
Autonomous Systems, 44(1) :314, 2003. Cit page 100
[137] D. S. Touretzky, H. S. Wan, and A. D. Redish. Neural representations of space in rats and ro-
bots. In J. M. Zurada, R. J. Marks, and C. J. Robinson, editors, Computational Intelligence :
Imitating Life, pages 5768. IEEE Press, 1994. 5 citations pages 94, 95, 106, 111, et 139
[138] O. Trullier and J. A. Meyer. Biomimetic navigation models and strategies in animats. AI
Communications, 10 :7992, 1997. Cit page 19
[139] O. Trullier and J. A. Meyer. Animat navigation using a cognitive graph. Biological Cyberne-
tics, 83(3) :271285, 2000. Cit page 105
[140] O. Trullier, S. Wiener, A. Berthoz, and J. A. Meyer. Biologically-based articial naviga-
tion systems : Review and prospects. Progress in Neurobiology, 51 :483544, 1997.
Cit page 19
[141] I. Ulrich and I. Nourbakhsh. Appearance-based place recognition for topological localiza-
tion. In Proceedings of the IEEE International Conference on Robotics and Automation
(ICRA-2000), 2000. 3 citations pages 94, 106, et 111
[142] G. Von Wichert. Mobile robot localization using a self-organised visual envi-
ronment representation. Robotics and Autonomous Systems, 25 :185194, 1998.
5 citations pages 94, 95, 106, 111, et 139
BIBLIOGRAPHIE
[143] Chieh-Chih Wang, Charles Thorpe, Sebastian Thrun, Martial Hebert, and Hugh Durrant-
Whyte. Simultaneous localization, mapping and moving object tracking. The International
Journal of Robotics Research, 26(9) :889916, September 2007. Cit page 87
[144] O. Wijk and H. I. Christensen. Localization and navigation of a mobile robot using natural
point landmarks extracted from sonar data. Robotics and Autonomous Systems, 31(1-
2) :3142, 2000. 3 citations pages 106, 111, et 112
[145] B. Yamauchi and R. Beer. Spatial learning for navigation in dynamic environments. IEEE
Transactions on Systems, Man, and Cybernetics-Part B,Special Issue on Learning Autono-
mous Robots, 26(3) :496505, 1996. 3 citations pages 94, 111, et 139
[146] B. Yamauchi and P. Langley. Place recognition in dynamic environments. Jour-
nal of Robotic Systems, Special Issue on Mobile Robots, 14(2) :107120, 1997.
[147] B. Yamauchi, A. Schultz, and W. Adams. Integrating exploration and localization for mobile
robots. Adaptive Behavior, 7(2) :217230, 1999. 4 citations pages 99, 111, 112, et 143

Filliat RobotiqueMobile ENSTAParisTech

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Filliat RobotiqueMobile ENSTAParisTech

Transféré par

Droits d'auteur :

Formats disponibles

David FILLIAT

cole Nationale Suprieure de Techniques Avances ParisTech

lorsque lagent effectue laction a dans ltat s,

) qui donne la rcom-

maximisant la rcompense long terme

(Figure 7.3) qui permet, pour une politique donne,

(s, a), pondres par la probabi-

Robotique Mobile - david.lliat@ensta-paristech.fr 70

, il est trs simple de construire une politique

qui permettent de raliser le maximum

pour en dduire une

), il est possible de calculer directement V

an den dduire une

est le point xe de lquation de Bellman :

ainsi dnie nest pas meilleure que (cest dire si V

Dans ce processus, cependant, lvaluation de politique est elle-mme un processus itratif,

il faut disposer dun modle de

indpendemment de la politique suivie, tant que cette

14: end for

qui une variance plus faible.

) est un modle du dplacement du robot, qui donne la proba-

), est le fruit dune estimation ltape

) qui donne la probabilit que le robot arrive en x

) est en gnral nul ds que lon sloigne de la position spcie

. Si lon note p le nombre dtats pour lequel le modle est non

, ou lune de leurs nombreuses

Vous aimerez peut-être aussi