Vous êtes sur la page 1sur 263

Contrle optimal : thorie et applications

Emmanuel Trlat
Universit Pierre et Marie Curie (Paris 6)
et Institut Universitaire de France
Laboratoire Jacques-Louis Lions
CNRS, UMR 7598
4 place Jussieu, BC 187
75252 Paris cedex 05, FRANCE

Premire dition: 2005, Vuibert, Collection "Mathmatiques Concrtes",


246 pages. ISBN 2 7117 7175 X.
Seconde dition: 2008, Vuibert, Collection "Mathmatiques Concrtes",
250 pages. ISBN-10: 2711722198.
(correction de misprints)
Prsente version lectronique: 2013. Ajout de quelques exercices,
correction de quelques misprints.
Si vous trouvez des misprints ou des choses incorrectes, merci de
menvoyer un mail: emmanuel.trelat@upmc.fr

Table des matires


Notations

Avant-propos

1 Introduction : contrle optimal dun ressort


13
1.1 Prsentation du problme . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Modlisation mathmatique . . . . . . . . . . . . . . . . . . . . . 14
1.3 Quelques remarques sur lquation . . . . . . . . . . . . . . . . . 15

Contrle optimal de systmes linaires

2 Contrlabilit
2.1 Ensemble accessible . . . . . . . . . . . . . . . . . .
2.1.1 Dfinition . . . . . . . . . . . . . . . . . . . .
2.1.2 Topologie des ensembles accessibles . . . . . .
2.1.3 Dfinition de la contrlabilit . . . . . . . . .
2.2 Contrlabilit des systmes linaires autonomes . . .
2.2.1 Cas sans contrainte sur le contrle : condition
2.2.2 Cas avec contrainte sur le contrle . . . . . .
2.2.3 Similitude de systmes, forme de Brunovski .
2.3 Contrlabilit des systmes linaires instationnaires .

19
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
de Kalman
. . . . . . .
. . . . . . .
. . . . . . .

23
23
23
23
28
28
28
30
31
35

3 Temps-optimalit
39
3.1 Existence de trajectoires temps-optimales . . . . . . . . . . . . . 39
3.2 Condition ncessaire doptimalit : principe du maximum dans le
cas linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.1 Synthse optimale pour le problme de loscillateur harmonique linaire . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.2 Autres exemples . . . . . . . . . . . . . . . . . . . . . . . 49
3

TABLE DES MATIRES

4 Thorie linaire-quadratique
53
4.1 Existence de trajectoires optimales . . . . . . . . . . . . . . . . . 54
4.2 Condition ncessaire et suffisante doptimalit : principe du maximum dans le cas LQ . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 Fonction valeur et quation de Riccati . . . . . . . . . . . . . . . 60
4.3.1 Dfinition de la fonction valeur . . . . . . . . . . . . . . . 60
4.3.2 Equation de Riccati . . . . . . . . . . . . . . . . . . . . . 61
4.3.3 Reprsentation linaire de lquation de Riccati . . . . . . 66
4.4 Applications de la thorie LQ . . . . . . . . . . . . . . . . . . . . 67
4.4.1 Problmes de rgulation . . . . . . . . . . . . . . . . . . . 67
4.4.2 Filtre de Kalman dterministe . . . . . . . . . . . . . . . 71
4.4.3 Rgulation sur un intervalle infini et rapport avec la stabilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

II

Thorie du contrle optimal non linaire

81

5 Dfinitions et prliminaires
5.1 Application entre-sortie . . . . . . . . . . . . . . . . . . . . .
5.1.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.2 Rgularit de lapplication entre-sortie . . . . . . . .
5.2 Contrlabilit . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Ensemble accessible . . . . . . . . . . . . . . . . . . .
5.2.2 Rsultats de contrlabilit . . . . . . . . . . . . . . . .
5.3 Contrles singuliers . . . . . . . . . . . . . . . . . . . . . . . .
5.3.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Caractrisation hamiltonienne des contrles singuliers
5.3.3 Calcul des contrles singuliers . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

6 Contrle optimal
6.1 Prsentation du problme . . . . .
6.2 Existence de trajectoires optimales
6.2.1 Pour des systmes gnraux
6.2.2 Pour des systmes affines .

.
.
.
.

97
. 97
. 97
. 97
. 101

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

7 Principe du Maximum de Pontryagin


7.1 Cas sans contrainte sur le contrle : principe du maximum
7.1.1 Le problme de Lagrange . . . . . . . . . . . . . .
7.1.2 Le problme de Mayer-Lagrange . . . . . . . . . .
7.2 Principe du maximum de Pontryagin . . . . . . . . . . . .
7.2.1 Enonc gnral . . . . . . . . . . . . . . . . . . . .
7.2.2 Conditions de transversalit . . . . . . . . . . . . .
7.2.3 Contraintes sur ltat . . . . . . . . . . . . . . . .
7.3 Exemples et exercices . . . . . . . . . . . . . . . . . . . .
7.3.1 Contrle optimal dun ressort non linaire . . . . .
7.3.2 Exercices . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

faible
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .

85
85
85
86
88
88
90
93
93
94
96

103
103
103
105
108
108
111
112
114
114
119

TABLE DES MATIRES


7.4

Contrle optimal et stabilisation dune navette spatiale . . .


7.4.1 Modlisation du problme de rentre atmosphrique
7.4.2 Contrle optimal de la navette spatiale . . . . . . . .
7.4.3 Stabilisation autour de la trajectoire nominale . . .

.
.
.
.

.
.
.
.

.
.
.
.

154
154
162
171

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

179
179
180
180
184
187
187
190

9 Mthodes numriques en contrle optimal


9.1 Mthodes indirectes . . . . . . . . . . . . . . . . . . . . . . .
9.1.1 Mthode de tir simple . . . . . . . . . . . . . . . . . .
9.1.2 Mthode de tir multiple . . . . . . . . . . . . . . . . .
9.1.3 Rappels sur les mthodes de Newton . . . . . . . . . .
9.2 Mthodes directes . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Discrtisation totale : tir direct . . . . . . . . . . . . .
9.2.2 Rsolution numrique de lquation dHamilton-Jacobi
9.3 Quelle mthode choisir ? . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

193
193
193
194
196
197
197
199
200

8 Thorie dHamilton-Jacobi
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . .
8.2 Solutions de viscosit . . . . . . . . . . . . . . . . .
8.2.1 Mthode des caractristiques . . . . . . . .
8.2.2 Dfinition dune solution de viscosit . . . .
8.3 Equations dHamilton-Jacobi en contrle optimal .
8.3.1 Equations dHamilton-Jacobi dvolution .
8.3.2 Equations dHamilton-Jacobi stationnaires .

III

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Annexe

213

10 Rappels dalgbre linaire


215
10.1 Exponentielle de matrice . . . . . . . . . . . . . . . . . . . . . . . 215
10.2 Rduction des endomorphismes . . . . . . . . . . . . . . . . . . . 216
11 Thorme de Cauchy-Lipschitz
11.1 Un nonc gnral . . . . . . . . . . .
11.2 Systmes diffrentiels linaires . . . . .
11.3 Applications en thorie du contrle . .
11.3.1 Systmes de contrle linaires .
11.3.2 Systmes de contrle gnraux

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

219
219
222
225
225
225

12 Modlisation dun systme de contrle linaire


227
12.1 Reprsentation interne des systmes de contrle linaires . . . . . 227
12.2 Reprsentation externe des systmes de contrle linaires . . . . 227
13 Stabilisation des systmes de contrle
13.1 Systmes linaires autonomes . . . . . . . . . . . . . . . . . . . .
13.1.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.1.2 Critre de Routh, critre de Hurwitz . . . . . . . . . . . .
13.1.3 Stabilisation des systmes de contrle linaires autonomes

231
231
231
232
233

TABLE DES MATIRES

13.2 Interprtation en termes de matrice de transfert . . . . . . . . . .


13.3 Stabilisation des systmes non linaires . . . . . . . . . . . . . . .
13.3.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.3.2 Stabilisation locale dun systme de contrle non linaire .
13.3.3 Stabilisation asymptotique par la mthode de JurdjevicQuinn . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14 Observabilit des systmes de contrle
14.1 Dfinition et critres dobservabilit . . . . .
14.2 Stabilisation par retour dtat statique . . .
14.3 Observateur asymptotique de Luenberger .
14.4 Stabilisation par retour dynamique de sortie
Bibliographie

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

236
236
236
239
244
247
247
251
251
252
259

TABLE DES MATIRES

Notations
: pour tout.
: il existe.

| ou t.q. : tel que

A\B : ensemble A priv de lensemble B.


Conv(A) : enveloppe convexe de A.
A : adhrence de A.

A : intrieur de A.

A : frontire de A, i.e. A \ A.
max : maximum.
min : minimum.
sup : borne suprieure.
inf : borne infrieure.
lim : limite.
lim sup : limite suprieure.
lim inf : limite infrieure.
IN : ensemble des entiers naturels.
Z : ensemble des entiers relatifs.
Q
l : ensemble des nombres rationnels.
IR : ensemble des nombres rels.
IR+ : ensemble des nombres rels positifs ou nuls.
C : ensemble des nombres complexes.
Re z : partie relle du nombre complexe z.
Im z : partie imaginaire du nombre complexe z.
| | : valeur absolue, ou module.

Vect : espace vectoriel engendr par.


Mn,p (IK) : ensemble des matrices n lignes et p colonnes, coefficients dans
IK.
Mn (IK) : ensemble des matrices carres dordre n, coefficients dans IK.

ker l : noyau de lapplication linaire l.


Im l : image de lapplication linaire l.
det : dterminant.
tr : trace.
rg ou rang : rang.
com(A) : comatrice de la matrice A.

A (X) : polynme caractristique de la matrice A.

TABLE DES MATIRES

8
A (X) : polynme minimal de la matrice A.
exp(A), ou eA : exponentielle de la matrice A.
AT : transpose de la matrice A.
xT : transpose du vecteur x.

f (n) (o f est une fonction numrique) : n-me drive de la fonction f .


df (x).h (o f est une application dun Banach E dans un Banach F ) : diffrentielle de Frchet de f au point x, applique au vecteur h.
f
x (x, y)h

(o f est une application de EF dans G, et E, F, G sont des espaces


de Banach) : diffrentielle de Frchet de f par rapport la variable x, au
point (x, y) E F , applique au vecteur h E.

f (o f est une fonction) : gradient de f .

C p (, IK) : ensemble des applications de dans IK, de classe C p .

Lp (, IK) : ensemble des applications mesurables de dans IK, de puissance p


intgrable.
Lploc (, IK) : ensemble des applications mesurables de dans IK, dont la puissance p est intgrable sur tout compact de .
H 1 (, IK) : ensemble des applications mesurables f de dans IK, telles que
f, f L2 (, IK).

: flche de convergence faible.


L : transformation de Laplace.

Acc(x0 , T ) : ensemble accessible en temps T depuis le point x0 .


Acc (x0 , T ) : ensemble accessible en temps T depuis le point x0 , pour des
contrles valeurs dans .
Ex0 ,T , ou ET (si le point x0 est sous-entendu) : application entre-sortie en
temps T depuis le point x0 .
kxkW (o x IKn et W Mn (IK)) : abbrviation pour xT W x.

Tx M (o M est une varit, et x M ) : espace tangent M au point x.

Tx M : espace cotangent M au point x.

[X, Y ] (o X et Y sont des champs de vecteurs) : crochet de Lie des champs


X et Y .

TABLE DES MATIRES

Avant-propos
Quest-ce que la thorie du contrle ? La thorie du contrle analyse les
proprits des systmes commands, cest--dire des systmes dynamiques sur
lesquels on peut agir au moyen dune commande (ou contrle). Le but est alors
damener le systme dun tat initial donn un certain tat final, en respectant
ventuellement certains critres. Les systmes abords sont multiples : systmes
diffrentiels, systmes discrets, systmes avec bruit, avec retard... Leurs origines
sont trs diverses : mcanique, lectricit, lectronique, biologie, chimie, conomie... Lobjectif peut tre de stabiliser le systme pour le rendre insensible
certaines perturbations (stabilisation), ou encore de dterminer des solutions
optimales pour un certain critre doptimisation (contrle optimal).
Dans les industries modernes o la notion de rendement est prpondrante,
le rle de lautomaticien est de concevoir, de raliser et doptimiser, tout au
moins damliorer les mthodes existantes. Ainsi les domaines dapplication sont
multiples : arospatiale, automobile, robotique, aronautique, internet et les
communications en gnral, mais aussi le secteur mdical, chimique, gnie des
procds, etc.
Du point de vue mathmatique, un systme de contrle est un systme
dynamique dpendant dun paramtre dynamique appel le contrle. Pour le
modliser, on peut avoir recours des quations diffrentielles, intgrales, fonctionnelles, aux diffrences finies, aux drives partielles, stochastiques, etc. Pour
cette raison la thorie du contrle est linterconnexion de nombreux domaines
mathmatiques. Les contrles sont des fonctions ou des paramtres, habituellement soumis des contraintes.
Contrlabilit. Un systme de contrle est dit contrlable si on peut lamener
(en temps fini) dun tat initial arbitraire vers un tat final prescrit. Pour les
systmes de contrle linaires en dimension finie, il existe une caractrisation
trs simple de la contrlabilit, due Kalman. Pour les systmes non linaires,
le problme mathmatique de contrlabilit est beaucoup plus difficile.
Origine du contrle optimal. Une fois le problme de contrlabilit rsolu,
on peut de plus vouloir passer de ltat initial ltat final en minimisant un
certain critre ; on parle alors dun problme de contrle optimal. En mathmatiques, la thorie du contrle optimal sinscrit dans la continuit du calcul des
variations. Elle est apparue aprs la seconde guerre mondiale, rpondant des
besoins pratiques de guidage, notamment dans le domaine de laronautique et
de la dynamique du vol. Historiquement, la thorie du contrle optimal est trs
lie la mcanique classique, en particulier aux principes variationnels de la
mcanique (principe de Fermat, de Huygens, quations dEuler-Lagrange). Le
point cl de cette thorie est le principe du maximum de Pontryagin, formul
par L. S. Pontryagin en 1956, qui donne une condition ncessaire doptimalit
et permet ainsi de calculer les trajectoires optimales (voir [31] pour lhistoire
de cette dcouverte). Les points forts de la thorie ont t la dcouverte de la

10

TABLE DES MATIRES

mthode de programmation dynamique, lintroduction de lanalyse fonctionnelle


dans la thorie des systmes optimaux, la dcouverte des liens entre les solutions
dun problme de contrle optimal et des rsultats de la thorie de stabilit de
Lyapunov. Plus tard sont apparues les fondations de la thorie du contrle stochastique et du filtrage de systmes dynamiques, la thorie des jeux, le contrle
dquations aux drives partielles.
Notons que lallure des trajectoires optimales dpend fortement du critre
doptimisation. Par exemple pour raliser un crneau et garer sa voiture, il est
bien vident que la trajectoire suivie diffre si on ralise lopration en temps
minimal (ce qui prsente un risque) ou bien en minimisant la quantit dessence
dpense. Le plus court chemin entre deux points nest donc pas forcment la
ligne droite. En 1638, Galile tudie le problme suivant : dterminer la courbe
sur laquelle une bille roule, sans vitesse initiale, dun point A un point B, avec
un temps de parcours minimal, sous laction de la pesanteur (toboggan optimal).
Cest le fameux problme de la brachistochrone (du grec brakhistos, le plus
court, et chronos, temps). Galile pense ( tort) que la courbe cherche est
larc de cercle, mais il a dj remarqu que la ligne droite nest pas le plus court
chemin en temps. En 1696, Jean Bernoulli pose ce problme comme un dfi aux
mathmaticiens de son poque. Il trouve lui-mme la solution, ainsi que son frre
Jacques Bernoulli, Newton, Leibniz et le marquis de lHospital. La solution est
un arc de cyclode commenant par une tangente verticale. Ce rsultat a motiv
le dveloppement de la thorie du calcul des variations, devenue, plus tard, la
thorie du contrle optimal (pour plus de dtails sur lhistoire du problme de
la brachistochrone, voir [68]).

Contrle optimal moderne et applications. On considre que la thorie


moderne du contrle optimal a commenc dans les annes 50, avec la formulation du principe du maximum de Pontryagin, qui gnralise les quations
dEuler-Lagrange du calcul des variations. Ds lors, la thorie a connu un essor
spectaculaire, ainsi que de nombreuses applications. De nos jours, les systmes
automatiss font compltement partie de notre quotidien (nous en sommes souvent inconscients), ayant pour but damliorer notre qualit de vie et de faciliter
certaines tches : systme de freinage ABS, assistance la conduite, servomoteurs, thermostats, rgulation hygromtrique, circuits frigorifiques, contrle des
flux routiers, ferroviaires, ariens, boursiers, fluviaux, barrages EDF, photographie numrique, filtrage et reconstruction dimages, lecteurs CD et DVD,
rseaux informatiques, moteurs de recherche sur internet, circuits lectriques,
lectroniques, tlcommunications en gnral, contrle des procds chimiques,
raffinage ptrolier, chanes industrielles de montage, peacemakers et autres systmes mdicaux automatiss, oprations au laser, robotique, satellites, guidages
arospatiaux, bioracteurs, distillation, ... La liste est infinie, les applications
concernent tout systme sur lequel on peut avoir une action, avec une notion de
rendement optimal.

TABLE DES MATIRES

11

Rsum du livre
Lobjectif de ce livre est de prsenter, du point de vue mathmatique, les
bases thoriques du contrle optimal, ainsi que des applications concrtes de
cette thorie. Il a t rdig partir de notes de cours dAutomatique et de
Contrle Optimal enseigns par lauteur dans le master dIngnierie Mathmatique de lUniversit dOrsay, Option Automatique.
Il est accessible un lve suivant une formation universitaire (licence, master) ou une cole dingnieurs.
Dans une premire partie, on prsente la thorie du contrle optimal pour
des systmes de contrle linaires, ainsi que la thorie dite linaire-quadratique
et ses applications : rgulation, stabilisation, filtrage de Kalman.
Dans une seconde partie, on prsente la thorie du contrle optimal pour
des systmes de contrle gnraux (non linaires), avec notamment le principe du maximum de Pontryagin dans toute sa gnralit, ainsi que la thorie dHamilton-Jacobi. Un chapitre est consacr aux mthodes numriques en
contrle optimal.
Enfin, en appendice on effectue quelques rappels :
gnralisations des thormes de Cauchy-Lipschitz pour des quations diffrentielles ordinaires ;
bases de lautomatique : fonctions de transfert, stabilisation, observateurs.
Ce livre est rsolument orient vers les applications concrtes de lautomatique et du contrle optimal, et de nombreux exercices et applications sont
prsents. Les applications numriques sont galement dtailles ; elles sont effectues laide de logiciels standards comme Matlab et Maple, ou bien, si ncessaire, implmentes en C++. Parmi les applications dtailles dans cet ouvrage,
figurent le contrle optimal dun ressort (linaire ou non linaire) ; le filtrage
de Kalman ; diffrents problmes de rgulation ; le contrle optimal et la stabilisation dune navette spatiale en phase de rentre atmosphrique ; le transfert
orbital dun satellite pousse faible ; le contrle optimal et la stabilisation dun
pendule invers. Des exercices concernent aussi diffrents problmes daronautique, transfert de fichiers informatiques, contrle dun rservoir, problme de
Bolzano en conomie, dynamique des populations (systme prdateurs-proies),
ractions chimiques, mlangeurs, circuits lectriques, contrle dpidmies. Ils
sont prsents avec des lments de correction et, si ncessaire, des algorithmes
dimplmentation numrique.

12

TABLE DES MATIRES

Chapitre 1

Introduction : contrle
optimal dun ressort
Pour expliquer et motiver la thorie nous allons partir dun problme concret
simple : le contrle optimal dun ressort. Cet exemple, leitmotiv de cet ouvrage,
sera rsolu compltement, de manire thorique puis numrique.
Dans une premire partie, nous nous placerons dans le cas linaire : cest
le problme de loscillateur harmonique (trait en totalit dans [52]), et nous
dvelopperons la thorie du contrle optimal linaire.
Dans une deuxime partie nous traiterons le cas de loscillateur non linaire et
introduirons des outils gnraux de thorie du contrle optimal. Les applications
numriques seront effectues laide des logiciels Maple et Matlab.

1.1

Prsentation du problme
~

Figure 1.1 Le ressort


Considrons une masse ponctuelle m, astreinte se dplacer le long dun axe
(Ox), attache un ressort (voir figure 1.1). La masse ponctuelle est alors attire
vers lorigine par une force que lon suppose gale k1 (x l) k2 (x l)3 , o
l est la longueur du ressort au repos, et k1 , k2 sont des coefficients de raideur.
On applique cette masse ponctuelle une force extrieure horizontale u(t)~. Les
13

14CHAPITRE 1. INTRODUCTION : CONTRLE OPTIMAL DUN RESSORT


lois de la physique nous donnent lquation du mouvement,
m
x(t) + k1 (x(t) l) + k2 (x(t) l)3 = u(t).

(1.1)

De plus on impose une contrainte la force extrieure,


|u(t)| 6 1.
Cela signifie quon ne peut pas appliquer nimporte quelle force extrieure horizontale la masse ponctuelle : le module de cette force est born, ce qui traduit
le fait que notre puissance daction est limite et rend ainsi compte des limitations techniques de lexprience.
Supposons que la position et la vitesse initiales de lobjet soient x(0) = x0 ,
x(0)

= y0 . Le problme est damener la masse ponctuelle la position dquilibre x = l en un temps minimal en contrlant la force externe u(t) applique
cet objet, et en tenant compte de la contrainte |u(t)| 6 1. La fonction u est
appele le contrle.
Des conditions initiales tant donnes, le but est donc de trouver une fonction
u(t) qui permet damener la masse ponctuelle sa position dquilibre en un
temps minimal.

1.2

Modlisation mathmatique

Pour la simplicit de lexpos, nous supposerons que m = 1 kg, k1 =


1 N.m1 , l = 0 m (on se ramne l = 0 par translation). Dans la premire
partie sur le contrle linaire, nous supposerons que k2 = 0, et dans la deuxime
partie sur le contrle non linaire, nous prendrons k2 = 2 (ces valeurs ntant
pas limitatives dans le problme).
Dans lespace des phases (x, x),
le systme diffrentiel correspondant lquation du mouvement est
(
x(t)

= y(t),
y(t)
= x(t) k2 x(t)3 + u(t),
x(0) = x0 , x(0)

= y0 .
Posons
A=

0
1



 

 
 
1
0
0
x
x0
, f (X) =
, B=
.
, X=
, X0 =
0
k2 x3
1
y0
y

On obtient

X(t)
= AX(t) + f (X(t)) + Bu(t) ,

X(0) = X0 .

On dit quil sagit dun systme diffrentiel contrl. Cest un systme linaire
dans le cas o k2 = 0.

1.3. QUELQUES REMARQUES SUR LQUATION

1.3

15

Quelques remarques sur lquation

Faisons quelques remarques sur lquation (1.1) dans le cas non linaire, avec
k2 = 2.
Le ressort libre
Dans ce paragraphe on suppose que u(t) = 0, cest--dire quaucune force
nest applique au ressort. Lquation (1.1) se rduit alors
x
(t) + x(t) + 2x(t)3 = 0,
qui sappelle lquation de Duffing. Il est trs facile de vrifier que toute solution
x() de cette quation est telle que
x(t)2 + x(t)4 + x(t)
2 = Cste.
Autrement dit, dans le plan de phase, toute solution est priodique, et son image
est incluse dans une courbe algbrique. Ci-dessous nous utilisons Maple pour
tracer dans le plan de phase (x, x)
plusieurs trajectoires solutions et le champ
de vecteurs associ, ainsi que les courbes x(t) en fonction de t.
Les commandes suivantes donnent la figure 1.2.
> with(DEtools):
> eq1 := D(x)(t)=y(t) :
eq2 := D(y)(t)=-x(t)-2*x(t)^3 :
sys := eq1,eq2 :
ic := [x(0)=1,y(0)=0],[x(0)=2,y(0)=0] :
> DEplot([sys],[x(t),y(t)],t=0..6,[ic],stepsize=0.05,
scene=[x(t),y(t)],linecolor=[blue,red]);
> DEplot([sys],[x(t),y(t)],t=0..6,[ic],stepsize=0.05,
scene=[t,x(t)],linecolor=[blue,red]);

4
y(t)
2

x(t) 1

1
x(t)
2
4

1
1

Figure 1.2

3t

16CHAPITRE 1. INTRODUCTION : CONTRLE OPTIMAL DUN RESSORT


Le ressort amorti
Dans ce paragraphe on suppose que u(t) = x(t).

Lquation (1.1) devient


x
(t) + x(t) + 2x(t)3 + x(t)

= 0.
A laide de Maple, traons dans le plan de phase (x, x)
plusieurs trajectoires
solutions et le champ de vecteurs associ.
> eq1 := D(x)(t)=y(t) :
eq2 := D(y)(t)=-x(t)-2*x(t)^3-y(t) :
sys := eq1,eq2 :
ic := [x(0)=1,y(0)=0],[x(0)=2,y(0)=0] :
DEplot([sys],[x(t),y(t)],t=0..15,[ic],stepsize=0.05,
scene=[x(t),y(t)],linecolor=[blue,red]);
DEplot([sys],[x(t),y(t)],t=0..15,[ic],stepsize=0.05,
scene=[t,x(t)],linecolor=[blue,red]);

1
1

0.5

0.5

x(t)
1.5
1

1.5

x(t) 1

0.5

y(t) 2

0.5
3

8
t

10

12

14

Figure 1.3
On observe un amortissement : les solutions tendent vers lorigine (voir figure
1.3). En fait il est ais, laide de la thorie de Lyapunov, de montrer que
lorigine est globalement asymptotiquement stable. Notons cependant que ce
contrle u(t) ne rsout pas notre problme, car le temps pour amener le ressort
sa position dquilibre est infini !
Le ressort entretenu
Dans ce paragraphe on suppose que
u(t) = (x(t)2 1)x(t).

Lquation (1.1) devient


x
(t) + x + 2x(t)3 + (x(t)2 1)x(t)

= 0.

1.3. QUELQUES REMARQUES SUR LQUATION

17

Cest une quation dite de Van der Pol.


A laide de Maple, traons dans le plan de phase (x, x)
plusieurs trajectoires
solutions et le champ de vecteurs associ, ainsi que les courbes x(t) en fonction
de t.
> eq1 := D(x)(t)=y(t) :
eq2 := D(y)(t)=-x(t)-2*x(t)^3-(x(t)^2-1)*y(t) :
sys := eq1,eq2 :
ic := [x(0)=1,y(0)=0], [x(0)=4,y(0)=0] :
DEplot([sys],[x(t),y(t)],t=0..10,[ic],stepsize=0.05,
scene=[x(t),y(t)],linecolor=[blue,red]);
DEplot([sys],[x(t),y(t)],t=0..10,[ic],stepsize=0.05,
scene=[t,x(t)],linecolor=[blue,red]);

4
y(t)
2
2

3
1

x(t)
2

x(t) 2
1

2
2

t 6

10

1
6
8

Figure 1.4
Numriquement (voir figure 1.4) on constate lexistence dune solution priodique qui semble attirer toutes les autres solutions. En fait on peut montrer
rigoureusement, toujours laide de la thorie de Lyapunov, que cette solution
priodique existe et est attractive.
Qualitativement on peut comprendre le comportement dun tel oscillateur en
discutant le signe de x(t)2 1. En effet si x(t) est grand il y a un amortissement
et le rayon polaire des solutions dans le plan de phase a tendance dcrotre.
Au contraire si x(t) est petit alors le terme (x(t)2 1)x(t)

apporte de lnergie
et le rayon a tendance augmenter. On retrouve bien ce comportement sur la
figure.
Lquation de Van der Pol est en fait le modle dune horloge.

18CHAPITRE 1. INTRODUCTION : CONTRLE OPTIMAL DUN RESSORT

Premire partie

Contrle optimal de systmes


linaires

19

21
Le problme gnral tudi dans cette partie est le suivant. Soient n et m
deux entiers naturels non nuls, I un intervalle de IR, et soient A, B et r trois
applications L sur I (en fait, localement intgrables, L1loc , suffit), valeurs
respectivement dans Mn (IR), Mn,m (IR), et Mn,1 (IR) (identifi IRn ). Soit
un sous-ensemble de IRm , et soit x0 IRn . Le systme de contrle linaire auquel
on sintresse est
t I

x(t)

= A(t)x(t) + B(t)u(t) + r(t),


x(0) = x0 ,

(1.2)

o lensemble des contrles u considrs est lensemble des applications mesurables et localement bornes sur I, valeurs dans le sous-ensemble IRm .
Les thormes dexistence de solutions dquations diffrentielles (cf section
11.3) nous assurent que, pour tout contrle u, le systme (1.2) admet une unique
solution x() : I IRn , absolument continue. Soit M () : I Mn (IR) la
rsolvante du systme linaire homogne x(t)

= A(t)x(t), dfinie par M (t) =


A(t)M (t), M (0) = Id. Notons que si A(t) = A est constante sur I, alors M (t) =
etA . Alors, la solution x() du systme (1.2) associe au contrle u est donne
par
Z
t

M (t)M (s)1 (B(s)u(s) + r(s))ds,

x(t) = M (t)x0 +

pour tout t I.
Cette application dpend de u. Donc si on change la fonction u, on obtient
une autre trajectoire t 7 x(t) dans IRn (voir figure 1.5).

x0

Figure 1.5
Deux questions se posent alors naturellement :
Etant donn un point x1 IRn , existe-t-il un contrle u tel que la trajectoire associe ce contrle joigne x0 x1 en un temps fini T ? (voir figure
1.6)
Cest le problme de contrlabilit.
Si la condition prcdente est remplie, existe-t-il un contrle joignant x0
x1 , et qui de plus minimise une certaine fonctionnelle C(u) ? (voir figure
1.7)

22
x(t)

x0

x1 = x(T )
Figure 1.6 Problme de contrlabilit

Cest le problme de contrle optimal.


La fonctionnelle C(u) est un critre doptimisation, on lappelle le cot .
Par exemple ce cot peut tre gal au temps de parcours ; dans ce cas cest
le problme du temps minimal .

x0

x1 = x(T )

Figure 1.7 Problme de contrle optimal


Les thormes suivants vont rpondre ces questions, et permettre en particulier de rsoudre le problme de loscillateur harmonique linaire (k2 = 0) vu
en introduction.

Chapitre 2

Contrlabilit
2.1
2.1.1

Ensemble accessible
Dfinition

Considrons le systme contrl (1.2),


t I

x(t)

= A(t)x(t) + B(t)u(t) + r(t),


x(0) = x0 ,

Dfinition 2.1.1. Lensemble des points accessibles partir de x0 en un temps


T > 0 est dfini par
Acc(x0 , T ) = {xu (T ) | u L ([0, T ], )},
o xu () est la solution du systme (1.2) associe au contrle u.
Autrement dit Acc(x0 , T ) est lensemble des extrmits des solutions de (1.2)
au temps T , lorsquon fait varier le contrle u (voir figure 2.1). Pour la cohrence
on pose Acc(x0 , 0) = {x0 }.

2.1.2

Topologie des ensembles accessibles

Thorme 2.1.1. Considrons le systme de contrle linaire dans IRn


x(t)

= A(t)x(t) + B(t)u(t) + r(t)


m

o IR est compact. Soient T > 0 et x0 IRn . Alors pour tout t [0, T ],


Acc(x0 , t) est compact, convexe, et varie continment avec t sur [0, T ].
Remarque 2.1.1. La convexit de Acc(x0 , t) est facile tablir si est convexe.
En effet, dans ce cas, soient x11 , x12 Acc(x0 , t), et [0, 1]. On veut montrer
que x11 + (1 )x12 Acc(x0 , t). Par dfinition, pour i = 1, 2, il existe un
contrle ui : [0, t] tel que la trajectoire xi () associe ui vrifie
xi (0) = x0 , xi (t) = x1i , xi (s) = A(s)xi (s) + B(s)u(s) + r(s).
23

CHAPITRE 2. CONTRLABILIT

24

x0

Acc(x0 , T )

Figure 2.1 Ensemble accessible


Daprs la formule de variation de la constante,
Z t
1
xi = xi (t) = M (t)x0 +
M (t)M (s)1 (B(s)ui (s) + r(s))ds.
0

Pour tout s [0, t], posons u(s) = u1 (s) + (1 )u2 (s). Le contrle u est dans
L2 , valeurs dans car est convexe. Soit x() la trajectoire associe u.
Alors, par dfinition de A(x0 , t), on a
Z t
M (t)M (s)1 (B(s)u(s) + r(s))ds Acc(x0 , t).
x(t) = M (t)x0 +
0

Or,
x11 + (1 )x12 = M (t)x0 + (1 )M (t)x0
Z t
+
M (t)M (s)1 (B(s)(u1 (s) + (1 )u2 (s)) + r(s) + (1 )r(s))ds
0

= x(t)

donc x11 + (1 )x12 Acc(x0 , t), ce qui prouve la convexit de Acc(x0 , t).
Pourtant, et ce rsultat est surprenant, la conclusion de ce thorme est
encore vraie si nest pas convexe. Ceci implique en particulier le rsultat
suivant.
Corollaire 2.1.2. Supposons que soit compact. Si on note Acc (x0 , t) lensemble accessible depuis x0 en temps t pour des contrles valeurs dans , alors
on a
Acc (x0 , t) = AccConv() (x0 , t),
o Conv() est lenveloppe convexe de . En particulier, on a Acc (x0 , t) =
Acc (x0 , t), o est la frontire de .
Ce dernier rsultat illustre le principe bang-bang (voir thorme 3.2.1).

2.1. ENSEMBLE ACCESSIBLE

25

Dmonstration du thorme 2.1.1. Dmontrons dabord ce thorme dans le cas


o est compact et convexe. La convexit de Acc(x0 , t) rsulte alors de la
remarque 2.1.1. Montrons maintenant la compacit de Acc(x0 , t). Cela revient
montrer que toute suite (x1n )nIN de points de Acc(x0 , t) admet une sous-suite
convergente. Pour tout entier n, soit un un contrle reliant x0 x1n en temps t,
et soit xn () la trajectoire correspondante. On a donc
x1n = xn (t) = M (t)x0 +

M (t)M (s)1 (B(s)un (s) + r(s))ds.

(2.1)

Par dfinition, les contrles un sont valeurs dans le compact , et par consquent la suite (un )nIN est borne dans L2 ([0, t], IRm ). Par rflexivit de cet
espace (voir [19]), on en dduit que, sous-suite prs, la suite (un )nIN converge
faiblement vers un contrle u L2 ([0, t], IRm ). Comme est suppos convexe,
on a de plus u L2 ([0, t], ). Par ailleurs, de la formule de reprsentation (2.1)
on dduit aisment que la suite (xn ())nIN est borne dans L2 ([0, t], IRn ). De
plus, de lgalit x n = Axn + Bun + r, et utilisant le fait que A, B et r sont
dans L sur [0, T ], on conclut que la suite (x n ())nIN est galement borne
dans L2 ([0, t], IRn ), autrement dit que cette suite est borne dans H 1 ([0, t], IRn ).
Mais comme cet espace de Sobolev est rflexif et se plonge de manire compacte
dans C 0 ([0, t], IRn ) muni de la topologie uniforme, on conclut que, sous-suite
prs, la suite (xn ())nIN converge uniformment vers une application x() sur
[0, t]. En passant la limite dans (2.1) il vient alors
x(t) = M (t)x0 +

M (t)M (s)1 (B(s)u(s) + r(s))ds,

et en particulier
lim x1ni = lim xni (t) = x(t) Acc(x0 , t),

i+

i+

ce qui prouve la compacit.


Montrons enfin la continuit par rapport t de Acc(x0 , t). Soit > 0. On va
chercher > 0 tel que
t1 , t2 [0, T ] |t1 t2 | 6 d(Acc(t1 ), Acc(t2 )) 6 ,
o on note pour simplifier Acc(t) = Acc(x0 , t), et o
d(Acc(t1 ), Acc(t2 )) = sup

sup
yAcc(t2 )

d(y, Acc(t1 )),

sup

d(y, Acc(t2 )) .

yAcc(t1 )

Par la suite, on suppose 0 6 t1 < t2 6 T . Il suffit de montrer que


1. y Acc(t2 ) d(y, Acc(t1 )) 6 ,

2. y Acc(t1 ) d(y, Acc(t2 )) 6 .

CHAPITRE 2. CONTRLABILIT

26

Montrons juste le premier point (2. tant similaire). Soit y Acc(t2 ). Il suffit
de montrer que
z Acc(t1 ) | d(y, z) 6 .
Par dfinition de Acc(t2 ), il existe un contrle u L2 ([0, T ], ) tel que la trajectoire associe u, partant de x0 , vrifie x(t2 ) = y (voir figure 2.2). On va voir

x(t)
x(t1 )

x0

y = x(t2 )

Acc(t1 )
Acc(t2 )

Figure 2.2
que z = x(t1 ) convient. En effet on a
Z

t2

M (t2 )M (s)1 (B(s)u(s) + r(s))ds


x(t2 ) x(t1 ) = M (t2 )x0 +
0


Z t1
1
M (t1 )M (s) (B(s)u(s) + r(s))ds
M (t1 )x0 +
0

= M (t2 )

t2

M (s)1 (B(s)u(s) + r(s))ds

t1


Z
+ (M (t2 ) M (t1 )) x0 +

t1

M (s)1 (B(s)u(s) + r(s))ds

Si |t1 t2 | est petit, le premier terme de cette somme est petit par continuit
de lintgrale ; le deuxime terme est petit par continuit de t 7 M (t). Do
le rsultat.
Dans le cas gnral o est seulement compact (mais pas forcment convexe),
la preuve est plus difficile est fait appel au lemme de Lyapunov en thorie de
la mesure (dmontr par exemple dans [52, Lemma 4A p. 163]) et plus gnralement au thorme dAumann (voir par exemple [37]), grce auquel on a les

2.1. ENSEMBLE ACCESSIBLE

27

galits
{
={

M (t)1 B(t)u(t)dt | u L ([0, T ], )}

M (t)1 B(t)u(t)dt | u L ([0, T ], )}

={

M (t)1 B(t)u(t)dt | u L ([0, T ], Conv())},

et de plus ces ensembles sont compacts convexes. La preuve du thorme et


du corollaire sensuivent. Notons que la preuve du lemme de Lyapunov et du
thorme dAumann voqus ici reposent sur le thorme de Krein-Milman en
dimension infinie (du moins, sur le fait que tout compact convexe dun espace
localement convexe admet au moins un point extrmal, voir [37] pour des prcisions).
Remarque 2.1.2. Si r = 0 et x0 = 0, la solution de x(t)

= A(t)x(t)+B(t)u(t), x(0) =
0, scrit
Z t
x(t) = M (t)
M (s)1 B(s)u(s)ds,
0

et est linaire en u.

Cette remarque nous mne la proposition suivante.


Proposition 2.1.3. On suppose que r = 0, x0 = 0 et = IRm . Alors, pour tout
t > 0, lensemble Acc(0, t) est un sous-espace vectoriel de IRn . Si on suppose de
plus que B(t) B est constante, alors, pour tous 0 < t1 < t2 , on a Acc(0, t1 )
Acc(0, t2 ).
Dmonstration. Soient x11 , x12 Acc(0, T ), et , IR. Pour i = 1, 2, il existe
par dfinition un contrle ui et une trajectoire associe xi () vrifiant xi (t) = x1i .
Do
Z
x1i = M (t)

M (s)1 B(s)ui (s)ds.

Pour tout s [0, T ], posons u(s) = u1 (s) + u2 (s). Alors


Z t
x11 + x12 = M (t)
M (s)1 B(s)u(s)ds = x(t) Acc(0, t).
0

Pour la deuxime partie de la proposition, soit x11 Acc(0, t1 ). Par dfinition,


il existe un contrle u1 sur [0, t1 ] tel que la trajectoire associe x1 () vrifie
x1 (t1 ) = x11 . Do
Z t1
M (s)1 Bu1 (s)ds.
x11 = M (t1 )
0

Dfinissons u2 sur [0, t2 ] par



u2 (t) = 0
si
06
u2 (t) = u1 (t1 t2 + t) si t2 t1 6

t
t

6 t2 t1
.
6 t2

CHAPITRE 2. CONTRLABILIT

28

Soit x2 () la trajectoire associe u2 sur [0, t2 ]. Alors


Z t2
M (t)1 Bu2 (t)dt
x2 (t2 ) = M (t2 )
0
Z t2
M (t)1 Bu2 (t)dt car u2|[0,t2 t1 ] = 0
= M (t2 )
t2 t1
t1

= M (t2 )

M (t2 )1 M (t1 )M (s)1 Bu2 (t2 t1 + s)ds

= M (t1 )

t1

si s = t1 t2 + t

M (s)1 Bu1 (s)ds

= x11

Ainsi, x11 Acc(0, t2 ).


Remarque 2.1.3. Dans le cadre de la deuxime partie de la proposition, Acc(0) =
Acc(0, t), lensemble des points accessibles (en temps quelconque), est un
t>0

sous-espace vectoriel de IRn . En effet, une union croissante de sous-espaces vectoriels de IRn est un sous-espace vectoriel.

2.1.3

Dfinition de la contrlabilit

Dfinition 2.1.2. Le systme contrl x(t)

= A(t)x(t) + B(t)u(t) + r(t) est


dit contrlable en temps T si Acc(x0 , T ) = IRn , i.e. , pour tous x0 , x1 IRn , il
existe un contrle u tel que la trajectoire associe relie x0 x1 en temps T (voir
figure 2.3).

x1

x0

Figure 2.3 Contrlabilit

2.2
2.2.1

Contrlabilit des systmes linaires autonomes


Cas sans contrainte sur le contrle : condition de
Kalman

Le thorme suivant nous donne une condition ncessaire et suffisante de


contrlabilit dans le cas o A et B ne dpendent pas de t.
Thorme 2.2.1. On suppose que = IRm (pas de contrainte sur le contrle).
Le systme x(t)

= Ax(t) + Bu(t) + r(t) est contrlable en temps T (quelconque)


si et seulement si la matrice

C = B, AB, . . . , An1 B

2.2. CONTRLABILIT DES SYSTMES LINAIRES AUTONOMES

29

est de rang n.
La matrice C est appele matrice de Kalman, et la condition rg C = n est
appele condition de Kalman.
Remarque 2.2.1. La condition de Kalman ne dpend ni de T ni de x0 . Autrement
dit, si un systme linaire autonome est contrlable en temps T depuis x0 , alors
il est contrlable en tout temps depuis tout point.
Dmonstration. Lessentiel de la preuve est contenu dans le lemme suivant.
Lemme 2.2.2. La matrice C est de rang n si et seulement si lapplication
linaire
: L ([0, T ], IRm ) IRn
RT
u 7 0 e(T t)A Bu(t)dt

est surjective.

Preuve du lemme. Supposons tout dabord que rg C < n, et montrons qualors


nest pas surjective. Lapplication C tant non surjective, il existe un vecteur
IRn \{0}, que lon supposera tre un vecteur ligne, tel que C = 0. Par
consquent,
B = AB = . . . = An1 B = 0.
Or daprs le thorme dHamilton-Cayley, il existe des rels a0 , a1 , . . . , an1
tels que
An = a0 I + an1 An1 .
On en dduit par rcurrence immdiate que, pour tout entier k,
Ak B = 0,
et donc, pour tout t [0, T ],

etA B = 0.

Par consquent, pour tout contrle u, on a

e(T t)A Bu(t)dt = 0,

i.e. (u) = 0, ce qui montre que nest pas surjective.


Rciproquement, si nest pas surjective, alors il existe un vecteur ligne
IRn \{0} tel que pour tout contrle u on ait

e(T t)A Bu(t)dt = 0.

Ceci implique que, pour tout t [0, T ],


e(T t)A B = 0.

CHAPITRE 2. CONTRLABILIT

30

En t = T on obtient B = 0. Ensuite, en drivant par rapport t, puis en


prenant t = T , on obtient AB = 0. Ainsi, par drivations successives, on
obtient finalement
B = AB = = An1 B = 0,
donc C = 0, et donc rg C < n.
Ce lemme permet maintenant de montrer facilement le thorme.
Si la matrice C est de rang n, alors daprs le lemme lapplication est
surjective, i.e. (L ) = IRn . Or, pour tout contrle u, lextrmit au temps T
de la trajectoire associe u est donne par
Z T
x(T ) = eT A x0 +
e(T t)A (Bu(t) + r(t))dt,
0

de sorte que lensemble accessible en temps T depuis un point x0 IRn est


Z T
TA
e(T t)A r(t)dt + (L ) = IRn ,
Acc(T, x0 ) = e x0 +
0

ce qui montre que le systme est contrlable.


Rciproquement si le systme est contrlable, alors il est en particulier
contrlable depuis x0 dfini par
Z T
T A
x0 = e
e(T t)A r(t)dt.
0

Or en ce point lensemble accessible en temps T scrit


Acc(T, x0 ) = (L ),
et le systme tant contrlable cet ensemble est gal IRn . Cela prouve que
est surjective, et donc, daprs le lemme, que la matrice C est de rang n.
Remarque 2.2.2. Si x0 = 0 et si r = 0, la dmonstration prcdente est un
peu simplifie puisque dans ce cas, daprs la remarque 2.1.3, Acc(0) est un
sous-espace vectoriel.

2.2.2

Cas avec contrainte sur le contrle

Dans le thorme 2.2.1, on na pas mis de contrainte sur le contrle. Cependant en adaptant la preuve on obtient aisment le rsultat suivant.

Corollaire 2.2.3. Sous la condition de Kalman prcdente, si r = 0 et si 0 ,


alors lensemble accessible Acc(x0 , t) en temps t contient un voisinage du point
exp(tA)x0 .
Remarque 2.2.3. Les proprits de contrlabilit globale sont relies aux proprits de stabilit de la matrice A. Par exemple il est clair que si

2.2. CONTRLABILIT DES SYSTMES LINAIRES AUTONOMES

31

1. la condition de Kalman est remplie,

2. r = 0 et 0 ,

3. toutes les valeurs propres de la matrice A sont de partie relle strictement


ngative (i.e. la matrice A est stable),
alors tout point de IRn peut tre conduit lorigine en temps fini (ventuellement
grand).
Dans le cas mono-entre m = 1, on a un rsultat plus prcis que nous
admettrons (voir [52]).
Thorme 2.2.4. Soit b IRn et IR un intervalle contenant 0 dans son
intrieur. Considrons le systme x(t)

= Ax(t) + bu(t), avec u(t) . Alors


tout point de IRn peut tre conduit lorigine en temps fini si et seulement si la
paire (A, b) vrifie la condition de Kalman et la partie relle de chaque valeur
propre de A est infrieure ou gale 0.

2.2.3

Similitude de systmes, forme de Brunovski

Dfinition 2.2.1. Les systmes de contrle linaires x 1 = A1 x1 + B1 u1 et x 2 =


A2 x2 + B2 u2 sont dits semblables sil existe P GLn (IR) tel que A2 = P A1 P 1
et B2 = P B1 .
Remarque 2.2.4. On a alors x2 = P x1 .
Proposition 2.2.5. La proprit de Kalman est intrinsque, i.e.
(B2 , A2 B2 , . . . , A2n1 B2 ) = P (B1 , A1 B1 , . . . , A1n1 B1 ),
En particulier, le rang de la matrice de Kalman est invariant par similitude.
Considrons une paire (A, B) o A Mn (IR) et B Mn,m (IR).
Proposition 2.2.6. La paire (A, B) est semblable une paire (A , B ) de la
forme


 
A1 A3
B1

A =
, B =
,
0 A2
0
o A1 Mr (IR), B1 Mr,m (IR), r tant le rang de la matrice de Kalman de
la paire (A, B). De plus, la paire (A1 , B1 ) est contrlable.

Dmonstration. Supposons que le rang r de la matrice de Kalman C de la


paire (A, B) soit strictement plus petit que n (sinon il ny a rien montrer). Le
sous-espace
F = Im C = Im B + Im AB + + Im An1 B
est de dimension r, et daprs le thorme dHamilton-Cayley il est clairement
invariant par A. Soit G un supplmentaire de F dans IRn , et soient (f1 , . . . , fr )
une base de F , et (fr+1 , . . . , fn ) une base de G. Notons P la matrice de passage

CHAPITRE 2. CONTRLABILIT

32

de la base (f1 , . . . , fn ) la base canonique de IRn . Alors, puisque F est invariant


par A, on a


A1 A3
A = P AP 1 =
,
0 A2
et dautre part, puisque Im B F , on a
B = P B =

 
B1
.
0

Enfin, on voit facilement que le rang de la matrice de Kalman de la paire (A1 , B1 )


est gal celui de la paire (A, B).
Thorme 2.2.7 (Forme de Brunovski). Si m = 1 et si la paire (A, B) est
B),
o
contrlable, alors elle est semblable la paire (A,


0
1

0
0
..
..
..
.
.
.
.

.
.
.
=
A = .
, B
. ,
0
0

0
1
an an1 a1
1

et o les coefficients ai sont ceux du polynme caractristique de A, i.e.


A (X) = X n + a1 X n1 + + an1 X + an .

Remarque 2.2.5. Dans ces nouvelles coordonnes, le systme est alors quivalent
lquation diffrentielle scalaire dordre n
x(n) (t) + a1 x(n1) (t) + + an x(t) = u(t).
Dmonstration. Raisonnons par analyse et synthse. Sil existe une base (f1 , . . . , fn )
B),
alors on a ncessairement
dans laquelle la paire (A, B) prend la forme (A,
fn = B scalaire prs, et
Afn = fn1 a1 fn , . . . , Af2 = f1 an1 fn , Af1 = an fn .
Dfinissons donc les vecteurs f1 , . . . , fn par les relations
fn = B, fn1 = Afn + a1 fn , . . . , f1 = Af2 + an1 fn .
La famille (f1 , . . . , fn ) est bien une base de IRn puisque
Vect {fn } = Vect {B},
Vect {fn , fn1 } = Vect {B, AB},
..
.
Vect {fn , . . . , f1 } = Vect {B, . . . , An1 B} = IRn .

2.2. CONTRLABILIT DES SYSTMES LINAIRES AUTONOMES

33

Il reste vrifier que lon a bien Af1 = an fn . On a


Af1 = A2 f2 + an1 Afn
= A2 (Af3 + an2 fn ) + an1 Afn
= A3 f3 + an2 A2 fn + an1 Afn
..
.
= An fn + a1 An1 fn + + an1 Afn
= an fn

puisque daprs le thorme dHamilton-Cayley, on a An = a1 An1 an I.


B).

Dans la base (f1 , . . . , fn ), la paire (A, B) prend la forme (A,


Remarque 2.2.6. Lorsque m > 1, ce thorme admet la gnralisation suivante.
B)

Si la paire (A, B) est contrlable, alors on peut la conjuguer une paire (A,
telle que

A1

..
0 A2 . . .
.
,

A= .

.
.
..
..
..
0
0 As

o les matrices Ai sont des matrices compagnons (i.e., ayant la forme de Brunovski du thorme prcdent) ; par ailleurs, il existe une matrice G Mm,s (IR)
telle que

1
B

= ..
BG
. ,
s
B

i sont nuls, sauf celui de la dernire


o tous les coefficients de chaque matrice B
ligne, en i-me colonne, qui est gal 1.
Exercice 2.2.1. Tester la contrlabilit des systmes suivants.
Wagon
m
x(t) = u(t).
Oscillateur harmonique linaire
m
x(t) + kx(t) = u(t).
Systmes de ressorts amortis
(
m1 x1 = k1 (x1 x2 ) d1 (x 1 x 2 ) + u,
m2 x2 = k1 (x1 x2 ) k2 x2 + d1 (x 1 x 2 ) d2 x 2 .

CHAPITRE 2. CONTRLABILIT

34

Amortisseurs dune voiture


(
x1 = k1 x1 d1 x 1 + l1 u,
x2 = k2 x2 d2 x 2 + l2 u.

Vitesse angulaire dun rotor


I (t)

= u(t).
Circuit RLC
L
o q(t) =

Rt

q
di
+ Ri +
= u,
dt
C

i est la charge du condensateur. Do

dq

= i,
dt

di = R i 1 q + 1 u.
dt
L
LC
L

Servomoteur courant continu. On note R la rsistance, L linductance, e


la force contre-lectromotrice, k1 , k2 des constantes, J le moment dinertie
du moteur, f le coefficient de frottement du moteur, = k2 i le couple
moteur, c le couple antagoniste, langle moteur. On a

di

u = Ri + L dt + e,

e = k1 ,


J = kl2 i f c ,
do

i
R/L 0 k1 /L
1
0
d
=
0
0
1 + 0 u + 0 .
dt
k
/J
0
f
/J
0
c

Systme de ressorts coupls (train deux wagons)


(

x
= k1 x + k2 (y x),
y = k2 (y x) + u.

Exercice 2.2.2. Pour quelles valeurs de le systme


  
x
2
=
y
0
est-il contrlable ?

  
 
3
x
1
1
u
+
2
y
2 0
v

2.3. CONTRLABILIT DES SYSTMES LINAIRES INSTATIONNAIRES35

2.3

Contrlabilit des systmes linaires instationnaires

Les deux thormes suivants donnent une condition ncessaire et suffisante


de contrlabilit dans le cas instationnaire.
Thorme 2.3.1. Le systme x(t)

= A(t)x(t) + B(t)u(t) + r(t) est contrlable


en temps T si et seulement si la matrice
Z T
T
T
M (t)1 B(t)B(t) M (t)1 dt,
C(T ) =
0

dite matrice de contrlabilit, est inversible.


Remarque 2.3.1. Cette condition dpend de T , mais ne dpend pas du point
initial x0 . Autrement dit, si un systme linaire instationnaire est contrlable
en temps T depuis x0 , alors il est contrlable en temps T depuis tout point.
T
Remarque 2.3.2. On a C(T ) = C(T ) , et xT C(T )x > 0 pour tout x IRn ,
i.e. C(T ) est une matrice carre relle symtrique positive.
Dmonstration. Pour toute solution x(t), on a, daprs la formule de variation
de la constante,
Z T
x(T ) = x + M (T )
M (t)1 B(t)u(t)dt,
0

o
x = M (T )x0 + M (T )

M (t)1 r(t)dt.

Si C(T ) est inversible, posons u(t) = B(t) M (t)1 , avec IRn . Alors
x(T ) = x + M (T )C(T ),
et il suffit de prendre = C(T )1 M (T )1 (x1 x ).
Rciproquement, si C(T ) nest pas inversible, alors il existe IRn \ {0} tel
que T C(T ) = 0. On en dduit que
Z T
T
T
kB(t) M (t)1 k2 dt = 0,
0

do M (t)

B(t) = 0 p.p. sur [0, T ]. Ainsi, pour tout contrle u, on a


Z T
T
M (t)1 B(t)u(t)dt = 0.
0

1 T

Posons 1 = M (T )

; on a, pour tout contrle u,


T (xu (T ) x ) = 0,

i.e. xu (T ) x + , et donc le systme nest pas contrlable.

CHAPITRE 2. CONTRLABILIT

36

Remarque 2.3.3. Ce thorme peut se montrer beaucoup plus facilement en


contrle optimal, le contrle utilis dans la preuve tant optimal pour un certain
critre.
Remarque 2.3.4. Si le systme est autonome, on a M (t) = etA , et donc
C(T ) =

esA BB T esA ds.

Dans ce cas, C(T1 ) est inversible si et seulement si C(T2 ) est inversible, et en


particulier la condition de contrlabilit ne dpend pas de T (ce qui est faux
dans le cas instationnaire).
Thorme 2.3.2. Considrons le systme
x(t)

= A(t)x(t) + B(t)u(t) + r(t)


o les applications A, B sont de classe C sur [0, T ]. Dfinissons par rcurrence
B0 (t) = B(t), Bi+1 (t) = A(t)Bi (t)

dBi
(t).
dt

1. Sil existe t [0, T ] tel que


Vect {Bi (t)v | v IRm , i IN} = IRn ,
alors le systme est contrlable en temps T .
2. Si de plus les applications A, B sont analytiques sur [0, T ], alors le systme
est contrlable en temps T si et seulement si
t [0, T ]

Vect {Bi (t)v | v IRm , i IN} = IRn .

Ce thorme se montre aisment en thorie du contrle optimal, par lapplication du principe du maximum (voir plus loin).
Remarque 2.3.5. Dans le cas autonome, on retrouve la condition de Kalman.
Exercice 2.3.1. Montrer que le systme x(t)

= A(t)x(t) + B(t)u(t), avec


t 1 0
0
A(t) = 0 t3 0 , et B(t) = 1 ,
0 0 t2
1
est contrlable en temps quelconque.

Exercice 2.3.2. Montrer que le systme


(
x(t)

= y(t) + u(t) cos t,


y(t)
= x(t) + u(t) sin t,

nest pas contrlable.

2.3. CONTRLABILIT DES SYSTMES LINAIRES INSTATIONNAIRES37


Exercice 2.3.3. Soient m et n des entiers naturels non nuls, et soient A
Mn (IR) et B Mn,m (IR). On suppose que le systme de contrle x(t)

= Ax(t)+
Bu(t) est contrlable. Soit f : IR IR une fonction de classe C ; on pose, pour
tout t IR,
A(t) = A + f (t)I,
o I est la matrice identit dordre n. Montrer que le systme de contrle x(t)

=
A(t)x(t) + Bu(t) est contrlable en temps quelconque.

38

CHAPITRE 2. CONTRLABILIT

Chapitre 3

Temps-optimalit
3.1

Existence de trajectoires temps-optimales

Il faut tout dabord formaliser, laide de Acc(x0 , t), la notion de temps


minimal. Considrons comme prcdemment le systme de contrle dans IRn
x(t)

= A(t)x(t) + b(t)u(t) + r(t),


o les contrles u sont valeurs dans un compact dintrieur non vide IRm .
Soient x0 et x1 deux points de IRn . Supposons que x1 soit accessible depuis x0 ,
cest--dire quil existe au moins une trajectoire reliant x0 x1 . Parmi toutes les
trajectoires reliant x0 x1 , on aimerait caractriser celles qui le font en temps
minimal t (voir figure 3.1).

x1 = x(t )

x0

Figure 3.1
Si t est le temps minimal, alors pour tout t < t , x1
/ Acc(x0 , t) (en
effet sinon x1 serait accessible partir de x0 en un temps infrieur t ). Par
consquent,
t = inf{t > 0 | x1 Acc(x0 , t)}.

Ce temps t est bien dfini car, daprs le thorme 2.1.1, Acc(x0 , t) varie continment avec t, donc lensemble {t > 0 | x1 Acc(x0 , t)} est ferm dans IR. En
particulier cette borne infrieure est atteinte.
Le temps t = t est le premier temps pour lequel Acc(x0 , t) contient x1 (voir
figure 3.2).
39

CHAPITRE 3. TEMPS-OPTIMALIT

40

x1

x0
Acc(x0 , t)
Acc(x0 , t)

Figure 3.2 Temps minimal


Dautre part, on a ncessairement
o

x1 Acc(x0 , t ) = A(x0 , t ) \ Acc(x0 , t ).


En effet, si x1 appartenait lintrieur de Acc(x0 , t ), alors pour t < t proche
de t , x1 appartiendrait encore Acc(x0 , t) car Acc(x0 , t) varie continment
avec t. Mais ceci contredit le fait que t soit le temps minimal.
En particulier on a prouv le thorme dexistence suivant.
Thorme 3.1.1. Si le point x1 est accessible depuis x0 alors il existe une
trajectoire temps-minimale reliant x0 x1 .
Remarque 3.1.1. On peut aussi se poser le problme datteindre une cible non
rduite un point. Ainsi, soit (M1 (t))06t6T une famille de sous-ensembles compacts de IRn variant continment en t. Tout comme prcdemment, on voit que
sil existe un contrle u valeurs dans joignant x0 M1 (T ), alors il existe un
contrle temps-minimal dfini sur [0, t ] joignant x0 M (t ).
Ces remarques donnent une vision gomtrique de la notion de temps minimal, et conduisent la dfinition suivante.
Dfinition 3.1.1. Le contrle u est dit extrmal sur [0, t] si la trajectoire du
systme (1.2) associe u vrifie x(t) Acc(x0 , t).
En particulier, tout contrle temps-minimal est extrmal. La rciproque est
videmment fausse car lextrmalit ne fait pas la diffrence entre la minimalit
et la maximalit.
Dans le paragraphe suivant on donne une caractrisation de cette proprit.

3.2

Condition ncessaire doptimalit : principe


du maximum dans le cas linaire

Le thorme suivant donne une condition ncessaire et suffisante pour quun


contrle soit extrmal.

3.2. CONDITION NCESSAIRE DOPTIMALIT : PRINCIPE DU MAXIMUM DANS LE CAS LINAIRE41


Thorme 3.2.1. Considrons le systme de contrle linaire
x(t)

= A(t)x(t) + B(t)u(t) + r(t), x(0) = x0 ,


o le domaine de contraintes IRm sur le contrle est compact. Soit T > 0.
Le contrle u est extrmal sur [0, T ] si et seulement sil existe une solution non
triviale p(t) de lquation p(t)
= p(t)A(t) telle que
p(t)B(t)u(t) = max p(t)B(t)v
v

(3.1)

pour presque tout t [0, T ]. Le vecteur ligne p(t) IRn est appel vecteur
adjoint.
Remarque 3.2.1. La condition initiale p(0) dpend en fait du point final x1 ,
comme on le voit dans la dmonstration. Comme elle nest pas directement
connue, lusage de ce thorme sera plutt indirect, comme on le verra dans les
exemples.
Remarque 3.2.2. Dans le cas mono-entre (contrle scalaire), et si de plus =
[a, a] o a > 0, la condition de maximisation implique immdiatement que
u(t) = a signe(p(t)B(t)). La fonction (t) = p(t)B(t) est appele fonction de
commutation, et un temps tc auquel le contrle extrmal u(t) change de signe
est appel un temps de commutation. Cest en particulier un zro de la fonction
.
Dmonstration. On a vu que Acc (x0 , T ) = AccConv() (x0 , T ), et par consquent on peut supposer que est convexe. Si u est extrmal sur [0, T ], soit x la
trajectoire associe u. On a x(T ) Acc(x0 , T ). Par convexit de Acc(x0 , T ),
il existe daprs le thorme du convexe (voir par exemple [19]) un hyperplan
sparant au sens large x(T ) et Acc(x0 , T ). Soit pT un vecteur normal cet
hyperplan (voir figure 3.3).

y1
pT
Acc(x0 , T )

x(T )

Figure 3.3
Daprs le thorme du convexe,
y1 Acc(x0 , T ) pT (y1 x(T )) 6 0.

(3.2)

CHAPITRE 3. TEMPS-OPTIMALIT

42

Par dfinition de Acc(x0 , T ), il existe un contrle u1 tel que la trajectoire associe


y(t) vrifie y1 = y(T ). Lingalit (3.2) se rcrit
pT x(T ) > pT y(T ).
Do
Z
Z T
1
pT M (T )M (s) (B(s)u(s)+r(s))ds >
0

pT M (T )M (s)1 (B(s)u1 (s)+r(s))ds.


0

Appelons p(t) la solution sur [0, T ] de p = pA, telle que p(T ) = pT . Alors il
est clair que p(t) = p(0)M (t)1 et pT = p(T ) = p(0)M (T )1 . Il sensuit que
s [0, T ] pT M (T )M (s)1 = p(0)M (s)1 = p(s),
et donc que
Z

p(s)B(s)u1 (s)ds 6

p(s)B(s)u(s)ds

(3.3)

Si (3.1) nest pas vraie alors


p(t)B(t)u(t) < max p(t)B(t)v.
v

sur un sous-ensemble de [0, T ] de mesure positive. Soit alors u1 () sur [0, T ]


valeurs dans tel que
p(t)B(t)u1 (t) = max p(t)B(t)v.
v

En appliquant un lemme de slection mesurable de thorie de la mesure, on peut


montrer que lapplication u1 () peut tre choisie mesurable sur [0, T ] (voir [52,
Lem. 2A, 3A p. 161]).
Comme u1 est valeurs dans , lingalit (3.3) est vraie, alors que par
ailleurs la dfinition de u1 conduit immdiatement lingalit stricte inverse,
do la contradiction. Par consquent (3.1) est vraie.
Rciproquement, supposons quil existe un vecteur adjoint tel que le contrle
u vrifie (3.1). Notons x() la trajectoire associe u. On voit facilement en
remontant le raisonnement prcdent que
y1 Acc(x0 , T ) p(T )(y1 x(T )) 6 0.

(3.4)

Raisonnons alors par labsurde, et supposons que x(T ) Int Acc(x0 , T ). Alors il
existerait un point y1 de Acc(x0 , T ) qui serait sur la demi-droite dorigine x(T )
et de direction p(T ) (voir figure 3.4). Mais alors p(T )(y1 x(T )) > 0, ce qui
contredirait (3.4). Donc x(T ) Acc(x0 , T ), et u est extrmal.
Remarque 3.2.3. Si u est extrmal sur [0, T ] alors u est aussi extrmal sur [0, t]
pour tout t [0, T ], et de plus p(t) est un vecteur normal extrieur Acc(x0 , t).
Cela dcoule facilement de la preuve et de la proprit (3.1).

3.2. CONDITION NCESSAIRE DOPTIMALIT : PRINCIPE DU MAXIMUM DANS LE CAS LINAIRE43

x(T )
y1
p(T )

Figure 3.4
Remarque 3.2.4. Puisque tout contrle temps-minimal est extrmal, le thorme prcdent, qui est le principe du maximum dans le cas linaire, donne une
condition ncessaire doptimalit.
Remarque 3.2.5. Si u est un contrle temps-minimal joignant en temps T une
cible M1 , o M1 IRn est convexe, alors on peut de plus choisir le vecteur
adjoint pour que le vecteur p(T ) soit unitaire et normal un hyperplan sparant
(au sens large) Acc(x0 , T ) et M1 . Cest une condition dite de transversalit,
obtenue facilement dans la preuve prcdente.
Comme exemple thorique dapplication, montrons le rsultat suivant.
Proposition 3.2.2. Considrons dans IRn le systme linaire autonome x(t)

=
Ax(t) + Bu(t), avec B IRn et |u(t)| 6 1, et o la paire (A, B) vrifie la
condition de Kalman.
1. Si toute valeur propre de A est relle, alors tout contrle extrmal a au
plus n 1 commutations sur IR+ .
2. Si toute valeur propre de A a une partie imaginaire non nulle, alors tout
contrle extrmal a un nombre infini de commutations sur IR+ .
Dmonstration. Daprs le thorme 2.2.7, le systme peut scrire sous forme de
Brunovski, et il est alors quivalent une quation diffrentielle scalaire dordre
n de la forme
x(n) + a1 x(n1) + + an x = u, |u| 6 1.

De plus, tout contrle extrmal est de la forme u(t) = signe (t), o (t) est la
dernire coordonne du vecteur adjoint, qui vrifie lquation diffrentielle
(n) a1 (n1) + + (1)n an = 0.
En effet le vecteur adjoint vrifie p (t) = p(t)A(t).
1. Si toute valeur propre de A est relle, alors (t) scrit sous la forme
(t) =

r
X

Pj (t)ej t ,

j=1

o Pj est un polynme de degr infrieur ou gal nj 1, et o 1 , . . . , r ,


sont les r valeurs propres distinctes de A, de multiplicits respectives
n1 , . . . , nr . Notons que n = n1 + + nr . On montre alors facilement, par
rcurrence, que (t) admet au plus n 1 zros.

CHAPITRE 3. TEMPS-OPTIMALIT

44

2. Si toute valeur propre de A a une partie imaginaire non nulle, alors, comme
prcdemment, on peut crire
(t) =

r
X

(Pj (t) cos j t + Qj (t) sin j t)ej t ,

j=1

o j = j + ij , et Pj , Qj sont des polynmes rels non nuls. En mettant


en facteur un terme tk ei t de plus haut degr (i.e. dominant), on voit
facilement que (t) a un nombre infini de zros.

3.3
3.3.1

Exemples
Synthse optimale pour le problme de loscillateur
harmonique linaire

Appliquons la thorie prcdente lexemple de loscillateur harmonique prsent en introduction, pour k2 = 0, et rpondons aux deux questions suivantes :
1. Pour toute condition initiale x(0) = x0 , x(0)

= y0 , existe-t-il une force


extrieure horizontale (un contrle), vrifiant la contrainte, qui permette
damener la masse ponctuelle sa position dquilibre x(T ) = 0, x(T
)=0
en un temps fini T ?
2. Si la premire condition est remplie, peut-on de plus dterminer cette force
de manire minimiser le temps ?
Enfin, ces deux problmes rsolus, nous reprsenterons dans le plan de phase la
trajectoire optimale obtenue.

Contrlabilit du systme
Le systme scrit


X = AX + Bu
X(0) = X0

avec A =


 
0 1
0
,B =
.
1 0
1

On a facilement rg(B, AB) = 2 ; par ailleurs les valeurs propres de A sont de


partie relle nulle. Donc, daprs le thorme 2.2.4, le systme est contrlable
0, i.e. il existe des contrles u vrifiant la contrainte |u| 6 1 tels que les trajectoires associes relient X0 0, ce qui rpond la premire question.

3.3. EXEMPLES

45

Interprtation physique
Si lon napplique aucune force extrieure, i.e. u = 0, alors lquation du
mouvement est x
+x = 0. La masse ponctuelle oscille, et ne sarrte jamais,
donc ne parvient pas sa position dquilibre en un temps fini.
Si lon applique certaines forces extrieures, on a tendance amortir les oscillations. La thorie prvoit quon parvient stopper lobjet en un temps
fini.

Calcul du contrle optimal


Daprs le paragraphe prcdent, il existe des contrles permettant de relier
X0 0. On cherche maintenant le faire en temps minimal. Pour cela, on
applique le thorme 3.2.1, selon lequel
u(t) = signe(p(t)B),
o p(t) IR2 est solution de p = pA. Posons p = (p1 , p2 ). Alors u(t) =
signe(p2 (t)), et p 1 = p2 , p 2 = p1 , do p2 +p2 = 0. Donc p2 (t) = cos t+ sin t.
En particulier, la dure entre deux zros conscutifs de p2 (t) est exactement .
Par consquent le contrle optimal est constant par morceaux sur des intervalles
de longueur , et prend alternativement les valeurs 1.
Si u = 1, on obtient le systme diffrentiel
(
x = y,
(3.5)
y = x 1.
Si u = +1,
(

x = y,
y = x + 1.

(3.6)

La trajectoire optimale finale, reliant X0 0, sera constitue darcs successifs,


solutions de (3.5) et (3.6).
Solutions de (3.5). On obtient facilement (x + 1)2 + y 2 = cste = R2 , donc
les courbes solutions de (3.5) sont des cercles centrs en (1, 0), et de priode
2 (en fait, x(t) = 1 + R cos t, y(t) = R sin t).
Solutions de (3.6). On obtient x(t) = 1 + R cos t et y(t) = R sin t. Les
solutions sont des cercles centrs en (1, 0), de priode 2.
La trajectoire optimale de X0 0 doit donc suivre alternativement un arc
de cercle centr en (1, 0), et un arc de cercle centr en (1, 0).
Quitte changer t en t, nous allons raisonner en temps inverse, et construire
la trajectoire optimale menant de 0 X0 . Pour cela, nous allons considrer toutes
les trajectoires optimales partant de 0, et nous slectionnerons celle qui passe
par X0 .

CHAPITRE 3. TEMPS-OPTIMALIT

46

En faisant varier p(0), on fait varier la trajectoire optimale. En effet, daprs


le thorme de Cauchy-Lipschitz, p(0) dtermine p(t) pour tout t, ce qui dfinit
un contrle optimal u(t), et donc une trajectoire optimale.
Prenons des exemples pour commencer reprsenter lallure des trajectoires
optimales possibles.
Si p1 (0) = 1, p2 (0) = 0, alors p2 (t) = sin t, donc sur ]0, [ on a u(t) =
signe(p2 (t)) = 1. La trajectoire optimale correspondante, partant de 0,
suit donc pendant un temps larc de cercle solution de (3.5), passant
par 0 (voir figure 3.5).
y

x
1

+1

Figure 3.5
Si p1 (0) = 1, p2 (0) = 0, alors p2 (t) = sin t, donc sur ]0, [ on a u(t) =
signe(p2 (t)) = +1. La trajectoire optimale correspondante, partant de 0,
suit donc pendant un temps larc de cercle + solution de (3.6), passant
par 0 (voir figure 3.6).
y
x
1

+1
+

Figure 3.6
Pour tout autre choix de p(0) tel que p2 (0) > 0, la trajectoire optimale
correspondante part de lorigine en suivant + jusqu ce que p2 (t) = 0.
Au-del de ce point, p2 (t) change de signe, donc le contrle commute et
prend la valeur 1, pendant une dure (i.e. jusqu ce que p2 (t) change
nouveau de signe). La trajectoire optimale doit alors tre solution de (3.5),
en partant de ce point de commutation M , et doit donc suivre un arc de
cercle centr en (1, 0), pendant un temps . Cest donc un demi-cercle,
vu la paramtrisation des courbes de (3.5) (voir figure 3.7).
La trajectoire optimale rencontre un deuxime point de commutation N
lorsque nouveau p2 (t) change de signe. On remarque que M et N sont symtriques par rapport au point (1, 0) (en effet ce sont les extrmits dun

3.3. EXEMPLES

47
y

+1
1

x
M

Figure 3.7
demi-cercle centr en ce point). Le point M appartenant au demi-cercle
+ , le point N appartient au demi-cercle image de + par la symtrie
par rapport au point (1, 0) qui est aussi, comme on le voit facilement, le
translat gauche de par la translation de vecteur (2, 0).
Poursuivons alors notre raisonnement. On se rend compte que les points de
commutation de cette trajectoire optimale partant de 0 sont situs sur la courbe
W construite de la manire suivante : W est lunion de tous les translats
gauche de par la translation prcdente, et aussi de tous les translats
droite de + (voir figure 3.8).
y

+1

+3

+5

Figure 3.8 Ensemble W


Les trajectoires optimales sont alors construites de la manire suivante : on
part de 0 et lon suit un morceau de + ou , jusqu un premier point de
commutation. Si par exemple on tait sur + , alors partant de ce point on suit
un arc de cercle centr en (1, 0), au-dessus de W , jusqu ce quon rencontre
W . De ce deuxime point de commutation, on suit un arc de cercle centr en
(1, 0) jusqu rencontrer W en un troisime point de commutation, etc (voir
figure 3.9).
On est maintenant en mesure de rpondre la deuxime question, du moins
graphiquement. Le but est de relier 0 et X0 par une trajectoire optimale. La
thorie prvoit quon peut effectivement le faire. Une trajectoire partant de 0

CHAPITRE 3. TEMPS-OPTIMALIT

48

+3

+1
5

+5

Figure 3.9

est, comme on vient de le voir ci-dessus, dtermine par deux choix :


1. partant de 0, on peut suivre un morceau de + ou de .
2. il faut choisir le premier point de commutation.
Si maintenant on se donne un point X0 = (x0 , y0 ) du plan de phase, on peut
dterminer graphiquement ces deux choix, et obtenir un trac de la trajectoire
optimale (voir figure 3.10). Dans la pratique il suffit dinverser le temps, i.e. de
partir du point final et datteindre le point initial.
y
X0

0
+

Figure 3.10 Synthse optimale

Remarque 3.3.1. Limplmentation numrique de cet exemple est trs facile


faire. Nous la ferons plutt dans le cas non linaire o elle est plus intressante.

3.3. EXEMPLES

3.3.2

49

Autres exemples

Exemple 3.3.1. [52] Considrons le systme de contrle


x = y + u, y = y + u, |u| 6 1.
Le but est de joindre en temps minimal la droite x = 0, puis de rester sur cette
droite.
Remarquons tout dabord que si une trajectoire reste dans x = 0, cela implique y(t) = u(t), et donc |y| 6 1. Rciproquement de tout point (0, y) avec
|y| 6 1 part une trajectoire restant dans le lieu x = 0, |y| 6 1 ; il suffit de choisir
u(t) = ye2t . Par consquent la cible est
M1 = {(0, y) | |y| 6 1}.
Cest un compact convexe.
Le systme est du type X = AX + Bu avec


 
0 1
1
A=
et B =
.
0 1
1
On vrifie facilement la condition de Kalman, et dautre part les valeurs propres
de A sont 0 et 1. Daprs le thorme 2.2.4 le systme est donc contrlable
0, et donc la cible M1 est atteignable de tout point.
Comme dans le cas prcdent, raisonnons en temps inverse en calculant les
trajectoires optimales joignant M1 tout point final. Le systme extrmal scrit
alors
x = y u, y = y u, px = 0, p y = px py ,

o u(t) = signe(px (t) + py (t)). On intgre aisment px (t) = cste = px et


py (t) = px + (py (0) px )et . En particulier px + py est strictement monotone
et donc le contrle u admet au plus une commutation.
Par ailleurs la condition de transversalit (voir remarque 3.2.5) impose que
si x(0) = 0, |y(0)| < 1 alors px (0) = 1 et py (0) = 0. Mais alors px (t) + py (t) =
(1 et ), et u ne commute pas sur IR+ . Par exemple si px = 1 on obtient
u(t) = 1 pour tout t > 0, ce qui donne les courbes en pointill sur la figure
3.11. La courbe limite est obtenue pour u = 1, partant du point x = 0, y = 1,
et scrit
= {(2et + 2t + 2, 2et 1) | t > 0}.

Calculons maintenant les extrmales partant du point (0, 1). La condition


de transversalit scrit alors px (0) = cos , py (0) = sin , avec 0 6 6 .
Par consquent
u(t) = signe(2 cos (sin + cos )et ),
et lon a une commutation si et seulement sil existe t > 0 tel que
et =

cos
.
sin + cos

CHAPITRE 3. TEMPS-OPTIMALIT

50

cos
Si 0 6 < 4 alors sin2+cos
> 1 donc lquation ci-dessus na pas de
solution, et donc u(t) = +1 sur IR+ .
Si 4 6 < 2 , lquation a une solution t() > 0, et lon voit facilement
que t() est strictement croissante de [ 4 , 2 ] dans [0, +[. Le contrle vaut
alors 1 sur [0, t()[ et +1 ensuite.
Si 2 6 6 , lquation na pas de solution dans IR+ , et on trouve
u(t) = 1 sur IR+ .
Ainsi dans le deuxime cas, lextrmale partant du point (0, 1) suit pendant un
moment la courbe , puis commute sur u = +1.
Enfin, on dfinit + , symtrique de par rapport lorigine (voir figure
3.11). Finalement, le lieu de commutation est + , et lon peut exprimer
en fonction de x, y la loi de commande optimale u(x, y) = 1 (resp. +1) si
(x, y) est au-dessus de W ou sur (resp. en dessous de W ou sur + ), o
W = M 1 + .

u = 1

M1

u = +1

Figure 3.11 Synthse optimale


Exemple 3.3.2. Considrons le systme dans IR2
x 1 = x2 , x 2 = 2x2 + u, |u| 6 1.
On se pose le problme de relier en temps minimal le point origine (0, 0) tout
point (a, 0), o a IR. Sans perte de gnralit on peut supposer que a > 0.
On peut facilement vrifier que le systme est contrlable. Par ailleurs le
systme adjoint scrit
p 1 = 0, p 2 = p1 2p2 ,
et le contrle extrmal est u = signe(p2 ). On a facilement p1 = cste, puis
p2 (t) = 21 p1 + e2t . En particulier p2 (t) est strictement monotone donc le

3.3. EXEMPLES

51

contrle a au plus une commutation. En posant u = = 1 on intgre aisment


1

x1 (t) = (t t0 ) + (x2 (t0 ) + )(e2(tt0 ) 1) + x1 (t0 ),


2
2
2

x2 (t) = + (x2 (t0 ) + )e2(tt0 ) .


2
2
On peut alors reprsenter le flot extrmal (voir figure 3.12). Notons le changement de monotonie en x2 = 21 .
x2
1
2

x1
12

Figure 3.12 Extrmales de lexemple 3.3.2


On note la courbe, en gras sur la figure, runion des deux extrmales
passant par lorigine et associes respectivement aux contrles u = +1 et u =
1. Il est clair que est la courbe de commutation, et que u = +1 si on est
au-dessus de , ou sur avec x2 > 0, et u = 1 si on est en dessous de ou sur
avec x2 < 0. Il est alors clair que, pour aller en temps minimal de lorigine un
point (a, 0) o a > 0, il faut dabord prendre u = +1, i.e. suivre un morceau de
la courbe , puis commuter (avant darriver x2 = 21 ) et suivre un arc associ
u = 1. Par exemple si a > 0 est trs grand, le point de commutation doit
tre trs proche de la droite x2 = 21 .

52

CHAPITRE 3. TEMPS-OPTIMALIT

Chapitre 4

Thorie linaire-quadratique
Dans ce chapitre on sintresse aux systmes de contrle linaires avec un
cot quadratique. Ces systmes sont dune grande importance dans la pratique,
comme on le verra en section 4.4. En effet un cot quadratique est souvent
trs naturel dans un problme, par exemple lorsquon veut minimiser lcart
au carr par rapport une trajectoire nominale (problme de poursuite). Par
ailleurs mme si les systmes de contrle sont en gnral non linaires, on est
trs souvent amen linariser le systme le long dune trajectoire, par exemple
dans des problmes de stabilisation.
Nous allons donc considrer un systme de contrle linaire dans IRn
x(t)

= A(t)x(t) + B(t)u(t), x(0) = x0 ,

(4.1)

muni dun cot quadratique du type


T

C(u) = x(T ) Qx(T ) +


T
T
x(t) W (t)x(t) + u(t) U (t)u(t) dt,

(4.2)

o T > 0 est fix, et o, pour tout t [0, T ], U (t) Mm (IR) est symtrique
dfinie positive, W (t) Mn (IR) est symtrique positive, et Q Mn (IR) est une
matrice symtrique positive. On suppose que les dpendances en t de A, B, W
et U sont L sur [0, T ]. Par ailleurs le cot tant quadratique, lespace naturel
des contrles est L2 ([0, T ], IRm ).
Le problme de contrle optimal est alors le suivant, que nous appellerons
problme LQ (linaire-quadratique).
Problme LQ : Un point initial x0 IRn tant fix, lobjectif est de dterminer les trajectoires partant de x0 qui minimisent le cot C(u).
Notons que lon nimpose aucune contrainte sur le point final x(T ). Pour toute
la suite, on pose
kx(t)k2W = x(t)T W (t)x(t), ku(t)k2U = u(t)T U (t)u(t), et g(x) = xT Qx,
53

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

54
de sorte que

C(u) = g(x(T )) +


kx(t)k2W + ku(t)k2U dt.

Les matrices Q, W, U sont des matrices de pondration.

Remarque 4.0.2. Par hypothse les matrices Q et W (t) sont symtriques positives, mais pas ncessairement dfinies. Par exemple si Q = 0 et W = 0 alors le
cot est toujours minimal pour le contrle u = 0.
Remarque 4.0.3. Comme dans le chapitre prcdent, on suppose pour allger
les notations que le temps initial est gal 0. Cependant tous les rsultats qui
suivent sont toujours valables si on considre le problme LQ sur un intervalle
[t0 , T ], avec des contrles dans lespace L2 ([t0 , T ], IRm ).
Remarque 4.0.4. Les rsultats des sections 4.1 et 4.2 seront en fait valables pour
des systmes linaires perturbs x = Ax + Bu + r, et avec une fonction g de IRn
dans IR continue ou C 1 . Nous prciserons pour chaque rsultat les extensions
possibles.
De mme nous envisagerons le cas o T = +.

4.1

Existence de trajectoires optimales

Introduisons lhypothse suivante sur U .


2

> 0 | u L ([0, T ], IR )

ku(t)k2U dt

>

u(t) u(t)dt.

(4.3)

Par exemple cette hypothse est vrifie si lapplication t 7 U (t) est continue
sur [0, T ] et T < +, ou encore sil existe une constante c > 0 telle que pour
tout t [0, T ] et pour tout vecteur v IRm on ait v T U (t)v > cv T v.
On a le thorme dexistence suivant.
Thorme 4.1.1. Sous lhypothse (4.3), il existe une unique trajectoire minimisante pour le problme LQ.
Dmonstration. Montrons tout dabord lexistence dune telle trajectoire. Considrons une suite minimisante (un )nIN de contrles sur [0, T ], i.e. la suite C(un )
converge vers la borne infrieure des cots. En particulier cette suite est borne. Par hypothse, il existe une constante > 0 telle que pour tout u
L2 ([0, T ], IRm ) on ait C(u) > kukL2 . On en dduit que la suite (un )nIN est
borne dans L2 ([0, T ], IRm ). Par consquent sous-suite prs elle converge faiblement vers un contrle u de L2 . Notons xn (resp. x) la trajectoire associe au
contrle un (resp. u) sur [0, T ]. Daprs la formule de variation de la constante,
on a, pour tout t [0, T ],
xn (t) = M (t)x0 + M (t)

t
0

M (s)1 B(s)un (s)ds

(4.4)

4.1. EXISTENCE DE TRAJECTOIRES OPTIMALES

55

(et la formule analogue pour x(t)). On montre alors aisment que, sous-suite
prs, la suite (xn ) converge simplement vers lapplication x sur [0, T ] (en fait on
peut mme montrer que la convergence est uniforme).
Passant maintenant la limite dans (4.4), on obtient, pour tout t [0, T ],
x(t) = M (t)x0 + M (t)

M (s)1 B(s)u(s)ds,

et donc x est une solution du systme associe au contrle u. Montrons quelle


est minimisante. Pour cela on utilise le fait que puisque un u dans L2 , on a
lingalit
Z T
Z T
2
ku(t)kU dt 6 lim inf
kun (t)k2U dt,
0

et donc C(u) 6 lim inf C(un ). Mais comme (un ) est une suite minimisante, C(u)
est gal la borne infrieure des cots, i.e. le contrle u est minimisant, ce qui
montre lexistence dune trajectoire optimale.
Pour lunicit on a besoin du lemme suivant.
Lemme 4.1.2. La fonction C est strictement convexe.
Preuve du lemme. Tout dabord remarquons que pour tout t [0, T ], la fonction
f (u) = uT U (t)u dfinie sur IRm est strictement convexe puisque par hypothse la
matrice U (t) est symtrique dfinie positive. Ensuite, notons xu () la trajectoire
associe un contrle u. On a pour tout t [0, T ],
xu (t) = M (t)x0 + M (t)

M (s)1 B(s)u(s)ds.

Par consquent, comme dans la preuve du thorme 2.1.1, lapplication qui


un contrle u associe xu (t) est convexe, ceci pour tout t [0, T ]. La matrice
W (t) tant symtrique positive, ceci implique la convexit de lapplication qui
T
un contrle u associe x(t) W (t)w(t). On raisonne de mme pour le terme
T
x(T ) Qx(T ). Enfin, lintgration respectant la convexit, on en dduit que le
cot est strictement convexe en u.
Lunicit de la trajectoire optimale en rsulte trivialement.
Remarque 4.1.1 (Extension du thorme 4.1.1). Si la fonction g apparaissant
dans le cot est une fonction continue quelconque de IRn dans IR, borne infrieurement ou convexe, et/ou si le systme de contrle est perturb par une
fonction r(t), alors le thorme prcdent reste vrai.
Remarque 4.1.2 (Cas dun intervalle infini). Le thorme est encore valable si
T = +, avec g = 0, pourvu que le systme (4.1) soit contrlable (en temps
quelconque).
En effet il suffit juste de montrer quil existe des trajectoires solutions du
systme (4.1) sur [0, +[ et de cot fini. Or si le systme est contrlable, alors

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

56

il existe un contrle u et un temps T > 0 tel que la trajectoire associe u relie


x0 0 sur [0, T ]. On tend alors le contrle u par 0 sur ]T, +[, de sorte que la
trajectoire reste en 0. On a ainsi construit une trajectoire solution du systme
sur [0, +[ et de cot fini. Ceci permet daffirmer lexistence dune suite de
contrles minimisants. Les autres arguments de la preuve sont inchangs. On
obtient donc le rsultat suivant.
Proposition 4.1.3. Considrons le problme de dterminer une trajectoire solution de
x(t)

= A(t)x(t) + B(t)u(t) + r(t)


sur [0, +[ et minimisant le cot
Z +

kx(t)k2W + ku(t)k2U dt.
C(u) =
0

Si le systme est contrlable en un temps T > 0, et si lhypothse (4.3) est


vrifie sur [0, +[, alors il existe une unique trajectoire minimisante.
Remarque 4.1.3.
Si lon suppose de plus que les applications A() et B()
sont L2 sur [0, +[, et si W () vrifie comme U une hypothse de coercivit (4.3), alors la trajectoire minimisante tend vers 0 lorsque t tend vers
linfini.
En effet on montre facilement en utilisant lingalit de Cauchy-Schwarz
que lapplication x()
est dans L1 , et par consquent que x(t) converge. Sa
limite est alors forcment nulle.
Dans le cas autonome (A et B sont constantes), si W () vrifie comme
U une hypothse de coercivit (4.3), alors la trajectoire minimisante tend
vers 0 lorsque t tend vers linfini.
En effet il suffit dcrire lingalit
kx(t)k

6 kAkkx(t)k + kBkku(t)k 6 Cste(kx(t)k2 + ku(t)k2 ),


puis en intgrant on montre de mme que lapplication x()

est dans L1 .

4.2

Condition ncessaire et suffisante doptimalit : principe du maximum dans le cas LQ

Thorme 4.2.1. La trajectoire x, associe au contrle u, est optimale pour


le problme LQ si et seulement sil existe un vecteur adjoint p(t) vrifiant pour
presque tout t [0, T ]
T

et la condition finale

p(t)
= p(t)A(t) + x(t) W (t)

(4.5)

p(T ) = x(T )T Q.

(4.6)

De plus le contrle optimal u scrit, pour presque tout t [0, T ],


T

u(t) = U (t)1 B(t) p(t) .

(4.7)

4.2. CONDITION NCESSAIRE ET SUFFISANTE DOPTIMALIT : PRINCIPE DU MAXIMUM DANS LE C


Dmonstration. Soit u un contrle optimal et x la trajectoire associe sur [0, T ].
Le cot est donc minimal parmi toutes les trajectoires solutions du systme,
partant de x0 , le point final tant non fix. Considrons alors des perturbations
du contrle u dans L2 ([0, T ], IRm ) du type
upert (t) = u(t) + u(t),
engendrant les trajectoires
xpert (t) = x(t) + x(t) + o(kukL2 ),
avec x(0) = 0. La trajectoire xpert devant tre solution du systme x pert =
Axpert + Bupert , on en dduit que
x = Ax + Bu,
et par consquent, pour tout t [0, T ],
Z t
x(t) = M (t)
M (s)1 B(s)u(s)ds.

(4.8)

Par ailleurs il est bien clair que le cot C() est une fonction lisse sur L2 ([0, T ], IRm )
(elle est mme analytique) au sens de Frchet. Le contrle u tant minimisant
on doit avoir
dC(u) = 0.
Or
C(upert ) = g(xpert (T )) +

(kxpert (t)k2W + kupert (t)k2U )dt,

et comme Q, W (t) et U (t) sont symtriques, on en dduit que


1
T
dC(u).u = x(T ) Qx(T ) +
2

(x(t) W (t)x(t) + u(t) U (t)u(t))dt = 0,

(4.9)
ceci tant valable pour toute perturbation u. Cette quation va nous conduire
lexpression du contrle optimal u. Mais introduisons tout dabord le vecteur
adjoint p(t) comme solution du problme de Cauchy
p(t)
= p(t)A(t) + x(t)T W (t), p(T ) = x(T )T Q.
La formule de variation de la constante nous conduit
Z t
T
p(t) = M (t)1 +
x(s) W (s)M (s)ds M (t)1
0

pour tout t [0, T ], o


= x(T )T QM (T )

x(s)T W (s)M (s)ds.

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

58

Revenons alors lquation (4.9). Tout dabord, en tenant compte de (4.8) puis
en intgrant par parties, il vient
Z T
Z T
Z t
T
T
x(t) W (t)x(t)dt =
x(t) W (t)M (t)
M (s)1 B(s)u(s)ds dt
0

x(s) W (s)M (s)ds


Z

Or
1

p(t) M (t)

M (s)1 B(s)u(s)ds

x(s)T W (s)M (s)ds M (t)1 B(t)u(t) dt.

x(s) W (s)M (s)ds M (t)1 ,

et daprs lexpression de on arrive


Z T
Z
T
T
x(t) W (t)x(t)dt = x(T ) QM (T )
0

M (t)1 B(t)u(t)dt

p(t)B(t)u(t)dt.
0

Injectons cette galit dans (4.9), en tenant compte du fait que


Z T
T
T
x(T ) Qx(T ) = x(T ) QM (T )
M (t)1 B(t)u(t)dt.
0

On trouve alors que


1
dC(u).u =
2

(u(t)T U (t) p(t)B(t))u(t) dt = 0,

ceci pour toute application u L2 ([0, T ], IRm ). Ceci implique donc lgalit
pour presque tout t [0, T ]
T

u(t) U (t) p(t)B(t) = 0,


ce qui est la conclusion souhaite. Rciproquement sil existe un vecteur adjoint
p(t) vrifiant (4.5) et (4.6) et si le contrle u est donn par (4.7), alors il est
bien clair daprs le raisonnement prcdent que
dC(u) = 0.
Or C tant strictement convexe ceci implique que u est un minimum global de
C.
Remarque 4.2.1. Si le systme de contrle est perturb par une fonction r(t),
alors le thorme prcdent reste vrai. Il le reste, de mme, si la fonction g
apparaissant dans le cot est une fonction convexe C 1 quelconque de IRn dans
IR, sauf que la condition finale sur le vecteur adjoint (4.6) devient
1
p(T ) = g(x(T )),
2

(4.10)

4.2. CONDITION NCESSAIRE ET SUFFISANTE DOPTIMALIT : PRINCIPE DU MAXIMUM DANS LE C


comme on le voit facilement dans la dmonstration (en labsence de convexit,
la condition ncessaire reste vraie). Cette condition sappelle condition de transversalit.
Remarque 4.2.2. Dans le cas dun intervalle infini (T = +) la condition devient
lim p(t) = 0.

t+

(4.11)

Remarque 4.2.3. Dfinissons la fonction H : IRn IRn IRm IR par


1
H(x, p, u) = p(Ax + Bu) (xT W x + uT U u),
2
en utilisant toujours la convention que p est un vecteur ligne de IRn . Alors les
quations donnes par le principe du maximum LQ scrivent
H
= Ax + Bu,
p
H
= pA + xT W,
p =
x

x =

et

H
= 0,
u

puisque pB uT U = 0. Ceci annonce le principe du maximum gnral. Mais en


fait ici dans le cas LQ on peut dire mieux : dune part le principe du maximum
LQ est une condition ncessaire et suffisante de minimalit (alors que dans le
cas gnral cest une condition ncessaire seulement), dautre part il est possible
dexprimer le contrle sous forme de boucle ferme, grce la thorie de Riccati
(voir section suivante).
Exemple 4.2.1. Considrons, avec n = m = 1, le systme de contrle x = u,
x(0) = x0 , et le cot
Z T
C(u) =
(x(t)2 + u(t)2 )dt.
0

Si la trajectoire x associe au contrle u est optimale alors daprs le thorme


prcdent on doit avoir
x = u, p = x, p(T ) = 0,
avec u = p. On en dduit que x
= x, et donc
x(t) = x0 ch t + p(0)sh t, p(t) = x0 sh t + p(0)ch t.
Or p(T ) = 0, do finalement


sh T
sh t .
x(t) = x0 ch t
ch T

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

60

Exemple 4.2.2. Considrons le problme du vhicule se dplaant en ligne


droite, modlis par le systme de contrle
x = u, x(0) = x(0)

= 0.
On souhaite, pendant un temps T fix, maximiser la distance parcourue tout en
minimisant lnergie fournie. On choisit donc le critre
Z T
u(t)2 dt.
C(u) = x(T ) +
0

En appliquant le thorme 4.2.1 on obtient les quations


x = y, y = u, px = 0, p y = px ,
et la condition (4.10) donne
px (T ) =

1
, py (T ) = 0.
2

En intgrant on trouve le contrle


u(t) =

T t
2

et la distance parcourue

1 3
T .
6
Remarque 4.2.4. Dans lexemple prcdent on aurait pu mettre des poids diffrents dans le cot, suivant quon accorde plus dimportance maximiser la
distance parcourue ou minimiser lnergie. On peut aussi choisir le cot
Z T
u(t)2 dt,
C(u) = x(T )2 +
x(T ) =

qui conduit u(t) = x(T )(T t) et x(T ) = 3TT3 6 .


Remarque 4.2.5. Lapproche dveloppe dans la dmonstration du thorme
4.2.1 est variationnelle. On trouvera une autre approche dans [52], qui permet
notamment une extension au cas o on impose que le point final appartienne
une cible. Nous avons ici prfr lapproche du calcul des variations classique,
car elle permet une preuve plus rapide et lgante. Lautre approche est en fait
plus gnrale et sera privilgie dans le cas gnral (non linaire) o elle conduit
au principe du maximum de Pontryagin gnral.

4.3
4.3.1

Fonction valeur et quation de Riccati


Dfinition de la fonction valeur

Soit T > 0 fix, et soit x IRn . Considrons le problme LQ de trouver une


trajectoire solution de
x(t)

= A(t)x(t) + B(t)u(t), x(0) = x,

(4.12)

4.3. FONCTION VALEUR ET QUATION DE RICCATI

61

minimisant le cot quadratique


T

CT (u) = x(T ) Qx(T ) +


kx(t)k2W + ku(t)k2U dt.

(4.13)

Dfinition 4.3.1. La fonction valeur ST au point x est la borne infrieure des


cots pour le problme LQ. Autrement dit
ST (x) = inf{CT (u) | xu (0) = x}.
Remarque 4.3.1. Sous lhypothse (4.3) on a existence dune unique trajectoire
optimale daprs le thorme 4.1.1, et dans ce cas cette borne infrieure est un
minimum.

4.3.2

Equation de Riccati

Thorme 4.3.1. Sous lhypothse (4.3), pour tout x IRn il existe une unique
trajectoire optimale x associe au contrle u pour le problme (4.12), (4.13). Le
contrle optimal se met sous forme de boucle ferme
T

u(t) = U (t)1 B(t) E(t)x(t),

(4.14)

o E(t) Mn (IR) est solution sur [0, T ] de lquation matricielle de Riccati


T
T

E(t)
= W (t) A(t) E(t) E(t)A(t) E(t)B(t)U (t)1 B(t) E(t), E(T ) = Q.
(4.15)
De plus, pour tout t [0, T ], la matrice E(t) est symtrique, et

ST (x) = xT E(0)x.

(4.16)

Remarque 4.3.2. En particulier le thorme affirme que le contrle optimal u se


met sous forme de boucle ferme
u(t) = K(t)x(t),
o K(t) = U (t)1 B(t)T E(t). Cette forme se prte bien aux problmes de stabilisation, comme nous le verrons plus loin.
Dmonstration. Daprs le thorme 4.1.1, il existe une unique trajectoire optimale qui, daprs le thorme 4.2.1, est caractrise par le systme dquations
x = Ax + BU 1 B T pT ,
p = pA + xT W,
T

avec x(0) = x et p(T ) = x(T ) Q. De plus le contrle scrit


u = U 1 B T pT .
T

Il faut donc montrer que lon peut crire p(t) = x(t) E(t), o E(t) est solution
de (4.15). Notons que si p scrit ainsi, alors, daprs lquation vrifie par

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

62

le couple (x, p), on trouve facilement que E(t) doit tre solution de lquation
(4.15). En utilisant lunicit de la trajectoire optimale, on va maintenant montrer
que p scrit effectivement ainsi. Soit E(t) solution de lquation
E = W AT E EA EBU 1 B T E, E(T ) = Q.
Tout dabord E(t) est symtrique car le second membre de lquation diffrentielle lest, et la matrice Q est symtrique. A priori on ne sait pas cependant
que la solution est bien dfinie sur [0, T ] tout entier. On montrera cela plus loin
(lemme 4.3.2).
T
Posons maintenant p1 (t) = x1 (t) E(t), o x1 est solution de
x 1 = Ax1 + Bu1 ,
et u1 = U 1 B T Ex1 . On a alors
T
p1 = x T
1 E + x1 E
T

= (Ax1 + BU 1 B T Ex1 ) E + x1 T (W AT E EA EBU 1 B T E)

= p1 A + x1 T W.

Autrement dit le triplet (x1 , p1 , u1 ) vrifie exactement les quations du thorme


4.2.1. Par consquent la trajectoire x1 est optimale, et par unicit il vient x1 = x,
u1 = u, puis p1 = p. En particulier on a donc p = xT E, et u = U 1 B T Ex.
Dduisons-en la formule (4.16). Pour cela calculons dabord, le long de la trajectoire x(t),
d
d
T
x(t) E(t)x(t) = p(t)x(t) = p(t)x(t)

+ p(t)x(t)

dt
dt
T
= (p(t)A(t) + x(t) W (t))x(t) + p(t)(A(t)x(t) + B(t)u(t))
T

= x(t) W (t)x(t) + p(t)B(t)u(t).


Par ailleurs de lexpression de u on dduit
T

uT U u = (U 1 B T Ex) U U 1 B T Ex = xT EBU 1 B T Ex = pBu.


Finalement on a lgalit
d
x(t)T E(t)x(t) = x(t)T W (t)x(t) + u(t)T U (t)u(t),
dt
et par consquent
T

ST (x) = x(T ) Qx(T ) +

d
T
x(t) E(t)x(t) dt.
dt

Or puisque E(T ) = Q et x(0) = x, il vient ST (x) = xT E(0)x.


Lemme 4.3.2. Lapplication t 7 E(t) est bien dfinie sur [0, T ] tout entier.

4.3. FONCTION VALEUR ET QUATION DE RICCATI

63

Preuve du lemme. Si lapplication E(t) nest pas dfinie sur [0, T ] entier, alors il
existe 0 < t < T tel que kE(t)k tend vers + lorsque t tend vers t par valeurs
suprieures. En particulier pour tout > 0 il existe t0 ]t , T ] et x0 IRn , avec
kx0 k = 1, tels que
|x0 T E(t0 )x0 | > .
(4.17)

Daprs le thorme 4.1.1, il existe une unique trajectoire optimale x() pour
le problme LQ sur [t0 , T ], telle que x(t0 ) = x0 (voir remarque 4.0.3). Cette
trajectoire est caractrise par le systme dquations
x = Ax + BU 1 B T pT , x(t0 ) = x0 ,
T

p = pA + xT W, p(T ) = x(T ) Q.
Le raisonnement prcdent, en remplaant lintervalle [0, T ] par lintervalle [t0 , T ],
montre que ST t0 (x0 ) = x0 T E(t0 )x0 . Par ailleurs, ST t0 (x0 ) est infrieur au
cot de la trajectoire solution du systme, partant de x0 , associe (par exemple)
au contrle nul sur lintervalle [t0 , T ] ; or il est facile de voir que ce cot est major, une constante multiplicative C > 0 prs, par kx0 k2 . On en dduit donc
que |x0 T E(t0 )x0 | 6 Ckx0 k2 , ce qui contredit (??).
Ceci achve la preuve du thorme.
Remarque 4.3.3. Il est clair daprs lexpression (4.16) du cot minimal que la
matrice E(0) est symtrique ngative. On peut amliorer ce rsultat si la matrice
Q est de plus dfinie (voir lemme suivant).
Lemme 4.3.3. Si la matrice Q est symtrique dfinie positive, ou bien si pour
tout t [0, T ] la matrice W (t) est symtrique dfinie positive, alors la matrice
E(0) est symtrique dfinie ngative.
Preuve du lemme 4.3.3. Soit x0 tel que x0 T E(0)x0 = 0, et montrons que x0 = 0.
Pour cela on considre le problme LQ
x = Ax + Bu, x(0) = x0 ,
Z T

T
kx(t)k2W + ku(t)k2U dt,
min x(T ) Qx(T ) +
0

pour lequel, daprs le thorme 4.3.1, le cot minimal vaut x0 T E(0)x0 = 0.


Par consquent, puisque pour tout t la matrices U (t) est dfinie positive, on a
u(t) = 0 sur [0, T ]. Si par ailleurs Q est dfinie positive on a aussi x(T ) = 0. Donc
la trajectoire x() est solution du problme de Cauchy x = Ax, x(T ) = 0, et par
unicit x() est identiquement nulle. En particulier x(0) = x0 = 0, ce qui achve
la preuve. Dans le deuxime cas o W (t) est dfinie positive, la conclusion est
immdiate.
Exercice 4.3.1. Considrons le problme LQ pour le systme x =
(n = m = 1) et le cot
Z T
1
C(u) =
(2et u(t)2 + et x(t)2 )dt.
2
0

1
2x

+u

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

64

Montrer que lon obtient les rsultats suivants :


E(t) =

1 1 et eT
1 eT 2
1 et eT
, u(t) =
x(t), ST (x) =
x .
t
2t
T
t
t
T
e +e e
2e +e e
1 + eT

Exercice 4.3.2 (Contrainte finale impose). Montrer que le problme LQ avec


le cot modifi
Z T

kx(t)k2W + ku(t)k2U dt + lim nkx(T )k2
C(u) =
n+

conduit une trajectoire minimisante telle que x(T ) = 0. Montrer que F (t) =
E(t)1 existe et est solution sur lintervalle [0, T ] entier dune quation de Riccati, avec F (T ) = 0.
Variante du problme prcdent. Soit T > 0 fix. Pour tout t [0, T ] et
tout x IRn , considrons le problme LQ de trouver une trajectoire solution de
x = Ax + Bu, x(t) = x,

(4.18)

minimisant le cot quadratique


CT (t, u) = g(x(T )) +


kx(t)k2W + ku(t)k2U dt.

(4.19)

Dfinition 4.3.2. La fonction valeur S au point (t, x) est la borne infrieure


des cots pour ce problme LQ. Autrement dit
ST (t, x) = inf{CT (t, u) | xu (t) = x}.

Thorme 4.3.4. Sous lhypothse (4.3), pour tout x IRn et tout t [0, T ] il
existe une unique trajectoire optimale x associe au contrle u pour le problme
(4.18), (4.19). Le contrle optimal se met sous forme de boucle ferme
T

u(s) = U (s)1 B(s) E(s)x(s),

(4.20)

pour tout s [t, T ], et o E(s) Mn (IR) est solution sur [t, T ] de lquation
matricielle de Riccati
E = W AT E EA EBU 1 B T E, E(T ) = Q.

(4.21)

De plus pour tout s [t, T ] la matrice E(s) est symtrique, et pour tout t [0, T ]
on a
ST (t, x) = xT E(t)x.
(4.22)
Dmonstration. La diffrence par rapport au cas prcdent est que lon paramtrise le temps initial. Le seul changement est donc la formule (4.22). Comme
dans la dmonstration prcdente, on a
Z T
d
T
T
x(s) E(s)x(s) ds.
ST (t, x) = x(T ) Qx(T ) +
ds
t
Or puisque E(T ) = Q et x(t) = x, il vient ST (t, x) = xT E(t)x.

4.3. FONCTION VALEUR ET QUATION DE RICCATI

65

Remarque 4.3.4. Lquation de Riccati tant fondamentale, notamment dans les


problmes de rgulateur (voir section suivante), la question de son implmentation numrique se pose naturellement. On peut procder de manire directe :
il sagit alors, en tenant compte du fait que E(t) est symtrique, dintgrer un
systme diffrentiel non linaire de n(n + 1)/2 quations. Dans le paragraphe
suivant on donne une alternative cette mthode. Ci-dessous, nous traitons en
Matlab un exemple implmentant directement lquation de Riccati.
Exemple 4.3.1. Considrons le problme LQ pour le systme dans IR3
x = y, y = z, z = u,
et le cot
CT (u) =

(x(t)2 + y(t)2 + z(t)2 + u(t)2 )dt.

Notons que pour implmenter lquation de Riccati (4.21), une condition finale
tant donne, on inverse le temps de faon se ramener une condition initiale.
Pour rtablir le bon sens du temps, on utilise la fonction flipud, cf programme
ci-dessous.
function riccati1
% Systeme
dx/dt=y, dy/dt=z, dz/dt=u
% min int_0^T (x^2+y^2+z^2+u^2)
clc ; clear all ;
range = [0 : 0.01 : 10 ];
global tricca ricca ;
minit = [ 0 ; 0 ; 0 ; 0 ; 0 ; 0 ] ;
[tricca,ricca] = ode113(@matriccati,range,minit);
ricca=flipud(ricca);
% on remet le temps dans le bon sens
xinit = [ 1 ; 2 ; 3 ] ;
[t,X] = ode113(@systriccati,range,xinit);
plot(t,X(:,1))
%-------------------------------------------------------function dXdt = systriccati(t,X)
global tricca ricca ;
x=X(1) ; y=X(2) ; z=X(3) ;
[bla,k]=min(abs(tricca-t));
e=ricca(k,5) ; f=ricca(k,6) ; c=ricca(k,3) ;

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

66
u=e*x+f*y+c*z ;

% controle feedback u=U^{-1}BEX

dXdt= [ y
z
u ] ;
%-------------------------------------------------------function dXdt = matriccati(t,X)
% Eq de Riccati dE/dt=W-AE-EA-EBU^{-1}BE, E(T)=-Q, en temps inverse
a=X(1) ; b=X(2) ; c=X(3) ; d=X(4) ; e=X(5) ; f=X(6) ;
dXdt= - [ 1-e^2
-2*d-f^2+1
-2*f-c^2+1
-a-e*f
-d-e*c
-e-b-f*c ] ;

4.3.3

Reprsentation linaire de lquation de Riccati

On a la proprit suivante.
Proposition 4.3.5. Plaons-nous dans le cadre du thorme 4.3.1. Soit


R1 (t) R2 (t)
R(t) =
R3 (t) R4 (t)
la rsolvante du systme linaire
x = Ax + BU 1 B T pT ,
p T = AT pT + W x,
telle que R(T ) = Id. Alors pour tout t [0, T ] on a
E(t) = (R3 (t) R4 (t)Q) (R1 (t) R2 (t)Q)

Dmonstration. Par dfinition de la rsolvante on a


T

x(t) = R1 (t)x(T ) + R2 (t)p(T ) ,


p(t)T = R3 (t)x(T ) + R4 (t)p(T )T .
T

Or on sait que p(T ) = Qx(T ), donc


x(t) = (R1 (t) R2 (t)Q)x(T )
T

et p(t) = (R3 (t) R4 (t)Q)x(T ).

On conclut en remarquant que p(t) = E(t)x(t). Notons que la matrice R1 (t)


R2 (t)Q est inversible sur [0, T ] car le problme LQ est bien pos, comme nous
lavons vu prcdemment.

4.4. APPLICATIONS DE LA THORIE LQ

67

Par consquent pour rsoudre lquation de Riccati (4.15), il suffit dintgrer


un systme linaire (il faut calculer une rsolvante), ce qui est trs facile
programmer. Cette mthode (due Kalman-Englar) est notamment prfrable
la mthode directe dans le cas stationnaire (voir [47]).

4.4
4.4.1

Applications de la thorie LQ
Problmes de rgulation

Le problme du rgulateur dtat (ou problme dasservissement,


ou problme de poursuite, en anglais tracking problem)
Considrons le systme de contrle linaire perturb
x(t)

= A(t)x(t) + B(t)u(t) + r(t), x(0) = x0 ,

(4.23)

et soit (t) une certaine trajectoire de IRn sur [0, T ], partant dun point 0 (et
qui nest pas forcment solution du systme (4.23)). Le but est de dterminer un
contrle tel que la trajectoire associe, solution de (4.23), suive le mieux possible
la trajectoire de rfrence (t) (voir figure 4.1).
(T )

(t)

x(t)
x0
0
Figure 4.1 Problme du rgulateur
On introduit alors lerreur sur [0, T ]
z(t) = x(t) (t),
qui est solution du systme de contrle
z(t)
= A(t)z(t) + B(t)u(t) + r1 (t), z(0) = z0 ,

(4.24)

+ r(t). Il est alors raisonnable de


o z0 = x0 0 et r1 (t) = A(t)(t) (t)
vouloir minimiser le cot
Z T

kz(t)k2W + ku(t)k2U dt,
C(u) = z(T )T Qz(T ) +
0

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

68

o Q, W, U sont des matrices de pondration. Pour absorber la perturbation r1 ,


on augmente le systme dune dimension, en posant
 


 




z
A r1
B
Q 0
W 0
z1 =
, A1 =
, B1 =
, Q1 =
, W1 =
,
1
0 0
0
0 0
0 0
de sorte que lon se ramne minimiser le cot
Z T

kz1 (t)k2W1 + ku(t)k2U dt,
C(u) = z1 (T )T Q1 z1 (T ) +
0

pour le systme de contrle

z1 = A1 z1 + B1 u,
partant du point z1 (0).
La thorie LQ faite prcdemment prvoit alors que le contrle optimal
existe, est unique, et scrit
T

u(t) = U (t)1 B1 (t) E1 (t)z1 (t),


o E1 (t) est solution de lquation de Riccati
E 1 = W1 A1 T E1 E1 A1 E1 B1 U 1 B1 T E1 , E1 (T ) = Q1 .
Posons
E1 (t) =


h(t)
.
(t)

E(t)
T
h(t)

En remplaant dans lquation prcdente, on tablit facilement les quations


diffrentielles de E, h, :
E
h

= W AT E EA EBU 1 B T E, E(T ) = Q,
= AT h Er1 EBU 1 B T h,
h(T ) = 0,
= 2r1 T h hT BU 1 B T h,
(T ) = 0.

(4.25)

Rsumons tout ceci dans la proposition suivante.


Proposition 4.4.1. Soit une trajectoire de IRn sur [0, T ]. Considrons le
problme de poursuite pour le systme de contrle
x(t)

= A(t)x(t) + B(t)u(t) + r(t), x(0) = x0 ,


o lon veut minimiser le cot
T

C(u) = (x(T ) (T )) Q(x(T ) (T )) +

kx(t) (t)k2W + ku(t)k2U

Alors il existe un unique contrle optimal, qui scrit


u(t) = U (t)1 B(t)T E(t)(x(t) (t)) + U (t)1 B(t)T h(t),

dt.

4.4. APPLICATIONS DE LA THORIE LQ

69

o E(t) Mn (IR) et h(t) IRn sont solutions sur [0, T ] de


E
h

= W AT E EA EBU 1 B T E,
E(T ) = Q,
T
1 T

= A h E(A + r) EBU B h, h(T ) = 0,

et de plus E(t) est symtrique. Par ailleurs le cot minimal est alors gal
T

(x(0) (0)) E(0)(x(0) (0)) 2h(0) (x(0) (0))


Z T

+ r(t))T h(t) + h(t)T B(t)U (t)1 B(t)T h(t) dt.
2(A(t)(t) (t)

Remarque 4.4.1. Notons que le contrle optimal scrit bien sous forme de boucle
ferme
u(t) = K(t)(x(t) (t)) + H(t).
Remarque 4.4.2. Si = A + r, i.e. la trajectoire de rfrence est solution du
systme sans contrle, alors dans les notations prcdentes on a r1 = 0, et
daprs les quations (4.25) on en dduit que h(t) et (t) sont identiquement
nuls. On retrouve alors le cadre LQ de la section prcdente. En fait,
si = 0 et r = 0, le problme est un problme LQ standard ;
si r = 0, il sagit dun problme de poursuite de la trajectoire ;
si = 0, cest un problme de rgulation avec la perturbation r.
Exercice 4.4.1. Rsoudre le problme de poursuite sur [0, 2 ] pour le systme
x = x + u, x(0) = 0, la fonction (t) = t, et des poids tous gaux 1.
Exercice 4.4.2. Considrons loscillateur harmonique
x + x = u, x(0) = 0, x(0)

= 1.
On dsire asservir le mouvement de cet oscillateur la courbe (cos t, sin t) sur
[0, 2], i.e. dcaler la phase de /2. Ecrire les quations permettant de rsoudre
le problme, puis raliser limplmentation numrique.
Variante : le problme de poursuite dune sortie (ou output tracking)
On ajoute au problme prcdent une variable de sortie :
x(t)

= A(t)x(t) + B(t)u(t) + r(t), x(0) = x0 ,


y(t) = C(t)x(t),
et tant donn un signal de rfrence (t) on cherche un contrle tel que, le long
de la trajectoire associe, lobservable z() soit proche de (). Notons quon
retrouve le cas prcdent si y(t) = x(t).
Posant z(t) = y(t) (t), on cherche minimiser le cot
Z T

kz(t)k2W + ku(t)k2U dt.
C(u) = z(T )T Qz(T ) +
0

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

70

Posons alors
 


 T
T
T
x
C WC
C(T ) QC(T ) C(T ) Q(T )
x1 =
, Q1 =
, W1 =
T
T
T
1

WC
(T )QC(T )
(T )Q(T )


C T W
,
TW

et A1 , B1 comme prcdemment (avec r1 = r). Alors on cherche un contrle u,


associ la trajectoire x1 solution de x 1 = A1 x1 + B1 u, minimisant le cot
Z T

T
kx1 (t)k2W1 + ku(t)k2U dt.
C(u) = x1 (T ) Q1 x1 (T ) +
0

En raisonnant comme prcdemment, on arrive au rsultat suivant.

Proposition 4.4.2. Soit une trajectoire de IRp sur [0, T ]. Considrons le


problme de poursuite de la sortie r pour le systme de contrle avec sortie
x(t)

= A(t)x(t) + B(t)u(t) + r(t), x(0) = x0 ,


y(t) = C(t)x(t),
o lon veut minimiser le cot
T

C(u) = (y(T ) (T )) Q(y(T ) (T )) +

T
0

ky(t) (t)k2W + ku(t)k2U

Alors il existe un unique contrle optimal, qui scrit


T

dt.

u(t) = U (t)1 B(t) E(t)x(t) + U (t)1 B(t) h(t),


o E(t) Mn (IR) et h(t) IRp sont solutions sur [0, T ] de
E
h

= C T W C AT E EA EBU 1 B T E, E(T ) = C(T ) QC(T ),


T
= C T W AT h Er EBU 1 B T h, h(T ) = C(T ) Q(T ),

et de plus E(t) est symtrique. Par ailleurs le cot minimal est alors gal
T

x(0) E(0)x(0) 2h(0) x(0) (0),


o (t) est solution de
T

= T W 2rT h hT BU 1 B T h, (T ) = (T ) Q(T ).
Remarque 4.4.3. On trouvera dans [64] dautres variantes de ce problme, notamment le mme problme que ci-dessus, sauf que le cot scrit
Z T

ky(t) (t)k2W + ku(t)k2U dt.
C(u) = x(T )T Qx(T ) +
0

Le seul changement est dans la matrice augmente Q1 , et donc dans les conditions aux limites de E et h, qui deviennent dans ce cas E(T ) = Q et h(T ) = 0.
On trouvera aussi dans [52, ex. 9, p. 203] une autre variante du problme
LQ, o la fonction g apparaissant dans le cot est linaire en x. Nous laissons
lcriture de toutes ces variantes au lecteur, la mthode tant de toute faon la
mme que prcdemment.

4.4. APPLICATIONS DE LA THORIE LQ

71

Exercice 4.4.3. On considre le systme proies-prdateurs contrl


x = x + y + u1 , x(0) = 1,
y = x y + u2 , y(0) = 1.
Trouver lexpression des contrles permettant dasservir la variable x(t) la
valeur 1 sur lintervalle [0, 10].

4.4.2

Filtre de Kalman dterministe

Ce problme clbre est le suivant. Connaissant un signal de rfrence (t)


sur [0, T ], on cherche une trajectoire solution sur [0, T ] de
x(t)

= A(t)x(t) + B(t)u(t),
minimisant le cot
T

C(u) = x(0) Qx(0) +


k(C(t)x(t) (t))k2W + ku(t)k2U dt.

Il sagit dune variante des problmes de poursuite prcdents, sauf que lon
nimpose aucune condition sur x(0) et x(T ), et de plus le cot pnalise le point
initial x(0). En revanche dans ce problme on suppose que la matrice Q est
symtrique dfinie positive.
Pour se ramener aux cas prcdents, il convient donc tout dabord dinverser
le temps, de faon ce que le cot pnalise, comme avant, le point final. On
pose donc, pour tout t [0, T ],
= A(T t), B(t)
= B(T t),
x
(t) = x(T t), u
(t) = u(T t), A(t)
= (T t), W
(t) = W (T t), U(t)

= C(T t),
(t)
= U (T t), C(t)
de sorte que lon se ramne au problme de dterminer une trajectoire solution
x + B
u
de x = A
, minimisant le cot
u) = x(T )T Q
C(
x(T ) +


2

x(t) (t))k
k(C(t)
u(t)k2U dt.
+ k
W

u) = C(u).
Notons que, par construction, on a C(
Fixons une donne initiale x(0), et appliquons, pour cette donne initiale, le
mme raisonnement que dans les cas prcdents. On obtient alors

1 B
TE
x
1 B
T h,
u
(t) = U
+U
o

=
E
=
h

T E,
E
A E
B
U
1 B
C AT E
C T W

E
T h,
B
U
1 B
AT h
C T W
T 1 T
T

W h B U B h,

) = Q,
E(T
h(T ) = 0,
(T ) = 0,

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

72

et le cot minimal pour cette donne initiale fixe x


(0) vaut
T
T

x(0) E(0)
x(0) 2
x(0) h(0)

(0).

Il faut maintenant trouver x


(0) tel que ce cot soit minimal. Posons donc

f (x) = xT E(0)x
2xT h(0)
(0).
Il faut donc dterminer un minimum de f . Notons tout dabord que, la matrice

Q tant par hypothse dfinie positive, la matrice E(0)


est daprs le lemme
4.3.3 symtrique dfinie ngative. En particulier la fonction f est strictement
convexe et de ce fait admet un unique minimum. En un tel point on doit avoir

1 h(0).
f (x) = 0, do x = E(0)
Finalement, en reprenant le cours positif du temps, et en posant pour tout
t [0, T ]
t),
t), h(t) = h(T
E(t) = E(T
on arrive au rsultat suivant.
Proposition 4.4.3. Soit () une trajectoire dfinie sur [0, T ] valeurs dans
IRp . On considre le problme de dterminer une trajectoire solution sur [0, T ]
de
x(t)

= A(t)x(t) + B(t)u(t),
minimisant le cot
T

C(u) = x(0) Qx(0) +


k(C(t)x(t) (t))k2W + ku(t)k2U dt,

o la matrice Q est de plus suppose dfinie positive. Alors il existe une unique
trajectoire minimisante, associe au contrle
u(t) = U (t)1 B(t)T E(t)x(t) + U (t)1 B(t)T h(t),
et la condition finale
x(T ) = E(T )1 h(T ),
o

E
h

=
=

C T W C AT E EA EBU 1 B T E, E(0) = Q,
C T W AT h EBU 1 B T h,
h(0) = 0,

et le cot minimal vaut alors


Z T

T
T
T
T
h(T ) E(T )1 h(T ) +
(t) W (t)(t) h(t) B(t)U (t)1 B(t) h(t) dt.
0

Ltat final x(T ) = E(T )1 h(T ) est la donne qui nous intresse principalement dans le problme du filtre de Kalman, qui est un problme destimation,
comme nous le verrons dans les exemples suivre. Lestimation de cet tat final
peut tre simplifie de la manire suivante.

4.4. APPLICATIONS DE LA THORIE LQ

73

,
Posons F (t) = E(t)1 . On trouve facilement, puisque F = F EF
F = BU 1 B T + AF + F AT F C T W CF, F (0) = Q1 .
Par ailleurs si on pose z(t) = F (t)h(t), on trouve que
z = (A F C T W C)z + F C T W , z(0) = 0.
Finalement on arrive au rsultat suivant.
Proposition 4.4.4. Sous les hypothses de la proposition 4.4.3, ltat final x(T )
de la solution optimale est gal z(T ), o
z
F

=
=

(A F C T W C)z + F C T W ,
BU 1 B T + AF + F AT F C T W CF,

z(0) = 0,
F (0) = Q1 .

Application au filtrage. Le problme est destimer, daprs une observation,


un signal bruit. Le modle est
x(t)

= A(t)x(t) + B(t)u(t), x(0) = x0 ,


y(t) = C(t)x(t) + v(t),
o les fonctions u et v sont des bruits, i.e. des perturbations affectant le systme.
La donne initiale x0 est inconnue. Le signal (t) reprsente une observation de
la variable y(t), et partir de cette observation on veut construire une estimation
de ltat final x(T ). On cherche une estimation optimale dans le sens que les
perturbations u et v, ainsi que la donne initiale x0 , doivent tre aussi petites
que possible. On cherche donc minimiser un cot de la forme
T

x(0) Qx(0) +

(kw(t)k2W + ku(t)k2U )dt.

Il sagit donc exactement du problme LQ


x(t)

= A(t)x(t) + B(t)u(t),
y(t) = C(t)x(t),
T

C(u) = x(0) Qx(0) +

(ky(t) (t)k2W + ku(t)k2U )dt,

i.e. le problme que lon vient dtudier (x(0) non fix).


Lestimation optimale de ltat est donc gale z(T ) (voir proposition 4.4.4).
Remarque 4.4.4. La bonne manire dinterprter le filtre de Kalman est statistique, ce qui dpasse le cadre de cet ouvrage. En fait il faut interprter les
perturbations u et b comme des bruits blancs gaussiens, et x0 comme une variable alatoire gaussienne, tous supposs centrs en 0 (pour simplifier). Les
matrices Q, W (t), U (t) sont alors les matrices de variance de x0 , v(t), u(t), et
le problme de minimisation sinterprte comme le problme destimer ltat

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

74

final de variance minimale, connaissant lobservation (t) ( ce sujet, voir par


exemple [3]).
Par ailleurs les pondrations doivent tre choisies en fonction de limportance
des bruits. Par exemple si le bruit v est trs important compar au bruit u et
lincertitude sur la condition initiale alors on choisit une matrice W (t) petite.
Exemple 4.4.1. On veut estimer x(T ) pour le systme bruit
x = u, y = x + v,
daprs lobservation (t).
Les quations de la proposition 4.4.4 donnent
z = F W z + F W , z(0) = 0,
F = U 1 F W F, F (0) = Q1 .
Choisissons les poids Q = 1, U (t) = 1, W (t) = w2 . On trouve
F (t) =

ewt (1 + w)
1
+
.
w
w

En particulier si le bruit v est petit alors on peut choisir le paramtre w trs


grand, de sorte que pour tout t > 0 on a F (t) 1. On montre alors facilement,
avec lquation de z, que z(t) (t), ce qui est bien cohrent : en effet sil ny
a pas de bruit alors on observe directement ltat que lon cherche estimer !
Dans le cas gnral, on calcule (numriquement) z(T ), ce qui fournit lestimation de x(T ) souhaite.

4.4.3

Rgulation sur un intervalle infini et rapport avec la


stabilisation

Considrons le problme LQ sur lintervalle [0, +[. Il sagit dun problme


de rgulation o lon cherche rendre lerreur petite pour tout temps. Nous
nous restreignons au cas de systmes stationnaires. Le cadre est le suivant.
On cherche dterminer une trajectoire solution de
x(t)

= Ax(t) + Bu(t), x(0) = x0 ,


minimisant le cot
C(u) =


kx(t)k2W + |u(t)k2U dt,

o de mme les matrices W et U sont constantes.


On a la rsultat suivant.

4.4. APPLICATIONS DE LA THORIE LQ

75

Thorme 4.4.5. On suppose que les matrices W et U sont symtriques dfinies positives, et que le systme est contrlable. Alors il existe une unique
trajectoire minimisante pour ce problme, associe sur [0, +[ au contrle optimal
u(t) = U 1 B T Ex(t),
(4.26)
o E Mn (IR) est lunique matrice symtrique dfinie ngative solution de
lquation de Riccati stationnaire
AT E + EA + EBU 1 B T E = W.

(4.27)

De plus le cot minimal vaut x0 T Ex0 .


Par ailleurs le systme boucl
x = (A + BU 1 B T E)x
est globalement asymptotiquement stable, et la fonction V (x) = xT Ex est une
fonction de Lyapunov stricte pour ce systme.
Remarque 4.4.5. En particulier, la trajectoire minimisante associe ce problme en horizon infini tend vers 0 lorsque t tend vers linfini.
Dmonstration. On sait dj (voir proposition 4.1.3 et remarque 4.2.2) quil
existe une unique trajectoire optimale, vrifiant les quations
x = Ax + Bu, p = pA + xT W,

lim p(t) = 0,

t+

avec u = U 1 B T pT . De manire tout fait similaire la preuve du thorme


T
4.2.1 on montre, par un argument dunicit, que p(t) = x(t) E, o E est solution, pourvu quelle existe, de lquation (4.27). Il faut donc montrer lexistence
dune telle solution. Cest lobjet du lemme suivant.
Lemme 4.4.6. Il existe une unique matrice E symtrique dfinie ngative solution de lquation (4.27).
Preuve du lemme. Il est bien clair que si x() est minimisante pour le problme
LQ sur [0, +[, alors elle lest aussi sur chaque intervalle [0, T ], T > 0. Considrons donc le problme LQ sur [0, T ]
x = Ax + Bu, x(0) = x0 ,
Z T

kx(t)k2W + ku(t)k2U dt,
C(T, u) =
0

et appelons E(T, t) la solution de lquation de Riccati associe


E = W AT E EA EBU 1 B T E, E(T, T ) = 0.
On sait que de plus le cot minimal est C(T, u) = x0 T E(T, 0)x0 T . Posons
alors D(T, t) = E(T, T t). Il est bien clair que
D = W + AT D + DA DBU 1 B T D, D(T, 0) = 0.

76

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

Cette quation tant en fait indpendante de T , on peut poser D(t) = D(T, t),
et D(t) est solution de lquation de Riccati ci-dessus sur IR+ . De plus pour tout
T > 0 on a D(T ) = E(T, 0), et comme la matrice W est symtrique dfinie
positive on dduit du lemme 4.3.3 que D(T ) est symtrique dfinie positive.
Par ailleurs on a, pour tout T > 0, C(T, u) = x0 T D(T )x0 . Il est clair que si
0 < t1 6 t2 alors C(t1 , u) 6 C(t2 , u), et donc x0 T D(t1 )x0 6 x0 T D(t2 )x0 . Ceci
est en fait indpendant de x0 , car lquation de Riccati ne dpend nullement
de la donne initiale. Ainsi pour tout x IRn la fonction t 7 xT D(t)x est
croissante.
Montrons quelle est galement majore. Le systme tant contrlable, largument de la remarque 4.1.2 montre quil existe au moins un contrle v sur
[0, +[ de cot fini. Comme le contrle u est optimal, on en dduit que la
fonction t 7 C(t, u) est majore (par C(v)).
Pour tout x IRn , la fonction t 7 xT D(t)x tant croissante et majore, on
en dduit quelle converge. En appliquant cette conclusion aux lments dune
base (ei ) de IRn , on en dduit que chaque lment dij (t) de la matrice D(t)
converge, car en effet
dij (t) = ei T D(t)ej =

1
ei + ej T D(t)(ei + ej ) ei T D(t)ei ej T D(t)ej .
2

Ainsi la matrice D(t) converge vers une matrice E, qui est ncessairement
symtrique dfinie ngative daprs la croissance de la fonction t 7 xT D(t)x.

Par ailleurs, de lquation diffrentielle vrifie par D, on dduit que D(t)


converge, et cette limite est alors ncessairement nulle. En passant la limite
dans cette quation diffrentielle on obtient finalement lquation de Riccati
stationnaire (4.27).
Enfin, en passant la limite on a C(u) = x0 T Ex0 , do on dduit aisment
lunicit de la solution.
Pour montrer la deuxime partie du thorme, il suffit de voir que la fonction
V (x) = xT Ex est une fonction de Lyapunov pour le systme boucl x =
(A + BU 1 B T E)x. La forme quadratique V est bien dfinie positive puisque E
est symtrique dfinie ngative. Par ailleurs on calcule facilement le long dune
trajectoire x(t) solution du systme boucl

d
T
V (x(t)) = x(t) W + EBU 1 B T E x(t).
dt

Or la matrice W est par hypothse dfinie positive, et la matrice EBU 1 B T E


est positive, donc cette quantit est strictement ngative si x(t) 6= 0. On a donc
bien une fonction de Lyapunov stricte, ce qui prouve que le systme boucl est
asymptotiquement stable.
Remarque 4.4.6. Le contrle optimal scrit sous forme de boucle ferme u =
Kx, avec K = U 1 B T E. On retrouve le fait que si le systme est contrlable
alors il est stabilisable par feedback linaire (voir le thorme 13.1.5 de placement de ples). Cependant, alors que la mthode de stabilisation dcrite par le

4.4. APPLICATIONS DE LA THORIE LQ

77

thorme 13.1.5 consiste raliser un placement de ples, ici la matrice K est


choisie de manire minimiser un certain critre. On parle de stabilisation par
retour dtat optimal. Cest donc une mthode (parmi beaucoup dautres) de
stabilisation.
Remarque 4.4.7. En gnral lquation (4.27) admet plusieurs solutions, mais
elle nadmet quune seule solution symtrique dfinie ngative.
Exemple 4.4.2.
R Considrons le systme scalaire x = x + u, x(0) = x0 et le
cot C(u) = 0 (x(t)2 + u(t)2 )dt. Lquation de Riccati stationnaire est 2E +

E 2 = 1, et conduit E = 1 2 < 0, do la trajectoire optimale


u(t) = (1

2)x(t), x(t) = x0 e 2t .

Exemple 4.4.3. On considre le systme contrl


x = x + y + u1 , x(0) = 1,
y = x y + u2 , y(0) = 1.
On dsire stabiliser la solution de ce systme vers lorigine, en minimisant le
cot
Z +
C(u) =
(x(t)2 + y(t)2 + u1 (t)2 + u2 (t)2 )dt.
0

Pour cela, crivons lquation de Riccati stationnaire, avec les matrices




1 1
A=
, B = U = W = Id.
1 1
En posant
E=


a
c


c
,
b

on arrive au systme dquations


2a + 2c + a2 + c2 = 1,
2c 2b + c2 + b2 = 1,
a + b + ac + cb = 0.
En particulier la troisime quation conduit
(a + b)(1 + c) = 0,
et par consquent
a = b ou c = 1. Si a = b, les valeurs propres de la matrice
E sont alors a2 + c2 , ce qui est exclu puisque la matrice E doit tre dfinie
ngative. Par consquent c = 1, et on trouve alors

a = 1 3, b = 1 3.

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

78

Parmi ces 4 possibilits, la


une matrice E dfinie ngative

seule faon dobtenir


est de prendre a = 1 3 et b = 1 3. Donc finalement



1 3
1
,
E=
1
1 3
et le systme boucl est alors

x = 3x, x(0) = 1,

y = 3y, y(0) = 1.

Exercice 4.4.4. On considre le systme contrl :


x
+ x = u, x(0) = 0, x(0)

= 1.
1. Quel est le comportement de la solution en labsence de contrle ?
2. On dsire stabiliser la solution de ce systme vers lorigine par la mthode
de Riccati stationnaire, en minimisant le cot
Z +
C(u) =
(x(t)2 + x(t)
2 + u(t)2 )dt.
0

(a) Montrer que la solution de lquation de Riccati stationnaire est



2 1 2
E=
.
1 2

p
o = 2 2 1.
(b) Donner lexpression du contrle optimal.
(c) Montrer que la solution du systme boucl est
x(t) =

2 t

e 2 sin t,

p
o = 2 2 + 1.
(d) Commenter brivement les rsultats et la mthode.
Exercice 4.4.5. Montrer que la solution de lquation de Riccati stationnaire
pour le problme LQ
Z +
x = y, y = u, C(u) =
x(t)2 + y(t)2 + u(t)2 dt,
0

est la matrice

E=



3 1
.
1 3

Exercice 4.4.6. Rsoudre le problme LQ


Z +
x(t)2 + y(t)2 + u1 (t)2 + u2 (t)2 dt.
x = y + u1 , y = u2 , min
0

4.4.7. Dterminer la solution de x = x + u minimisant le cot


RExercice

2
2
0 (x(t) + u(t) )dt, avec > 0. Que se passe-t-il lorsque + ?

4.4. APPLICATIONS DE LA THORIE LQ

79

Solution numrique de lquation de Riccati stationnaire On peut calculer numriquement la solution de lquation de Riccati algbrique (4.27) en
employant une mthode de Schur (voir [50, 51]). Ceci est implment en Matlab
dans la fonction lqr.m (voir aussi care.m).
Ci-dessous, voici un exemple dutilisation de lqr, en reprenant lexemple
4.3.1.
function riccati2
% Systeme
dx/dt=y, dy/dt=z, dz/dt=u
% min int_0^T (x^2+y^2+z^2+u^2)
clc ; clear all ;
global A B W invU ;
% Systeme
A = [ 0 1 0
0 0 1
0 0 0 ] ;
B = [ 0
0
1 ] ;
% Matrices de ponderation
W = eye(3) ;
U = 1 ; invU = inv(U) ;
range = [0 : 0.01 : 10 ];
%% Utilisation de lqr
global K ;
[K,S,e] = lqr(A,B,W,U) ;
xinit = [ 1 ; 2 ; 3 ] ;
[t,X] = ode45(@systriccati,range,xinit) ;
plot(t,X(:,1));
%-------------------------------------------------------function dXdt = systriccati(t,X)
global K ; u = -K*X ;
dXdt = [ X(2)
X(3)
u
] ;

80

CHAPITRE 4. THORIE LINAIRE-QUADRATIQUE

Le rsultat est trac sur la figure 4.2.


3.5

2.5

1.5

0.5

0.5

Figure 4.2

10

Deuxime partie

Thorie du contrle optimal


non linaire

81

83
Lobjectif de cette partie est de prsenter des techniques danalyse de problmes de contrle optimal non linaires. On prsente notamment le principe
du maximum de Pontryagin et la thorie dHamilton-Jacobi. Un chapitre est
consacr aux mthodes numriques en contrle optimal.
Dun point de vue global, un problme de contrle optimal se formule sur
une varit M , mais notre point de vue est local et on travaille sur un ouvert
V petit de IRn . La problmatique gnrale du contrle optimal est la suivante.
Considrons un systme de contrle gnral
x(t)

= f (t, x(t), u(t)), x(t0 ) = x0 ,

(4.28)

o f est une application de classe C 1 de I V U dans IRn , I est un intervalle


de IR, V ouvert de IRn , U un ouvert de IRm , (t0 , x0 ) I V . Par ailleurs on
m
suppose que les contrles u() appartiennent un sous-ensemble de L
loc (I, IR ).
Ces hypothses assurent, pour tout contrle u, lexistence et lunicit sur
dune solution maximale xu (t) sur un intervalle J I, du problme de Cauchy
(4.28) (voir section 11.3 en annexe).
Par commodit dcriture on suppose dans toute la suite que t0 = 0.
m
Pour tout contrle u L
loc (I, IR ), la trajectoire associe xu () est dfinie
sur un intervalle maximal [0, te (u)[, o te (u) IR+ {+}. Par exemple si
te (u) < + alors la trajectoire explose en te (u) (thorme dchappement, ou
dexplosion). Pour tout T > 0, T I, on note UT lensemble des contrles
admissibles sur [0, T ], cest--dire lensemble des contrles tels que la trajectoire
associe soit bien dfinie sur [0, T ], autrement dit T < te (u).
Soient f 0 une fonction de classe C 1 sur I V U , et g une fonction continue
sur V . Pour tout contrle u UT on dfinit le cot de la trajectoire associe
xu () sur lintervalle [0, T ]
C(T, u) =

f 0 (t, xu (t), u(t))dt + g(T, xu (T )).

(4.29)

Soient M0 et M1 deux sous-ensembles de V . Le problme de contrle optimal


est de dterminer les trajectoires xu () solutions de
x u (t) = f (t, xu (t), u(t)),
telles que xu (0) M0 , xu (T ) M1 , et minimisant le cot C(T, u). On dit que
le problme de contrle optimal est temps final non fix si le temps final T
est libre, sinon on parle de problme temps final fix.

84

Chapitre 5

Dfinitions et prliminaires
Un problme de contrle optimal se dcompose en deux parties : pour dterminer une trajectoire optimale joignant un ensemble initial une cible, il
faut dabord savoir si cette cible est atteignable. Cest le problme de contrlabilit. Ensuite, une fois ce problme rsolu, il faut chercher parmi toutes ces
trajectoires possibles celles qui le font en cot minimal .
Dans ce chapitre nous tudions le problme de contrlabilit et rappelons
quelques faits.

5.1
5.1.1

Application entre-sortie
Dfinition

Considrons pour le systme (4.28) le problme de contrle suivant : tant


donn un point x1 IRn , trouver un temps T et un contrle u sur [0, T ] tel que
la trajectoire xu associe u, solution de (4.28), vrifie
xu (0) = x0 , xu (T ) = x1 .
Ceci conduit la dfinition suivante.
Dfinition 5.1.1. Soit T > 0. Lapplication entre-sortie en temps T du systme contrl (4.28) initialis x0 est lapplication
ET : U
u

IRn
7 xu (T )

o U est lensemble des contrles admissibles, i.e. lensemble de contrles u tels


que la trajectoire associe est bien dfinie sur [0, T ].
Autrement dit, lapplication entre-sortie en temps T associe un contrle u
le point final de la trajectoire associe u. Une question importante en thorie du
contrle est dtudier cette application en dcrivant son image, ses singularits,
etc.
85

CHAPITRE 5. DFINITIONS ET PRLIMINAIRES

86

5.1.2

Rgularit de lapplication entre-sortie

La rgularit de ET dpend bien entendu de lespace de dpart et de la forme


du systme.
Pour un systme gnral
En toute gnralit on a le rsultat suivant (voir par exemple [13, 43, 64]).
Proposition 5.1.1. Considrons le systme (4.28) o f est C p , p > 1, et soit
U L ([0, T ], IRm ) le domaine de dfinition de ET , cest--dire lensemble des
contrles dont la trajectoire associe est bien dfinie sur [0, T ]. Alors U est un
ouvert de L ([0, T ], IRm ), et ET est C p au sens L .
De plus la diffrentielle (au sens de Frchet) de ET en un point u U est
donne par le systme linaris en u de la manire suivante. Posons, pour tout
t [0, T ],
A(t) =

f
f
(t, xu (t), u(t)) , B(t) =
(t, xu (t), u(t)).
x
u

Le systme de contrle linaire


y v (t) = A(t)yv (t) + B(t)v(t)
yv (0) = 0
est appel systme linaris le long de la trajectoire xu . La diffrentielle de
Frchet de ET en u est alors lapplication dET (u) telle que, pour tout v
L ([0, T ], IRm ),
Z T
dET (u).v = yv (T ) = M (T )
M 1 (s)B(s)v(s)ds
(5.1)
0

o M () est la rsolvante du systme linaris, i.e. la solution matricielle de


M (t) = A(t)M (t), M (0) = Id.
Dmonstration. Pour la dmonstration du fait que U est ouvert, voir [64, 71, 72].
Par hypothse u() et sa trajectoire associe x(., x0 , u) sont dfinis sur [0, T ].
Lensemble des contrles tant les applications mesurables et bornes muni de
la norme L , lapplication ET est de classe C p sur un voisinage de u() en
vertu des thormes de dpendance par rapport un paramtre. Exprimons sa
diffrentielle au sens de Frchet. Soit v() un contrle fix, on note x() + x()
la trajectoire associe u() + v(), issue en t = 0 de x0 . Par un dveloppement
de Taylor, on obtient
d
(x + x)(t) = f (t, x(t) + x(t), u(t) + v(t))
dt
f
f
(t, x(t), u(t))x(t) +
(t, x(t), u(t))v(t)
= f (t, x(t), u(t)) +
x
u
2f
+
(t, x(t), u(t))(x(t), v(t)) +
xu

5.1. APPLICATION ENTRE-SORTIE

87

Par ailleurs, x(t)

= f (t, x(t), u(t)), donc


f
f
d
(x)(t) =
(t, x(t), u(t))x(t) +
(t, x(t), u(t))v(t) +
dt
x
u
En crivant x = 1 x + 2 x + . . . o 1 x est la partie linaire en v, 2 x la partie
quadratique, etc, et en identifiant, il vient
d
f
f
(1 x)(t) =
(t, x(t), u(t))1 x(t)+ (t, x(t), u(t))v(t) = A(t)1 x(t)+B(t)v(t).
dt
x
u
Or x(0) + x(0) = x0 = x(0), donc x(0) = 0 et la condition initiale de cette
quation diffrentielle est 1 x(0) = 0. En intgrant, on obtient
1 x(T ) = M (T )

M 1 (s)B(s)v(s)ds

f
d
(1 x)(t) =
(t, x(t), u(t))1 x(t),
dt
x
f
(t, x(t), u(t)) et M (0) = In . On
cest--dire M (t) = A(t)M (t) avec A(t) =
x
observe que 1 x(T ) est linaire et continu par rapport v() en topologie L .
Cest donc la diffrentielle de Frchet en u() de ET .

o M est la rsolvante du systme homogne

Remarque 5.1.1. En gnral ET nest pas dfinie sur L ([0, T ], IRm ) tout entier
cause de phnomnes dexplosion. Par exemple si on considre le systme
scalaire x = x2 + u, x(0) = 0, on voit que pour u = 1 la trajectoire associe
explose en t = 2 , et donc nest pas dfinie sur [0, T ] si T > 2 .
Pour un systme affine
Dfinition 5.1.2. On appelle systme affine contrl un systme de la forme
x(t)

= f0 (x(t)) +

m
X

ui (t)fi (x(t)),

i=1

o les fi sont des champs de vecteurs de IRn .


Pour un systme affine on peut amliorer le rsultat prcdent (voir [64, 71,
72]).
Proposition 5.1.2. Considrons un systme affine lisse, et soit U le domaine
de dfinition de ET Alors U est un ouvert de L2 ([0, T ], IRm ), et lapplication
entre-sortie ET est lisse au sens L2 , et est analytique si les champs de vecteurs
sont analytiques.
Il est trs intressant de considrer L2 comme espace de contrles. En effet
dans cet espace on bnficie dune structure hilbertienne qui permet de faire
une thorie spectrale de lapplication entre-sortie, et on bnficie dautre part
de bonnes proprits de compacit faible (voir [71, 72]).

CHAPITRE 5. DFINITIONS ET PRLIMINAIRES

88

5.2

Contrlabilit

On veut rpondre la question suivante : tant donn le systme (4.28), o


peut-on aller en temps T en faisant varier le contrle u ? On est tout dabord
amen dfinir la notion densemble accessible.

5.2.1

Ensemble accessible

Dfinition 5.2.1. Lensemble accessible en temps T pour le systme (4.28),


not Acc(x0 , T ), est lensemble des extrmits au temps T des solutions du systme partant de x0 au temps t = 0. Autrement dit, cest limage de lapplication
entre-sortie en temps T .
Thorme 5.2.1. Considrons le systme de contrle
x = f (t, x, u), x(0) = x0 ,
o la fonction f est C 1 sur IR1+n+m , et les contrles u appartiennent lensemble U des fonctions mesurables valeurs dans un compact IRm . On
suppose que
il existe un rel positif b tel que toute trajectoire associe est uniformment
borne par b sur [0, T ], i.e.
b > 0 | u U

t [0, T ] kxu (t)k 6 b,

(5.2)

pour tout (t, x), lensemble des vecteurs vitesses


V (t, x) = {f (t, x, u) | u }

(5.3)

est convexe.
Alors lensemble Acc(x0 , t) est compact et varie continment en t sur [0, T ].
Dmonstration. Notons tout dabord que puisque est compact alors V (t, x) est
galement compact. Montrons la compacit de Acc(x0 , t). Cela revient montrer
que toute suite (xn ) de points de Acc(x0 , t) admet une sous-suite convergente.
Pour tout entier n soit un un contrle reliant x0 xn en temps t, et soit xn ()
la trajectoire correspondante. On a donc
Z t
f (s, xn (s), un (s))ds.
xn = xn (t) = x0 +
0

Posons, pour tout entier n et presque tout s [0, t],


gn (s) = f (s, xn (s), un (s)).
Daprs les hypothses il sensuit que la suite de fonctions (gn ())nIN est borne
dans L ([0, t], IRn ), et par consquent sous-suite prs elle converge vers une
fonction g() pour la topologie faible toile de L ([0, t], IRn ). Posons alors, pour
tout [0, t],
Z

x( ) = x0 +

g(s)ds,

5.2. CONTRLABILIT

89

ce qui dfinit une application x() absolument continue sur [0, t]. De plus on a,
pour tout s [0, t],
lim xn (s) = x(s),
n+

i.e. la suite de fonctions (xn ())nIN converge simplement vers x(). Le but est de
montrer que la trajectoire x() est associe un contrle u valeurs dans , ce
qui revient montrer que pour presque tout s [0, t] on a g(s) = f (s, x(s), u(s)).
Pour cela, dfinissons, pour tout entier n et presque tout s [0, t],
hn (s) = f (s, x(s), un (s)),
et introduisons lensemble
V = {h() L2 ([0, t], IRn ) | h(s) V (s, x(s)) pour presque tout s [0, t]},
de sorte que hn V pour tout entier n. Pour tout (t, x) lensemble V (t, x) est
compact convexe, et, en utilisant le fait que de toute suite convergeant fortement
dans L2 on peut extraire une sous-suite convergeant presque partout, on montre
que V est convexe ferm dans L2 ([0, t], IRn ) pour la topologie forte ; donc il est
galement ferm dans L2 ([0, t], IRn ) muni de la topologie faible (voir [19]).
Or, similairement (gn ), la suite de fonctions (hn ) est borne dans L2 , et
donc sous-suite prs converge en topologie faible vers une fonction h, qui
appartient ncessairement V puisque ce sous-ensemble est ferm faible.
Enfin, montrons que g = h presque partout. Pour cela, crivons, pour toute
fonction L2 ([0, t], IR),
Z

(s)gn (s)ds =

(s)hn (s)ds +

(s) (gn (s) hn (s)) ds.

(5.4)

Daprs les hypothses, la fonction f est globalement lipschitzienne en x sur


b) , et donc daprs le thorme des accroissements finis, il
[0, T ] B(0,
existe une constante C > 0 telle que, pour presque tout s [0, t],
kgn (s) hn (s)k 6 Ckxn (s) x(s)k.
La suite de fonctions (xn ) converge simplement vers x(), donc daprs le thorme de convergence domine,
Z t
(s) (gn (s) hn (s)) ds 0.
n+

Finalement en passant la limite dans (5.4), il vient


Z

(s)g(s)ds =

(s)h(s)ds,

pour toute fonction L2 ([0, t], IR), et par consquent g = h presque partout
sur [0, t].

90

CHAPITRE 5. DFINITIONS ET PRLIMINAIRES

En particulier g V, et donc pour presque tout s [0, t] il existe u(s)


tel que
g(s) = f (s, x(s), u(s)).
En appliquant un lemme de slection mesurable de thorie de la mesure (notons
que g L ([0, t], IRn ), on peut montrer que lapplication u() peut tre choisie
mesurable sur [0, T ] (voir [52, Lem. 2A, 3A p. 161]).
Ainsi, la trajectoire x() est associe sur [0, t] au contrle u valeurs dans
, et x(t) est la limite des points xn . Ceci montre la compacit de Acc(x0 , t).
Il reste tablir la continuit par rapport t de lensemble accessible. Soient
t1 , t2 deux rels tels que 0 < t1 < t2 6 T , et x2 un point de Acc(x0 , t2 ). Par
dfinition il existe un contrle u valeurs dans , de trajectoire associe x(),
tel que
Z t2
f (t, x(t), u(t))dt.
x2 = x(t2 ) = x0 +
0

Il est bien clair que le point


x1 = x(t1 ) = x0 +

t1

f (t, x(t), u(t))dt

appartient Acc(x0 , t1 ), et de plus daprs les hypothses sur f on a


kx2 x1 k 6 C|t2 t1 |.
On conclut alors facilement.
Remarque 5.2.1. Lhypothse (5.2) est indispensable, elle nest pas une consquence des autres hypothses. En effet considrons de nouveau le systme de
la remarque 5.1.1, i.e. x = x2 + u, x(0) = 0, o on suppose que |u| 6 1 et que
le temps final est T = 2 . Alors pour tout contrle
u constant gal c, avec

0 < c < 1, la trajectoire associe est xc (t) = c tan ct, donc est bien dfinie
sur [0, T ], mais lorsque c tend vers 1 alors xc (T ) tend vers +. Par ailleurs il est
facile de voir que sur cet exemple lensemble des contrles admissibles, valeurs
dans [1, 1], est lensemble des fonctions mesurables telles que u(t) [1, 1[.
Remarque 5.2.2. De mme, lhypothse de convexit (5.3) est ncessaire (voir
[52, Exemple 2 page 244]).

5.2.2

Rsultats de contrlabilit

Dfinition 5.2.2. Le systme (4.28) est dit contrlable (en temps quelconque)
depuis x0 si
[
IRn =
Acc(x0 , T ).
T >0

Il est dit contrlable en temps T si IRn = Acc(x0 , T ).

5.2. CONTRLABILIT

91

Par des arguments du type thorme des fonctions implicites, ltude de


la contrlabilit du systme linaris (qui est plus simple), permet de dduire
des rsultats de contrlabilit locale du systme de dpart (voir [13, 52]). Par
exemple on dduit du thorme de contrlabilit dans le cas linaire la proposition suivante.
Proposition 5.2.2. Considrons le systme (4.28) o f (x0 , u0 ) = 0. Notons
f
A = f
x (x0 , u0 ) et B = u (x0 , u0 ). On suppose que

rg B|AB| |An1 B = n.

Alors le systme est localement contrlable en x0 .

Figure 5.1 Pendule invers.

Exemple 5.2.1 (Pendule invers). Considrons un pendule invers, de masse


m, fix un chariot de masse M dont on contrle lacclration u(t) (voir figure
5.1). Ecrivons les quations du mouvement en utilisant les quations dEulerLagrange. Lnergie cintique et lnergie potentielle sont
Ec =

1 2 1
M + m(22 + 22 ), Ep = mg2 .
2
2

Par ailleurs, on a 2 = l cos et 2 = + l sin . Donc le Lagrangien du systme


est
1
1
L = Ec Ep = (M + m)2 + ml cos + ml2 2 mgl cos .
2
2
Daprs les quations dEuler-Lagrange,
d L
L
=
+ Fext ,
dt x
x

CHAPITRE 5. DFINITIONS ET PRLIMINAIRES

92
on obtient

do

(M + m) + ml cos ml 2 sin = u,
ml cos + ml2 mgl sin = 0,

ml2 sin mg cos sin + u

=
,

M + m sin2

ml 2 sin cos + (M + m)g sin u cos

=
.
M + m sin2

On tablit facilement que le systme linaris au point dquilibre ( = c , =


0, = 0, = 0) est donn par les matrices

0 1
0
0
0
0 0
1
mg
0
M
, et B = M .
A=
0 0
0
0
1
1
lM
0 0 (M+m)g
0
lM

On vrifie aisment la condition de Kalman, ce qui tablit que le pendule invers


est localement contrlable en ce point dquilibre (instable).

Le thorme de Chow relie la contrlabilit des proprits de crochets de


Lie du systme. On a par exemple la consquence suivante sur les systmes dits
sous-Riemanniens.
Proposition 5.2.3. Considrons dans IRn le systme sous-Riemannien lisse
x =

m
X

ui fi (x) , x(0) = x0 .

i=1

On suppose que lalgbre de Lie engendre par les champs de vecteurs fi est de
dimension n. Alors le systme est contrlable.
Dmonstration. Pour simplifier, faisons la dmonstration dans le cas m = 2 et
n = 3. On suppose que rg(f1 , f2 , [f1 , f2 ])(x) = 3, x IRn . Soit IR. On
considre lapplication
: (t1 , t2 , t3 ) 7 (exp f1 exp t3 f2 exp f1 )(exp t2 f2 )(exp t1 f1 )(x0 ).
On a (0) = x0 . Montrons que pour 6= 0 assez petit, est une immersion
en 0. En utilisant la formule de Campbell-Hausdorff, on obtient
(t1 , t2 , t3 ) = exp(t1 f1 + (t2 + t3 )f2 + t3 [f1 , f2 ] + . . .),
do

(0) = f1 (x0 ),
(0) = f2 (x0 ),
(0) = f2 (x0 ) + [f1 , f2 ](x0 ) + o().
t1
t2
t3
Par hypothse, les champs de vecteurs f1 , f2 , [f1 , f2 ] sont linairement indpendants, donc la jacobienne de est de rang 3 en 0. Le thorme dinversion
locale et un argument de connexit nous permettent de conclure.

5.3. CONTRLES SINGULIERS

93

Remarque 5.2.3. En gnral, le problme de contrlabilit est difficile. Il est li


la question de savoir quand un semi-groupe opre transitivement. Il existe
cependant des techniques pour montrer, dans certains cas, la contrlabilit globale. Lune dentre elles, importante, sappelle la technique dlargissement (voir
[13, 43]).

5.3
5.3.1

Contrles singuliers
Dfinition

Dfinition 5.3.1. Soit u un contrle dfini sur [0, T ] tel que sa trajectoire
associe xu issue de x(0) = x0 est dfinie sur [0, T ]. On dit que le contrle u (ou
la trajectoire xu ) est singulier sur [0, T ] si la diffrentielle de Frchet dET (u) de
lapplication entre-sortie au point u nest pas surjective. Sinon on dit quil est
rgulier.
Dans les rsultats ci-dessous on suppose que les contrles considrs sont
lintrieur de lensemble des contrles admissibles, sans quoi largument de
fonctions implicites classique ne pourrait sappliquer cause de lexistence dun
bord.
Proposition 5.3.1. Soient x0 et T fixs. Si u est un contrle rgulier, alors
ET est ouverte dans un voisinage de u.
Dmonstration. Par hypothse, il existe n contrles vi tels que dET (u).vi = ei
o (e1 , . . . , en ) est la base canonique de IRn . On considre lapplication
(1 , . . . , n ) IRn 7 ET (u +

n
X

i vi ).

i=1

Par construction, cest un diffomorphisme local, et le rsultat sensuit.


Autrement dit en un point x1 atteignable en temps T depuis x0 par une
trajectoire rgulire x(), lensemble accessible Acc(x0 , T ) est localement ouvert ,
i.e. est un voisinage du point x1 . En particulier cela implique que le systme
est localement contrlable autour du point x1 . On parle aussi de contrlabilit
le long de la trajectoire x(). On obtient ainsi la proposition suivante.
Proposition 5.3.2. Si u est un contrle rgulier sur [0, T ], alors le systme est
localement contrlable le long de la trajectoire associe ce contrle.
Le corollaire suivant est immdiat.
Corollaire 5.3.3. Soit u un contrle dfini sur [0, T ] tel que sa trajectoire
associe xu issue de x(0) = x0 est dfinie sur [0, T ] et vrifie au temps T
x(T ) Acc(x0 , T ).
Alors le contrle u est singulier sur [0, T ].

CHAPITRE 5. DFINITIONS ET PRLIMINAIRES

94

Remarque 5.3.1. Le systme peut tre localement contrlable le long dune trajectoire singulire. Cest le cas du systme scalaire x = u3 , o le contrle u = 0
est singulier.

5.3.2

Caractrisation hamiltonienne des contrles singuliers

Montrons quune trajectoire singulire peut se paramtrer comme la projection dune solution dun systme hamiltonien contraint. Considrons de nouveau
le systme de contrle gnral
x(t)

= f (t, x(t), u(t)),

(5.5)

o f est une application de classe C 1 de IR1+n+m dans IRn .


Dfinition 5.3.2. Le Hamiltonien du systme (5.5) est la fonction
H : IR IRn (IRn \ {0}) IRm IR
(t, x, p, u) 7 H(t, x, p, u) = hp, f (t, x, u)i
o h , i est le produit scalaire usuel de IRn .
Remarque 5.3.2. Il est souvent commode de considrer p comme un vecteur
ligne, et alors avec des notations matricielles on peut crire
H(t, x, p, u) = pf (t, x, u).
Nous ferons toujours par la suite cette confusion, et le vecteur adjoint sera
tantt un vecteur ligne, tantt un vecteur colonne, pour allger les notations.
Nous laissons au lecteur le soin de saccommoder de cette volontaire ambigut.
Proposition 5.3.4. Soit u un contrle singulier sur [0, T ] pour le systme de
contrle (5.5), et soit x() la trajectoire singulire associe. Alors il existe une
application absolument continue p : [0, T ] IRn \ {0}, appele vecteur adjoint,
telle que les quations suivantes sont vrifies pour presque tout t [0, T ]
H
(t, x(t), p(t), u(t)),
p
H
p(t)
=
(t, x(t), p(t), u(t)),
x
H
(t, x(t), p(t), u(t)) = 0,
u

x(t)

o H est le hamiltonien du systme.


Lquation (5.8) est appele quation de contrainte.

(5.6)
(5.7)
(5.8)

5.3. CONTRLES SINGULIERS

95

Dmonstration. Par dfinition, le couple (x, u) est singulier sur [0, T ] si dET (u)
nest pas surjective. Donc il existe un vecteur ligne IRn \ {0} tel que pour
tout contrle v dans L on ait
.dET (u).v =

M (T )M 1 (s)B(s)v(s)ds = 0

Par consquent
M (T )M 1 (s)B(s) = 0 p.p. sur [0,T].
On pose p(t) = M (T )M 1 (t) pour tout t [0, T ]. Cest un vecteur ligne de
IRn \ {0}, et p(T ) = . On a par drivation
p(t)
= p(t)

f
(t, x(t), u(t)).
x

En introduisant le Hamiltonien H(t, x, p, u) = pf (t, x, u), on obtient


f (t, x(t), u(t)) =

H
(t, x(t), p(t), u(t)),
p

et
p(t)

f
H
(t, x(t), u(t)) =
(t, x(t), p(t), u(t)).
x
x

La dernire relation vient de p(t)B(t) = 0 car B(t) =

f
(t, x(t), u(t)).
u

Remarque 5.3.3 (Interprtation gomtrique du vecteur adjoint). Si u est un


contrle singulier sur [0, T ] alors u est aussi singulier sur [0, t] pour tout t ]0, T ],
et de plus p(t) est orthogonal limage de lapplication linaire dEt (u). En
particulier Im dEt (u) est un sous-espace de IRn de codimension suprieure ou
gale 1.
En effet, on a pour tout contrle v L ([0, t], IRm )
p(t)dEt (u).v = p(t)M (t)

M (s)1 B(s)v(s)ds,

or p(t) = M (T )M (t)1 , do en prolongeant v(s) par 0 sur ]t, T ],


p(t)dEt (u).v = M (T )

M (s)1 B(s)v(s)ds = dET (u).v = 0.

Remarque 5.3.4. La proposition 5.3.4 et les remarques prcdentes sont les prmisses du principe du maximum de Pontryagin.

96

5.3.3

CHAPITRE 5. DFINITIONS ET PRLIMINAIRES

Calcul des contrles singuliers

Considrons un point (t0 , x0 , p0 , u0 ) appartenant lensemble des contraintes




H
n
n
m
(t, x, p, u) = 0 .
= (t, x, p, u) IR IR IR \ {0} IR |
u
 2

H
Si la Hessienne
est inversible en ce point, alors daprs le thorme
ui uj i,j
des fonctions implicites le contrle singulier peut se calculer comme une fonction
de (t, x, p) au voisinage de (t0 , x0 , p0 ).
Exercice 5.3.1. Calculer les contrles singuliers du systme
x = y + u, y = x + u2 .
Si le Hamiltonien est linaire en le contrle, la mthode consiste driver
par rapport t la contrainte (5.8). Considrons par exemple un systme affine
mono-entre lisse
x = f0 (x) + uf1 (x).
Il convient dutiliser le formalisme Hamiltonien. Posons hi (x, p) = hp, fi (x)i, i =
0, 1, et z(t) = (x(t), p(t)). En drivant deux fois la contrainte on obtient
{{h1 , h0 }, h0 }(z(t)) + u(t){{h1 , h0 }, h1 }(z(t)) = 0,
o { , } dsigne le crochet de Poisson, et on en dduit donc le contrle singulier
pourvu que {{h1 , h0 }, h1 }(z(t)) ne sannule pas (voir [16] pour plus de dtails).

Chapitre 6

Contrle optimal
6.1

Prsentation du problme

Maintenant, en plus dun problme de contrle, on se donne un problme


de minimisation : parmi toutes les solutions du systme (4.28) reliant x0
x1 , trouver une trajectoire qui minimise une certaine fonction cot C(T, u).
Une telle trajectoire, si elle existe, est dite optimale pour ce cot. Lexistence
de trajectoires optimales dpend de la rgularit du systme et du cot (pour
un nonc gnral, voir [13, 43, 52]). Il se peut aussi quun contrle optimal
nexiste pas dans la classe de contrles considrs, mais existe dans un espace
plus gros : cest le phnomne de Lavrentiev (voir [62]). En particulier on a
intrt travailler dans un espace de contrles complet et qui ait de bonnes
proprits de compacit.

6.2
6.2.1

Existence de trajectoires optimales


Pour des systmes gnraux

Thorme 6.2.1. Considrons le systme de contrle


x(t)

= f (t, x(t), u(t)),


o f est C 1 de IR1+n+m dans IRn , les contrles u sont valeurs dans un compact
IRm , et o ventuellement on a des contraintes sur ltat
c1 (x) 6 0, . . . , cr (x) 6 0,
o c1 , . . . cr sont des fonctions continues sur IRn . Soient M0 et M1 deux compacts de IRn tels que M1 est accessible depuis M0 . Soit U lensemble des contrles
valeurs dans joignant M0 M1 . Soient f 0 une fonction de classe C 1 sur
IR1+n+m , et g une fonction continue sur IRn . On considre le cot
Z t(u)
C(u) =
f 0 (t, x(t), u(t))dt + g(t(u), x(t(u))),
0

97

CHAPITRE 6. CONTRLE OPTIMAL

98

o t(u) > 0 est tel que x(t(u)) M1 . On suppose que


il existe un rel positif b tel que toute trajectoire associe un contrle
u U est uniformment borne par b sur [0, t(u)], ainsi que le temps t(u),
i.e. ,
b > 0 | u U t [0, t(u)] t(u) + kxu (t)k 6 b,
(6.1)
pour tout (t, x) IR1+n , lensemble
V (t, x) =



f (t, x, u)
f 0 (t, x, u) +




u , > 0

(6.2)

est convexe.
Alors il existe un contrle optimal u sur [0, t(u)] tel que la trajectoire associe
joint M0 M1 en temps t(u) et en cot minimal.
Bien entendu pour un problme de contrle optimal temps final fix on
impose t(u) = T (et en particulier on suppose que la cible M1 est accessible
depuis M0 en temps T ).
La preuve de ce thorme est semblable celle du thorme 5.2.1. La prise en
compte de contraintes sur ltat ne pose aucun problme. Notons que lhypothse
(6.2) implique la convexit de lensemble des vecteurs vitesses, et aussi (terme
> 0) une proprit de convexit dpigraphe. Nous donnons tout de mme
cette preuve ci-dessous.
Remarque 6.2.1. On peut montrer un rsultat plus gnral o lensemble de
dpart M0 et la cible M1 dpendent du temps t, ainsi que le domaine des
contraintes sur le contrle (voir [52]).
Dmonstration. Soit linfimum des cots C(u) sur lensemble des contrles admissibles u L ([0, t(u)], ) engendrant des trajectoires telles que x(0) M0 ,
x(t(u)) M1 et vrifiant les contraintes sur ltat c1 (x()) 6 0, . . . , cr (x()) 6 0.
Considrons une suite minimisante de trajectoires xn () associes des contrles
un , cest--dire une suite de trajectoires vrifiant ces proprits et telle que
C(un ) quand n +. Pour tout n on note
Fn (t) =

f (t, xn (t), un (t))


f 0 (t, xn (t), un (t))

Fn (t)
Fn0 (t)

pour presque tout t [0, t(un )]. Daprs les hypothses, la suite de fonctions
(Fn ())nIN (tendues par 0 sur ]tn (u), b]) est borne dans L ([0, b], IRn ), et par
consquent sous-suite prs elle converge vers une fonction


F ()

F () =
F 0 ()
pour la topologie faible toile de L ([0, b], IRn+1 ). A sous-suite prs de mme la
suite (tn (un ))nIN converge vers T > 0, et on a F (t) = 0 pour t ]T, b]. Enfin,

6.2. EXISTENCE DE TRAJECTOIRES OPTIMALES

99

par compacit de M0 , sous-suite prs la suite (xn (0))nIN converge vers un


point x0 M0 . Posons alors, pour tout t [0, T ],
Z t
x(t) = x0 +
F (s)ds,
0

ce qui construit une fonction x() absolument continue sur [0, T ]. De plus on a,
pour tout t [0, T ],
lim xn (t) = x(t),
n+

i.e. la suite de fonctions (xn ())nIN converge simplement vers x(). Comme dans
la preuve du thorme 5.2.1, le but est de montrer que la trajectoire x() est
associe un contrle u valeurs dans , et que de plus ce contrle u est optimal
pour le problme considr.
Pour tout entier n et presque tout t [0, t(un )], on pose


f (t, x(t), un (t))

hn (t) =
.
f 0 (t, x(t), un (t))
n sur [0, T ] par
Si T > t(un ), on tend h


n (t) = f0(t, x(t), v) ,
h
f (t, x(t), v)
o v est quelconque. Par ailleurs, on dfinit

= max{|f 0 (t, x, u)| | 0 6 t 6 b, kxk 6 b, u }.

Comme est compact, > 0 est bien dfini. Pour tout (t, x) IR1+n , on
modifie alors lgrement la dfinition de V (t, x) pour le rendre compact (tout
en le gardant convexe), en posant



f (t, x, u)

0

V (t, x) =
u , > 0, |f (t, x, u) + | 6 .
f 0 (t, x, u) +
On dfinit alors

L2 ([0, T ], IRn+1 ) | h(t) V (t, x(t)) pour presque tout t [0, T ]}.
V = {h()
Par construction, on a
hn V pour tout entier n.

Lemme 6.2.2. Lensemble V est convexe ferm fort dans L2 ([0, T ], IRn+1 ).

et
Preuve du lemme 6.2.2. Montrons que V est convexe. Soient r1 , r2 V,

[0, 1]. Par dfinition, pour presque tout t [0, T ] on a r1 (t) V (t, x(t))
et r2 (t) V (t, x(t)), or V (t, x(t)) est convexe donc
r1 (t) + (1 )
r2 (t)

V (t, x(t)). Donc


r1 + (1 )
r2 V.
Montrons que V est ferm fort dans L2 ([0, T ], IRn ). Soit (
rn )nIN une suite
de V convergeant vers r pour la topologie forte de L2 ([0, T ], IRn ). Montrons
A sous-suite prs, (
que r V.
rn )nIN converge presque partout vers r, or par
dfinition, pour presque tout t [0, T ] on a rn (t) V (t, x(t)), et V (t, x(t)) est
compact, donc r(t) V (t, x(t)) pour presque tout t [0, T ].

CHAPITRE 6. CONTRLE OPTIMAL

100

Lensemble V est donc aussi convexe ferm faible dans L2 ([0, T ], IRn+1 ). La
n )nIN tant borne dans L2 ([0, T ], IRn+1 ), sous-suite prs
suite de fonctions (h
qui appartient V puisque ce
elle converge faiblement vers une fonction h,
sous-ensemble est ferm faible.
presque partout. Pour cela, crivons, pour toute foncMontrons que F = h
2
tion L ([0, T ]),
Z T
Z T
Z T


n (t) dt +
(t)Fn (t) dt =
(t)h
(t) Fn (t) hn (t) dt.
(6.3)
0

Daprs les hypothses, les fonctions f et f sont globalement lipschitziennes en


b) , et donc daprs le thorme des accroissements finis,
x sur [0, T ] B(0,
il existe une constante C > 0 telle que, pour presque tout t [0, T ], on ait
n (t)k 6 Ckxn (t) x(t)k.
kFn (t) h

La suite de fonctions (xn ())nIN converge simplement vers x(), donc daprs le
thorme de convergence domine,
Z T


n (t) dt 0.
(t) Fn (t) h
n+

Finalement en passant la limite dans (6.3), il vient


Z T
Z T
dt,

(t)F (t) dt =
(t)h(t)
0

presque partout
pour toute fonction L ([0, T ]), et par consquent F = h
sur [0, T ].
et donc pour presque tout t [0, T ] il existe u(t)
En particulier, F V,
et (t) > 0 tels que


f (t, x(t), u(t))
F (t) =
.
f 0 (t, x(t), u(t)) + (t)
2

En appliquant un lemme de slection mesurable de thorie de la mesure (notons


que F L ([0, T ], IRn+1 ), les fonctions u() et () peuvent de plus tre choisies
mesurables sur [0, T ] (voir [52, Lem. 2A, 3A p. 161]).
Il reste montrer que le contrle u ainsi dfini est optimal pour le problme
considr. Tout dabord, comme xn (tn (un )) M1 , par compacit de M1 et
daprs les proprits de convergence montres prcdemment, on obtient x(T )
M1 . De mme, clairement on obtient c1 (x()) 6 0, . . . , cr (x()) 6 0. Par ailleurs,
par dfinition C(un ) converge vers , et daprs les proprits de convergence
RT
dmontres ci-dessus, C(un ) converge aussi vers 0 (f 0 (t, x(t), u(t)) + (t)) dt +
g(T, x(T )). Comme est valeurs positives, cela implique donc que
Z T
f 0 (t, x(t), u(t)) dt + g(T, x(T ))
0

(f 0 (t, x(t), u(t)) + (t)) dt + g(T, x(T )) 6 C(v),

6.2. EXISTENCE DE TRAJECTOIRES OPTIMALES

101

pour tout contrle v admissible qui engendre une trajectoire reliant M0 M1


et vrifiant les diffrentes contraintes. Autrement dit, le contrle u est optimal.
Notons dailleurs que la fonction est forcment nulle.

6.2.2

Pour des systmes affines

Le rsultat prcdent suppose des contraintes sur le contrle. En labsence


de contraintes, on a par exemple, pour les systmes affines, le rsultat suivant
(des rsultats plus gnraux existent, voir par exemple [36]).
Proposition 6.2.3. Considrons le systme affine dans IRn
x = f0 (x) +

m
X

ui fi (x) , x(0) = x0 , x(T ) = x1 ,

(6.4)

i=1

avec le cot

CT (u) =

m
T X

u2i (t)dt,

(6.5)

i=1

o T > 0 est fix et la classe U des contrles admissibles est le sous-ensemble


de L2 ([0, T ], IRm ) tel que
1. u U xu est bien dfinie sur [0, T ] ;
2. BT | u U t [0, T ] ||xu (t)|| 6 BT .
Si x1 est accessible depuis x0 en temps T , alors il existe un contrle optimal
reliant x0 x1 .
(n)

Dmonstration. Considrons une suite de contrles (ui (t))nIN transfrant x0


en x1 , telle que leur cot tend vers la borne infrieure des cots des contrles
reliant x0 x1 . Soit x(n) la trajectoire associe au contrle u(n) , i.e.
!
Z T
m
X
(n)
ui (t)fi (x(n) (t)) dt.
x(n) (t) = x0 +
f0 (x(n) (t)) +
0

Les

(n)
ui

i=1

sont borns dans L ([0, T ], IR ), et par compacit faible,


(nk )

(nk )kIN | ui

k+

vi L2 ([0, T ], IRm ).

Il est par ailleurs facile de voir que la suite x (nk ) est borne dans L2 ([0, T ], IRn ),
et par consquent x(nk ) est borne dans H 1 ([0, T ], IRn ), et par rflexivit,
H1

(nkp )pIN | x(nkp ) x H 1 ([0, T ], IRn )


c

uniformment

Or H 1 C 0 , donc x(nkp ) x sur [0, T ]. On conclut alors aisment


par passage la limite que
!
Z t
m
X
vi (t)fi (x(t)) dt
x(t) = x0 +
f0 (x(t)) +
0

et que x(T ) = x1 .

i=1

102

CHAPITRE 6. CONTRLE OPTIMAL

Chapitre 7

Principe du Maximum de
Pontryagin
Dans cette section on donne une version gnrale du principe du maximum
de Pontryagin. Ce thorme est difficile dmontrer. En revanche lorsquil ny
a pas de contrainte sur le contrle, la preuve est simple, et on arrive au principe
du maximum dit faible. Cest cette version plus simple que nous allons dabord
nous intresser. Puis nous passerons au cas gnral.

7.1
7.1.1

Cas sans contrainte sur le contrle : principe


du maximum faible
Le problme de Lagrange

Ce problme simplifi est le suivant. On cherche des conditions ncessaires


doptimalit pour le systme
x(t)

= f (t, x(t), u(t)),

(7.1)

o les contrles u() U sont dfinis sur [0, T ] et les trajectoires associes doivent
vrifier x(0) = x0 et x(T ) = x1 ; le problme est de minimiser un cot de la forme
C(u) =

f 0 (t, x(t), u(t))dt,

(7.2)

o T est fix.
Associons au systme (7.1) le systme augment suivant
x(t)

= f (t, x(t), u(t)),


x 0 (t) = f 0 (t, x(t), u(t)),
103

(7.3)

104

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

et notons x
= (x, x0 ), f = (f, f 0 ). Le problme revient donc chercher une
trajectoire solution de (7.3) joignant les points x0 = (x0 , 0) et x1 = (x1 , x0 (T )),
et minimisant la dernire coordonne x0 (T ).
Lensemble des tats accessibles partir de x
0 pour le systme (7.3) est
x0 , T ) = S x
(T, x
0 , u).
Acc(
u()

Le lemme crucial est alors le suivant.

Lemme 7.1.1. Si le contrle u associ au systme de contrle (7.1) est optimal


pour le cot (7.2), alors il est singulier sur [0, T ] pour le systme augment
(7.3).
Dmonstration. Notons x
la trajectoire associe, solution du systme augment
(7.3), issue de x
0 = (x0 , 0). Le contrle u tant optimal pour le cot (7.2), il en
x0 , T ) (voir
rsulte que le point x
(T ) appartient la frontire de lensemble Acc(
figure 7.1). En effet sinon, il existerait un voisinage du point x
(T ) = (x1 , x0 (T ))

dans Acc(
x0 , T ) contenant un point y(T ) solution du systme (7.3) et tel que lon
ait y 0 (T ) < x0 (T ), ce qui contredirait loptimalit du contrle u. Par consquent,
daprs la proposition 5.3.1, le contrle u est un contrle singulier pour le systme
augment (7.3) sur [0, T ].
x0

x0 (T )

1111111111111111111111111111111
0000000000000000000000000000000
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
x0 , T )
Acc(
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111

x1

Figure 7.1 Ensemble accessible augment.


Dans la situation du lemme, daprs la proposition 5.3.4, il existe une application p : [0, T ] IRn+1 \ {0} telle que (
x, p, u
) soit solution du systme
hamiltonien

H
H
x
(t) =
(t, x
(t), p(t), u(t)), p (t) =
(t, x
(t), p(t), u(t)),
p
x

H
(t, x(t), p(t), u(t)) = 0
u
x
o H(t,
, p, u) = h
p, f(t, x, u)i.

(7.4)

(7.5)

7.1. CAS SANS CONTRAINTE SUR LE CONTRLE : PRINCIPE DU MAXIMUM FAIBLE105


En crivant p = (p, p0 ) (IRn IR) \ {0}, o p0 est appele variable duale
du cot, on obtient

f
x 0

0
0
(p,
p ) = (p, p )
,

f 0
0
x

do en particulier p 0 (t) = 0, cest--dire que p0 (t) est constant sur [0, T ].


Comme le vecteur p(t) est dfini scalaire multiplicatif prs, on choisit p0 6 0.
= h
Par ailleurs, H
p, f(t, x, u)i = pf + p0 f , donc

H
f
f 0
=0=p
+ p0
.
u
u
u
Finalement on a obtenu lnonc suivant.
Thorme 7.1.2 (Principe du maximum faible). Si le contrle u associ au
systme de contrle (7.1) est optimal pour le cot (7.2), alors il existe une application p() absolument continue sur [0, T ], valeurs dans IRn , appele vecteur
adjoint, et un rel p0 6 0, tels que le couple (p(), p0 ) est non trivial, et les
quations suivantes sont vrifies pour presque tout t [0, T ]
H
(t, x(t), p(t), p0 , u(t)),
p
H
p(t)
=
(t, x(t), p(t), p0 , u(t)),
x
H
(t, x(t), p(t), p0 , u(t)) = 0,
u
x(t)

(7.6)
(7.7)
(7.8)

o H est le Hamiltonien associ au systme (7.1) et au cot (7.2)


H(t, x, p, p0 , u) = hp, f (t, x, u)i + p0 f 0 (t, x, u).

7.1.2

(7.9)

Le problme de Mayer-Lagrange

On modifie le problme prcdent en introduisant le cot


Z t
C(t, u) =
f 0 (s, xu (s), u(s))ds + g(t, xu (t)),

(7.10)

et o le temps final t nest pas fix. Soit M1 une varit de IRn . Le problme de
contrle optimal est alors de dterminer une trajectoire solution de
x(t)

= f (t, x(t), u(t)), x(0) = x0 ,


o les contrles u() sont dans lensemble U des contrles admissibles sur [0, te (u)[,
telle que x(T ) M1 , et de plus x() minimise sur [0, T ] le cot (7.10).

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

106

Supposons que la varit M1 est donne par


M1 = {x IRn | F (x) = 0},
o F est une fonction de classe C 1 de IRn dans IRp (submersive donc, puisque
M1 est une varit). En crivant F = (F1 , . . . , Fp ) o les fonctions Fi sont
valeurs relles, il vient
M1 = {x IRn | F1 (x) = = Fp (x) = 0},
et de plus lespace tangent M1 en un point x M1 est
Tx M1 = {v IRn | Fi (x).v = 0, i = 1, . . . , p}.
Introduisons alors lapplication
h(t, u) = (F E(t, u), C(t, u)).
Remarque 7.1.1. Lapplication h nest pas forcment diffrentiable au sens de
Frchet. Cela dpend en effet de la rgularit du contrle u. Si par exemple u
est continu en t, alors
E
(t, u) = f (t, x(t), u(t)).
t
Dans les calculs qui suivent, on oublie cette difficult et on suppose que h est
diffrentiable.
Le fait suivant est une consquence immdiate du thorme des fonctions
implicites.
Lemme 7.1.3. Si un contrle u est optimal sur [0, T ] alors lapplication h nest
pas submersive au point (T, u).
Par consquent dans ce cas lapplication dh(T, u) nest pas surjective, et donc
il existe un vecteur non trivial 1 = (1 , 0 ) IRn IR qui est orthogonal dans
IRp+1 Im dh(T, u), i.e.
1 dh(T, u) = 0.
Ceci implique les deux galits au point (T, u)
C

F E + 0
= 0,
t
t

C
1 F E + 0
= 0.
u
u
1

Posons
C0 (t, u) =

f 0 (s, xu (s), u(s))ds,

de sorte que

C(t, u) = C0 (t, u) + g(t, xu (t)) = C0 (t, u) + g(t, E(t, u)).

(7.11)
(7.12)

7.1. CAS SANS CONTRAINTE SUR LE CONTRLE : PRINCIPE DU MAXIMUM FAIBLE107


Avec cette notation il vient, compte-tenu de

C0
t

= f 0 et

E
t

= f,

C
g
g
= f0 +
+
f,
t
t
x
et

C
C0
g E
=
+
,
u
u
x u
au point (T, u). En reportant dans les relations (7.11) et (7.12) on obtient
f + 0 (f 0 +

g
) = 0,
t

(7.13)

E
C0
+ 0
= 0,
u
u

(7.14)

au point (T, u), o par dfinition


= 1 .F + 0

g
.
x

En particulier si on pose 1 = (1 , . . . , p ), on obtient 1 .F =

Pp

i=1

i Fi .

Remarque 7.1.2. Si on envisage le problme de Mayer-Lagrange temps final


fix T , alors on considre le cot
CT (u) =

f 0 (s, xu (s), u(s))ds + g(xu (T )).

Le raisonnement prcdent est quasiment inchang, sauf que lon raisonne sur
lapplication temps fix T
hT (u) = (F ET (u), CT (u)),
et on obtient de mme la relation (7.14). En revanche on na plus lquation
(7.13).
Ainsi lquation (7.13) traduit-elle le fait que le temps final nest pas fix.
Remarque 7.1.3. La relation (7.14) affirme exactement que le contrle u est singulier sur [0, T ] pour le systme x = f (t, x, u) affect du cot C0 (u). Autrement
dit on sest ramen un problme de Lagrange temps non fix.
En particulier en appliquant la proposition 5.3.4, on obtient, similairement
au paragraphe prcdent, le rsultat suivant.
Thorme 7.1.4 (Principe du Maximum faible, cas de Mayer-Lagrange). Si
le contrle u est optimal sur [0, T ] alors il existe une application p : [0, T ]
IRn \ {0} absolument continue, et un rel p0 6 0, tels que le couple (p(), p0 ) est
non trivial, et
x(t)

H
H
(t, x(t), p(t), p0 , u(t)), p(t)
=
(t, x(t), p(t), p0 , u(t)),
p
x

(7.15)

108

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


H
(t, x(t), p(t), p0 , u(t)) = 0,
u

(7.16)

o H(t, x, p, p0 , u) = hp, f (t, x, u)i + p0 f 0 (t, x, u).


Si de plus la cible M1 est une sous-varit de IRn alors il existe des rels
1 , . . . , p , tels que lon ait au point final (T, x1 )
p(T ) =

p
X
i=1

i Fi + p0

g
.
x

(7.17)

De plus si le temps final nest pas fix dans le problme de contrle optimal,
et si u est continu au temps T , alors on a au temps final T
H(T, x(T ), p(T ), p0, u(T )) = p0

7.2

g
(T, x(T )).
t

Principe du maximum de Pontryagin

La version forte suivante, beaucoup plus difficile montrer, du thorme


prcdent (voir [60] pour une dmonstration, voir aussi [13, 39, 52]), prend
en compte les contraintes sur le contrle, et affirme que cet extremum est un
maximum. On a lnonc gnral suivant.

7.2.1

Enonc gnral

Thorme 7.2.1. On considre le systme de contrle dans IRn


x(t)

= f (t, x(t), u(t)),

(7.18)

o f : IR IRn IRm IRn est de classe C 1 et o les contrles sont des


applications mesurables et bornes dfinies sur un intervalle [0, te (u)[ de IR+ et
valeurs dans IRm . Soient M0 et M1 deux sous-ensembles de IRn . On note
U lensemble des contrles admissibles u dont les trajectoires associes relient
un point initial de M0 un point final de M1 en temps t(u) < te (u).
Par ailleurs on dfinit le cot dun contrle u sur [0, t]
C(t, u) =

f 0 (s, x(s), u(s))ds + g(t, x(t)),

o f 0 : IR IRn IRm IR et g : IR IRn IR sont C 1 , et x() est la


trajectoire solution de (7.18) associe au contrle u.
On considre le problme de contrle optimal suivant : dterminer une trajectoire reliant M0 M1 et minimisant le cot. Le temps final peut tre fix ou
non.
Si le contrle u U associ la trajectoire x() est optimal sur [0, T ], alors il
existe une application p() : [0, T ] IRn absolument continue appele vecteur

7.2. PRINCIPE DU MAXIMUM DE PONTRYAGIN

109

adjoint, et un rel p0 6 0, tels que le couple (p(), p0 ) est non trivial, et tels que,
pour presque tout t [0, T ],
H
(t, x(t), p(t), p0 , u(t)),
p
H
p(t)
=
(t, x(t), p(t), p0 , u(t)),
x

x(t)

(7.19)

o H(t, x, p, p0 , u) = hp, f (t, x, u)i + p0 f 0 (t, x, u) est le Hamiltonien du systme,


et on a la condition de maximisation presque partout sur [0, T ]
H(t, x(t), p(t), p0 , u(t)) = max H(t, x(t), p(t), p0 , v).
v

(7.20)

Si de plus le temps final pour joindre la cible M1 nest pas fix, on a la


condition au temps final T
max H(T, x(T ), p(T ), p0 , v) = p0
v

g
(T, x(T )).
t

(7.21)

Si de plus M0 et M1 (ou juste lun des deux ensembles) sont des varits
de IRn ayant des espaces tangents en x(0) M0 et x(T ) M1 , alors le vecteur
adjoint peut tre construit de manire vrifier les conditions de transversalit
aux deux extrmits (ou juste lune des deux)
p(0) Tx(0) M0

(7.22)

g
(T, x(T )) Tx(T ) M1 .
x

(7.23)

et
p(T ) p0

Remarque 7.2.1. Si le contrle u est continu au temps T , la condition (7.21)


peut scrire
H(T, x(T ), p(T ), p0 , u(T )) = p0

g
(T, x(T )).
t

(7.24)

Remarque 7.2.2. Si la varit M1 scrit sous la forme


M1 = {x IRn | F1 (x) = = Fp (x) = 0},
o les Fi sont des fonctions de classe C 1 sur IRn (indpendantes puisque M1 est
une varit), alors la condition (7.23) se met sous la forme
1 , . . . , p IR | p(T ) =

p
X
i=1

i Fi (x(T )) + p0

g
(T, x(T )).
x

(7.25)

Remarque 7.2.3. Dans les conditions du thorme, on a de plus pour presque


tout t [0, T ]
H
d
H(t, x(t), p(t), p0 , u(t)) =
(t, x(t), p(t), p0 , u(t)).
dt
t

(7.26)

110

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

En particulier si le systme augment est autonome, i.e. si f et f 0 ne dpendent


pas de t, alors H ne dpend pas de t, et on a
t [0, T ]

max H(x(t), p(t), p0 , v) = Cste.


v

Notons que cette galit est alors valable partout sur [0, T ] (en effet cette fonction
de t est lipschitzienne).
Remarque 7.2.4. La convention p0 6 0 conduit au principe du maximum. La
convention p0 > 0 conduirait au principe du minimum, i.e. la condition (7.20)
serait une condition de minimum.
Remarque 7.2.5. Dans le cas o = IRm , i.e. lorsquil ny a pas de contrainte
sur le contrle, la condition de maximum (7.20) devient H
u = 0, et on retrouve
le principe du maximum faible (thorme 7.1.2).
Dfinition 7.2.1. Une extrmale du problme de contrle optimal est un quadruplet (x(), p(), p0 , u()) solution des quations (7.19) et (7.20). Si p0 = 0, on
dit que lextrmale est anormale, et si p0 6= 0 lextrmale est dite normale.
Remarque 7.2.6. Lorsque = IRm , i.e. lorsquil ny a pas de contrainte sur le
contrle, alors la trajectoire x(), associe au contrle u(), est une trajectoire
singulire du systme (7.1), si et seulement si elle est projection dune extrmale
anormale (x(), p(), 0, u()).
Ceci rsulte en effet de la caractrisation hamiltonienne des trajectoires singulires, cf proposition 5.3.4. Remarquons que puisque p0 = 0, ces trajectoires
ne dpendent pas du cot. Elles sont intrinsques au systme. Le fait quelles
puissent pourtant tre optimales sexplique de la manire suivante : en gnral,
une trajectoire singulire a une proprit de rigidit, i.e. cest la seule trajectoire
joignant ses extrmits, et donc en particulier elle est optimale, ceci indpendamment du critre doptimisation choisi.
Ce lien entre extrmales anormales et trajectoires singulires, pour = IRm ,
montre bien la difficult lie lexistence ventuelle de telles trajectoires.
Dfinition 7.2.2. Les conditions (7.22) et (7.23) sont appeles conditions de
transversalit sur le vecteur adjoint. La condition (7.21) est appele condition de
transversalit sur le Hamiltonien. Elles sont ici crites de manire trs gnrale,
et dans les deux paragraphes suivants nous allons les rcrire dans des cas plus
simples.
Remarque 7.2.7. Le problme important du temps minimal correspond f 0 = 1
et g = 0, ou bien f 0 = 0 et g(t, x) = t. Dans les deux cas les conditions de
transversalit obtenues sont bien les mmes.
Remarque 7.2.8. Il existe des versions plus gnrales du principe du maximum,
pour des dynamiques non lisses ou hybrides (voir par exemple [22, 69, 70] et leurs
rfrences, voir aussi plus loin pour le principe du maximum avec contraintes
sur ltat).

7.2. PRINCIPE DU MAXIMUM DE PONTRYAGIN

7.2.2

111

Conditions de transversalit

Conditions de transversalit sur le vecteur adjoint


Dans ce paragraphe le temps final pour atteindre la cible peut tre fix ou
non. Rcrivons les conditions (7.22) et (7.23) dans les deux cas importants
suivants.
Problme de Lagrange. Dans ce cas le cot scrit
Z t
C(t, u) =
f 0 (s, x(s), u(s))ds,
0

i.e. g = 0. Les conditions de transversalit (7.22) et (7.23) sur le vecteur


adjoint scrivent alors
p(0) Tx(0) M0 , p(T ) Tx(T ) M1 .

(7.27)

Remarque 7.2.9. Si par exemple M0 = {x0 }, la condition (7.22) devient


vide. Si au contraire M0 = IRn , i.e. si le point initial nest pas fix, on
obtient p(0) = 0.
De mme, si M1 = IRn , on obtient p(T ) = 0. Autrement dit si le point
final est libre alors le vecteur adjoint au temps final est nul.
Problme de Mayer. Dans ce cas le cot scrit
C(t, u) = g(t, x(t)),
i.e. f 0 = 0. Les conditions de transversalit (7.22) et (7.23) (ou (7.25)) ne
se simplifient pas a priori.
Mais dans le cas particulier important o M1 = IRn , autrement dit le point
final x(T ) est libre, la condition (7.23) devient
p(T ) = p0

g
(T, x(T )),
x

(7.28)

et alors forcment p0 6= 0 (on prend alors p0 = 1). Si de plus g ne dpend


pas du temps, on a coutume dcrire p(T ) = g(x(T )).
Condition de transversalit sur le Hamiltonien
La condition (7.21) nest valable que si le temps final pour atteindre la cible
nest pas fix. Dans ce paragraphe nous nous plaons donc dans ce cas.
La seule simplification notable de cette condition est le cas o la fonction
g ne dpend pas du temps t (ce qui est vrai par exemple pour un problme de
Lagrange), et la condition de transversalit (7.21) sur le Hamiltonien devient
alors
max H(T, x(T ), p(T ), p0 , v) = 0,
(7.29)
v

ou encore, si u est continu au temps T ,


H(T, x(T ), p(T ), p0, u(T )) = 0.
Autrement dit le Hamiltonien sannule au temps final .

(7.30)

112

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

Remarque 7.2.10. Si le systme augment est de plus autonome, i.e. si f et f 0 ne


dpendent pas de t, alors daprs la remarque 7.2.3 on a le long dune extrmale
t [0, T ]

max H(x(t), p(t), p0 , v) = 0.


v

Gnralisation des conditions de transversalit


Pour crire les conditions de transversalit associes un problme de contrle
plus gnral, il faut crire les relations adquates en termes de multiplicateurs
de Lagrange.
Par exemple considrons un problme de Lagrange avec des conditions aux
limites mlanges, i.e. on cherche une trajectoire solution de
x(t)

= f (t, x(t), u(t)),


minimisant le cot
C(T, u) =

f 0 (t, x(t), u(t))dt,

et vrifiant les conditions aux limites


(x(0), x(T )) M,
o M est une sous-varit de IRn IRn .
On peut alors montrer (voir [2]) que dans ce cas les conditions de transversalit (7.22) et (7.23) sur le vecteur adjoint scrivent
(p(0), p(T )) T(x(0),x(T ))M.
Un cas important de conditions mlanges est le cas des trajectoires priodiques, i.e. x(0) = x(T ) non fix. Dans ce cas on a
M = {(x, x) | x IRn },
et la condition de transversalit donne
p(0) = p(T ).
Autrement dit, non seulement la trajectoire est priodique, mais aussi son relvement extrmal.

7.2.3

Contraintes sur ltat

Principe du maximum avec contrainte sur ltat. Le principe du maximum tel quil vient dtre nonc prend en compte des contraintes sur le contrle,
mais ne prend pas en compte dventuelles contraintes sur ltat. Ce problme
est en effet beaucoup plus difficile. Il existe plusieurs versions du principe du
maximum avec contraintes sur ltat (voir ce sujet [21, 22, 36, 42, 55, 56]).
La thorie est cependant beaucoup plus complique, et nous ne labordons pas

7.2. PRINCIPE DU MAXIMUM DE PONTRYAGIN

113

dans cet ouvrage. Une diffrence fondamentale avec le principe du maximum


classique est que la prsence de contraintes sur ltat peut rendre le vecteur
adjoint discontinu. On rajoute alors des conditions de saut, ou de jonction.
En fait, lorsquil existe des contraintes sur ltat de la forme ci (x) 6 0,
i = 1, . . . , p, o les fonctions ci : IRn IR sont de classe C 1 , alors le vecteur
adjoint p() est solution de lquation intgrale
p(t) = p(T ) +

p Z T
X
ci
H
dt
di ,
x
x
t
i=1

o les i sont des mesures positives ou nulles dont le support est contenu dans
{t [0, T ] | ci (x(t)) = 0}.
Dans la section 7.4, on traite compltement un exemple (simplifi) de problme de contrle optimal o apparaissent des contraintes sur ltat (problme
de rentre atmosphrique dune navette). Cependant on arrive viter lusage
dun principe du maximum avec contraintes.
Mthode de pnalisation. Un moyen simple de manipuler des contraintes
sur ltat est de rsoudre un problme de contrle optimal modifi, o, comme
dans la thorie LQ, on pondre cette contrainte, de manire la forcer tre
vrifie. Le principe gnral de cette mthode est le suivant. Supposons quon
veuille imposer ltat dappartenir un sous-ensemble C IRn . Donnons-nous
une fonction g sur IRn , nulle sur C et strictement positive ailleurs (il faut tre
capable de construire une telle fonction). Alors, en ajoutant au cot C(t, u) le
RT
scalaire 0 g(x(t))dt, o > 0 est un poids que lon peut choisir assez grand,
on espre que la rsolution de ce problme de contrle optimal modifi va forcer
la trajectoire rester dans lensemble C. En effet si x(t) sort de lensemble C,
et si est grand, alors le cot correspondant est grand, et probablement la
trajectoire ne sera pas optimale.
La justification thorique de ce procd rside dans la proposition gnrale
suivante.
Proposition 7.2.2. Soit (E, d) un espace mtrique, C un sous-ensemble de
E, et f une fonction k-lipschitzienne sur E. Pour tout x E, posons g(x) =
d(x, C). Supposons que la fonction f restreinte C atteint son minimum en
x0 C, i.e.
f (x0 ) = min f (x).
xC

Alors, pour tout rel > k, on a


f (x0 ) + g(x0 ) = min f (x) + g(x),
xC

i.e. x0 est aussi un point o f + g atteint son minimum sur C. La rciproque


est vraie si de plus > k et si C est ferm.

114

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

Dmonstration. Raisonnons par labsurde, et supposons quil existe y E et


> 0 tels que f (y) + d(y, C) < f (x0 ) . Soit alors z E tel que d(y, z) 6
d(y, C) + . On a
f (z) 6 f (y) + kd(y, z) 6 f (y) + d(y, C) + < f (x0 ),
ce qui est une contradiction.
Pour la rciproque, supposons que > k et que C est ferm. Soit x0 C un
point o f + g atteint son minimum sur C, et soit > 0. Il existe z C tel
que d(x0 , z) < d(x0 , C) + /. On a
f (z) 6 f (x0 ) + kd(x0 , z)
k

< f (x0 ) + d(x0 , C) ( k)d(x0 , C) +


< f (z) ( k)d(x0 , C) +

6 f (x0 ) + kd(x0 , C) +

et donc ( k)d(x0 , C) < . Le rel > 0 tant arbitraire, on en dduit que


d(x0 , C) = 0, et donc x0 C puisque C est ferm. On conclut que pour tout
z C on a f (z) > f (x0 ).

7.3
7.3.1

Exemples et exercices
Contrle optimal dun ressort non linaire

Reprenons lexemple, leitmotiv de ce livre, du ressort non linaire vu en


introduction, modlis par le systme de contrle
(
x(t)

= y(t),
y(t)
= x(t) 2x(t)3 + u(t),

o on autorise comme contrles toutes les fonctions u(t) continues par morceaux
telles que |u(t)| 6 1. Lobjectif est damener le ressort dune position initiale
quelconque (x0 , y0 = x 0 ) sa position dquilibre (0, 0) en temps minimal t .
Application du Principe du Maximum
Le Hamiltonien du systme prcdent scrit
H(x, p, u) = px y + py (x 2x3 + u),
et si (x, p, u) est une extrmale alors on doit avoir
p x =

H
H
= py (1 + 6x2 ), et p y =
= px .
x
y

7.3. EXEMPLES ET EXERCICES

115

Notons que puisque le vecteur adjoint (px , py ) doit tre non trivial, py ne peut
sannuler sur un intervalle (sinon on aurait galement px = p y = 0). Par
ailleurs la condition la condition de maximisation nous donne
py u = max py v.
|v|61

Comme py ne sannule sur aucun intervalle, on en dduit que, presque partout,


u(t) = signe py (t).
En particulier les contrles optimaux sont successivement gaux 1, cest le
principe bang-bang (voir [52]). Plus prcisment, le vecteur adjoint au temps
final t tant dfini scalaire multiplicatif prs, on peut affirmer
(
py (t) + py (t) (1 + 6x(t)2 ) = 0,
u(t) = signe(py (t)) o py est la solution de
py (t ) = cos , py (t ) = sin ,
le paramtre [0, 2[ tant indtermin.
En inversant le temps (t 7 t), il est clair que notre problme est quivalent
au problme du temps minimal pour le systme

x(t)

= y(t)

y(t)
= x(t) + 2x(t)3 signe(py (t))
(7.31)

p y (t) = px (t)

p x (t) = py (t)(1 + 6x(t)2 )


avec

x(0) = y(0) = 0, x(t ) = x0 , y(t ) = y0 , py (0) = cos , px (0) = sin ,


o [0, 2[ est dterminer.
Rsolution numrique laide de Maple
On suppose dsormais que x0 = 0 et x 0 = 6.
Pour rsoudre le problme on procde en 5 tapes.
Premire tape. On saisit le systme diffrentiel (7.31), puis on trace dans
le plan de phase (x, y) les deux solutions respectivement associes = 1 et
= 2.5, avec t [0, 10] (voir figure 7.2).
> eq1
eq2
eq3
eq4
sys
> ic1

:=
:=
:=
:=
:=
:=

D(x)(t)=-y(t) :
D(y)(t)=x(t)+2*x(t)^3-signum(z(t)) :
D(z)(t)=w(t) :
D(w)(t)=-z(t)*(1+6*x(t)^2) :
eq1,eq2,eq3,eq4 :
[x(0)=0,y(0)=0,z(0)=cos(1),w(0)=sin(1)] :

116

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

ic2 := [x(0)=0,y(0)=0,z(0)=cos(2.5),w(0)=sin(2.5)] :
ic := ic1,ic2 :
> DEplot([sys], [x(t),y(t),z(t),w(t)], t=0..10, [ic],
stepsize=0.05, scene=[x(t),y(t)],linecolor=[blue,red]);

8
6
y(t) 4
2
2

1 x(t)

2
4
6

Figure 7.2
Deuxime tape. On pose T = 10, N = 100, h = T /N et tn = nh, n = 0 . . . N .
Pour = 1, puis pour = 2.5, on crit une boucle qui calcule le plus petit entier
k tel que
x(tk )x(tk+1 ) 6 0 et |y(tk+1 ) 6| < 0.5.
On affiche alors les valeurs de la solution aux temps tk et tk+1 .
> sol1 := dsolve({sys,x(0)=0,y(0)=0,z(0)=cos(1),w(0)=sin(1)},
{x(t),y(t),z(t),w(t)}, type=numeric) :
T:=10.0 : N:=100 : h:=T/N :
xk:=0 :
for k from 1 to N do
solk := sol1(k*h) :
xknew := subs(solk,x(t)) :
yknew := subs(solk,y(t)) :
if xk*xknew<=0 and abs(yknew-6)<0.5 then break fi:
xk := xknew :
od: sol1(k*h);
Troisime tape. On crit une procdure temps :=proc(alpha,eps) qui calcule
une approximation du temps t tel que x(t) = 0 et |y(t) 6| < 0.5. Pour cela on
localise tout dabord ce temps comme ltape prcdente, puis on effectue une
dichotomie sur t entre tk et tk+1 pour calculer le temps o x(t) sannule eps
prs (cest--dire |x(t)| < eps).

7.3. EXEMPLES ET EXERCICES

117

> temps := proc(alpha,eps)


local sol,solk,T,N,h,k,xk,xknew,yknew,t0,t1,tm,x0,x1,xm :
sol := dsolve({sys,x(0)=0,y(0)=0,z(0)=cos(alpha),
w(0)=sin(alpha)}, {x(t),y(t),z(t),w(t)}, type=numeric) :
T:=10.0 : N:=100 : h:=T/N :
xk:=0 :
for k from 1 to N do
solk:=sol(k*h) :
xknew := subs(solk,x(t)) :
yknew := subs(solk,y(t)) :
if xk*xknew<=0 and abs(yknew-6)<0.5 then break fi:
xk := xknew :
od:
t0:=(k-1)*h : t1:=k*h :
x0:=subs(sol(t0),x(t)) : x1:=subs(sol(t1),x(t)) :
# remarque : x0 et x1 sont forcement de signes contraires
while abs(x1-x0)>eps do
tm:=(t0+t1)/2 :
xm:=subs(sol(tm),x(t)) :
if xm*x0<0 then x1:=xm : t1:=tm :
else x0:=xm : t0:=tm :
fi:
od:
RETURN(t0);
end :
Quatrime tape. On crit une procdure dicho=proc(eps) qui calcule par
dichotomie sur , entre = 1 et = 2.5, une approximation du rel tel que
la solution de (7.31) associe vrifie
t | x(t ) = 0, y(t ) = 6,
le rel eps tant la prcision, i.e. |x(t )| < eps, |y(t ) 6| < eps.
Plus prcisment, on cherche le rel par dichotomie de sorte que
| y(, temps(, eps) ) 6 | < eps

o x(, ), y(, ), z(, ), w(, ) est la solution de (7.31) (notons que la procdure temps assure dj que |x(, temps(, eps))| < eps).
> dicho := proc(eps)
local a,b,m,sola,solb,solm,ta,tb,tm,ya,yb,ym :
a:=1 : b:=2.5 :
sola := dsolve({sys,x(0)=0,y(0)=0,z(0)=cos(a),w(0)=sin(a)},
{x(t),y(t),z(t),w(t)}, type=numeric) :
solb := dsolve({sys,x(0)=0,y(0)=0,z(0)=cos(b),w(0)=sin(b)},
{x(t),y(t),z(t),w(t)}, type=numeric) :

118

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

ta:=temps(a,eps) : tb:=temps(b,eps) :
ya:=subs(sola(ta),y(t)) : yb:=subs(solb(tb),y(t)) :
while abs(yb-ya)>eps do
m:=evalf((a+b)/2) :
solm := dsolve({sys,x(0)=0,y(0)=0,z(0)=cos(m),w(0)=sin(m)},
{x(t),y(t),z(t),w(t)}, type=numeric) :
tm:=temps(m,eps) :
ym := subs(solm(tm),y(t)) :
if (ym-6)*(ya-6)<0 then b:=m : yb:=ym :
else a:=m : ya:=ym :
fi:
od:
RETURN(a);
end:
Cinquime tape. On calcule une approximation de pour eps = 0.01, et on
trace dans le plan de phase la solution obtenue (voir figure 7.3).
> dicho(0.01);
2.136718750
> temps(2.136718750,0.01);
8.737500000
> DEplot([sys], [x(t),y(t),z(t),w(t)],t=0..8.7375,
[[x(0)=0,y(0)=0,z(0)=cos(2.136718750),w(0)=sin(2.136718750)]],
stepsize=0.05, scene=[x(t),y(t)],linecolor=[blue]);

6
4
y(t)
2
2

1x(t)

2
4

Figure 7.3
Le temps minimal pour amener le ressort de la position (0, 6) lquilibre
(0, 0) est donc de 8.7375 s.
Remarque 7.3.1. Considrons le contrle
u(t) = signe (y(t) 0.1)/1.33.

7.3. EXEMPLES ET EXERCICES

119

On constate numriquement que la solution du systme associe ce contrle


passe bien par le point (0, 6) au temps t = 10.92. Le temps quil faut cette
trajectoire pour aller de (0, 0) au point (0, 6) est bien suprieur au temps minimal
calcul.

7.3.2

Exercices

Exercice 7.3.1 (Problme du temps minimal pour une fuse mouvement


rectiligne). Considrons une modlisation simplifie du mouvement rectiligne
dune fuse, i.e.
x(t)

= u(t), y(t)
= u(t)2 ,
o x(t) reprsente la vitesse et y(t) est inversement proportionnelle la masse
de lengin. Le contrle u(t) est la pousse et vrifie la contrainte |u(t)| 6 1.
Rsoudre le problme du temps minimal pour atteindre le point final (x1 , y1 ),
en partant de lorigine.
Indications : Le Hamiltonien est H = px u + py u2 + p0 , o px et py
sont constantes. Quelle que soit la valeur de p0 , il faut maximiser
px u + py u2 , pour 1 6 u 6 1. Montrer que, selon les signes de px et
px
}.
py , le contrle u est constant, et prend ses valeurs dans {1, 1, 2p
y

Montrer que, pour aller en un point (x1 , x2 ) tel que


0 < y1 < x1 , il existe un seul contrle optimal, singulier et
constant ;
y1 = |x1 |, il existe un seul contrle optimal, constant, gal 1 ou
1 ;
y1 > x1 , il existe une infinit de contrles optimaux, qui sont des
successions darcs 1. Remarquer aussi que le temps minimal est
tf = y1 . En effet,
tf =

tf

dt =
0

y1

dt
dy =
dy

y1
0

dy
=
u2

y1

dy = y1 .

Noter quil ny a pas unicit de la trajectoire optimale dans cette


zone.
Exercice 7.3.2 (Problme de Zermelo). Le mouvement dune barque se dplaant vitesse constante sur une rivire o il y a un courant c(y) est modlis
par
x(t)

= v cos u(t) + c(y(t)), x(0) = 0,


y(t)
= v sin u(t), y(0) = 0,
o v est la vitesse et u(t), langle de la barque par rapport laxe (0x), est le
contrle.
1. Supposons que pour tout y on ait c(y) > v. Quelle est la loi optimale
permettant de minimiser le dport x(tf ) pour atteindre la berge oppose ?

120

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

2. Rsoudre le problme de temps minimal pour atteindre la berge oppose.


3. Rsoudre le problme de temps minimal pour atteindre un point M de la
berge oppose.
Indications :
1. On a H = px (v cos u + c(y)) + py v sin u, et px = 1, H(tf ) = 0.
On trouve


v
.
u = Arccos
c(y)
2. On a H = px (v cos u + c(y)) + py v sin u + p0 , et px = 0, H(tf ) =
0, puis u = 2 .
3. On a H = px (v cos u + c(y)) + py v sin u + p0 , et px = Cste,
H(tf ) = 0, puis
u = Arccos

px v
,
1 px c(y)

o px doit tre choisi de manire atteindre M (cf mthode de


tir), ou bien la solution avec p0 = 0 qui est la solution de 1.
Exercice 7.3.3 (Transfert optimal de fichiers informatiques). Un fichier de x0
Mo doit tre transfr par le rseau. A chaque temps t on peut choisir le taux
de transmission u(t) [0, 1] Mo/s, mais il en cote u(t)f (t), o f () est une
fonction connue. De plus au temps final on a un cot supplmentaire t2f , o
> 0. Le systme est donc
x = u, x(0) = x0 , x(tf ) = 0,
et on veut minimiser le cot
C(tf , u) =

tf

u(t)f (t)dt + t2f .

Quelle est la politique optimale ?


Indications : On pose f 0 = uf et g = t2 . Le Hamiltonien est
H = pu + p0 f u. Puisque p = 0, on a p(t) = Cste = p. Par ailleurs,
u(t) = 0 si p + p0 f (t) < 0, et u(t) = 1 si p + p0 f (t) > 0 (et u(t)
est indtermin si p + p0 f (t) = 0 sur un sous-intervalle). Au temps
final, on a
g
= 2p0 tf ,
H(tf ) = p0
t
do
u(tf )(p + f (tf )) = 2p0 tf .
Si p0 = 0, alors forcment p 6= 0, et u(t) est constant, donc ncessairement u(t) = 1, mais alors la relation ci-dessus implique p = 0, ce
qui est absurde. Donc p0 = 1. Il est clair quau temps final tf on a

7.3. EXEMPLES ET EXERCICES

121

u(tf ) = 1 (sinon u ne serait pas optimal, cause du terme t2f ), et


donc p = 2tf f (tf ). Finalement,
(
0 si f (t) > p,
u(t) =
1 si f (t) < p,
avec p = 2tf f (tf ). Notons que p et tf sont nos deux degrs de
libert (paramtres de tir) dtermins par les quations x(tf ) = 0 et
p = 2tf f (tf ).
Noter quon aurait pu mettre le cot sous la forme
C(tf , u) =

tf

(u(t)f (t) + 2t)dt.

Exercice 7.3.4 (Contrle optimal du niveau dun rservoir). On veut ajouter de


leau dans un rservoir, de faon atteindre le niveau deau h1 , en tenant compte
du fait quil faut compenser une perte deau linaire en temps. La modlisation
est

h(t)
= u(t) t, h(0) = 0,
o u(t) est le contrle. Quelle est la loi optimale permettant datteindre lobjectif
Rt
en minimisant 0 f u(t)2 dt, le temps final tf ntant pas fix ?
q
Indications : on trouve u(t) = 2 2h3 1 .
Exercice 7.3.5. Le mouvement dun missile, dcrit comme une particule de
masse m soumise la gravitation et la rsistance de lair, est donn par les
quations
x 1 = x3 , x 2 = x4 , x 3 = cos u, x 4 = sin u,

o u(t) IR est le contrle. Le but est de minimiser la quantit tf + g(x(tf )),


o g est une fonction de classe C 1 . Montrer que le contrle doit vrifier
tan u(t) =

c1 + c2 t
,
c3 + c4 t

o c1 , c2 , c3 , c4 IR.
Indications : les quations donnent tan u =
avec p1 , p2 constantes.

p3 c
p4 c ,

p 3 = p1 , p 4 = p2 ,

Exercice 7.3.6 (Un problme de Bolzano en conomie). Un individu dispose


dun revenu r(t), 0 6 t 6 T , quil peut dpenser ou placer la banque avec
un taux dintrt . Il veut raliser un programme de dpense u(t) sur [0, T ] de
manire maximiser la quantit
Z

ln u(t)eat dt.

122

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

Lvolution de son avoir x(t) est alors donne par


x(t)

= r(t) + x(t) u(t),


et de plus on impose x(T ) > 0, i.e. lavoir de lindividu est positif au temps final
T . Quelle est la loi optimale ?
Remarque 7.3.2. De manire gnrale, on appelle problme de Bolzano un problme de contrle optimal o on veut maximiser un cot du type
CT (u) =

n
X

ci xi (T ).

i=1

Indications : Pour avoir lexistence de trajectoires optimales, il faut


relaxer la contrainte x(T ) > 0 en x(T ) > 0. Le cas x(T ) = 0 est
alors vu comme un cas limite. On distingue deux cas :
si x(T ) > 0, puisquil est non fix, alors p(T ) = 0. Or p = pr,
do p(t) = 0, et H = p0 ln u eat . La condition de maximisation
sur H conduit alors une absurdit.
si x(T ) = 0, on na aucune condition sur p(T ). On peut prendre
(a+r)t
p0 = 1 (pas danormale), et on trouve u(t) = e p(0) . La condition initiale p(0) est dtermine en calculant x(t), et en imposant
x(T ) = 0 (cf mthode de tir).
Exercice 7.3.7 (Politique optimale de pche). Lvolution dune population de
poissons x(t) est modlise par
x(t)

= 0.08x(t)(1 106 x(t)) u(t), x(0) = x0 ,


o u(t), le contrle, reprsente le nombre de poissons pchs. Dterminer une
politique optimale de pche, de manire maximiser la quantit
Z T
e0.03t ln u(t) dt,
0

et avoir au temps final x(T ) > 0.


Indications : mme raisonnement qu lexercice prcdent.
Exercice 7.3.8 (Investissement optimal). Lvolution du revenu r(t) dune entreprise est modlise par le systme contrl
3
r(t)
= 2r(t) + u(t), r(0) = r0 ,
2
o u(t), le contrle, reprsente linvestissement au temps t, et vrifie la contrainte
0 6 u(t) 6 a. Soit T > 21 ln 3 un rel. Dterminer la politique optimale permettant de minimiser la quantit
Z T
r(T ) +
(u(t) r(t))dt.
0

7.3. EXEMPLES ET EXERCICES

123

Indications : Montrer quil ny a pas danormale, puis que u dpend


du signe de = 32 p 1, o p = 2p 1, et p(T ) = 1. Par intgration,
montrer que (t) sannule en tc = T 21 ln 3, et en dduire que la
politique optimale est u = 0 sur [0, tc [, puis u = a sur ]tc , T ].
Exercice 7.3.9 (Contrle optimal de population dans une ruche). Considrons
une population dabeilles constitue au temps t de w(t) travailleuses et de q(t)
reines. Soit u(t) le contrle, qui reprsente leffort des abeilles pour fournir des
reines la ruche. La modlisation est
w(t)

= au(t)w(t) bw(t), q(t)


= c(1 u(t))w(t), 0 6 u(t) 6 1,
o a, b, c sont des rels strictement positifs tels que a > b. Quel doit tre le
contrle u(t) pour maximiser au temps T le nombre de reines ?
Indications : Le Hamiltonien est H = p1 (auw bw) + p2 c(1 u)w,
o
p1 = p1 (au b) p2 c(1 u), p 2 = 0.

Les conditions de transversalit donnent p1 (T ) = 0 et p2 (T ) = 1


(donc p2 (t) = Cste = 1), et selon la condition de maximisation on
a, puisque w > 0,
(
0 si p1 (t)a p2 c < 0,
u(t) =
1 si p1 (t)a p2 c > 0.
Au temps final T on a donc u(T ) = 0 puisque p1 (T )a p2 (T )c =
c < 0. Par continuit de la fonction de commutation, le contrle
u est nul sur un intervalle [t1 , T ]. Sur cet intervalle, on a alors p 1 =
p1 b c, do
c
p1 (t) = (1 eb(tT ) ),
b
et p1 est dcroissant. En raisonnant en temps inverse, on a une commutation au temps t1 tel que p1 (t1 )a c = 0, soit

b
1
ln(1 ).
b
a
Pour t < t1 , on a p1 = p1 (ab) < 0, donc p1 est encore dcroissant.
Il ny a donc pas dautre commutation.
Conclusion : la politique optimale est u(t) = 1 sur [0, t1 ], puis u(t) =
0.
t1 = T +

Exercice 7.3.10 (Contrle optimal dune raction chimique). Une raction


chimique est modlise par
x 1 = ux1 + u2 x2 , x1 (0) = 1,
x 2 = ux1 3u2 x2 , x2 (0) = 0,

o x1 , x2 sont les concentrations des ractifs, et le contrle u(t) vrifie la contrainte


0 < u(t) 6 1. Quelle est la politique optimale permettant de maximiser la quantit finale x2 (1) du second ractif ?

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

124

Indications : Le Hamiltonien scrit H = p1 (ux1 +u2 x2 )+p2 (ux1


3u2 x2 ), et
p 1 = (p1 p2 )u, p2 = (p1 + 3p2 )u2 , p1 (1) = 0, p2 (1) = 1.
Il faut maximiser sur ]0, 1] la fonction = (p2 p1 )x1 u + (p1
3p2 )x2 u2 .
Montrer que, compte-tenu des conditions initiales, x2 (t) ne reste pas
nul pour t > 0 petit.
Montrer que le contrle singulier scrit
us =
avec
p 1 =

(p1 p2 )x1
,
2(p1 3p2 )x2

(p1 p2 )2 x1
(p1 p2 )2 x21
, p 2 =
.
2(p1 3p2 )x2
4(p1 3p2 )x22

En dduire que forcment p1 (0) 6= p2 (0), et que us (t) + pour


t > 0 petit.
En dduire que la politique optimale consiste prendre u = +1 au
dbut, puis u = us .
Exercice 7.3.11 (contrle optimal dune pidmie par vaccination). On considre une population de N individus soumis une pidmie quon veut contrler
par vaccination. Par simplicit, on suppose quun individu qui a t malade et
soign peut nouveau tomber malade.
Le modle est le suivant. On note > 0 le taux de contamination, u(t)
(contrle) le taux de vaccination, et x(t) le nombre dindividus infects. On a :
x(t)

= x(t)(N x(t)) u(t)x(t),

x(0) = x0 ,

o 0 6 x0 6 N , et o le contrle u(t) vrifie la contrainte


0 6 u(t) 6 C,
o C > 0 est une constante.
Soit T > 0 fix. On cherche minimiser le critre :
Z T
CT (u) =
(x(t) + u(t))dt + x(T ),
0

o > 0 et > 0 sont des constantes de pondration (compromis entre conomie


de vaccins dpenss et minimisation du nombre dinfects).
Dcrire la structure du contrle optimal, montrer quil est bang-bang.
Indications : En notant p(t) le vecteur adjoint, on montre que la
fonction t 7 p(t)x(t) + est strictement croissante.

7.3. EXEMPLES ET EXERCICES

125

Exercice 7.3.12 (Contrle optimal dune pidmie). Considrons une population touche par une pidmie que lon cherche enrayer par une vaccination.
On note
I(t), le nombre dindividus infectieux, qui peuvent contaminer les autres ;
S(t), le nombre dindividus non infectieux, mais contaminables ;
R(t), le nombre dindividus infects, et disparus, ou isols du reste de la
population.
Soit r > 0 le taux dinfection, > 0 le taux de disparition, et u(t) le taux de
vaccination. Le contrle u(t) vrifie la contrainte 0 6 u(t) 6 a. La modlisation
est

S(t)
= rS(t)I(t) + u(t),
= rS(t)I(t) I(t) u(t),
I(t)

R(t)
= I(t),

et le but est de dterminer une loi optimale de vaccination, de manire minimiser, en un temps T fix, le cot
C(u) = I(T ) +

u(t)2 dt,

o > 0 est donn.


Dterminer lexpression du contrle optimal en fonction du vecteur adjoint.
Que vaut le contrle optimal au voisinage du temps final si 2a < ?
Indications : Le Hamiltonien est H = pS (rSI + u) + pI (rSI I
u) + pR I + p0 u2 , et
p S = pS rI pI rI, p I = pS rS pI (rS ) pR , p R = 0.
Les conditions de transversalit sont pS (T ) = 0, pI (T ) = p0 , et
pR (T ) = 0. On en dduit que p0 6= 0, et on choisit p0 = 1/2.
En remarquant que H est une fonction concave de u atteignant son
maximum absolu en u = pS pI , on en dduit que

si pS (t) pI (t) < 0,


0
u(t) =
pS (t) pI (t) si 0 6 pS (t) pI (t) 6 a,

a
si pS (t) pI (t) > a.
Au temps final, pS (T ) pI (T ) = /2, donc si 2a < alors u(t) = a
dans un voisinage du temps final.

Exercice 7.3.13 (Contrle optimal dun procd de fermentation). Considrons le procd de fermentation
x(t)

= x(t) + u(t)(1 x(t)), x(0) = x0 ,


y(t)
= x(t) u(t)y(t), y(0) = 0,

126

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

o x(t) reprsente la concentration de sucre, y(t) la concentration dthanol,


et u(t), le contrle, est le taux dvaporation. On suppose 0 6 u(t) 6 M , et
0 < x0 < 1. Soit y1 tel que y1 > 1/M et y1 > x0 ; on veut rsoudre le problme
du temps minimal pour rejoindre y(tf ) = y1 .
1. Montrer que x0 et 6 x(t) < 1, pour tout t [0, tf ].
2. On note les variables adjointes (px , py ) et p0 .

(a) Ecrire le Hamiltonien du problme de contrle optimal et les quations des extrmales.
(b) Ecrire les conditions de transversalit sur le vecteur adjoint et sur le
temps. Montrer que py (tf ) 6= 0.

3. (a) Pour tout t [0, tf ], soit (t) = px (t)(1 x(t)) py (t)y(t). Calculer
(t) et (t). Montrer que est strictement monotone.
(b) En dduire que les contrles optimaux sont bang-bang avec au plus
une commutation, et prciser leur expression.
(c) Montrer que y(t
f ) > 0.
(d) En dduire quil existe > 0 tel que u(t) = 0, pour presque tout
t [tf , tf ].
(e) Conclure sur la structure du contrle optimal.

Corrig :
1. u > 0, donc x(t)

> x(t) et donc x(t) > x0 et > 0 ; puis


u 6 M , donc x < M (1 x) (tant que x < 1), avec 0 < x0 < 1,
do x(t) < 1 (par raisonnement a priori et par comparaison
avec la solution 1).
2. (a) Le Hamiltonien est H = px (x+u(1x))+py (xuy)+p0 ,
et p x = px (1 + u) py , p y = upy .

(b) On a px (tf ) = 0 et H(tf ) = 0. En particulier, py (tf )(x(tf )


u(tf )y(tf )) + p0 = 0, donc forcment py (tf ) 6= 0 (sinon on
aurait aussi p0 = 0 : absurde).

3. (a) On calcule = px py , puis = (px py )(1 + u) = (1 +


u) . Si sannule en un temps t, alors 0 sur [0, tf ]
tout entier daprs lquation diffrentielle ci-dessus et par
unicit de Cauchy. En particulier, px (tf ) py (tf ) = 0, et
donc py (tf ) = 0, ce qui est une contradiction. Donc ne
sannule pas, et est strictement monotone.
(b) Par le principe du maximum, on a u(t) = 0 si (t) < 0, et
u(t) = M si (t) > 0, et par le raisonnement ci-dessus
ne sannule quau plus une fois donc u est bien bang-bang
avec au plus une commutation.
(c) On veut passer de y(0) = 0 y(tf ) = y1 > 0 en temps minimal, donc forcment au temps minimal tf on a y(t
f ) > 0.

7.3. EXEMPLES ET EXERCICES

127

En effet sinon, y serait strictement dcroissante sur un intervalle [tf , tf ], et puisque y(0) = 0, daprs le thorme des valeurs intermdiaires, il existerait t1 < tf tel
que y(t1 ) = y1 , ce qui contredit le fait que tf est le temps
minimal.
(d) Montrons que py (tf ) > 0. Par labsurde, si py (tf ) < 0, alors
(tf ) > 0, et donc par continuit, (t) > 0 la fin, donc
u = M . Donc y(t
f ) = x(tf ) u(tf )y(tf ) = x(tf ) M y1 <
1 M y1 < 0 (par hypothse), ce qui contredit la question
prcdente.
Donc py (tf ) > 0, et (t) < 0 la fin, i.e., u = 0 la fin.
(e) Si u ne commute pas alors u = 0 sur tout [0, tf ], donc on
rsout x = x et y = x, ce qui conduit y(t) = x0 (1et ).
En particulier, y(t) < x0 , et donc y1 > x0 est inatteignable.
Donc u commute une fois, et passe de M 0.
Exercice 7.3.14 (Contrle optimal dun avion). Considrons le mouvement
dun avion, modlis par
x(t)

= v(t), v(t)

c
u(t)
g v(t)2 ,
mv(t)
m

o x(t) est la distance au sol parcourue, v(t) est le module de la vitesse, le


contrle u(t) est lapport dnergie, m est la masse, et , c sont des coefficients
arodynamiques. Le contrle vrifie la contrainte
0 < a 6 u(t) 6 b,
et le but est de dterminer une trajectoire menant du point initial x(0) =
x0 , v(0) = v0 , au point final x(tf ) = xf , v(tf ) = vf , et minimisant le cot
Rt
C(u) = 0 f u(t)dt, le temps final tf ntant pas fix.
Montrer quil nexiste aucune trajectoire singulire, puis expliquer comment
mettre en oeuvre une mthode numrique pour rsoudre ce problme.
Exercice 7.3.15 (Problme de Goddard simplifi). Le dcollage dune fuse
est modlis par les quations

h(t)
= v(t), h(0) = 0,
u(t)
g, v(0) = 0,
m(t)
m(t)

= bu(t), m(0) = m0 ,
v(t)

o h(t) est laltitude, v(t) le module de la vitesse, m(t) la masse, g lacclration


de la pesanteur, et b > 0 un rel. Le contrle est la pousse u(t), qui vrifie la
contrainte 0 6 u(t) 6 umax . Par ailleurs la masse de la fuse en labsence de
carburant est m1 , si bien que la masse m(t) vrifie la contrainte m1 6 m(t) 6
m0 . Enfin, on suppose que umax > gm0 .

128

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

Montrer que la politique optimale permettant de maximiser laltitude finale


est bang-bang, avec au plus une commutation, du type u = umax puis sil y a
commutation u = 0.
Indications : Montrer que les conditions de transversalit sont ph (tf ) =
p0 , pv (tf ) = 0 et H(tf ) = 0. Montrer que la fonction de commuv (t)
bpm (t) vrifie = pmh . Noter que, au dtation (t) = pm(t)
but, on doit avoir v > 0, i.e. u > mg, ce qui est possible puisque
umax > gm0 . En dduire que, au dbut, on a u > 0, et donc soit
> 0, soit 0. Montrer alors par labsurde que p0 6= 0, puis
montrer que lalternative 0 est impossible. En dduire que la
politique optimale est bang-bang, avec au plus une commutation, du
type u = umax puis sil y a commutation u = 0.
Exercice 7.3.16 (Guidage dun engin spatial). Considrons le mouvement dun
engin spatial, modlis par le systme de contrle (normalis)
r(t)
= v(t),
(t)2
c
1
+ u1 (t)

sin u2 (t),
r(t)
r(t)2
m(t)
= v(t)(t) + u1 (t) c cos u2 (t),
(t)
r(t)
m(t)
m(t)

= u1 (t),
v(t)

o r(t) reprsente la distance de lengin au centre de la Terre, v(t) la vitesse


radiale, (t) la vitesse angulaire, m(t) la masse de lengin. Les contrles sont
u1 (t), la pousse, et u2 (t), langle de gte. Le contrle u1 vrifie la contrainte
0 6 u1 6 . On considre les conditions aux limites
r(0) = 1, r(tf ) = rf ,
v(0) = 0, v(tf ) = 0,
1
(0) = 1, (tf ) = ,
rf
m(0) = 1.
Dterminer une trajectoire vrifiant ces conditions aux limites, et maximisant
la masse finale m(tf ), le temps final ntant pas fix.
Indications : raisonnement similaire lexercice 7.3.17.
Exercice 7.3.17 (Sujet dexamen). Le problme est de maximiser le dport
latral dune fuse dont le mouvement est plan et la pousse est limite. Au
temps t, on note x(t) = (x1 (t), x2 (t)) la position de la fuse, v(t) = (v1 (t), v2 (t))
sa vitesse, m(t) sa masse, (t) langle de la direction de pousse, et u(t) la variation de masse (proportionnelle la force de pousse). Pour simplifier, on nglige

7.3. EXEMPLES ET EXERCICES

129

les forces arodynamiques et on suppose que lacclration de la pesanteur g est


constante. Le systme modlisant le mouvement de la fuse est alors le suivant :
x 1 = v1
x 2 = v2
c
v 1 = u cos
m
c
v 2 = u sin g
m
m
= u
o c > 0 est constante. Les contrles sont (t) et u(t). On suppose que
IR et 0 6 u 6 A.
Les donnes initiales sont :
x1 (0) = x01 , x2 (0) = x02 , v1 (0) = v10 , v2 (0) = v20 , m(0) = m0 .
La masse de la fuse lorsquil ny a pas de carburant est m1 . Autrement dit m(t)
doit vrifier :
m1 6 m(t) 6 m0 .
On dsire mener la fuse du point initial prcdent la varit terminale
x2 (tf ) = x12 , m(tf ) = m1 ,
le temps final tf tant libre, et on veut maximiser la quantit
x1 (tf ).
1. Application du principe du maximum.
On introduit les variables adjointes px1 , px2 , pv1 , pv2 , pm , et p0 . On pose de
plus = px2 (tf ).
(a) Ecrire le Hamiltonien associ ce problme de contrle optimal, ainsi
que le systme diffrentiel extrmal.
(b) Ecrire les conditions de transversalit sur le vecteur adjoint.
(c) Montrer que le Hamiltonien est nul le long de toute extrmale.
(d) Calculer px1 (t), px2 (t), pv1 (t) et pv2 (t) en fonction de et p0 .
2. Calcul des contrles extrmaux.
(a) Montrer que lon ne peut pas avoir simultanment p0 = 0 et = 0.
En dduire lexpression des contrles extrmaux (t), montrer quils
sont constants, et prciser leur valeur 0 en fonction de et p0 .
(b) On introduit la fonction sur [0, tf ]
(t) =

c p 0 2
(p ) + 2 (tf t) pm (t).
m(t)

130

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


Montrer par labsurde que la fonction ne sannule sur aucun sousintervalle de [0, tf ]. Prciser la monotonie de . En dduire que les
contrles extrmaux u(t) commutent au plus une fois sur [0, tf ], et
passent dans ce cas de la valeur A la valeur 0.
(c) On suppose que
Atf > m0 m1 .
Montrer que u commute exactement une fois au temps
tc =

m0 m1
,
A

passe de la valeur A la valeur 0 en ce temps tc , et de plus m(tc ) =


m1 .
3. Calcul des contrles en boucle ferme.
(a) Montrer que
0 = arctan

v1 (tf )
.
v2 (tf )

(b) Montrer que


v2 (tf )2 = v2 (tc )2 2g(x12 x2 (tc )) ,
et en dduire que
tan2 0 =

v2 (tc

)2

v1 (tc )2
.
2g(x12 x2 (tc ))

(c) Montrer les trois formules suivantes :


m0
,
m1
m0
v2 (tc ) = v20 + c sin 0 ln
gtc ,
m1


m1
m0 m1
g
.
tc
ln
x2 (tc ) = x02 + v20 tc t2c c sin 0 tc ln
2
m0
A
m0
v1 (tc ) = v10 + c cos 0 ln

En dduire que lon peut exprimer 0 en fonction des donnes


x02 , v10 , v20 , m0 , m1 , A, c, g
(on ne cherchera pas une expression explicite). Montrer que lon a
ainsi exprim les contrles et u en boucle ferme. Quel est lavantage
de ce procd ?
Exercice 7.3.18 (Sujet dexamen : politique dinvestissement financier dune
banque). Considrons une banque, qui gre une certaine quantit dargent, et
doit rpondre aux besoins ventuels de ses clients en leur accordant un emprunt
dargent. Pour cela, la banque doit disposer dargent immdiatement disponible,

7.3. EXEMPLES ET EXERCICES

131

qui lui rapporte moins dintrts que largent investi dans des titres financiers.
La banque investit donc une partie du capital dans lachat de titres. Dautre
part, si la rserve dargent est trop faible, la banque doit vendre des titres et
pour cela doit payer une commission un agent de change.
Le problme est de dterminer une politique financire qui ralise un compromis entre quantit dargent disponible et argent investi, tout en maximisant
le gain.
Notations :
x(t) : quantit dargent disponible au temps t.
y(t) : quantit de titres financiers investis au temps t.
d(t) : taux instantan de demande demprunts par des clients
u(t) : taux de vente de titres (u(t) > 0 signifie que la banque vend des titres,
et u(t) < 0 signifie que la banque achte des titres).
r1 (t) : taux dintrt gagn sur largent disponible.
r2 (t) : taux dintrt gagn sur largent investi en titres (on suppose que
r2 (t) > r1 (t), pour tout temps t).
: taux de commission prlev par lagent de change lors de la vente et de
lachat de titres (on suppose que 0 < < 1).
Les quations modlisant le systme sont
x(t)

= r1 (t)x(t) d(t) + u(t) |u(t)|,


y(t)
= r2 (t)y(t) u(t),

avec x(0) = x0 et y(0) = y0 . Le contrle u(t) vrifie la contrainte


U2 6 u(t) 6 U1 ,
o U1 , U2 > 0. On fixe un temps final T , et on veut maximiser la quantit
x(T ) + y(T ).
(dans ltude qui suit, on ne tient pas compte du fait quil faut de plus imposer
x(t), y(t) > 0, cette contrainte devant tre vrifie a posteriori).
1. Le principe du maximum classique ne peut pas sappliquer cause du
terme |u(t)|. On propose donc de poser
u1 = max(u, 0) =

u + |u|
u + |u|
, u2 = min(u, 0) =
.
2
2

(a) Avec ces notations, montrer que

u1 > 0, u2 > 0,
U2 6 u 6 U1 u1 u2 = 0,

U2 6 u 1 u 2 6 U1 .

132

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


(b) Ecrire le nouveau problme P de contrle optimal, contrl par u1 et
u2 .

2. Application du principe du maximum.


On introduit les variables adjointes px , py , et p0 .
(a) Ecrire le Hamiltonien associ au problme de contrle optimal P,
ainsi que le systme diffrentiel extrmal.
(b) Ecrire les conditions de transversalit sur le vecteur adjoint.
(c) Montrer que p0 est forcment non nul. Dans la suite, on pose p0 = 1.
(d) Montrer que px (t) > 0 et py (t) > 0, pour tout t [0, T ].

3. Calcul des contrles extrmaux.


Soient u1 (t) et u2 (t) les contrles extrmaux au temps t.

(a) Montrer que :


si (1 )px (t) py (t) > 0, alors u1 (t) = U1 et u2 (t) = 0 ;
si (1 + )px (t) py (t) < 0, alors u1 (t) = 0 et u2 (t) = U2 ;
si (1 )px (t) py (t) < 0 et (1 + )px (t) py (t) > 0 alors u1 (t) =
u2 (t) = 0.
(b) Montrer que les fonctions t 7 (1)px (t)py (t) et t 7 (1+)px(t)
py (t) ne sannulent sur aucun sous-intervalle de [0, T ].
(c) En dduire que les contrles extrmaux sont bang-bang sur [0, T ].
Dcrire leur structure dans un graphe ayant px en abscisse et py en
ordonne.
(d) Que valent u1 (t) et u2 (t) sur [T , T ], pour > 0 assez petit ?

4. Exemples explicites. On pose T = 1 et = 0.01. Dcrire la politique


optimale de la banque (on donnera une approximation numrique 0.01
prs des temps de commutation) dans chacun des cas suivants :
(a) r1 (t) = 1/3 et r2 (t) = 1/2, pour tout t [0, T ].

(b) r1 (t) = 1/2 et r2 (t) = t/2, pour tout t [0, T ].

Exercice 7.3.19 (Sujet dexamen : Contrle optimal de la pollution par engrais). On considre lvolution de la quantit de pollution x(t) dans un champ
de crales o lon cherche, par ajout dengrais, optimiser le rendement tout
en minimisant la pollution produite.
Le contrle u(t) est la quantit dengrais ajout. Il vrifie la contrainte
0 6 u(t) 6 3.
On note > 0 le taux de dcroissance naturelle de la pollution. Lvolution de
la pollution x(t) est
x(t)

= u(t) x(t),
avec x(0) = x0 > 0.
Dune part, on cherche minimiser la pollution engendre par lengrais, mais
dautre part, on cherche optimiser le rendement de crales par ajout dengrais.

7.3. EXEMPLES ET EXERCICES

133

Cependant, un ajout excessif dengrais a aussi un effet nocif sur les plantes, et
donc sur le rendement. On fixe un temps final T , et on cherche minimiser le
critre
Z T

p
x(t)2 (3 u(t))(1 + u(t)) dt.
CT (u) =
0

1. On introduit les variables adjointes p et p0 .

(a) Ecrire le Hamiltonien de ce problme de contrle optimal, ainsi que


les quations des extrmales.
(b) Ecrire les conditions de transversalit sur le vecteur adjoint.
(c) Montrer que p0 est forcment non nul. Dans la suite, on pose p0 = 1.

2. (a) Montrer que x(t) > x0 et , et en particulier x(t) > 0, pour tout
t [0, T ].
(b) En dduire que p(t) < 0, pour tout t [0, T [.

3. Soit u(t) le contrle extrmal au temps t.


(a) Montrer que
u(t) =

0
1 + 2p(t)2

p(t) +1

(b) Montrer que u(t) = 1 + 2p(t)2

p(t) +1

petit.

si p(t) 6 1/ 3,

si p(t) > 1/ 3.
sur [T , T ], pour > 0 assez


x0  t x0 t
e e , pour tout t [0, T ].
4. (a) Montrer que p(t) > p(0) +


x0 2T
(b) En dduire que p(0) 6
e
1 .

5. On suppose dsormais que x0 (1 e2T ) > / 3.


(a) Montrer que u(t) = 0 sur un intervalle du type [0, t1 ].

(b) Que vaut p(t) sur [0, t1 ] ?


(c) Montrer que p(0) +
6. Montrer finalement que
(
u(t) =

x0

> 0.

0
1 + 2p(t)2

p(t) +1

si 0 6 t 6 t1 ,
si t1 < t 6 T.

Caractriser le temps de commutation t1 (sans chercher le calculer explicitement).






x0 2T
1 T
x0 x0 2T
6 p(0) 6
e
1 e
e
1 .
7. Montrer que max ,

3
8. Dcrire et discuter, critiquer, les mthodes numriques que lon peut mettre
en oeuvre pour rsoudre numriquement ce problme de contrle optimal.

134

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


Corrig :
1. (a) H = p(u x) + p0 (x2
p 2p0 x.

p
(3 u(t))(1 + u(t))), et p =

(b) p(T ) = 0.

(c) Donc p0 6= 0. Dans la suite, on pose p0 = 1.

2. (a) u(t) > 0, donc x > x, do x(t) > x0 et , et en particulier x(t) > 0, pour tout t [0, T ].

(b) On a p = p+ 2x, avec x > 0. Donc, si en un temps t1 < T ,


on a p(t1 ) > 0, alors p(t) > p(t1 ) > 0 pour t > t1 , ce qui
contredit p(T ) = 0. Et donc, p(t) < 0, pour tout t [0, T ].

3. Soit u(t) le contrle extrmal au temps t.

(a) La condition de maximisation est max f (u) avec f (u) =


06u63
p
pu (3 u)(1 + u). Etudions en fonction de p cette fonction f (u) (sachant que p < 0), pour 0 6 u 6 3. On trouve
que f atteint son maximum sur lintervalle [1, 3] lorsque
u = 1 + 2p2
(qui est bien toujours < 3). Par ailleurs,
p +1

2p
1 + 2 = 0 (avec p < 0) si et seulement si p = 1/ 3.
p +1

Donc, finalement,
u(t) =

0
1 + 2p(t)2

p(t) +1

si p(t) 6 1/ 3,

si p(t) > 1/ 3.

(b) A la fin, p(T ) = 0 > 1/ 3, donc u(t) = 1 + 2p(t)2

p(t) +1

sur

[T , T ], pour > 0 assez petit.

d
4. (a) Daprs 2.a, on a p(t)
> p(t)+2x0 et , donc et dt
(et p(t)) >
x0
t
t
2x0 e , et en intgrant, p(t) > p(0) + e x0 et ,
pour tout t [0, T ].

(b) p(T ) = 0, donc par lingalit prcdente, p(0) 6 x0 e2T 1 .

5. (a) Sous lhypothse


x0 (1
e2T ) > / 3, on obtient p(0) 6


x0
2T
1 < 1/ 3, et donc, u(t) = 0 sur un inter e
valle du type [0, t1 ].

(b) Sur [0, t1 ], u = 0, donc x = x et p = p+2x, avec x(0)


=

x0 , do en intgrant les quations, p(t) = p(0) + x0 et
x0 t
, pour tout t [0, t1 ].
e

(c) Par labsurde, si p(0) + x0 < 0, alors daprs lexpression


prcdente de p(t), on a p(t) < 0 pour tout t [0, t1 ],
puis pour tout t [0, T ], ce qui contredit p(T ) = 0. Donc,
p(0) + x0 > 0.

7.3. EXEMPLES ET EXERCICES

135

6. Tant que u = 0, sur [0, t1 ], p(t) est donn par 5.b. En particulier, p(t)

> 0, etdonc p(t) est strictement croissante. Daprs


5.a, p(0) < 1/ 3, et dautre part, p(T ) = 0. Donc il existe
bien un temps
de commutation t1< T pour lequel p(t1 ) =

p(0) + x0 et1 x0 et1 = 1/ 3 (ce qui caractrise t1 ).
Ensuite, pour t > t1 , on sait
 daprs 4.a que p(t) > g(t), o
la fonction g(t) = p(0) + x0 et x0 et est croissante (on a

en effet g(t)

> 0 car p(0) + x0 > 0), donc p(t) > 1/ 3 pour


t1 < t 6 T . Finalement,
(
0
si 0 6 t 6 t1 ,
u(t) =
si t1 < t 6 T.
1 + 2p(t)2
p(t) +1

7. Comme
t1 < T , et par croissance de la fonction g(t), on a
1/ 3 = g(t1 ) < g(T ), ce qui conduit p(0) > x0 e2T 1
1 eT et donc, daprs 4.b et 5.c,
3




x0 x0 2T
x0 2T
1
max ,
e
1 eT 6 p(0) 6
e
1 .

8. On peut implmenter la mthode de tir, o p(0) est cherch


dans lintervalle ci-dessus, ou bien mettre en oeuvre une mthode directe. On peut en discuter les avantages et inconvnients.

Exercice 7.3.20 (Sujet dexamen : Commande optimale dun racteur chimique). Un racteur chimique industriel permet de fabriquer un produit partir dun ractif par une raction irrversible du premier ordre avec dgagement
de chaleur. Pour refroidir le racteur, on fait circuler le contenu travers un
changeur thermique ; la chaleur passe ainsi dans le liquide de refroidissement
qui circule dans le circuit secondaire de lchangeur avec un dbit u(t). Aprs
diverses rductions de modle, le systme scrit sous la forme
x 1 (t) = a1 x1 (t) kx1 (t)e

a2
2 (t)

+ r1

x 2 (t) = a3 (a4 x2 (t)) + a5 kx1 (t)e

a2
2 (t)

+ a6 (u(t) x2 (t)) r2

o x1 (t) est la concentration du ractif au temps t, x2 (t) est la temprature du


racteur au temps t, et r1 et r2 sont des rels strictement positifs. Par ailleurs,
les coefficients k et ai , i = 1 . . . 6, sont des rels positifs. On suppose que le
contrle u(t) vrifie la contrainte
|u(t)| 6 M,
o M est un rel positif. Soit T > 0 un temps final fix. Dans ce qui suit, ltat
initial est fix :
x1 (0) = x01 , x2 (0) = x02 ,
et ltat final (x1 (T ), x2 (T )) est libre.

136

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

1. Dans cette premire question, on cherche minimiser la quantit de ractif


x1 (T ).
On note les variables adjointes p et p0 .
(a) Ecrire le Hamiltonien du problme de contrle optimal et les quations des extrmales.
(b) Ecrire les conditions de transversalit sur le vecteur adjoint.
(c) Montrer que p0 6= 0. Que posez-vous pour la suite ?
(d) Dmontrer que les contrles optimaux sont bang-bang, et prciser
leur expression.
(indication : dmontrer, par labsurde, que p2 (t) ne peut sannuler
identiquement sur un sous-intervalle)
(e) Montrer quil existe > 0 tel que u(t) = M , pour presque tout
t [T , T ] (autrement dit, le contrle u vaut M la fin).
(f) On suppose que a5 = 0. Dmontrer que le contrle optimal est
constant sur [0, T ], gal M .
2. Dans cette deuxime question, on cherche toujours minimiser la quantit
de ractif x1 (T ), mais en minimisant aussi la temprature x2 (t) au cours
de la raction, et lnergie fournie. Le compromis choisi et de chercher
minimiser le cot
Z T
(u(t)2 + x2 (t)2 )dt + x1 (T ),
CT (u) =
0

o > 0 est fix.


(a) Ecrire le Hamiltonien du problme de contrle optimal et les quations des extrmales.
(b) Ecrire les conditions de transversalit sur le vecteur adjoint.
(c) Montrer que p0 6= 0. Que posez-vous pour la suite ?
(d) Dtailler la condition de maximisation du principe du maximum de
Pontryagin, et donner lexpression des contrles optimaux.
(e) Montrer quil existe > 0 tel que u(t) = 21 a6 p2 (t), pour presque tout
t [T , T ].
(f) On suppose que a5 = = 0. Dmontrer que le contrle optimal est
strictement positif sur [0, T ], et prciser son expression.
Corrig :
a2

1. (a) Le Hamiltonien est H = p1 (a1 x1 kx1 e x2 + r1 ) +


a
2
p2 (a3 (a4 x2 )+a5 kx1 e x2 +a6 (ux2 )r2 ). Les quations
des extrmales sont
a2

a2

p 1 = p1 (a1 + ke x2 ) p2 a5 ke x2
a2 a2
a2 a2
p 2 = p1 kx1 2 e x2 + p2 (a3 + a6 a5 kx1 2 e x2 )
x2
x2

7.3. EXEMPLES ET EXERCICES

137

(b) Les conditions de transversalit sur le vecteur adjoint sont


alors p1 (T ) = p0 et p2 (T ) = 0, avec p0 6 0.
(c) Do il dcoule forcment que p0 6= 0. On pose alors p0 =
1.
(d) Il rsulte de la condition de maximisation que u(t) = M
signe(p2 (t)) (bang-bang), pourvu que p2 ne sannule pas
identiquement sur un sous-intervalle.
Par labsurde, si p2 sannule identiquement sur un sousintervalle, alors, daprs lquation de p2 , on obtient aussi
p1 = 0. Par unicit de Cauchy, on obtient alors p1 = p2 = 0
sur tout lintervalle [0, T ], ce qui contredit p1 (T ) = 1.
(e) A la fin p2 (T ) = 0 et p1 (T ) = 1, do, par lquation de
p2 , p 2 (T ) < 0. Donc, la fin p2 est strictement dcroissante,
et comme p2 (T ) = 0, on obtient p2 (t) > 0 sur un sousintervalle, et donc, u(t) = M la fin.
(f) Si de plus a5 = 0, alors, daprs lquation de p1 , p1 (t)
ne peut sannuler (par unicit de Cauchy), donc p1 (t) < 0
pour tout t [0, T ]. Donc p 2 < (a3 +a6 )p2 . Par consquent,
d (a3 +a6 )t
p2 (t) < 0, do il rsulte que e(a3 +a6 )t p2 (t) >
dt e
(a3 +a6 )T
e
p2 (T ) = 0, et donc, p2 (t) > 0, pour tout t
[0, T ]. Donc u = M sur tout lintervalle.
a2

2. (a) Le Hamiltonien est H = p1 (a1 x1 kx1 e x2 + r1 ) +


a
2
p2 (a3 (a4 x2 )+a5 kx1 e x2 +a6 (ux2 )r2 )+p0 (u2 +x22 ).
Les quations des extrmales sont
a2

a2

p 1 = p1 (a1 + ke x2 ) p2 a5 ke x2
a2 a2
a2 a2
p 2 = p1 kx1 2 e x2 + p2 (a3 + a6 a5 kx1 2 e x2 ) 2p0 x2
x2
x2
(b) Les conditions de transversalit sur le vecteur adjoint sont
p1 (T ) = p0 et p2 (T ) = 0, avec p0 6 0.
(c) Do il dcoule forcment que p0 6= 0. On pose alors p0 =
1.
(d) La condition de maximisation est
max

M6u6M

(a6 p2 (t)u u2 ).

La fonction maximiser est quadratique, son maximum


absolu (sans tenir compte des contraintes) et atteint pour
u = 12 a6 p2 (t), do il rsulte que

si 12 a6 p2 (t) < M,
M
1
u(t) =
a6 p2 (t) si | 12 a6 p2 (t)| < M,
2
M
si 12 a6 p2 (t) > M.

138

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


(e) A la fin, p2 (T ) = 0, donc par continuit, p2 (t) reste petit
sur un intervalle du type [T , T ], et donc | 12 a6 p2 (t)| < M
sur cet intervalle, et donc, u(t) = 12 a6 p2 (t) la fin.
(f) Si de plus a5 = = 0, alors, comme en 1.f, on montre
que p2 (t) > 0, pour tout t [0, T ]. Donc u > 0 sur tout
lintervalle, et vaut soit M soit 12 a6 p2 (t) comme ci-dessus.

Exercice 7.3.21 (Sujet dexamen : Troisime phase dun lanceur.). On considre un modle simplifi de la troisime phase dun lanceur, o la Terre est suppose plate et la gravit constante. Dans un repre cartsien, on note (x1 (t), x2 (t))
la position de la fuse au temps t (x2 (t) tant laltitude), et (v1 (t), v2 (t)) sa vitesse. Le contrle u scrit


cos (t)
u(t) = T (t)
,
sin (t)
o T (t) est la pousse et (t) est lincidence. La pousse vrifie la contrainte
0 6 T (t) 6 Tmax , o Tmax > 0 est fix. On note m(t) la masse de la fuse au
temps t. Le modle scrit, sous forme complte ou sous forme vectorielle :
Forme complte :
Forme vectorielle :

x 1 = v1

x = v
u
v =
~g
m
m
= kuk

x 2 = v2
T
cos
v 1 =
m
T
v 2 =
sin g
m
m
= T

 
0
o et g sont des constantes strictement positives, ~g =
, et avec les notag
 
 
x1
v
tions x =
, v = 1 . Les conditions initiales et finales sont :
x2
v2
x1 (0) libre
x2 (0) = x20
v1 (0) = v10
v2 (0) = v20
m(0) = m0

x1 (tf ) libre
x2 (tf ) = x2f
v1 (tf ) = v1f
v2 (tf ) = 0
m(tf ) libre
tf libre

v2

20
. On veut maximiser la masse finale ; autrement
avec v1f > v10 et x2f > x20 + 2g
dit on considre le problme de minimisation

min(m(tf )).

7.3. EXEMPLES ET EXERCICES

139

1. On note les variables adjointes p = (px1 , px2 , pv1 , pv2 , pm ) et p0 . En notations vectorielles, px = (px1 , px2 ) et pv = (pv1 , pv2 ).
(a) Ecrire le Hamiltonien du problme de contrle optimal et les quations des extrmales (dans les deux systmes de notations).
(b) Ecrire les conditions de transversalit sur le vecteur adjoint.
(c) Dans la suite, on pose = px2 . Montrer que pv2 (t) = t + pv2 (0).

(d) Montrer que H = 0 le long dune extrmale.


2. On pose (t) =

kpv (t)k
m(t)

pm (t). Montrer que

pv (t)
u(t) = T (t)
kpv (t)k

avec T (t) =

0
Tmax

si (t) < 0,
si (t) > 0.

3. Montrer que pm est une fonction croissante de t.


4. (a) Montrer que la fonction t 7 pv (t) ne sannule identiquement sur
aucun sous-intervalle.
(b) Etablir que
2
m 2 + kpx k .
= T

m
kpv k
mkpv k

(c) Montrer que px = 0 si et seulement si est constante.


(d) Montrer que la fonction ne sannule identiquement sur aucun sousintervalle.
(e) En dduire que si px = 0 alors la pousse T est constante sur [0, tf ],
gale Tmax .
(f) Montrer que, si px 6= 0, alors :
soit est strictement croissante sur [0, tf ],
soit est strictement dcroissante sur [0, tf ],
soit admet un unique minimum sur [0, tf ], et est strictement
dcroissante avant ce minimum, et strictement croissante ensuite.
(g) En dduire les stratgies optimales pour la pousse T (t).
5. Montrer que, si T a au moins une commutation, alors p0 6= 0.

6. Dans cette question, on se place dans le cas o T admet une seule commutation, et est du type Tmax puis 0. On note t1 le temps de commutation.
(a) Montrer que v2 (t) = gpv2 (t) T (t)(t), pour tout t [0, tf ].
(b) Montrer que v2 (t1 ) + gt1 = gpv2 (0).
(c) Montrer que tf =

pv2 (0)
.

(d) Montrer que > 0, pv1 > 0, pv2 (0) > 0.


(e) Expliquer comment simplifier la mise en oeuvre de la mthode de tir
dans ce cas.
7. Dans cette question, on se place dans le cas o T est du type Tmax puis 0
puis Tmax . On note t1 < t2 les deux temps de commutation.

140

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


(a) Montrer que le minimum de est atteint en t =
que 0 < t1 <

pv2 (0)

pv2 (0)
.

En dduire

< t2 < tf .
pv2 (0)
2 t1 .

(b) Montrer que t2 =


(c) Montrer que v2 (t) = gpv2 (t) T (t)(t), pour tout t [0, tf ].
(d) En dduire que < 0 et pv2 (0) < 0.
(e) Montrer que
[0, vg20 ].

pv2 (0)

<

v20
g ,

puis que v2 (t) 6 v20 gt pour tout t

(f) En utilisant le fait que v2 (tf ) = 0, montrer quen fait ce cas narrive
jamais.
Corrig :
1. (a) On pose f 0 = 0 et g = m. Le Hamiltonien est

1
hpv , ui hpv , ~gi pm kuk
m
T
T
= px1 v1 + px2 v2 + pv1 cos + pv2 ( sin g) pm T
m
m
Les quations des extrmales sont

H = hpx , vi +

Forme complte :
px1 = 0
px2 = 0

Forme vectorielle :

p v1 = px1
p v2 = px2
T
pm = 2 (pv1 cos + pv2 sin )
m

p x = 0
pv = px
1
p m = 2 hpv , ui
m

(b) Les conditions de transversalit scrivent px1 (0) = 0, px1 (tf ) =


0, et pm (tf ) = p0 (avec p0 6 0).
(c) On en dduit que px1 = 0, px2 = Cste = , pv1 = Cste,
pv2 (t) = t + pv2 (0).
(d) Le temps final tf est libre, donc H(tf ) = 0. Comme le
systme est autonome, on en dduit que H = 0 le long de
toute extrmale.
2. La condition de maximisation scrit




pv
u
kpv k

,
,
kuk
max
m
m
kpv k kuk
uIR2 , kuk6Tmax
do lon dduit que soit kuk = 0, soit

u
kuk

renthse doit tre positive i.e. = kpmv k pm


> 0 alors ncessairement kuk = Tmax . On en
ku(t)k = T (t) =

0
Tmax

pv
kpv k

et la pa-

> 0. De plus si
dduit :

si (t) < 0,
si (t) > 0,

7.3. EXEMPLES ET EXERCICES

141

do la conclusion.
3. On a pm = m12 hpv , ui = mT2 kpv k, donc pm est croissante. Plus
prcisment, pm est strictement croissante lorsque > 0, et
constante lorsque < 0.
4. (a) Par labsurde, si pv = 0 sur un intervalle I, alors en drivant, px = 0, et par unicit de Cauchy, on a pv = px = 0
sur tout [0, tf ]. On en dduit que pm = Cste = p0 .
Par ailleurs, H = 0, donc p0 T = 0 sur [0, tf ]. Comme
x2f > x20 , la pousse T ne peut pas tre identiquement
nulle sur [0, tf ], do p0 = 0. Autrement dit, (p, p0 ) = (0, 0),
ce qui est une contradiction.
(b) On drive = kpmv k pm > 0, et avec les quations des
extrmales, on calcule
hpv , px i
=
,
mkpv k
ce qui a bien un sens puisque pv ne sannule identiquement
sur aucun sous-intervalle, puis
2
2 + kpx k .
= T m

m
kpv k
mkpv k

si px = 0 alors
= 0 donc
(c) Daprs lexpression de ,
= Cste. Rciproquement si est constante, alors = 0,
donc hpv , px i = 0 ; en redrivant, on obtient px = 0, car
p x = 0 et pv = px .

(d) Si = 0 sur un sous-intervalle I, on est dans le cas singulier. Dabord, on en dduit que px = 0, et par ailleurs
pv = Cste. De la relation
0=H =

T
kpv khpv , ~gipm T = T hpv , ~gi = hpv , ~gi
m

on dduit que le vecteur (constant) pv est alors orthogonal


~g, donc est horizontal. Donc pv2 = 0 sur tout [0, tf ]. En
particulier, lincidence (t) est alors constante gale 0
sur [0, tf ]. Alors v 2 = g, donc v2 (t) = v20 gt. Comme
v2 (tf ) = 0 on en dduit que tf = vg20 . Par ailleurs, on
intgre x 2 = v2 , donc x2 (t) = x20 +v20 t 2g t2 , do x2 (tf ) =
x20 +

2
v20
2g .

Or, x2 (tf ) = x2f , ce qui contredit lhypothse

x2f > x20 +

2
v20
2g .

(e) Lorsque px = 0, on a = Cste, et daprs la question


prcdente, > 0 ou bien < 0.

142

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


Si < 0, alors puisque est constante on a T = 0 sur
tout [0, tf ] : impossible puisque la pousse ne peut pas
tre toujours nulle ! (par exemple, parce que x2f > x20 )
Ce cas narrive donc pas.
Si > 0, alors on a tout le temps T = Tmax : la pousse
est tout le temps maximale, on na aucune commutation.
Au final, si px = 0 alors la pousse T est constante sur
[0, tf ], gale Tmax .
nest pas iden(f) Si px 6= 0 alors est non constante, donc

tiquement nulle. Si ne sannule pas sur [0, tf ], alors


est strictement monotone, ce qui donne les deux premiers
sannule sur [0, tf ], alors daprs lquation de ,

cas. Si
= 0 on a
> 0 (car px 6= 0), et donc ce point
l o
est un minimum local. Ce raisonnement montre que tout
extrmum de est un minimum local. Par consquent, la
fonction ne peut sannuler ailleurs, sinon on aurait un
autre minimum local, et donc il existerait forcment un
maximum local entre ces deux points : ce qui est absurde
puisque tout extrmum de est un minimum local. On en
dduit donc que admet un unique minimum, est strictement dcroissante avant ce point, et strictement croissante
ensuite.
(g) Daprs les raisonnements prcdents, la pousse optimale
T (t) est :
soit constante gale Tmax (ce qui peut tre impossible
selon les donnes initiales et finales),
soit du type Tmax puis 0 (une seule commutation),
soit du type 0 puis Tmax (une seule commutation),
soit du type Tmax puis 0 puis Tmax (deux commutations).
5. Raisonnons par labsurde : si p0 = 0, alors pm (tf ) = 0. Par
ailleurs, pm est croissante, donc pm (t) 6 0 sur [0, tf ]. Comme pv
ne sannule identiquement sur aucun sous-intervalle, on en dduit que = kpmv k pm > 0 p.p. sur [0, tf ], et donc T = Tmax
sur [0, tf ]. Cela contredit lhypothse dexistence de commutation.
6. (a) En utilisant H = 0, px1 = 0 et px2 = , on a v2 (t) +
T (t)(t) gpv2 (t) = 0.

(b) Sur [t1 , tf ], on a T = 0, donc v2 (t) = gpv2 (t) daprs la


relation prcdente. Par ailleurs, pour tout t [t1 , tf ], on
a v 2 = g donc v2 (t) = v(t1 ) g(t t1 ) ; de mme, on a
pv2 = , donc pv2 (t) = t + pv2 (0). Ce qui conduit
v2 (t1 ) + gt1 = gpv2 (0).
(c) En t = tf , la relation de la question (a) donne gpv2 (tf ) = 0,
car v2 (tf ) = 0. Donc pv2 (tf ) = 0. Comme pv2 (tf ) = tf +

7.3. EXEMPLES ET EXERCICES


pv2 (0), on en dduit que tf =
p

143
pv2 (0)
.

(0)

(d) Comme tf = v2 , on en dduit que et pv2 (0) sont


de mme signe. Montrons en fait que pv2 (0) > 0. Par
labsurde, si pv2 (0) < 0 alors, comme pv2 est affine et
pv2 (tf ) = 0, on a pv2 (t) 6 0 pour tout t [0, tf ]. Donc
sin (t) 6 0, et v 2 6 g sur [0, tf ]. En intgrant, on obtient
x2 (t) 6 x20 + v20 t g2 t2 6 x20 +

2
v20
2g .
2
v20
2g .

Au temps tf , cela

contredit lhypothse x2f > x20 +


Et donc, > 0 et
pv2 (0) > 0.
Par ailleurs, pout tout t [0, t1 [, on a v 1 = Tmax
m cos avec
pv1
cos = p 2
,
pv1 + (t + pv2 (0))2

puis, pour tout t ]t1 , tf ], T = 0 donc v1 reste constante.


Comme v1f > v10 , cela impose pv1 > 0.
(e) A priori, en mettant en oeuvre une mthode de tir, on a 5
inconnues, savoir :
le vecteur adjoint initial (, pv1 , pv2 (0), pm (0), p0 ) (notons que p0 6= 0), dfini scalaire multiplicatif prs,
le temps final tf ,
et 5 quations :
x2 (tf ) = x2f , v1 (tf ) = v1f , v2 (tf ) = 0, pm (tf ) = p0 , H(tf ) = 0.
Au lieu de faire la normalisation habituelle p0 = 1, le
vecteur adjoint tant dfini scalaire mutliplicatif prs, on
choisit plutt, comme > 0, de le normaliser de sorte
que = 1. La variable p0 ne sert qu ajuster lquation pm (tf ) = p0 . Donc on peut oublier la variable p0
et lquation pm (tf ) = p0 .
Il reste alors 4 inconnues (pv1 , pv2 (0), pm (0)) et tf , pour 4
quations :
x2 (tf ) = x2f , v1 (tf ) = v1f , v2 (tf ) = 0, H(tf ) = 0.
Remarquons que la connaissance de pm (0) permet de dterminer la fonction de commutation (t), et donc, le temps de
commutation t1 . On peut donc remplacer la variable pm (0)
par la variable t1 . On a alors les 4 inconnues (pv1 , pv2 (0), t1 , tf ),
et les 4 quations prcdentes.
Par ailleurs, dans les calculs prcdents, et avec = 1, on
voit que le systme dquations
v2 (tf ) = 0, H(tf ) = 0

144

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


est quivalent au systme dquations
tf = pv2 (0), v2 (t1 ) + gt1 = gpv2 (0).
On a alors 4 inconnues (pv1 , pv2 (0), t1 , tf ) pour 4 quations :
x2 (tf ) = x2f , v1 (tf ) = v1f , v2 (t1 )+gt1 = gpv2 (0), tf = pv2 (0).
Le temps final tf tant directement dtermin, on se ramne finalement 3 inconnues (pv1 , pv2 (0), t1 ) pour 3 quations :
x2 (tf ) = x2f , v1 (tf ) = v1f , v2 (t1 ) + gt1 = gpv2 (0).
La mthode de tir se rduit donc la rsolution de ce
systme de 3 quations, sachant de plus que pv1 > 0 et
pv2 (0) > 0. Pour la programmation, on initialise de telles
valeurs de pv1 et pv2 (0). On rsout numriquement lquation diffrentielle pour dterminer (x2 (t), v1 (t), v2 (t)), et on
arrte lintgration au premier temps t1 vrifiant v2 (t1 ) +
gt1 = gpv2 (0) (en Matlab, on utilise un "events"). Sur lintervalle [t1 , tf ] (avec tf = pv2 (0)), on calcule explicitement
x2 (t) et v1 (t) :
g
v1 (t) = Cste = v1 (t1 ), x2 (t) = x2 (t1 )+v2 (t1 )(tt1 ) (tt1 )2
2
et on rsout le systme dquations
x2 (tf ) = x2f , v1 (tf ) = v1f ,
par une mthode de Newton.
Notons quon peut calculer des expressions explicites de
x2 (t) et v1 (t) sur tout lintervalle [0, tf ], mais numriquement il savre que cela ne fait pas gagner de temps.
lorsque (t)

7. (a) Daprs lexpression de ,


= 0, on a pv2 (t) =
0. Comme est non constante, on a 6= 0, donc pv2 (t) = 0,
p (0)
do t = v2 . Ce minimum est atteint dans lintervalle
]0, tf [ par dfinition.
(b) Sur lintervalle [t1 , t2 ], on a T (t) = 0, donc en particulier m(t) et pm (t) restent constantes :
m(t1 ) = m(t2 ) et
p2 +(pv (0)t)2

v1
2
pm (t1 ) = pm (t2 ). Or, la fonction (t) =

m(t)
pm (t) sannule par dfinition en t1 et t2 . On en dduit que
q
q
p2v1 + (pv2 (0) t1 )2 = p2v1 + (pv2 (0) t2 )2 ,

do |pv2 (0) t1 | = |pv2 (0) t2 |, puis, comme t1 6= t2 ,


p (0)
on obtient t2 = 2 v2 t1 .

7.3. EXEMPLES ET EXERCICES

145

Notons que cela illustre le fait que le graphe de sur linterp (0)
valle [t1 , t2 ] est symtrique par rapport au point t = v2
o le minimum est atteint.
(c) Mme raisonnement quen question 6.a.
(d) En prenant la relation de la question 7.c en t = tf , et en
remarquant que (tf ) > 0 et v2 (tf ) = 0, on en dduit que
p (0)
pv2 (tf ) > 0. Comme pv2 () est affine et sannule en v2 ,
cela impose que < 0 et pv2 (0) < 0.
(e) Sur lintervalle [0, t1 ], on a pv2 (t) < 0, donc v 2 (t) < g, et
donc, en intgrant, v2 (t1 ) < v20 gt1 . Par ailleurs, daprs
p (0)
la relation de la question 7.c., on a v2 (t1 ) = g( v2 t1 ).
p

(0)

On en dduit que v2 < vg20 .


Sur lintervalle [0, t1 ], on a v 2 (t) < g, et sur lintervalle
p (0)
[t1 , t2 ] on a v 2 (t) = g et plus prcisment v2 (t) = g( v2
t) (ce qui signifie en particulier que la fonction v2 () est
p (0)
strictement dcroissante sur [0, t2 ] et sannule en v2 ; par
ailleurs sur lintervalle [t2 , tf ] la fonction v2 () est soit croissante, soit dcroissante puis croissante, et sannule en tf ).
On dduit en particulier de tout cela que v2 (t) 6 v20 gt
p (0)
pour tout t [0, vg20 ]. Notons que vg20 > v2 .

(f) On dduit de la question prcdente que h(t)


6 v20 gt
pour tout t [0, vg20 ], et donc, en intgrant, h(t) 6 h0 +
v20 t g2 t2 . Le minimum de ce trinme tant h0 +

2
v20
2g ,

on

2
v20
pour tout t [0, vg20 ]. Notons
en dduit que h(t) 6 h0 + 2g
2
v20
que, par hypothse, h0 + 2g
< hf . On obtient donc une
v20
contradiction si g > tf (puisquon doit avoir h(tf ) = hf ).
p (0)
Si vg20 < tf , vu que par ailleurs vg20 > v2 , la fonction
v2 () est ngative sur lintervalle [ vg20 , tf ] et donc h() est
2
v20
dcroissante sur cet intervalle ; donc h(tf ) 6 h0 + 2g
< hf

et on a galement une contradiction.

Exercice 7.3.22 (Sujet dexamen : Contrle optimal dinsectes nuisibles par


des prdateurs.). Pour traiter une population x0 > 0 dinsectes nuisibles, on
introduit dans lcosystme une population y0 > 0 dinsectes prdateurs (non
nuisibles), se nourrissant des nuisibles.
1. Dans la premire partie du problme, on suppose que les insectes prdateurs que lon introduit sont striles, et ne peuvent donc pas se reproduire.
Le contrle consiste en lintroduction rgulire dinsectes prdateurs. Le
modle scrit
x(t)

= x(t)(a by(t)),
y(t)
= cy(t) + u(t),

x(0) = x0 ,
y(0) = y0 ,

146

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


o a > 0 est le taux de reproduction naturelle des nuisibles, b > 0 est un
taux de prdation, c > 0 est le taux de disparition naturelle des prdateurs.
Le contrle u(t) est le taux dintroduction de nouveaux prdateurs au
temps t, il vrifie la contrainte
0 6 u(t) 6 M,
o M > 0. On cherche minimiser, au bout dun temps T > 0 fix, le
nombre de nuisibles, tout en cherchant minimiser la quantit globale de
prdateurs introduits ; autrement dit on veut minimiser
Z T
u(t)dt.
x(T ) +
0

On note les variables adjointes p = (px , py ) et p0 .


(a) Dmontrer que, pour tout contrle u, x(t) > 0 et y(t) > 0 sur [0, T ].
(b) Ecrire le Hamiltonien du problme de contrle optimal et les quations des extrmales.
(c) Ecrire les conditions de transversalit.
(d) Montrer que p0 6= 0. Que posez-vous pour la suite ?
(e) Dmontrer que la fonction t 7 x(t)px (t) est constante sur [0, T ].
Exprimer cette constante en fonction de x(T ).
(f) En dduire une expression de py (t), pour t [0, T ].
(g) Dmontrer que les contrles optimaux sont bang-bang, et prciser
leur expression.
(indication : dmontrer, par labsurde, que la fonction t 7 py (t) 1
ne peut sannuler identiquement sur un sous-intervalle)
(h) Montrer quil existe > 0 tel que u(t) = 0, pour presque tout t
[T , T ] (autrement dit, le contrle u vaut 0 la fin).
(i) Montrer quen fait le contrle optimal u admet au plus une commutation sur [0, T ]. Sil y en a une, prciser en quel temps t1 [0, T ]
arrive cette commutation.
(on ne cherchera pas tablir des conditions sur les donnes initiales
pour quil existe une telle commutation)
2. Dans la deuxime partie du problme, on suppose que les prdateurs que
lon introduit se reproduisent, de manire proportionnelle au nombre de
nuisibles. Cette fois le contrle est le taux de disparition des prdateurs.
Pour simplifier lcriture on normalise les variables de faon ce que les
autres taux soient gaux 1. Le modle scrit alors
x(t)

= x(t)(1 y(t)),

y(t)
= y(t)(u(t) x(t)),

o le contrle u(t) vrifie la contrainte


0 < 6 u(t) 6 .

x(0) = x0 ,
y(0) = y0 ,

7.3. EXEMPLES ET EXERCICES

147

(a) Dmontrer que, pour tout contrle u, x(t) > 0 et y(t) > 0 sur [0, T ].
(b) On rappelle que, de manire gnrale, un point dquilibre dun systme de contrle x(t)

= f (x(t), u(t)) est un couple (xe , ue ) tel que


f (xe , ue ) = 0.
Donner tous les points dquilibre du systme dans le quadrant x >
0, y > 0 (et les reprsenter sur un graphique dans ce quadrant).
(c) On cherche rsoudre le problme de joindre en temps minimal le
point dquilibre x(tf ) = a, y(tf ) = 1.
i. Ecrire le Hamiltonien de ce problme de contrle optimal et les
quations des extrmales.
ii. Ecrire les conditions de transversalit.
iii. Montrer que le Hamiltonien est gal 0 le long de toute extrmale.
iv. Dmontrer que les contrles optimaux sont bang-bang, et prciser leur expression.
v. Montrer que, le long dun arc o le contrle u est gal (resp.
), la fonction
F (x, y) = x + y ln x ln y
(resp. la fonction F , en remplaant par dans la formule)
reste constante le long de cet arc.
vi. Montrer que la fonction F admet un minimum global strict au
point (, 1).
d
vii. Calculer dt
F (x(t), y(t)), o la trajectoire (x(), y()) est associe
un contrle u() quelconque.

viii. Montrer quil existe > 0 tel que u(t) = , pour presque tout
t [tf , tf ] (autrement dit, le contrle u vaut la fin).

ix. Supposons que les donnes initiales x0 et y0 sont telles que <
x0 < et y0 = 1. En admettant que la trajectoire optimale admet une seule commutation, donner la structure du contrle optimal et expliquer comment la construire gomtriquement dans
le plan (x, y).
x. En extrapolant la construction prcdente, donner une stratgie
de contrle pour relier nimporte quel point (x0 , y0 ) du quadrant
au point (, 1), et dcrire comment mettre en oeuvre numriquement cette stratgie.

Corrig :
1. (a) Comme u(t) > 0, on a y(t)
> cy(t), donc y(t) > y0 ect >
0. Concernant x(t), on raisonne par labsurde : sil existe
t1 [0, T ] tel que x(t1 ) = 0, alors x(t) = 0 pour tout t, par
unicit de Cauchy ; cela est absurde car x(0) = x0 > 0.

148

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


(b) H = px x(a by) + py (cy + u) + p0 u, et les quations
adjointes sont px = px (a by), p y = bpx x + cpy .
(c) px (T ) = p0 et py (T ) = 0.

(d) Si p0 = 0 alors tout le vecteur adjoint est nul, ce qui est


absurde. Dans la suite on pose p0 = 1.
(e)

d
dt x(t)px (t) = x(t)px (t)(aby(t))x(t)px (t)(aby(t)) =
donc x(t)px (t) = Cste = x(T ) car px (T ) = p0 = 1.

0,

(f) Lquation en py devient alors p y = bx(T ) + cpy . Comme


py (T ) = 0, on obtient, en intgrant,
b
py (t) = x(T )(1 ec(tT ) ).
c
(g) La condition de maximisation scrit max06u6M (py 1)u,
ce qui conduit

0
si py (t) 1 < 0,
u(t) =
M si py (t) 1 > 0,
sauf si la fonction t 7 py (t) 1 sannule identiquement sur
un sous-intervalle. Supposons, par labsurde, que ce soit
le cas : py (t) = 1 pour tout t I. Cela contredit alors le
rsultat de la question prcdente qui montre en particulier
que la fonction py est strictement dcroissante. Donc la
fonction t 7 py (t) 1 ne sannule identiquement sur aucun
sous-intervalle, et donc le contrle optimal est bang-bang,
donn par lexpression ci-dessus.
(h) A la fin, py (T ) 1 = 1, donc, par continuit, il existe
> 0 tel que py (t) 1 < 0 sur [T , T ], et donc u(t) = 0.

(i) La fonction py est strictement dcroissante (car x(T ) > 0


par la premire question), donc la fonction t 7 py (t) 1,
qui est gale 1 en t = T , sannule au plus une fois.
Donc le contrle optimal admet au plus une commutation
sur [0, T ]. Sil y a une commutation, elle doit avoir lieu en
t1 [0, T ] tel que py (t1 ) = 1, ce qui conduit


c
1
.
t1 = T + ln 1
c
bx(T )

Notons que cette commutation ne peut avoir lieu que si


t1 > 0 (on a bien, par ailleurs, t1 < T ), donc, si x(T ) >
c
1
b 1ecT . En intgrant en temps inverse les quations, on
pourrait remonter une condition implicite sur les donnes
initiales pour que cette ingalit soit vraie, donc, pour quil
y ait une commutation.
2. (a) Mme raisonnement que pour x(t) dans la question 1.a.

7.3. EXEMPLES ET EXERCICES


(b) Les points dquilibre sont xe = ue , ye = 1, pour tout
6 ue 6 . On a donc, dans le quadrant, un segment de
points dquilibres.
(c)

i. H = px x(1 y) py y(u x) + p0 , et les quations


adjointes sont px = px (1 y) py y, p y = px x +
py (u x).

ii. H(tf ) = 0.

iii. Le systme tant autonome, le Hamiltonien est constant


le long de toute extrmale, et cette constante est nulle
puisque H(tf ) = 0.
iv. La condition de maximisation scrit max06u6M (py yu),
ce qui conduit, puisque y(t) > 0,

si py (t) > 0,
u(t) =
si py (t) < 0,
sauf si la fonction t 7 py (t) sannule identiquement
sur un sous-intervalle. Supposons, par labsurde, que
ce soit le cas : py (t) = 0 pour tout t I. Daprs
lquation diffrentielle en py , cela conduit xpx = 0
sur I, donc px = 0 sur I. Donc, sur I, on a H = p0 ,
et comme H = 0 daprs la question prcdente, on en
dduit p0 = 0, do une contradiction car le vecteur adjoint (px , py , p0 ) doit tre non trivial. Donc la fonction
t 7 py (t) ne sannule identiquement sur aucun sousintervalle,et donc le contrle optimal est bang-bang,
donn par lexpression ci-dessus.
v. Le long dun arc o u = , on calcule immdiatement
d
dt F (x(t), y(t)) = 0.
Notons que, formellement, on obtient cette intgrale
y x
dy
= xy = 1y
et en intpremire en calculant dx
x
grant cette forme variables spares.
vi. On fait un dveloppement limit lordre 2 au point
(, 1) :


1 h2
F (+h, 1+k) = ln +1+
+ k 2 +o(h2 +k 2 ).
2
Cela montre que F admet un minimum local strict au
point (, 1). Pour montrer que ce minimum est global, il
suffit de remarquer que la fonction F est (strictement)
convexe, ce qui dcoule du fait que sa Hessienne

a
0
x2
0 y12

149

150

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


est symtrique dfinie positive en tout point du quadrant x > 0, y > 0.
vii. On calcule

d
dt F (x(t), y(t))

= (u(t) )(1 y(t)).

viii. A la fin, on a soit py (tf ) = 0, soit py (tf ) 6= 0.


Si py (tf ) = 0, alors, daprs lquation en py , on a
py (tf ) = px (tf )a. Forcment px (tf ) 6= 0 (sinon, on
obtient une contradiction, comme prcdemment, en
remarquant que H(tf ) = p0 = 0). Donc p y (tf ) 6= 0,
et par consquent la fonction py est de signe fixe dans
un intervalle du type [tf , tf [. Donc, sur cet intervalle, le contrle est constant, soit gal soit gal
. Il ne peut tre gal car sinon, daprs la question
prcdente, la fonction F serait constante le long de
cet arc, et comme larc doit atteindre le point (, 1),
cette constante serait gale au minimum de F , ce qui
imposerait donc que larc soit constant, gal au point
(, 1) : cela est absurde car on doit avoir une trajectoire
temps-minimale arrivant au point (, 1).
Si py (tf ) 6= 0, alors la fonction py est de signe fixe
dans un intervalle du type [tf , tf [, et donc, sur cet
intervalle, le contrle est constant, soit gal soit gal
. Le raisonnement prcdent sapplique de nouveau,
et u = .
ix. Au voisinage du point (, 1), les courbes de niveau de
la fonction F ressemblent des cercles. En fait plus
on sloigne de ce point, et plus les courbes de niveau
ressemblent des triangles rectangles, asymptotiques
aux axes des abscisses et des ordonnes. Idem pour les
courbes de niveau de la fonction F , relativement au
point (, 1).
Partons du point (x0 , y0 ), qui est situ sur le segment
reliant les deux points (, 1) et (, 1). On part avec le
contrle u = , et on reste sur une courbe de niveau de
la fonction F (donc, "centre" sur le point (, 1)). A
un moment donn, on commute sur le contrle u = ,
et on reste sur la courbe de niveau de la fonction F
(donc, "centre" sur le point (, 1)) qui passe par le
point final vis (, 1).

7.3. EXEMPLES ET EXERCICES

151

Figure 7.4 Exemple avec = 1 et = 3


x. Si on part de nimporte quel point, on dtermine graphiquement une squence darcs sur les courbes de niveau respectivement de F et F qui relie le point de
dpart au point darrive.
Exercice 7.3.23 (Projet : transfert orbital dun satellite en temps minimal.).
Un problme important en mcanique spatiale est de transfrer un engin spatial
soumis lattraction terrestre sur une ellipse Keplerienne ou en un point de cet
ellipse, pour le problme de rendez-vous avec un autre engin. Ce type de problme classique a t ractualis avec la technologie des moteurs pousse faible
et continue. Lobjectif de ce projet est dappliquer des techniques de contrle optimal pour raliser numriquement un problme de transfert en temps minimal,
avec pousse faible, sur une orbite gostationnaire.
Modlisation du problme. Le satellite est assimil un point matriel de masse
m, soumis lattraction terrestre et une force de propulsion F . En premire
approximation, le systme scrit
q =

F
q
+ ,
kqk3 m

o q dsigne le vecteur position du satellite dans un rfrentiel dont lorigine


est le centre de la terre, la constante de gravitation de la plante. Le systme
libre F = 0 correspond aux quations de Kepler. Pratiquement, la pousse est
limite, i.e. kF k 6 Fmax et on peut changer son orientation. La propulsion se

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

152

fait par jection de matire, vitesse ve et il faut rajouter au systme lquation


m
=

F
,
ve

et dans le problme pousse faible, la force de pousse est petite compare


la force dattraction. Ltat du systme est (q, q)
et le problme de transfert
orbital rsoudre est de transfrer le systme dun tat initial une orbite
gostationnaire en temps minimal. On contrle la pousse de lengin.
Ici, on considre le problme de transfert orbital masse variable dans le
plan, que lon reprsente dans des coordonnes dites quinoxiales (p, ex , ey , L),
o p est appel le paramtre, (ex , ey ) est appel vecteur excentricit et L est la
longitude. Le contrle est dcompos dans le repre radial-orthoradial, ce qui
conduit aux quations suivantes

p =
e x

e y

L =
m

s
p3 Tmax
2
uor
W
m

r 
r
p ex + cos L
p
Tmax
Tmax
+ cos L
uor +
sin L
ur

W
m

m

r
r 
Tmax
Tmax
p ey + sin L
p
+ sin L
uor
cos L
ur

W
m

m
r
W2
p
p
Tmax |u|

p
o W = 1 + ex cos L + ey sin L, o |u| = u2or + u2o , et o Tmax est la valeur
maximale du module de pousse. Le problme consiste donc, en respectant la
contrainte u2r + u2or 6 1, minimiser le temps de transfert dune orbite basse
dfinie par p(0) = 11625 km, ex (0) = 0.75, ey (0) = 0, L(0) = , une orbite gostationnaire dfinie par p(tf ) = 42165 km, ex (tf ) = 0, ey (tf ) = 0, la
longitude finale tant libre.
Questions.
1. Pour des raisons numriques videntes il est prfrable de normaliser
r la vap

riable p en posant p =
et
. En introduisant les constantes =
p(tf )
pf
r
pf
=
Tmax , montrer que les quations scrivent

q
m

= F0 (q) + ur Fr (q) + uor For (q),


= Tmax |u|,

7.3. EXEMPLES ET EXERCICES

153

avec q = (
p, ex , ey , l) et o les champs de vecteurs F0 , Fr et For sont dfinis par

p
p3

0
0


 m W

e
+
cos
L
0
x
p sin L

+ cos L
p

0
F0 =
W

, For = m

, Fr =
p cos L

W2
e
+
sin
L
y
m

p
+ sin L
p

0
m
W
p3/2
0
et crire le Hamiltonien de ce systme sous la forme

H = h, F0 + ur Fr (q) + uor For (q)i m Tmax |u|,


o (, m ) = (p, ex , ey , l , m ) est le vecteur adjoint.
2. Montrer que les contrles extrmaux vrifient u2r + u2or = 1 (pour cela, on
essaiera de montrer que m (t) est toujours ngatif). En dduire en particulier
que m(t) = m0 Tmax t, et montrer que les contrles extrmaux scrivent
h, Fr i
ur = p
,
h, Fr i2 + h, For i2

h, For i
uor = p
.
h, Fr i2 + h, For i2

3. En remarquant que lon peut oublier la variable adjoint m , crire les quations du systme extrmal donnes par le principe du maximum (faire les calculs
laide de Maple).
4 (application numrique). En utilisant une mthode de tir multiple, dterminer numriquement un vecteur adjoint initial (p(0), ex (0), ey (0), L (0))
pour lequel la trajectoire extrmale vrifie les conditions initiales et finales imposes.
Comme donnes numriques, on prendra
m0 = 1500 kg, = 0.05112 km1 .s, = 398600.47 km3 .s2 ,
et on choisira une valeur Tmax de plus en plus petite (problme faible pousse).
Par exemple on pourra prendre successivement
Tmax = 60, 24, 12, 9, 6, 3, 2, 1.4, 1, 0.7, 0.5, 0.3 N.
5. Pour Tmax = 0.3, on se propose de stabiliser le systme autour de la trajectoire construite dans la question prcdente. Pour tenir compte de la contrainte
sur le contrle, on modifie la trajectoire obtenue selon la nouvelle contrainte
|u| 6 1 , o est un petit paramtre. On choisit par exemple = 0.1.
5.1. Modifier la trajectoire prcdente en tenant compte de cette nouvelle
contrainte sur le contrle.

5.2. Linariser le systme le long de la nouvelle trajectoire obtenue, et proposer une mthode de stabilisation LQ. Effectuer les simulations numriques.

154

7.4

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

Contrle optimal et stabilisation dune navette spatiale

Dans cette section, on traite en totalit un exemple dapplication de la thorie


du contrle optimal.
On sintresse au problme de contrle optimal dune navette spatiale en
phase de rentre atmosphrique, o le contrle est langle de gte, et le cot
est le flux thermique total (facteur dusure de la navette). Lobjectif est de
dterminer une trajectoire optimale jusqu une cible donne, puis de stabiliser
le systme autour de cette trajectoire nominale, sachant que la navette est de
plus soumise des contraintes sur ltat.
Le problme de rentre atmosphrique prsent ici est simplifi. Le problme
complet est difficile et a t compltement rsolu dans une srie darticles [14,
15, 17].
On prsente dabord une modlisation du problme de rentre atmosphrique
et on pose un problme de contrle optimal. Ensuite, on rsout numriquement
ce problme de contrle optimal, et on dtermine ainsi une trajectoire nominale
(trajectoire de rfrence) pour la navette. Enfin, on utilise la thorie LQ pour
stabiliser la navette autour de la trajectoire nominale prcdemment dtermine.

7.4.1

Modlisation du problme de rentre atmosphrique

Prsentation du projet
Ce projet a t pos par le CNES, et est motiv par limportance croissante de
la thorie du contrle, et du contrle optimal, dans les techniques darocapture :
problmes de guidage, transferts dorbites aroassists,
dveloppement de lanceurs de satellites rcuprables (lenjeu financier trs
important),
problmes de rentre atmosphrique : cest lobjet du fameux projet Mars
Sample Return dvelopp par le CNES, qui consiste envoyer une navette
spatiale habite vers la plante Mars, dans le but de ramener sur Terre
des chantillons martiens.
En gros, le rle de larc atmosphrique est
de rduire suffisamment lnergie cintique, par frottement dans latmosphre ;
damener lengin spatial dune position initiale prcise une cible donne ;
de plus il faut prendre en compte certaines contraintes sur ltat : contrainte
sur le flux thermique (car il y a des gens lintrieur de la navette !),
sur lacclration normale (confort de vol), et sur la pression dynamique
(contrainte technique de structure),
enfin, on cherche de plus minimiser un critre doptimisation : le flux
thermique total de la navette.
Une trajectoire optimale tant ainsi dtermine, il faut ensuite stabiliser la
navette autour de cette trajectoire, de faon prendre en compte de possibles
perturbations.

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE155


Le contrle est la configuration arodynamique de la navette. La premire
question qui se pose est la suivante : les forces arodynamiques peuvent-elles
contribuer freiner la navette de manire adquate ? En fait si laltitude est trop
leve (suprieure 120 km), alors la densit atmosphrique est trop faible, et
il est physiquement impossible de gnrer des forces arodynamiques suffisammanent intenses. Au contraire, si laltitude est trop basse (moins de 20 km), la
densit atmosphrique est trop grande, et le seul emploi des forces arodynamiques conduirait un dpassement du seuil autoris pour le flux thermique
ou la pression dynamique. En effet la rentre atmosphrique seffectue des
vitesses trs leves. En revanche si laltitude est comprise entre 20 et 120 km,
on peut trouver un compromis. Cest ce quon appelle la phase atmosphrique.
Durant cette phase atmosphrique, la navette se comporte comme un planeur , cest--dire que les moteurs sont coups : il ny a pas de force de pousse.
Lengin est donc soumis uniquement la force de gravit et aux forces arodynamiques. Le contrle est langle de gte qui reprsente langle entre les ailes et
un plan contenant la navette. Enfin, on choisit comme critre doptimisation le
flux thermique total de la navette.
La modlisation prcise du problme a t effectue dans [17]. Nous la rappelons maintenant.
Modlisation du problme
On utilise les lois de la mcanique classique, un modle de densit atmosphrique et un modle pour les forces sexerant sur la navette, la force gravitationnelle et la force arodynamique qui se dcompose en une composante dite
de trane et une composante dite de portance. Le systme est mono-entre et
le contrle est la gte cinmatique (langle dattaque est fix).
On donne un modle gnral tenant compte de la rotation (uniforme) de
la Terre autour le laxe K = N S, vitesse angulaire de module . On note
E = (e1 , e2 , e3 ) un repre galilen dont lorigine est le centre O de la Terre,
R1 = (I, J, K) un repre dorigine O en rotation la vitesse autour de laxe
K, et I lintersection avec le mridien de Greenwich.
Soit R le rayon de la Terre et G le centre de masse de la navette. On note
R1 = (er , el , eL ) le repre associ aux coordonnes sphriques de G = (r, l, L),
r > R tant la distance OG, l la longitude et L la latitude (voir figure 7.5, (i)).
Le systme de coordonnes sphriques prsente une singularit au ple Nord
et au ple Sud. Pour crire la dynamique sous forme plus simple on introduit
le repre mobile R2 = (i, j, k) dont lorigine est G de la manire suivante. Soit
: t 7 (x(t), y(t), z(t)) la trajectoire de G mesure dans le repre R1 et ~v la
vitesse relative ~v = xI
+ yJ
+ zK.

Pour dfinir i on pose ~v = |v|i. Le vecteur j


est un vecteur unitaire du plan (i, er ) perpendiculaire i et orient par j.er > 0.
On pose k = i j. La direction de la vitesse est paramtrise dans le repre
R1 = (er , el , eL ) par deux angles (voir figure 7.5, (ii)) :
la pente , aussi appele angle de vol , qui reprsente langle entre un plan
horizontal et un plan contenant la navette,

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

156

K 6

eL
]

el
er
 >

e
6r

G
L
6

- J
el 9

  < 0
<0
~ eL

/
I

~v
(i)

(ii)
Figure 7.5

lazimut , qui est langle entre la projection de ~v dans un plan horizontal


et le vecteur eL (voir figure 7.5).
Lquation fondamentale de la mcanique, qui est une quation diffrentielle du
second ordre sur IR3 , se traduit par un systme dans les coordonnes (r, l, L, v, , ).
Par ailleurs on fait les hypothses suivantes, le long de larc atmosphrique.
Hypothse 1 : la navette est un planeur, cest--dire que la pousse de la navette est nulle.
Hypothse 2 : on suppose que la vitesse de latmosphre est la vitesse de la
Terre. La vitesse relative de la navette par rapport la Terre est donc la vitesse
relative ~v .
Les forces
Les forces agissant sur la navette sont de deux types :
force de gravit : pour simplifier on suppose que la Terre est sphrique
et que la force de gravit est oriente selon er . Dans le repre R2 elle scrit
P~ = mg(i sin + j cos ),
o g = g0 /r2 .
force arodynamique : la force fluide due latmosphre est une force
F~ qui se dcompose en
une composante dite de trane oppose la vitesse de la forme
~ = ( 1 SCD v 2 )i,
D
2

(7.32)

une force dite de portance perpendiculaire ~v donne par


~ = 1 SCL v 2 (j cos + k sin ),
L
2

(7.33)

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE157


o est langle de gte, = (r) est la densit de latmosphre, et
CD , CL sont respectivement les coefficients de trane et de portance.
Hypothse 3 : les coefficients CD et CL dpendent de langle dattaque qui
est langle entre laxe du planeur et le vecteur vitesse. Cest a priori un contrle
mais on suppose que durant larc atmosphrique il est fix.
Notre seul contrle est donc langle de gte dont leffet est double : modifier
laltitude mais aussi tourner droite ou gauche.
On choisit pour la densit atmosphrique un modle exponentiel du type
(r) = 0 er ,

(7.34)

et par ailleurs on suppose que


g(r) =

g0
.
r2

(7.35)

Le repre ntant pas absolu, la navette est galement soumise la force de

Coriolis 2m q et la force dentranement m ( q).


Finalement, larc atmosphrique est dcrit par le systme
dr
= v sin
dt
1 SCD 2
dv
= g sin
v + 2 r cos L(sin cos L cos sin L cos )
dt
2 m
d
g v
1 SCL
= cos ( + ) +
v cos + 2 cos L sin
dt
v
r
2 m
r
+ 2 cos L(cos cos L + sin sin L cos )
v
v
dL
= cos cos
dt
r
dl
v cos sin
=
dt
r cos L
1 SCL v
v
d
=
sin + cos tan L sin + 2(sin L tan cos L cos )
dt
2 m cos
r
sin
L
cos
L
sin

r
+ 2
v
cos
(7.36)
o ltat est q = (r, v, , l, L, ) et le contrle est langle de gte .
Dans la suite on pose r = rT + h, o rT est le rayon de la Terre, et h est
laltitude de la navette.
Le problme de contrle optimal
Le problme est damener lengin spatial dune varit initiale M0 une
varit finale M1 , o le temps terminal tf est libre, et les conditions aux limites
sont donnes dans la table 7.1.

158

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

altitude (h)
vitesse (v)
angle de vol ()
latitude (L)
longitude (l)
azimut ()

Conditions initiales
119.82 km
7404.95 m/s
-1.84 deg
0
libre ou fixe 116.59 deg
libre

Conditions finales
15 km
445 m/s
libre
10.99 deg
166.48 deg
libre

Table 7.1 Conditions aux limites


La navette est, au cours de la phase de rentre atmosphrique, soumise
trois contraintes :
Contrainte sur le flux thermique

(7.37)
= Cq v 3 6 max ,
Contrainte sur lacclration normale
n = n0 ()v 2 6 nmax ,

(7.38)

Contrainte sur la pression dynamique


1 2
v 6 P max .
2

(7.39)

Elles sont reprsentes sur la figure 7.6 dans le domaine de vol, en fonction
2
D
de lacclration d = 12 SC
m v et de v.
d
pression
dynamique

acceleration normale
flux thermique

Figure 7.6 Contraintes sur ltat, et stratgie de Harpold-Graves.


Le problme de contrle optimal est de minimiser le flux thermique total
Z tf

Cq v 3 dt.
C() =
(7.40)
0

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE159


Remarque 7.4.1. Concernant ce critre doptimisation, plusieurs choix sont en
fait possibles et les critres prendre en compte sont le facteur dusure li
lintgrale du flux thermique et le confort de vol li lintgrale de lacclration
normale. On choisit le premier critre, le temps final tf tant libre.
Stratgie dHarpold et Graves [35]
Si on fait lapproximation v d, le cot peut tre crit
Z vf 2
v
dv, K > 0,
C() = K
d
v0
et la stratgie optimale consiste alors maximiser lacclration d pendant toute
la dure du vol. Cest la politique dcrite dans [35], qui rduit le problme
trouver une trajectoire suivant le bord du domaine dtats autoriss, dans
lordre suivant : flux thermique maximal, puis acclration normale maximale,
puis pression dynamique maximale (voir figure 7.6).
Lavantage de cette mthode est que le long dun arc frontire le contrle
sexprime sous forme de boucle ferme, cest--dire en fonction de ltat. Cette
forme est bien adapte aux problmes en temps rel, et se prte bien aux problmes de stabilisation.
Cependant cette mthode nest pas optimale pour notre critre, et notre but
est tout dabord de chercher une trajectoire optimale, puis de la stabiliser.
Donnes numriques
Donnes gnrales :
Rayon de la Terre : rT = 6378139 m.
Vitesse de rotation de la Terre : = 7.292115853608596.105 rad.s1 .
g0
Modle de gravit : g(r) = 2 avec g0 = 3.9800047.1014 m3 .s2 .
r
Modle de densit atmosphrique :
(r) = 0 exp


1
(r rT )
hs

avec 0 = 1.225 kg.m3 et hs = 7143 m.


5
X
ai ri , avec
Modle de vitesse du son : vson (r) =
i=0

a5 = 1.880235969632294.1022, a4 = 6.074073670669046.1015,

a3 = 7.848681398343154.108, a2 = 5.070751841994340.101,
a1 = 1.637974278710277.106, a0 = 2.116366606415128.1012.

Nombre de Mach : M ach(v, r) = v/vson (r).


Donnes sur la navette :
Masse : m = 7169.602 kg.

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

160

Surface de rfrence : S = 15.05 m2 .


1 SCD
.
Coefficient de trane : k =
2 m
1
SC
L
Coefficient de portance : k =
.
2 m
Coefficients arodynamiques :
Table de CD (M ach, incidence)
0.00
2.00
2.30
2.96
3.95
4.62
10.00
20.00
30.00
50.00
Mach

0.00
0.231
0.231
0.199
0.159
0.133
0.125
0.105
0.101
0.101
0.101

10.00
0.231
0.231
0.199
0.159
0.133
0.125
0.105
0.101
0.101
0.101

15.00
0.269
0.269
0.236
0.195
0.169
0.160
0.148
0.144
0.144
0.144

20.00
0.326
0.326
0.292
0.248
0.220
0.211
0.200
0.205
0.208
0.208

25.00
0.404
0.404
0.366
0.318
0.288
0.279
0.269
0.275
0.278
0.278

30.00
0.500
0.500
0.458
0.405
0.373
0.363
0.355
0.363
0.367
0.367

35.00
0.613
0.613
0.566
0.509
0.475
0.465
0.458
0.467
0.472
0.472

40.00
0.738
0.738
0.688
0.628
0.592
0.581
0.576
0.586
0.591
0.591

45.00
0.868
0.868
0.818
0.757
0.721
0.710
0.704
0.714
0.719
0.719

50.00
0.994
0.994
0.948
0.892
0.857
0.846
0.838
0.846
0.849
0.849

55.00 deg
1.245
1.245
1.220
1.019
0.990
0.981
0.968
0.970
0.972
0.972

45.00
0.729
0.729
0.689
0.639
0.609
0.600
0.591
0.596
0.598
0.598

50.00
0.734
0.734
0.698
0.655
0.628
0.620
0.612
0.616
0.619
0.619

55.00 deg
0.756
0.756
0.723
0.649
0.626
0.618
0.609
0.612
0.613
0.613

Table de CL (M ach, incidence)


0.00
0.00
2.00
2.30
2.96
3.95
4.62
10.00
20.00
30.00
50.00
Mach

0.00
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000

10.00
0.185
0.185
0.172
0.154
0.139
0.133
0.103
0.091
0.087
0.087

15.00
0.291
0.291
0.269
0.238
0.215
0.206
0.184
0.172
0.169
0.169

20.00
0.394
0.394
0.363
0.322
0.292
0.281
0.259
0.257
0.258
0.258

25.00
0.491
0.491
0.454
0.404
0.370
0.358
0.337
0.336
0.338
0.338

30.00
0.578
0.578
0.535
0.481
0.445
0.433
0.414
0.416
0.418
0.418

35.00
0.649
0.649
0.604
0.549
0.513
0.502
0.487
0.490
0.493
0.493

40.00
0.700
0.700
0.657
0.603
0.569
0.559
0.547
0.552
0.555
0.555

Profil dincidence impos : si le nombre de Mach est plus grand que 10


alors lincidence est gale 40. Si le nombre de Mach est compris entre 2 et
10 alors lincidence est une fonction linaire du nombre de Mach, entre les
valeurs 12 et 40. Si le nombre de Mach est plus petit que 2 alors lincidence
est gale 12 (voir figure 7.7).
incidence
40

12

Mach number
2

10

Figure 7.7 Profil dincidence impos en fonction du nombre de Mach.


Contraintes sur ltat :

Contrainte sur le flux thermique : = Cq v 3 6 max , o


Cq = 1.705.104 S.I.

et max = 717300 W.m2 .

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE161


Contrainte sur lacclration normale :
s

2
CL
S
2
v CD 1 +
6 nmax = 29.34 m.s2 .
n =
2m
CD
1
Contrainte sur la pression dynamique : P = v 2 6 P max = 25000 kPa.
2
Conditions initiale et terminale : voir table 7.1.
Modle simplifi en dimension 3
Ici, on se limite un modle simplifi en (r, v, ), o le contrle est u = cos ,
et o on suppose la force de Coriolis constante, ce qui conduit au modle
dr
= v sin
dt
dv
(7.41)
= g sin kv 2
dt
g v
d
= cos ( + ) + k vu + 2
dt
v
r
o le contrle u vrifie la contrainte |u| 6 1.
Par ailleurs on prendra comme coefficients CD et CL les modles simplifis
suivants, en fonction de la vitesse v :

0.585 si v > 3000,

0.075 + 1.7.104 v si 1000 < v 6 3000,


CD (v) =

0.245 si v 6 1000,

0.55 si v > 3000,
CL (v) =
0.1732 + 1.256.104v si v 6 3000,
(voir figure 7.8).

Coefficient Cd en fonction de v

Coefficient Cl en fonction de v

0.6

0.6

0.55
0.5
0.5

0.45

0.4

0.4

0.3

0.35

0.3
0.2
0.25

0.2

1000

2000

3000

4000
v

5000

6000

7000

0.1

1000

2000

3000

4000

5000

6000

7000

Figure 7.8 Modle simplifi des coefficients arodynamiques.


Enfin, pour simplifier ltude, on ne prend en compte que la contrainte sur
le flux thermique

= Cq v 3 6 max .

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

162

7.4.2

Contrle optimal de la navette spatiale

Dans cette section on rsout numriquement le problme de contrle optimal


pour le systme simplifi en dimension 3, dabord en ne tenant pas compte de
la contrainte sur le flux thermique, puis en la prenant en compte.
Le problme sans contrainte
Le systme simplifi (7.41) en dimension 3 peut scrire comme un systme
de contrle affine mono-entre
x(t)

= X(x(t)) + u(t)Y (x(t)), |u| 6 1,

(7.42)

o x = (r, v, ), et

g v

(g sin + kv 2 )
+ cos ( + ) ,
r
v
v
r

Y = k v ,

X = v sin

o k =

1 SCD

2 m ,k

1 SCL
2 m .

Le cot est toujours le flux thermique total


C(u) =

tf

dt,

avec = Cq

p
(r)v 3 .

Proposition 7.4.1. Toute trajectoire optimale est bang-bang, i.e. est une succession darcs associs au contrle u = 1.
Dmonstration. Dans notre cas le Hamiltonien scrit
H(x, p, p0 , u) = hp, X(x) + uY (x)i + p0 (x),
et la condition de maximisation implique que u = signe(hp, Y i) si hp, Y i =
6 0.
Il suffit donc de montrer que la fonction t 7 hp(t), Y (x(t))i, appele fonction
de commutation, ne sannule sur aucun sous-intervalle, le long dune extrmale.
Supposons le contraire, i.e.
hp(t), Y (x(t))i = 0,
sur un intervalle I. En drivant deux fois par rapport t il vient
hp(t), [X, Y ](x(t))i = 0,

hp(t), [X, [X, Y ]](x(t))i + u(t)hp(t), [Y, [X, Y ]](x(t))i = 0,

o [., .] est le crochet de Lie de champs de vecteurs. Par consquent sur lintervalle I le vecteur p(t) est orthogonal aux vecteurs Y (x(t)), [X, Y ](x(t)), et
[X, [X, Y ]](x(t)) + u(t)[Y, [X, Y ]](x(t)). Or on a le rsultat suivant.

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE163


Lemme 7.4.2.
det(Y (x), [X, Y ](x), [X, [X, Y ]](x) + u[Y, [X, Y ]](x)) 6= 0.
Preuve du lemme. A laide dun logiciel de calcul formel comme Maple, on
montre que [Y, [X, Y ]] Vect(Y, [X, Y ]). Par ailleurs la quantit det(Y, [X, Y ], [X, [X, Y ]]),
calcule galement avec Maple, nest jamais nulle dans le domaine de vol.
Il sensuit que p(t) = 0 sur I. Par ailleurs le Hamiltonien est identiquement
nul le long de lextrmale, et par consquent p0 (x(t)) = 0 sur I. Comme 6= 0,
on en dduit p0 = 0. Donc le couple (p(.), p0 ) est nul sur I, ce qui est exclu par
le principe du maximum.
Le contrle optimal u(t) est donc une succession darcs u = 1. Nous admettons le rsultat suivant, qui dcoule dune tude gomtrique dtaille dans
[15, 17].
Proposition 7.4.3. La trajectoire optimale vrifiant les conditions initiale et
finale (voir table 7.1) est constitue des deux arcs conscutifs u = 1 puis
u = +1.
Remarque 7.4.2. Cette stratgie consiste faire tout dabord piquer le plus
possible la navette, puis redresser au maximum.
Simulations numriques La trajectoire optimale est donc de la forme + ,
o (resp. + ) reprsente un arc solution du systme (7.41) associ au contrle
u = 1 (resp. u = +1). Il sagit donc de dterminer numriquement le temps
de commutation tc , i.e. le temps auquel le contrle u(t) passe de la valeur 1
la valeur +1.
Pour cela, on utilise le logiciel Matlab, et on dtermine tc par dichotomie,
de la manire suivante. Etant donn un temps de commutation tc , on intgre le
systme en (r, v, ), jusqu ce que la vitesse v atteigne la valeur requise, soit
445 m/s (pour cela on utilise loption "events" de Matlab, qui permet de stopper lintgration numrique lorsquune fonction calcule le long de la solution
sannule). On effectue alors une dichotomie sur tc de manire ajuster laltitude
finale r(tf ) = rT + h(tf ) la valeur souhaite, soit 15 km.
Remarque 7.4.3. Il sagit dun cas particulier de mthode de tir, qui se ramne
ici une dichotomie, car le problme, rappelons-le, a t simplifi. Dans le cas
gnral trait dans [14, 15], la mise en oeuvre dune mthode de tir (multiple)
est ncessaire.
Le programme permettant cette dichotomie, puis le trac de la solution, sont
donns ci-dessous.
function [t,x]=simudim3
%% Fonction permettant le calcul du temps de commutation tc
%% et le trac\e de la solution, pour le cas sans contrainte
%% sur l\etat.

164

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

clc ;
global g0 hs rt Cq Omega;
Omega=7.292115853608596e-005 ; g0=39800047e7 ; hs=7143 ;
rt=6378139 ; Cq = 1.705e-4 ;
range = [0 ; inf ];
% D\ebut de la trajectoire (altitude 120 km) :
r0 = 0.64979590000E+07 ; v0 = 0.74049501953E+04 ;
gam0 = -0.32114058733E-01 ; flux0=0;
%% Dichotomie pour trouver le temps de commutation de sorte
%% que vf=445 ("events") et hf=15000.
global tc ; tc = -5 ; hf=0 ;
while hf<15000
global tc ; tc = tc+5
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events);
[t,x] = ode113(@systdim3,range,xinit,options);
hf=x(length(t),1)-rt ;
end
a=tc-10 ; b=tc ; hfm=hf ;
while abs(hfm-15000)>1
global tc ; tc=a;
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events,RelTol,1e-6);
[t,x] = ode113(@systdim3,range,xinit,options);
hfa=x(length(t),1)-rt;
global tc ; tc=b;
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events,RelTol,1e-6);
[t,x] = ode113(@systdim3,range,xinit,options);
hfb=x(length(t),1)-rt;
global tc ; tc=(a+b)/2 ;
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events,RelTol,1e-6);
[t,x] = ode113(@systdim3,range,xinit,options);
hfm=x(length(t),1)-rt ;
if (hfa-15000)*(hfm-15000)<=0
b=(a+b)/2
else a=(a+b)/2
end

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE165


end
%%%%%%%%%%%% Resultats %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% tc pour le probleme sans contrainte : tc=242
%
%
(\ie passage de -1 a +1)
%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
global tc ; tc = 242 ;
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events,RelTol,1e-6);
[t,x] = ode113(@systdim3,range,xinit,options);
disp([altitude finale : num2str(x(length(t),1)-rt) m])
disp([vitesse finale : num2str(x(length(t),2)) m/s])
disp([gamma final : num2str(x(length(t),3)/pi*180) deg])
disp([flux total : num2str(x(length(t),4)) UI])
for i=1:length(t)
gee=g(x(i,1)) ; densite(i)=rho(x(i,1)) ;
ck(i)=coef_k(x(i,2));
cd(i)=CDsimple(x(i,2)) ; cl(i)=CLsimple(x(i,2)) ;
end
flux_thermique = Cq.*sqrt(densite(:)).*(x(:,2)).^3 ;
plot(t,flux_thermique)
hold on ; plot(t,717300,red)
title(Flux thermique)
figure
subplot(311) ; plot(t,x(:,1)-rt) ; title(Altitude) ;
subplot(312) ; plot(t,x(:,2)) ; title(Vitesse) ;
subplot(313) ; plot(t,x(:,3)) ; title(Angle de vol) ;
%------------------------------------------------------------------function [value,isterminal,direction]=events(t,x)
global g0 hs Omega rt Cq;
%% Arret a vitesse 445 ou altitude 10000 (en cas daccident...) :
value = (x(2)-445) * (x(1)-rt-10000) ;
isterminal=1;
direction=0;
%------------------------------------------------------------------function dXdt = systdim3(t,X,events)
% Syst\eme simplifi\e de la navette en r,v,gamma (dim 3 + flux)

166

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

global Omega g0 hs rt Cq ;
r=X(1) ; v=X(2) ; gam=X(3) ;
dXdt=[v*sin(gam)
-g(r)*sin(gam)-coef_k(v)*rho(r)*(v)^2
cos(gam)*(-g(r)/v+v/r)+2*Omega+coef_kp(v)*rho(r)*v*u(t,r,v,gam)
Cq*sqrt(rho(r))*v^3] ;
%------------------------------------------------------------------function controle=u(t,r,v,gam)
% Contr\^ole pour le probl\eme sans contrainte : -1 puis +1.
global tc ;
if t<tc
controle = -1 ;
else controle = 1 ;
%------------------------------------------------------------------function locdensite = rho(r)
global hs rt ;
locdensite = 1.225*\mathrm{exp}(-1/hs.*(r-rt)) ;
%------------------------------------------------------------------function ge=g(r)
global g0 ;
ge = g0./r.^2 ;
%------------------------------------------------------------------function k = coef_k (v)
k = 0.5*15.05* CDsimple(v) /7169.602 ;
%------------------------------------------------------------------function kp = coef_kp (v)
kp = 0.5*15.05* CLsimple(v) /7169.602 ;
%-------------------------------------------------------------------

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE167


function cd=CDsimple(v)
if v > 3000
cd=0.585 ;
elseif v>1000
cd = 0.075+1.7e-4*v ;
else cd= 0.245 ;
end
%------------------------------------------------------------------function cl=CLsimple(v)
if v > 3000
cl=0.55 ;
else cl = 0.1732+1.256e-4*v ;
end

Les rsultats obtenus sont tracs sur les figures 7.9 et 7.10. On se rend compte
que cette stratgie ne permet pas de respecter la contrainte sur le flux thermique,
et nest donc pas adapte au problme. La prise en compte de cette contrainte
sur ltat est donc indispensable
4

15

Altitude

x 10

10
5
0

200

400

600

800
Vitesse

1000

1200

1400

1600

200

400

600

800
Angle de vol

1000

1200

1400

1600

200

400

600

800

1000

1200

1400

1600

8000
6000
4000
2000
0
0.4
0.2
0
0.2
0.4

Figure 7.9 Coordonnes dtat pour le problme sans contrainte.

168

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN


2

15

Angle de gite (rad)

Flux thermique (W/m )

x 10

1
0.8
0.6
0.4

10

0.2
0
0.2
5

0.4
0.6
0.8
1

500

1000

200

1500

400

600

800

1000

1200

1400

Figure 7.10 Flux thermique, et angle de gte (contrle).


Le problme avec contrainte sur ltat
On tient maintenant compte de la contrainte sur le flux thermique. On admet
le rsultat suivant (voir [14, 15]).
Proposition 7.4.4. La trajectoire optimale vrifiant les conditions initiale et
finale requises est constitue des quatre arcs conscutifs : u = 1, u = +1, un
arc frontire correspondant un flux thermique maximal, puis u = +1.
Comme pour le problme sans contrainte, on a trois temps de commutation
calculer numriquement :
le temps de commutation t1 de 1 +1,
le temps de commutation t2 de +1 us , o us est lexpression du contrle
permettant un flux thermique maximal,
le temps de commutation t3 de us +1.
Calcul du contrle iso-flux us Le long dun arc frontire restant flux
thermique maximal, on doit avoir = max . Par drivation, on obtient
3g0
1 v
sin 2 sin 3kv),
2 hs
r v
= A + Bu,

= (

o les coefficients A et B sont calculs laide de Maple. Le long de larc frontire


iso-flux, on doit avoir
(t) = max , (t)

= (t)
= 0,
do lon dduit
us (t) =

A(t)
.
B(t)

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE169


Lexpression obtenue pour us (t) est

us =
g0 r2 v 2 + 7kv 4 r4 sin r3 v 4 cos2 2r4 v 3 cos 18g0hs rv 2 cos2

6g02 hs + 12g02hs cos2 + 12g0 hsrv 2 12g0 hs r2 v cos + 6k 2 hs 2 r4 v 4

/(k r2 v 2 (r2 v 2 + 6g0 hs ) cos ).


Remarque 7.4.4. Les simulations venir nous permettront de vrifier a posteriori
que ce contrle us est bien admissible, i.e. vrifie la contrainte |us | 6 1, pendant
la phase iso-flux.
Simulations numriques Le temps de commutation t1 est calcul de la manire suivante. On intgre le systme (7.41) jusqu ce que = 0 (en utilisant
loption "events"). On calcule alors t1 par dichotomie de faon ajuster sa
valeur maximale max en ce temps darrt.
La boucle de dichotomie, quil faut insrer la fonction "simudim3.m" du
paragraphe prcdent, est la suivante.
global t1 ; t1 = -5 ; flux=0 ;
while flux<717300
global t1; t1 = t1+5
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events);
[t,x] = ode113(@systdim3,range,xinit,options);
flux=Cq*sqrt(rho(x(end,1)))*x(end,2)^3 ;
end
a=t1-10 ; b=t1 ; fluxm=flux ;
while abs(fluxm-717300)>50
global t1; t1=a;
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events,RelTol,1e-6);
[t,x] = ode113(@systdim3,range,xinit,options);
fluxa=Cq*sqrt(rho(x(end,1)))*x(end,2)^3 ;
global t1; t1=b;
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events,RelTol,1e-6);
[t,x] = ode113(@systdim3,range,xinit,options);
fluxb=Cq*sqrt(rho(x(end,1)))*x(end,2)^3 ;
global t1; t1=(a+b)/2 ;
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events,RelTol,1e-6);
[t,x] = ode113(@systdim3,range,xinit,options);
fluxm=Cq*sqrt(rho(x(end,1)))*x(end,2)^3 ;

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

170

if (fluxa-717300)*(fluxm-717300)<=0
b=(a+b)/2
else a=(a+b)/2
end
end
Par ailleurs, la fonction events doit tre modifie ainsi.
function [value,isterminal,direction]=events(t,x)
global g0 hs Omega rt Cq;
%% Arret a derivee(flux)=0 :
value = -1/2*x(2)/hs*sin(x(3))-3/x(2)/x(1)^2*g0*sin(x(3))-...
3*x(2)*coef_k(x(2))*rho(x(1)) ;
isterminal=1;
direction=0;
On dtermine ainsi numriquement le premier temps de commutation t1 =
153.5.
Le temps de sortie de la phase iso-flux est dtermin de manire compltement analogue. Finalement, on arrive aux rsultats reprsents sur les figures
7.11 et 7.12.
4

15

Altitude

x 10

10
5
0

200

400

600

800

1000

1200

1400

Vitesse
8000
6000
4000
2000
0

200

400

600
800
Angle de vol

1000

1200

1400

200

400

600

1000

1200

1400

0.4
0.2
0
0.2
0.4

800

Figure 7.11 Coordonnes dtat pour le problme avec contraintes.


On a donc ainsi dtermin numriquement une trajectoire optimale vrifiant
les conditions aux limites souhaites, et respectant les contraintes sur ltat.
Remarque 7.4.5. Pour le modle non simplifi en dimension 6, ce nest pas le
cas : les contraintes sur le facteur de charge et sur la pression dynamique ne
sont pas respectes, et il faut envisager une phase iso-acclration normale (voir
[14, 15]).

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE171


2

Angle de gite (rad)

Flux thermique (W/m )

x 10

1
7

0.8
0.6

0.4
5

0.2
0

0.2
3

0.4
2

0.6
0.8

1
0

200

400

600

800

1000

1200

1400

200

400

600

800

1000

1200

Figure 7.12 Flux thermique et contrle u(t).

7.4.3

Stabilisation autour de la trajectoire nominale

On se propose maintenant de stabiliser le systme simplifi autour de la trajectoire construite dans le paragraphe prcdent, de faon prendre en compte
dventuelles perturbations, dues aux erreurs de modles, aux perturbations atmosphriques, etc. Pour cela, on va utiliser la thorie linaire-quadratique traite
prcdemment dans cet ouvrage, qui permet dexprimer le contrle sous forme
de boucle ferme, au voisinage de la trajectoire nomimale, de faon la rendre
stable.
Le systme tudi est un systme de contrle non linaire dans IRn , du type
x(t)

= f (x(t), u(t)),
o f : IRn IRm IRn est C 1 , et les contrles admissibles u sont valeurs dans
IRm . Soit (xe (.), ue (.)) une trajectoire solution sur [0, T ], telle que pour
o

tout t [0, T ] on ait u(t) .


Supposons que le systme soit lgrement perturb, ou bien que lon parte
dune condition initiale proche de xe (0), et que lon veuille suivre le plus possible
la trajectoire nominale xe (). Posons alors y() = x()xe () et v() = u()ue ().
Au premier ordre, y() est solution du systme linaris
y(t)
= A(t)y(t) + B(t)v(t),
o

f
f
(xe (t), ue (t)), B(t) =
(xe (t), ue (t)).
x
u
Le but est alors de rendre lerreur y() la plus petite possible, ce qui nous amne
considrer, pour ce systme linaire, un cot quadratique du type (4.2), o
les matrices de pondration Q, W, U sont choisir en fonction des donnes du
problme. Il sagit, au premier ordre, dun problme de poursuite avec = xe .
En particulier on a h = 0 pour ce problme.
A(t) =

172

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

Cest cette stratgie que lon adopte pour stabiliser la navette vers sa trajectoire de rfrence.
Pour tenir compte de la contrainte sur le contrle, il faut dabord modifier la
trajectoire nominale xe () obtenue prcdemment de faon ce quelle respecte
la nouvelle contrainte sur le contrle |ue | 6 1 , o est un petit paramtre.
On choisit par exemple = 0.05. On trouve alors de nouveaux temps de commutation, qui sont
t1 = 143.59, t2 = 272.05, t3 = 613.37.
Dans le programme suivant, on implmente lquation de Riccati. Celle-ci
est intgre en temps inverse puisquon se donne une condition finale. Il faut
donc ensuite rtablir le cours normal du temps en symtrisant la matrice de
discrtisation obtenue. Enfin, le contrle boucl obtenu est rinject dans le
systme initial. Les simulations sont effectues en prenant des conditions initiales
proches, mais diffrentes, de celles de la table 7.1.
function stabdim3
% Stabilisation de la navette, en dimension 3, par Riccati.
clc ;
global g0 hs rt Cq Omega S m;
Omega=7.292115853608596e-005 ; g0=39800047e7 ; hs=7143 ;
rt=6378139 ; Cq = 1.705e-4 ; S=15.05 ; m=7169.602 ;
range = [0 ; inf ] ;
%% Debut de la trajectoire (alt. 120000 km) :
r0 = 0.64979590000E+07 ; v0 = 0.74049501953E+04 ;
gam0 = -0.32114058733E-01 ; flux0 = 0 ;
%% Entree dans la phase iso-flux :
r0=6.443919913623549e+06 ; v0=7.243006878621867e+03 ;
gam0=-0.00319355995196 ;
global t1 t2 t3 ;
%t1=-1 ; t2=t1 ; t3=533.75-268.9198 ;
%t1=143.5908945796609 ; t2=272.0484928785223 ; t3=613.3766178785223 ;
t1=-1 ; t2=t1 ; t3=613.376617878522-272.0484928785223 ;
xinit = [ r0 ; v0 ; gam0 ; flux0 ] ;
options = odeset(events,@events,RelTol,1e-6) ;
global te xe ;
%% trajectoire nominale
[te,xe] = ode113(@systdim3,range,xinit,options) ;
%% Definition des poids
global W invU ;

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE173


W = eye(3) ; W(1,1)=1e-6 ; W(2,2)=1e-3 ; W(3,3)=10 ;
invU = 1e-10 ;
global tricca ricca ;
minit = - [ 1e-6 ; 0 ; 0 ; 0 ; 0 ; 0 ] ;
% E(T)=-Q
rangericca = fliplr(te) ;
[tricca,ricca] = ode113(@matriccati,rangericca,minit) ;
ricca = flipud(ricca);
xinit=[ r0 ; v0 ; gam0 ] ;
[t,x] = ode113(@systboucle,te,xinit+[ 1500 ; 40 ; -0.004 ] ) ;
close all
x(end,1)-rt
plot(t,x(:,1)-xe(:,1)) ;
figure ; plot(t,x(:,2)-xe(:,2)) ;
figure ; plot(t,x(:,3)-xe(:,3)) ;
for k=1:length(te)
contfeed(k)=uboucle(t(k)) ;
conte(k)=u(t(k),xe(k,1),xe(k,2),xe(k,3));
end
figure ; plot(t,contfeed-conte)
%---------------------------------------------------------------function [value,isterminal,direction]=events(t,x)
global g0 hs Omega rt Cq;
%% Arret a vitesse 445 ou altitude 10000 :
value = (x(2)-445) * (x(1)-rt-10000) ;
%% Arret a derivee(flux)=0 :
% value = -1/2*x(2)/hs*sin(x(3))-3/x(2)/x(1)^2*g0*sin(x(3))-...
%
3*x(2)*coef_k(x(2),x(1))*rho(x(1)) ;
isterminal=1;
direction=0;
%----------------------------------------------------------------function dXdt = matriccati(t,X)
% Eq de Riccati dE/dt=W-AE-EA-EBU^{-1}BE, E(T)=-Q,
% en temps inverse
global W invU ;
E = [ X(1) X(2) X(3)
X(2) X(4) X(5)
%% matrice de Riccati (symetrique)
X(3) X(5) X(6) ];
[A,B] = matlinear(t) ;
mat = -W+A*E+E*A+E*B*invU*B*E ;
dXdt = [mat(1,1);mat(1,2);mat(1,3);mat(2,2);mat(2,3);mat(3,3) ] ;

174

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

%-----------------------------------------------------------------function [matA,matB] = matlinear(t)


global te xe g0 hs S m ;
[val,k]=min(abs(te-t)) ; r=xe(k,1) ; v=xe(k,2) ; gam=xe(k,3) ;
if ((v<=1000)|(v>3000))
derCD=0;
else
derCD=1.7e-4;
end
if (v>3000)
derCL=0;
else
derCL=1.256e-4;
end
matA=zeros(3,3);
matA(1,2) = sin(gam) ;
matA(1,3) = v*cos(gam) ;
matA(2,1) = 2*g0/r^3*sin(gam)+coef_k(v)*v^2*rho(r)/hs ;
matA(2,2) = -rho(r)/(2*m)*S*derCD*v^2-coef_k(v)*rho(r)*2*v ;
matA(2,3) = -g(r)*cos(gam) ;
matA(3,1) = cos(gam)*(2*g0/(r^3*v)-v/r^2)-...
coef_kp(v)*rho(r)/hs*v*u(t,r,v,gam) ;
matA(3,2) = cos(gam)*(g(r)/v^2+1/r)+rho(r)*u(t,r,v,gam)*...
S/(2*m)*(derCL*v+CLsimple(v)) ;
matA(3,3) = -sin(gam)*(-g(r)/v+v/r) ;
matB = [ 0 ; 0 ; coef_kp(v)*rho(r)*v ] ;
%--------------------------------------------------------------function dXdt = systboucle(t,X)
% systeme tronque de la navette en r,v,gamma (dim 3 + flux)
global Omega g0 hs rt Cq ;
r=X(1) ; v=X(2) ; gam=X(3) ;
dXdt= [ v*sin(gam)
-g(r)*sin(gam)-coef_k(v)*rho(r)*(v)^2
cos(gam)*(-g(r)/v+v/r)+2*Omega+...

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE175


coef_kp(v)*rho(r)*v*uboucle(t) ] ;
%------------------------------------------------------------function contfeedback = uboucle(t)
global te xe invU S m ricca ;
[A,B] = matlinear(t) ;
[val,k] = min(abs(te-t)) ; r=xe(k,1) ; v=xe(k,2) ; gam=xe(k,3) ;
contfeedback = u(te(k),r,v,gam)+invU*coef_kp(v)*rho(r)*v*...
(ricca(k,3)*r+ricca(k,5)*v+ricca(k,6)*gam) ;

Quelques commentaires sur le programme. On effectue la procdure de


stabilisation de Riccati partir de lentre dans la phase iso-flux seulement, soit
environ une altitude de 65 km, une vitesse de 7200 m/s, et un angle de vol de
0.003 rad. En effet la phase iso-flux (flux thermique maximal) est la phase la
plus dangereuse de la rentre atmosphrique. Notons dailleurs que, rcemment,
la navette Columbia a explos une altitude denviron 62 km, en pleine phase
iso-flux (ce drame a eu lieu en mars 2003). Cest la phase o lengin spatial
schauffe le plus : les frottements avec latmosphre sont trs intenses. Cette
phase iso-flux est aussi assez longue, environ 350 secondes (la dure totale de la
phase de rentre atmosphrique est denviron 1300 secondes).
Tout ceci justifie lintrt port la procdure de stabilisation de la navette,
partir du point dentre dans la phase iso-flux. Dans les simulations suivantes
ce point dentre est donc notre condition initiale.
Notons xe () = (re (), ve (), e ()) la trajectoire nominale et ue () son contrle
associ. Il vrifie |ue | 6 0.95. Notons par ailleurs x = (r, v, ) la trajectoire du
systme (7.41), partant dun point x(0) et associe au contrle u = ue + v, le
contrle v tant le correctif calcul par la procdure de Riccati. Il doit vrifier
la contrainte |v| 6 0.05. Aussi, dans le programme ci-dessus, on a forc v
respecter cette contrainte.
Par ailleurs le choix des poids est trs important. On obtient des poids adapts par ttonnements, et en tenant compte de lordre respectif des variables du
systme. Ici on a pris
6

10
0
0
10
0 0
102 0 , Q = 0
0 0 et U = 1010 .
W = 0
0
0
10
0
0 0
Bien entendu dautres choix sont possibles. Ici notre choix de Q force laltitude
finale tre proche de laltitude souhaite. En revanche on laisse plus de libert
la vitesse finale et langle de vol final.
La trajectoire x() part dun point x(0) diffrent de xe (0). On a pris les
donnes numriques suivantes :
cart sur laltitude initiale : 1500 m,

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

176

cart sur la vitesse initiale : 40 m/s,


cart sur langle de vol initial : -0.004 rad, soit -0.2292 deg.
Les rsultats numriques obtenus sont assez satisfaisants : laltitude finale
obtenue est 15359 km, et la vitesse finale est 458 m/s. Lcart par rapport aux
donnes souhaites (altitude 15 km, vitesse 440 m/s) est donc assez faible.
Notons que lcart sur langle de vol initial que nous avons pris ici est assez
important. Cette pente initiale est en effet un paramtre trs sensible dans les
quations : si lentre de la phase atmosphrique langle de vol est trop faible,
alors la navette va rebondir sur latmosphre (phnomne bien connu, dit de
rebond ), et si au contraire il est trop important il sera impossible de redresser
lengin, qui va scraser au sol.
Les figures suivantes sont le rsultat des simulations numriques. La figure
7.13 reprsente lcart entre ltat nominal et ltat rel, et la figure 7.14 lcart
entre le contrle nominal et le contrle rel (contrle boucl, ou contrle feedback ). La figure 7.15 reprsente ltat, et la figure 7.16 le flux thermique. On
constate que la contrainte sur le flux thermique est peu prs respecte. On
peut conclure que la procdure de stabilisation ainsi ralise est satisfaisante.
ecart daltitude
2000
1000
0
1000
2000

100

200

300

400
500
ecart de vitesse

600

700

800

900

100

200

300

400
500
ecart sur langle de vol

600

700

800

900

100

200

300

600

700

800

900

100
50
0
50
100
0.02
0.01
0
0.01

400

500

Figure 7.13 Ecart entre ltat nominal et ltat rel.

7.4. CONTRLE OPTIMAL ET STABILISATION DUNE NAVETTE SPATIALE177

ecart sur le controle


0.08
0.06
0.04
0.02
0
0.02
0.04
0.06
100

200

300

400

500

600

700

800

900

600

700

800

900

controle feedback
1
0.8
0.6
0.4
0.2
0
0.2
100

200

300

400

500

Figure 7.14 Contrle boucl, et correction par rapport au contrle nominal.

Altitude (m)

x 10

6
4
2
0

100

200

300

400
500
Vitesse (m/s)

600

700

800

900

100

200

300

400
500
Angle de vol (rad)

600

700

800

900

100

200

300

600

700

800

900

8000
6000
4000
2000
0
0.5

0.5

400

500

Figure 7.15 Etat avec le contrle feedback.

178

CHAPITRE 7. PRINCIPE DU MAXIMUM DE PONTRYAGIN

Flux thermique (W/m2)

x 10

100

200

300

400

500

600

700

800

900

Figure 7.16 Flux thermique avec le contrle feedback.

Chapitre 8

Thorie dHamilton-Jacobi
8.1

Introduction

La thorie dHamilton-Jacobi est une branche du calcul des variations et de la


mcanique analytique, dans laquelle trouver des extrmales se rduit rsoudre
une quation aux drives partielles du premier ordre : lquation dHamiltonJacobi. Les fondements de la thorie ont t pos par Hamilton en 1820, concernant des problmes doptique ondulatoire et gomtrique. En 1834, il tend ses
ides des problmes de dynamique. Jacobi en 1837 applique la mthode des
problmes gnraux de calcul variationnel.
Le point de dpart remonte cependant au 17 sicle, avec Fermat et Huygens
en optique gomtrique. Le principe de Fermat stipule que la lumire se propage
dun point un autre dans un milieu inhomogne en temps minimal. Soit x0 un
point de dpart, et S(x) le temps minimal que met la lumire pour aller de x0 x.
Cette fonction temps minimal est appele fonction Eikonal, ou longueur optique
du chemin. Soit v(x) le module de la vitesse de la lumire en x. Supposons
que la lumire parcourt la distance dx pendant la dure dt. Selon le principe
dHuygens, la lumire voyage le long de la normale la surface de niveau de S.
On obtient donc, au premier ordre,


S(x)
S x+
v(x)dt = S(x) + dt,
kS(x)k
do lquation
kS(x)k2 =

1
,
v(x)2

qui est lquation dHamilton-Jacobi de loptique gomtrique, ou quation eikonale.


En mcanique analytique, on remplace la fonction Eikonal par laction
Z
L(s, x(s), x(s))ds,

S(t, x) =

179

180

CHAPITRE 8. THORIE DHAMILTON-JACOBI

o est un chemin joignant (t0 , x0 ) (t, x), et L est le Lagrangien du systme.


Le principe de moindre action conduit aux quations dEuler-Lagrange
L
d L
=
.
dt x
x
Si la transformation de Legendre T (x, x)
= (x, p), o p = L
x , est un diffomorphisme, on dfinit le Hamiltonien du systme H(t, x, p) = px L(t, x, x).

Alors, le long dune extrmale (i.e. une courbe vrifiant les quations dEulerRt

et par drivation par


Lagrange), on a S(t, x(t), x(t))

= t0 L(s, x(s), x(s))ds,


S
+
x

=
L,
do
rapport t, on obtient S
t
x


S
S
= 0,
+ H t, x,
t
x
qui est lquation dHamilton-Jacobi.

8.2

Solutions de viscosit

De manire gnrale, on tudie le problme de Dirichlet pour lquation


dHamilton-Jacobi
H(x, S(x), S(x)) = 0 dans ,
S = g sur ,

(8.1)

o est un ouvert de IRn , et H est une fonction sur IRn IR IRn .

Remarque 8.2.1. Le cas dune quation dHamilton-Jacobi dvolution


S
S
+ H(x,
) = 0 dans IR IRn ,
t
x
S(0, x) = g(x) sur IRn ,

(8.2)

est un cas particulier de (8.1). En effet il suffit de poser x


= (t, x), p = (p0 , p),
x, z, p) = p0 + H(x, p).
et H(
Le but de cette section est de donner un cadre mathmatique rigoureux
la dfinition dune solution du problme (8.1). On va montrer que la notion
classique de solution est insuffisante : la mthode des caractristiques met en
vidence lapparition de singularits. On introduit alors la notion de solution de
viscosit.

8.2.1

Mthode des caractristiques

On introduit des chemins x(s) dans , partant de , appels caractristiques, le long desquels on rsout lquation et on obtient les valeurs de S.
Posons z(s) = S(x(s)) et p(s) = S(x(s)), et cherchons une quation diffrentielle ordinaire dcrivant lvolution de z et p. On a
z(s)

= S(x(s)).x(s)

= p(s).x(s),

p(s)

= d2 S(x(s)).x(s).

8.2. SOLUTIONS DE VISCOSIT

181

Or, en diffrentiant lquation dHamilton-Jacobi H(x, S(x), S(x)) = 0 par


rapport x, on obtient
H
H 2
H
+
S +
d S = 0.
x
z
p
Choisissons alors le chemin x(s) tel que x =
H
p = H
x z .p.
Finalement, les quations

H
p .

Il vient alors z = p. H
p , et

H
(x(s), z(s), p(s)), x(0) = x ,
p
H
z(s)

= p(s).
(x(s), z(s), p(s)), z(0) = S(
x) = g(
x),
p
H
H
p(s)

=
(x(s), z(s), p(s))
(x(s), z(s), p(s)).p(s), p(0) = S(
x),
x
z

x(s)

sont appeles quations caractristiques.


Remarque 8.2.2. Dans le cas dvolution (8.2), on obtient en particulier
donc t = s, et p 0 = 0. On a galement
x =

dt
ds

= 1,

H
H
, p =
,
p
x

qui sont les quations de Hamilton. Enfin, on retrouve aussi


z = p.

H
+ p0 = px + p0 ,
p

= 0, do z = pxH
avec p0 +H = H

= L, et donc z est laction. Autrement dit,


les caractristiques sont les extrmales du problme de minimisation de laction
(en tout cas si la transformation de Legrendre est un diffomorphisme).
Remarque 8.2.3. Discutons plus en dtail la condition initiale p(0) = S(
x),
dans le cas o est suppos tre une sous-varit de IRn . De la condition
S| = g| , on dduit facilement que
Tx S(x) = Tx g(x),
pour tout x , o Tx dsigne lespace tangent la sous-varit au
point x, et Tx est la projection de IRn sur Tx . Donc, cela signifie que p(0)
doit vrifier la condition, au point x
,
Tx p(0) = Tx g(
x),
ce qui dtermine n 1 composantes de p(0). La n-me composante de p(0) est
dtermine en imposant de plus
H(p(0), g(
x), x) = 0.

182

CHAPITRE 8. THORIE DHAMILTON-JACOBI

Daprs le thorme des fonctions implicites, cela permet bien de dterminer la


composante manquante de p(0), pourvu que H
n 6= 0, o n est la normale .
Notons que, dans le cas dvolution, cette dernire condition est toujours
vrifie. La condition initiale sur p(0) est alors simplement
p(0) = g(
x).
Appliquons la mthode des caractristiques la construction dune solution
de (8.1) au voisinage de la frontire.
Pour tout x
, notons (x(
x, s), z(
x, s), p(
x, s)) la solution des quations
caractristiques. Notons n la normale . Sous lhypothse H
n 6= 0, on montre
facilement que, localement en (
x, s), lapplication (
x, s) = x(
x, s) est inversible.
On en dduit donc, localement, que
S(x) = z(1 (x)).
Pour plus de dtails sur la mthode des caractristiques, et des preuves prcises
de tous ces faits, on se rfre [25].
Remarque 8.2.4. Dans le cas dvolution, lhypothse
fie.

H
n

6= 0 est toujours vri-

Remarque 8.2.5. Si g et H sont de classe C 2 , alors localement la solution S est


de classe C 2 .
En faisant cette construction au voisinage de tout point de , puis en
recollant les voisinages, on obtient une solution S de (8.1) sur un voisinage de
dans . Dans le cas dvolution (8.2), on obtient une solution pour t petit.
Mais en gnral, on ne peut pas prolonger S sur tout entier, car des
singularits se produisent lorsque des caractristiques se croisent (voir figure
8.1).

Figure 8.1 Croisement des caractristiques

8.2. SOLUTIONS DE VISCOSIT

183

Exemple 8.2.1. Un exemple simple de cette situation est donn par le problme
de Dirichlet pour lquation eikonale
kS(x)k2 = 1 dans ,
S = 0 sur .

(8.3)

Les quations caractristiques sont


x = 2p, p = 0, z = p.x = 2.
Si x(0) = x
, z(0) = 0, et p(0) = n normal , alors x(s) = x
+ 2sn, et
z(s) = kx(s) x
k. Finalement, on trouve que la solution de (8.3) est
S(x) = d(x, ),
comme on pouvait sy attendre. La fonction S nest pas diffrentiable sur la
courbe C o des caractristiques se croisent, appele cut-locus.
Par consquent, en gnral il nexiste pas de solution globale de classe C 1
sur . Il faut donc chercher un concept de solution gnralise.
On pense dabord au thorme de Rademacher, selon lequel toute fonction
lipschitzienne est diffrentiable presque partout. Il est donc tentant de dfinir
une solution gnralise de (8.1) comme tant une fonction S lipschitzienne sur
, solution de lquation dHamilton-Jacobi presque partout. Malheureusement
ce concept est (de loin) trop faible pour avoir unicit et stabilit par passage
la limite dans L , comme on peut le voir sur les deux exemples suivants.
Exemple 8.2.2. Le problme
S
+
t

2
S
= 0 p.p. sur IR]0, +[,
x
S(0, ) = 0,

a au moins deux solutions


1. S(t, x) = 0,

2. S(t, x) =

0
t + |x|

si |x| > t,
si |x| < t.

Exemple 8.2.3. Le problme



S
= 1 p.p. sur ]0, 1[, S(0) = S(1) = 0,
x

admet une infinit de solutions gnralises (voir figure 8.2).


En particulier, il existe une suite (Sn ) de solutions convergeant uniformment
vers 0, et pourtant 0 nest pas solution.
Ce concept de solution est donc insuffisant.

CHAPITRE 8. THORIE DHAMILTON-JACOBI

184

Figure 8.2 Infinit de solutions

8.2.2

Dfinition dune solution de viscosit

On cherche un concept de solution ayant les proprits suivantes :


1. il existe une unique solution S de (8.1), dpendant continment de g et
H;
2. on a stabilit par passage la limite vanescente, i.e. si H(x, S , S ) =
S pour tout > 0 petit, alors S S lorsque tend vers 0 ;

3. si (8.1) est lquation dHamilton-Jacobi dune fonction valeur dun problme de contrle optimal, alors la fonction valeur est lunique solution de
(8.1).

Lide de dpart est en fait de rgulariser lquation (8.1) en lui ajoutant le


terme S (mthode de viscosit vanescente), car pour une EDP quasi-linaire
du second ordre on sait montrer quune solution rgulire S existe, et de plus
on dispose destimations uniformes sur tout compact, ce qui permet les passages
la limite.
Le concept de solution qui convient est celui de solution de viscosit, introduit
par [23] au dbut des annes 80, et que lon rappelle ici dans le cadre dquations
dHamilton-Jacobi du premier ordre.
Soit un ouvert de IRn , H une fonction continue sur IR IRn , appele Hamiltonien, et g une fonction continue sur . Considrons lquation
dHamilton-Jacobi du premier ordre sur
H(x, S(x), S(x)) = 0.

(8.4)

On rappelle tout dabord la notion de sous- et sur-diffrentiel.


Dfinition 8.2.1. Soit S une fonction sur . Le sur-diffrentiel en un point

8.2. SOLUTIONS DE VISCOSIT

185

x est dfini par


D+ S(x) = {p IRn | lim sup
yx

S(y) S(x) hp, y xi


6 0}.
ky xk

De mme, le sous-diffrentiel en x est


D S(x) = {p IRn | lim inf
yx

S(y) S(x) hp, y xi


> 0}.
ky xk

Remarque 8.2.6. On a les proprits suivantes.


Soit S une fonction continue sur .
1. p D+ S(x) C 1 () | > S, (x) = S(x), (x) = p.

2. p D S(x) C 1 () | 6 S, (x) = S(x), (x) = p.

Si S est diffrentiable en x alors D+ S(x) = D S(x) = {S(x)}.


Si D+ S(x) et D S(x) sont non vides, alors S est diffrentiable en x.
Lensemble des points de tels que D+ S(x) (resp. D S(x)) soit non vide
est dense dans .
Dfinition 8.2.2. Soit S une fonction continue sur . La fonction S est dite
sous-solution de viscosit de lquation (8.4) si
x

p D+ v(x)

H(x, v(x), p) 6 0.

De mme, S est une sur-solution de viscosit de (8.4) si


x

p D v(x)

H(x, v(x), p) > 0.

Finalement, S est une solution de viscosit de (8.4) si elle est la fois soussolution et sur-solution.
Remarque 8.2.7. Si S est une solution de viscosit nulle part diffrentiable, on
impose des conditions l o D S(x) 6= , i.e. sur un ensemble dense.

Remarque 8.2.8.
Si S est une solution de classe C 1 , alors S est aussi solution de viscosit.
Rciproquement, si S est solution de viscosit, alors en tout point x de
o S est diffrentiable, on a H(x, S(x), S(x)) = 0.
Ceci assure la cohrence avec la notion classique de solution. En particulier,
si S est lipschitzienne, alors lquation dHamilton-Jacobi (8.4) est vraie presque
partout.
Exemple 8.2.4. La solution de viscosit du problme

S
1 = 0 sur ]0, 1[, S(0) = S(1) = 0,
x

est

S(x) =

x si 0 6 x 6 1/2,
1 x si 1/2 6 x 6 1.

186

CHAPITRE 8. THORIE DHAMILTON-JACOBI



Remarquons toutefois que S nest pas solution de viscosit de 1 S
x = 0.
Notons aussi que cette solution est bien S(x) = d(x, ). Enfin, remarquons que,
parmi linfinit de solutions de ce problme, S est la seule pouvoir tre obtenue
comme limite de viscosit vanescente. En effet, toute autre solution admet au
moins un minimum local strict dans ]0, 1[. Or si S converge uniformment vers
S, avec |S | 1 = S , et si on note x un minimum local strict de S , alors
S (x ) = 0 et S (x ) > 0, ce qui est absurde.
On a les rsultats suivants (voir [23, 7, 8]).
Thorme 8.2.1. Soient un ouvert born de IRn , g une fonction continue
sur , et H : IRn IR une fonction continue, uniformment continue en
x au sens o il existe une fonction : IR+ IR+ continue et croissante, avec
(0) = 0 telle que
|H(x, p) H(y, p)| 6 (kx yk(1 + kpk)).
Alors le problme de Dirichlet
S(x) + H(x, S(x)) = 0 dans ,
S| = g,
admet au plus une solution de viscosit.
Thorme 8.2.2. Soient g une fonction continue sur IRn , et H : [0, T ] IRn
IRn IR telle que
|H(t, x, p) H(s, y, p)| 6 C(|t s| + kx yk)(1 + kpk),
|H(t, x, p) H(t, x, q)| 6 Ckp qk.

Alors le problme de Cauchy


S
S
+ H(t, x,
) = 0 dans ]0, T [IRn ,
t
x
S(0, ) = g(),
admet au plus une solution de viscosit borne et uniformment continue.
Il existe beaucoup de thormes de ce type. Ce sont des rsultats dunicit,
sous des conditions fortes.
Une mthode pour prouver lexistence dune solution de viscosit est de
rgulariser par une viscosit vanescente, de prouver lexistence dune solution
rgulire S , puis de faire des estimations uniformes pour passer la limite (voir
[23]). Un autre moyen de prouver dobtenir des rsultats dexistence (moins
gnral cependant) et dutiliser la thorie du contrle optimal, en montrant que
la fonction valeur associe un problme de contrle optimal est solution de
viscosit dune quation dHamilton-Jacobi. Cest lobjet de la section suivante.

8.3. EQUATIONS DHAMILTON-JACOBI EN CONTRLE OPTIMAL 187


Exercice 8.2.1. Soient g une fonction continue sur IRn , et H : IRn IR une
fonction convexe telle que
H(p)
kpk

kpk+

+.

En montrant que les caractristiques sont des droites, montrer que la solution
de viscosit du problme de Cauchy
S
S
+ H( ) = 0 dans IRn ]0, +[,
t
x
S(0, ) = g() sur IRn ,
est, pour tout t 6= 0,


x y
S(t, x) = minn tL
+ g(y) ,
yIR
t

o L est le Lagrangien associ au Hamiltonien H, i.e. L(v) = suppIRn (hp, vi


H(p)). Cette formule sappelle formule de Hopf-Lax.

8.3
8.3.1

Equations dHamilton-Jacobi en contrle optimal


Equations dHamilton-Jacobi dvolution

Dfinition de la fonction valeur


Soit T > 0 fix et U IRm un compact non vide. Pour tout t ]0, T ] et
tout x IRn , considrons le problme de contrle optimal gnral suivant :
dterminer une trajectoire solution sur [0, t] du systme de contrle
x u (s) = f (xu (s), u(s)), u(s) U,
xu (t) = x,

(8.5)

qui minimise le cot


C(t, u) =

f 0 (xu (s), u(s))ds + g(xu (0)),

(8.6)

le point initial x(0) tant libre, et le temps final t tant fix.


Dfinition 8.3.1. Soit x IRn . Dfinissons la fonction valeur S sur [0, T ] IRn
par
S(t, x) = inf{C(t, u) | xu () solution de (8.5)}.
La fonction valeur est la gnralisation du concept de distance. Par exemple
en gomtrie Riemannienne elle gnralise le concept de distance Riemannienne.
Remarque 8.3.1. Il est bien clair que S(0, x) = g(x).

CHAPITRE 8. THORIE DHAMILTON-JACOBI

188

Lquation dHamilton-Jacobi
Etablissons tout dabord formellement lquation dHamilton-Jacobi. Supposons que pour tout t ]0, T ] et tout x IRn il existe une trajectoire optimale
xu () solution du problme de contrle optimal (8.5), (8.6) (voir thorme 6.2.1).
On a alors x = xu (t), et donc
Z t
S(t, x) = S(t, xu (t)) = C(t, u) =
f 0 (xu (s), u(s))ds + g(xu (0)).
0

En drivant formellement par rapport t, on obtient


S
S
(t, xu (t)) +
(t, xu (t))f (xu (t), u(t)) = f 0 (xu (t), u(t)),
t
x
et donc

S
S
(t, x) +
(t, x))f (x, u(t)) f 0 (x, u(t)) = 0.
t
x
Introduisons par ailleurs le Hamiltonien du problme de contrle optimal
H(x, p, p0 , u) = hp, f (x, u)i + p0 f 0 (x, u).
Daprs le principe du maximum, le contrle optimal u() doit vrifier
H(x(t), p(t), p0 , u(t)) = max H(x(t), p(t), p0 , v).
vU

On obtient par consquent


p0

S
S
(t, x) + max H(x, p0
(t, x), p0 , v) = 0.
vU
t
x

(8.7)

Lquation (8.7) est lquation gnrale dite de Hamilton-Jacobi-Bellman en


contrle optimal.
Remarque 8.3.2. Sil ny a pas dextrmale anormale, on peut supposer dans le
calcul formel prcdent que p0 = 1, et on obtient alors lquation usuelle
S
S
+ H1 (x,
) = 0,
t
x
o H1 (x, p) = maxvU H(x, p, 1, v).

Le calcul prcdent est formel. En utilisant la notion de solution de viscosit,


on a le rsultat rigoureux suivant (voir [23, 7, 8]).

Thorme 8.3.1. On suppose quil existe une constante C > 0 telle que, pour
tous x, y IRn et tout u U , on ait
kf (x, u)k 6 C, kf 0 (x, u)k 6 C, kg(x)k 6 C,

kf (x, u) f (y, u)k 6 Ckx yk,

kf 0 (x, u) f 0 (y, u)k 6 Ckx yk,


kg(x) g(y)k 6 Ckx yk.

8.3. EQUATIONS DHAMILTON-JACOBI EN CONTRLE OPTIMAL 189


Alors la fonction valeur S est borne, lipschitzienne en (t, x), et est lunique
solution de viscosit du problme de Dirichlet
S
S
+ H1 (x,
) = 0 dans ]0, T [IRn ,
t
x
S(0, ) = g() sur IRn ,

(8.8)


o H1 (x, p) = maxvU H(x, p, 1, v) = maxvU hp, f (x, v)i f 0 (x, v) .

Remarque 8.3.3. En contrle optimal, si on est capable de rsoudre lquation dHamilton-Jacobi alors on est capable dexprimer les contrles optimaux
comme des feedbacks. En effet, rappelons que le principe du maximum permet
dexprimer les contrles optimaux comme fonctions de (x, p). Or on vient de
voir prcdemment que p(t) = p0 S
x (t, x(t)) (au moins si S est diffrentiable
en ce point). La connaissance de la solution S donne donc beaucoup plus que
le principe du maximum, mais bien entendu cette quation dHamilton-Jacobi
est aussi beaucoup plus difficile rsoudre. Pour les aspects numriques, voir le
chapitre 9.
Remarque 8.3.4. Dans le cas de systmes linaires avec un cot quadratique,
on retrouve lquation de Riccati. En liaison avec la remarque prcdente, on
retrouve donc le fait que, dans le cadre LQ, lquation de Riccati permet dexprimer les contrles optimaux comme des feedbacks.
Faisons enfin une dernire remarque qui fait le lien entre la thorie dHamiltonJacobi et le principe du maximum.
Remarque 8.3.5. Au moins dans le cas o = IRm , i.e. sil ny a pas de
contrainte sur le contrle, et si le contrle sexprime, par le PMP, comme une
fonction lisse de (x, p), alors les extrmales du principe du maximum sont les
courbes caractristiques de lquation dHamilton-Jacobi (8.8).
En effet, la mthode des caractristiques consiste rsoudre, pour trouver
une solution lisse de (8.8), le systme dquations
x =

H1
H1
, p =
, x(0) = x , p(0) = g(
x).
p
x

Notons (x(t, x), p(t, x


)) la solution correspondante. Par construction, on a
p(t, x) =

S
(t, x(t, x)),
x

do, en utilisant (8.8),


H1
p
(t, x
) =
(x(t, x), p(t, x
)).
t
x
Par ailleurs, par hypothse H1 (x, p) = H(x, p, 1, u(x, p)), avec de plus
0 puisquil ny a pas de contrainte sur le contrle. Par consquent
H
H u
H
H1
=
+
=
,
x
x
u x
x

H
u (x, p, 1, u(x, p))

CHAPITRE 8. THORIE DHAMILTON-JACOBI

190
et de mme

H
H1
=
.
p
p
On retrouve donc les quations du principe du maximum
x
H p
H
=
,
=
.
t
p t
x

Variante, point initial fix


Dans le problme prcdent, le point initial tait libre, ce qui a permis de
rsoudre un problme de Dirichlet. Fixons maintenant le point initial x0 , et
considrons donc le problme de contrle optimal
x u (s) = f (xu (s), u(s)), u(s) U,

xu (0) = x0 , xu (t) = x,
Z t
f 0 (xu (s), u(s))ds,
C(t, u) =

(8.9)

le temps final t tant fix. Pour tout t [0, T ] et tout x IRn , la fonction valeur
est dfinie par
S(t, x) = inf{C(t, u) | xu () solution de (8.9)}.
La diffrence par rapport au cas prcdent rside dans la donne initiale. Ici, il
est clair que S(0, x0 ) = 0, et par convention on pose S(0, x) = + si x 6= x0 .
Thorme 8.3.2. On suppose quil existe une constante C > 0 telle que, pour
tous x, y IRn et tout u U , on ait
kf (x, u)k 6 C, kf 0 (x, u)k 6 C,
kf (x, u) f (y, u)k 6 Ckx yk,

kf 0 (x, u) f 0 (y, u)k 6 Ckx yk.

Alors la fonction valeur S est solution de viscosit de


S
S
+ H1 (x,
) = 0 dans ]0, T [IRn ,
t
x
S(0, x0 ) = 0, S(0, x) = + si x 6= x0 ,

(8.10)


o H1 (x, p) = maxvU H(x, p, 1, v) = maxvU hp, f (x, v)i f 0 (x, v) .

8.3.2

Equations dHamilton-Jacobi stationnaires

On obtient des quations dHamilton-Jacobi stationnaires en laissant le temps


final libre. Pour simplifier, on se limite ici au problme du temps minimal (voir
[7] pour une gnralisation). Considrons le problme de temps minimal
x u (s) = f (xu (s), u(s)), u(s) U,
xu (0) = x0 , xu (t) = x.

(8.11)

8.3. EQUATIONS DHAMILTON-JACOBI EN CONTRLE OPTIMAL 191


Pour tout x IRn , la fonction valeur, appele fonction temps minimal, est dfinie
par
T (x) = inf{t | xu () solution de (8.11)}.
Comme prcdemment, on a T (x0 ) = 0, et T (x) = + si x 6= x0 .
Etablissons tout dabord formellement lquation dHamilton-Jacobi vrifie
par T . Supposons que pour tout x IRn il existe une trajectoire temps minimale
xu () reliant x0 x. On a alors x = xu (t), et donc T (x) = T (xu (t)) = t. En
drivant formellement par rapport t, on obtient
hT (xu (t)), f (xu (t), u(t))i = 1.
On en dduit
max H(x, p0 T (x), p0 , v) = 0,
vU

(8.12)

o H(x, p, p0 , u) = hp, f (x, u)i + p0 est le Hamiltonien du problme de temps


minimal. Sil ny a pas dextrmale anormale, on peut supposer que p0 = 1,
et on obtient lquation usuelle dHamilton-Jacobi pour le temps minimal.
En utilisant la notion de solution de viscosit, on a le rsultat suivant (voir
[23, 7, 8]).
Thorme 8.3.3. On suppose quil existe une constante C > 0 telle que, pour
tous x, y IRn et tout u U , on ait
kf (x, u)k 6 C, kf (x, u) f (y, u)k 6 Ckx yk.
Alors la fonction temps minimal T est solution de viscosit de
maxhT (x), f (x, v)i = 1 dans IRn ,
vU

T (x0 ) = 0, T (x) = + si x 6= x0 .

(8.13)

Remarque 8.3.6. Si f (x, u) = u et U est la boule unit de IRn , on retrouve


lquation Eikonale de lintroduction.
Exemple 8.3.1. Considrons le systme de contrle
x = y, y = z, z = u, avec |u| 6 1.
La fonction temps minimal partir dun point fix vrifie lquation dHamiltonJacobi


T T
T
+z
+
= 1.
y
x
y z

192

CHAPITRE 8. THORIE DHAMILTON-JACOBI

Chapitre 9

Mthodes numriques en
contrle optimal
On distingue deux types de mthodes numriques en contrle optimal : les
mthodes directes et les mthodes indirectes. Les mthodes directes consistent
discrtiser ltat et le contrle, et rduisent le problme un problme doptimisation non linaire (programmation non linaire, ou "nonlinear programming").
Les mthodes indirectes consistent rsoudre numriquement, par une mthode
de tir ("shooting method"), un problme aux valeurs limites obtenu par application du principe du maximum. Dans ce chapitre, on sintresse dabord aux
mthodes indirectes, puis aux mthodes directes. Dans une dernire section, on
compare les mthodes, et on dcrit les mthodes hybrides qui sont un mlange
des deux approches.

9.1
9.1.1

Mthodes indirectes
Mthode de tir simple

Le principe est le suivant. Considrons le problme de contrle optimal


(4.28), (4.29), et supposons dans un premier temps que le temps final tf est fix.
Le principe du maximum donne une condition ncessaire doptimalit et affirme
que toute trajectoire optimale est la projection dune extrmale. Si lon est capable, partir de la condition de maximum, dexprimer le contrle extrmal en
fonction de (x(t), p(t)), alors le systme extrmal est un systme diffrentiel de la
forme z(t)
= F (t, z(t)), o z(t) = (x(t), p(t)), et les conditions initiales, finales,
et les conditions de transversalit, se mettent sous la forme R(z(0), z(tf )) = 0.
Finalement, on obtient le problme aux valeurs limites
(

z(t)
= F (t, z(t)),
R(z(0), z(tf )) = 0.
193

(9.1)

194CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL


Notons z(t, z0 ) la solution du problme de Cauchy
z(t)
= F (t, z(t)), z(0) = z0 ,
et posons G(z0 ) = R(z0 , z(tf , z0 )). Le problme (9.1) aux valeurs limites est
alors quivalent
G(z0 ) = 0,
i.e. il sagit de dterminer un zro de la fonction G.
Ceci peut se rsoudre par une mthode de Newton (voir section 9.1.3).
Remarque 9.1.1. Si le temps final tf est libre, on peut se ramener la formulation
prcdente en considrant tf comme une inconnue auxiliaire. On augmente alors
dt
la dimension de ltat en considrant lquation supplmentaire dtf = 0. On peut
utiliser le mme artifice si le contrle est bang-bang, pour dterminer les temps
de commutation.
Il peut cependant savrer prfrable, lorsque le temps final est libre, dutiliser la condition de transversalit sur le Hamiltonien.

9.1.2

Mthode de tir multiple

Par rapport la mthode de tir simple, la mthode de tir multiple dcoupe


lintervalle [0, tf ] en N intervalles [ti , ti+1 ], et se donne comme inconnues les
valeurs z(ti ) au dbut de chaque sous-intervalle. Il faut prendre en compte des
conditions de recollement en chaque temps ti (conditions de continuit). Lintrt est damliorer la stabilit de la mthode. Une rfrence classique pour
lalgorithme de tir multiple est [65].
De manire plus prcise, considrons un problme de contrle optimal gnral. Lapplication du principe du maximum rduit le problme un problme
aux valeurs limites du type

F0 (t, z(t)) si t0 6 t < t1

F1 (t, z(t)) si t1 6 t < t2


z(t)
= F (t, z(t)) =
...

Fs (t, z(t)) si ts 6 t 6 tf

(9.2)

o z = (x, p) IR2n (p est le vecteur adjoint), et t1 , t2 , . . . , ts [t0 , tf ] peuvent


tre des temps de commutation ; dans le cas o le problme inclut des contraintes
sur ltat, ce peut tre des temps de jonction avec un arc frontire, ou bien des
temps de contact avec la frontire. On a de plus des conditions de continuit sur
ltat et le vecteur adjoint aux points de commutation. Dans le cas de contraintes
sur ltat, on a des conditions de saut sur le vecteur adjoint, et des conditions
sur la contrainte c en des points de jonction ou de contact (voir ce sujet
[42, 55, 21, 56, 15, 14]). De plus on a des conditions aux limites sur ltat, le
vecteur adjoint (conditions de transversalit), et sur le Hamiltonien si le temps
final est libre.

9.1. MTHODES INDIRECTES

195

Remarque 9.1.2. A priori le temps final tf est inconnu. Par ailleurs dans la
mthode de tir multiple le nombre s de commutations doit tre fix ; on le
dtermine lorsque cest possible par une analyse gomtrique du problme.
La mthode de tir multiple consiste subdiviser lintervalle [t0 , tf ] en N sousintervalles, la valeur de z(t) au dbut de chaque sous-intervalle tant inconnue.
Plus prcisment, soit t0 < 1 < < k < tf une subdivision fixe de lintervalle [t0 , tf ]. En tout point j la fonction z est continue. On peut considrer j
comme un point de commutation fixe, en lequel on a
(
z(j+ ) = z(j ),
j = j fix.

On dfinit maintenant les noeuds


{1 , . . . , m } = {t0 , tf } {1 , . . . , k } {t1 , . . . , ts }.

(9.3)

Finalement on est conduit au problme aux valeurs limites

F1 (t, z(t))
si 1 6 t < 2

F2 (t, z(t))
si 2 6 t < 3
z(t)
= F (t, z(t)) =
..

Fm1 (t, z(t)) si m1 6 t 6 m

(9.4)

j {2, . . . , m 1} rj (j , z(j ), z(j+ )) = 0

rm (m , z(1 ), z(m )) = 0

o 1 = t0 est fix, m = tf , et les rj reprsentent les conditions intrieures ou


limites prcdentes.
Remarque 9.1.3. On amliore la stabilit de la mthode en augmentant le nombre
de noeuds. Cest l en effet le principe de la mthode de tir multiple, par opposition la mthode de tir simple o les erreurs par rapport la condition initiale
voluent exponentiellement en fonction de tf -t0 (voir [65]). Bien sr dans la mthode de tir multiple il y a beaucoup plus dinconnues que dans la mthode de tir
simple, mais ventuellement lintgration du systme (9.2) peut se parallliser.
+
Posons zj+ = z(j+ ), et soit z(t, j1 , zj1
) la solution du problme de Cauchy
+
z(t)
= F (t, z(t)), z(j1 ) = zj1
.

On a
+
).
z(j ) = z(j , j1 , zj1

Les conditions intrieures et frontires scrivent


+
), zj+ ) = 0,
j {2, . . . , m 1} rj (j , z(j , j1 , zj1
+

)) = 0.
rm (m , z1+ , z(m
, m1 , zm1

(9.5)

196CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL


Posons maintenant
+
Z = (z1+ , m , z2+ , 2 , . . . , zm1
, m1 )T IR(2n+1)(m1)

(o z IR2n ). Alors les conditions (9.5) sont vrifies si

rm (m , z1+ , z(m
, m1 , zm1
))

+
+

r
(
,
z(
,

,
z
),
z
)
2
2
1
2
1
2

G(Z) =
..

+
+
rm1 (m , z(m1
, m2 , zm2
), zm1
)

= 0.

(9.6)

On sest donc ramen dterminer un zro de la fonction G, qui est dfinie sur
un espace vectoriel dont la dimension est proportionnelle au nombre de points
de commutation et de points de la subdivision. Lquation G = 0 peut alors
tre rsolue itrativement par une mthode de type Newton (voir la section
suivante).

9.1.3

Rappels sur les mthodes de Newton

Il sagit de rsoudre numriquement G(z) = 0, o G : IRp IRp est une


fonction de classe C 1 . Lide de base est la suivante. Si zk est proche dun zro
z de G, alors
0 = G(z) = G(zk ) + dG(zk ).(z zk ) + o(z zk ).
On est alors amen considrer la suite dfinie par rcurrence
zk+1 = zk (dG(zk ))1 .G(zk ),
un point initial z0 IRp tant choisi, et on espre que zk converge vers le zro
z. Ceci suppose donc le calcul de linverse de la matrice jacobienne de G, ce
qui doit tre vit numriquement. Il sagit alors, chaque tape, de rsoudre
lquation
G(zk ) + dG(zk ).dk = 0,
o dk est appel direction de descente, et on pose zk+1 = zk + dk .
Sous des hypothses gnrales, lalgorithme de Newton converge, et la convergence est quadratique (voir par exemple [6, 61, 65]). Il existe de nombreuses
variantes de la mthode Newton : mthode de descente, de quasi-Newton, de
Newton quadratique, de Broyden, ... Cette mthode permet, en gnral, une
dtermination trs prcise dun zro. Son inconvnient principal est la petitesse
du domaine de convergence. Pour faire converger la mthode, il faut que le point
initial z0 soit suffisamment proche de la solution recherche z. Ceci suppose donc
que pour dterminer le zro z il faut avoir au pralable une ide approximative
de la valeur de z.
Du point de vue du contrle optimal, cela signifie que, pour appliquer une
mthode de tir, il faut avoir une ide a priori de la trajectoire optimale cherche.

9.2. MTHODES DIRECTES

197

Ceci peut sembler paradoxal, mais il existe des moyens de se donner une approximation, mme grossire, de cette trajectoire optimale. Il sagit l en tout cas
dune caractristique majeure des mthodes de tir : elles sont trs prcises mais
requirent une connaissance a priori (plus ou moins grossire) de la trajectoire
optimale cherche.

9.2

Mthodes directes

Les mthodes directes consistent transformer le problme de contrle optimal en un problme doptimisation non linaire en dimension finie.

9.2.1

Discrtisation totale : tir direct

Cest la mthode la plus vidente lorsquon aborde un problme de contrle


optimal. En discrtisant ltat et le contrle, on se ramne un problme doptimisation non linaire en dimension finie (ou problme de programmation non
linaire) de la forme
min F (Z),
(9.7)
ZC

o Z = (x1 , . . . , xN , u1 , . . . , un ), et
C = {Z | gi (Z) = 0, i 1, . . . , r,

gj (Z) 6 0, j r + 1, . . . , m}.

(9.8)

Plus prcisment, la mthode consiste choisir les contrles dans un espace de


dimension finie, et utiliser une mthode dintgration numrique des quations
diffrentielles. Considrons donc une subdivision 0 = t0 < t1 < < tN = tf de
lintervalle [0, tf ]. Rduisons lespace des contrles en considrant (par exemple)
des contrles constants par morceaux selon cette subdivision. Par ailleurs, choisissons une discrtisation de lquation diffrentielle, par exemple choisissons
ici (pour simplifier) la mthode dEuler explicite. On obtient alors, en posant
hi = ti+1 ti ,
xi+1 = xi + hi f (ti , xi , ui ).
Remarque 9.2.1. Il existe une infinit de variantes. Dune part, on peut discrtiser lensemble des contrles admissibles par des contrles constants par
morceaux, ou affines par morceaux, ou des splines, etc. Dautre part, il existe de
nombreuses mthodes pour discrtiser une quation diffrentielle ordinaire : mthode dEuler (explicite ou implicite), point milieu, Heun, Runge-Kutta, AdamsMoulton, etc (voir par exemple [24, 49, 61, 65]). Le choix de la mthode dpend
du problme abord.
La discrtisation prcdente conduit donc au problme de programmation
non linaire
xi+1 = xi + hi f (ti , xi , ui ), i = 0, . . . , N 1,
min C(x0 , . . . , xN , u0 , . . . , uN ),
ui , i = 0, . . . , N 1,

198CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL


i.e. un problme du type (9.7).
Remarque 9.2.2. Cette mthode est trs simple mettre en oeuvre. De plus
lintroduction dventuelles contraintes sur ltat ne pose aucun problme.
Dun point de vue plus gnral, cela revient choisir une discrtisation des
contrles, ainsi que de ltat, dans certains espaces de dimension finie :
u Vect(U1 , . . . , UN ), i.e. u(t) =
x Vect(X1 , . . . , XN ), i.e. x(t) =

N
X
i=1

N
X
i=1

ui Ui (t), ui IR,
xi Xi (t), xi IR,

o les Ui (t) et Xi (t) reprsentent une base de Galerkin. Typiquement, on peut


choisir des approximations polynomiales par morceaux. Lquation diffrentielle,
ainsi que les ventuelles contraintes sur ltat ou le contrle, ne sont vrifies
que sur les points de la discrtisation. On se ramne bien un problme doptimisation non linaire en dimension finie de la forme (9.7).
La rsolution numrique dun problme de programmation non linaire du
type (9.7) est standard. Elle peut tre effectue, par exemple, par une mthode
de pnalisation, ou par une mthode SQP (sequential quadratic programming).
Dans ces mthodes, le but est de se ramener des sous-problmes plus simples,
sans contraintes, en utilisant des fonctions de pnalisation pour les contraintes,
ou bien dappliquer les conditions ncessaires de Kuhn-Tucker pour des problmes doptimisation avec contraintes. Pour le problme (9.7), (9.8), les conditions de Kuhn-Tucker scrivent
F (Z) +

m
X
i=1

i gi (Z) = 0,

o les multiplicateurs de Lagrange i vrifient


i gi (Z) = 0, i {1, . . . , r}, et i > 0, i {r + 1, . . . , m}.
Les mthodes SQP consistent calculer de manire itrative ces multiplicateurs
de Lagrange, en utilisant des mthodes de Newton ou quasi-Newton. A chaque
itration, on utilise une mthode de quasi-Newton pour estimer le Hessien du
Lagrangien associ au problme de programmation non linaire, et on rsout
un sous-problme de programmation quadratique bas sur une approximation
quadratique du Lagrangien. Pour plus de dtails sur cette mthode, voir [29, 33].
Il y a une infinit de variantes des mthodes directes. Lapproche dcrite
ci-dessus permet dj de considrer de nombreuses variantes, mais il faut mentionner aussi les mthodes pseudo-spectrales, de collocation, etc. Pour un survey
trs complet sur les mthodes directes et leur mise en oeuvre numrique, nous
renvoyons le lecteur lexcellent livre [11].

9.2. MTHODES DIRECTES

9.2.2

199

Rsolution numrique de lquation dHamilton-Jacobi

Il existe de nombreuses mthodes numriques pour rsoudre lquation dHamiltonJacobi


S
S
+ H1 (x,
) = 0,
t
x
o H1 (x, p) = maxuU hp, f (x, u)i f 0 (x, u). Commenons par dcrire une
discrtisation simple de cette quation par diffrences finies. Il convient de remarquer, similairement aux quations de transport, que pour assurer la stabilit
il faut dcentrer le schma. Ainsi, pour discrtiser
 X

n
S
S
fp (x, u),
, f (x, u) =
x
x
p
p=1
S
on est amen discrtiser x
par une diffrence divise droite ou gauche,
p
selon le signe de fp (x, u).
Considrons un maillage de lespace (x ), o = (i1 , . . . , in ) Zn , suppos
rgulier pour simplifier, et une discrtisation rgulire (tj ) de lintervalle de
temps. Notons h = (h1 , . . . , hn ) le pas despace, et et k = tj+1 tj le pas de
S
(x )
temps. Soit S,j la valeur approche de S(tj , x ). Il convient dapprocher x
p
par une diffrence divise gauche (resp. droite) si fp (x , u) est positif (resp.
ngatif). Pour tout rel a, on pose

a+ = max(a, 0) =

a + |a|
a |a|
, a = min(a, 0) =
.
2
2

Pour tout p {1, . . . , n}, on note ep = (0, . . . , 1, . . . , 0), le "1" tant en p-me
position. On obtient donc le schma explicite
0 =

S,k+1 S,k
k
X

n
S,k Sep ,k
S+ep ,k S,k 
fp (x, u)+
+ max
+ fp (x, u)
f 0 (x , u) .
uU
hp
hp
p=1

Il existe de nombreuses mthodes de discrtisation. Le schma de discrtisation par diffrences finies propos ci-dessus est le plus simple, mais on peut
adopter des schmas dordre suprieur.
Il existe aussi les mthodes de front donde (voir [63]), qui consistent calculer les ensembles de niveau de la fonction valeur S solution de lquation
dHamilton-Jacobi. Particulirement efficaces en petite dimension, ces mthodes
consistent faire voluer le front donde de la fonction valeur en partant dun
point ou dun ensemble initial donn. La complexit algorithmique est linaire
en fonction du nombre de points de discrtisation. Ces mthodes ont t implmentes de manire trs efficace sur des problmes de dimension moyenne
(typiquement 3). La construction de tels schmas nest cependant pas immdiate, et en fonction de lquation il faut tre capable dlaborer un schma
stable et consistant (voir [63] pour des exemples).

200CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL


Remarque 9.2.3. Notons que, de mme que prcdemment, lintroduction de
contraintes sur ltat ne pose aucun problme : il suffit en effet dimposer la
fonction valeur dtre gale + sur le domaine interdit. Numriquement, cela
signifie quon impose une valeur assez grande la fonction valeur, en les points
du maillage qui sont dans le domaine interdit.
Remarque 9.2.4. Lorsquon a localis les courbes de commutations, on peut
ventuellement raffiner le maillage autour de ces courbes pour obtenir une
meilleure prcision.

9.3

Quelle mthode choisir ?

Les mthodes directes prsentent les avantages suivants sur les mthodes
indirectes :
leur mise en oeuvre est plus simple car elles ne ncessitent pas une tude
thorique pralable comme les mthodes indirectes ; en particulier, on na
pas tudier les variables adjointes, ou bien connatre lavance la
structure des commutations ;
elles sont plus robustes ;
elles sont peu sensibles au choix de la condition initiale (contrairement
aux mthodes indirectes, cf ci-dessous) ;
il est facile de tenir compte dventuelles contraintes sur ltat ;
elles permettent de calculer les contrles optimaux sous forme de feedback,
i.e. en boucle ferme, ce qui est particulirement adapt aux problmes de
stabilisation, et/ou la mise en oeuvre de systmes embarqus.
En revanche,
les mthodes directes sont moins prcises que les mthodes indirectes ; par
exemple dans les problmes de contrle optimal issus de laronautique,
la prcision des mthodes directes savre en gnral insuffisante, malgr
laugmentation du nombre de pas de la discrtisation ;
la discrtisation directe dun problme de contrle optimal comporte souvent plusieurs minima (locaux), et les mthodes directes peuvent converger
vers ces minima ; pourtant la solution ainsi dtermine peut savrer tre
trs loigne de la vraie solution optimale ;
les mthodes directes sont gourmandes en mmoire, et de ce fait peuvent
devenir inefficaces si la dimension despace est trop grande.
Remarque 9.3.1. Si la dynamique du systme de contrle est complique, le calcul du systme extrmal, notamment des quations adjointes, peut tre effectu
avec un logiciel de calcul formel comme Maple.
Les avantages des mthodes indirectes sont
lextrme prcision numrique ;
la mthode de tir multiple est, par construction, paralllisable, et son implmentation peut donc tre envisage sur un rseau dordinateurs monts
en parallle.
Les inconvnients des mthodes indirectes sont les suivants :

9.3. QUELLE MTHODE CHOISIR ?

201

elles calculent les contrles optimaux sous forme de boucle ouverte ;


elles sont bases sur le principe du maximum qui est une condition ncessaire doptimalit seulement, et donc il faut tre capable de vrifier a
posteriori loptimalit de la trajectoire calcule ;
rigidit de la mthode : la structure des commutations doit tre connue
lavance (par exemple par une tude gomtrique du problme). De mme,
il nest pas facile dintroduire des contraintes sur ltat, car dune part
cela requiert dappliquer un principe du maximum tenant compte de ces
contraintes (qui est beaucoup plus compliqu que le principe du maximum
standard), dautre part la prsence de contraintes sur ltat peut rendre
complique la structure de la trajectoire optimale, notamment la structure
de ses commutations.
Deuximement, il faut tre capable de deviner de bonnes conditions initiales pour ltat et le vecteur adjoint, pour esprer faire converger la mthode de tir. En effet le domaine de convergence de la mthode de Newton
peut tre assez petit en fonction du problme de contrle optimal.

Remarque 9.3.2. Que lon ait utilis une mthode directe ou une mthode indirecte, il faut tre capable de vrifier, a posteriori, que lon a bien obtenu la
trajectoire optimale. Les causes sont cependant diffrentes selon la mthode.
Si on a utilis une mthode directe, il se peut quelle ait converg vers
un (pseudo)-minimum local, d la discrtisation du problme. Notons
toutefois que lquation dHamilton-Jacobi donne une condition ncessaire
et suffisante doptimalit, et conduit donc des trajectoires globalement
optimales.
Les mthodes indirectes sont bases sur le principe du maximum qui donne
une condition ncessaire doptimalit locale. Une fois ces trajectoires dtermines, la thorie des points conjugus permet dtablir quune extrmale
est localement optimale avant son premier temps conjugu (voir [13]).
Loptimalit globale est beaucoup plus difficile tablir en gnral, et sur
des exemples spcifiques on ltablit numriquement.

Remarque 9.3.3. Les mthodes directes donnent les contrles extrmaux sous
forme de boucle ferme, et les mthodes indirectes sous forme de boucle ouverte
seulement. Cependant, une trajectoire optimale ayant t dtermine par une
mthode indirecte, on peut stabiliser cette trajectoire en calculant, par une mthode LQ par exemple, un contrle feedback localement autour ce la trajectoire.

Le tableau suivant rsume les caractristiques des mthodes directes et indirectes.

202CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL


Mthodes directes
mise en oeuvre simple,
sans connaissance a priori
peu sensibles au choix de la
condition initiale
facilit de la prise en compte
de contraintes sur ltat
contrles (globalement) optimaux
en boucle ferme
prcision numrique basse ou moyenne
efficaces en basse dimension
gourmandise en mmoire
problme des minima locaux

Mthodes indirectes
connaissance a priori de la structure
de la trajectoire optimale
trs sensibles au choix de la
condition initiale
difficult thorique de la prise en compte
de contraintes sur ltat
contrles (localement) optimaux
en boucle ouverte
trs grande prcision numrique
efficaces en toute dimension
calculs paralllisables
petit domaine de convergence

Pour pallier linconvnient majeur des mthodes indirectes, savoir la sensibilit extrme par rapport la condition initiale, on propose plusieurs solutions.
Une premire solution raisonnable consiste combiner les deux approches :
mthodes directes et indirectes, de faon obtenir ce quon appelle une mthode
hybride. Quand on aborde un problme de contrle optimal, on peut dabord
essayer de mettre en oeuvre une mthode directe. On peut ainsi esprer obtenir
une ide assez prcise de la structure des commutations, ainsi quune bonne
approximation de la trajectoire optimale, et du vecteur adjoint associ. Si on
souhaite plus de prcision numrique, on met alors en oeuvre une mthode
de tir, en esprant que le rsultat fourni par la mthode directe donne une
approximation suffisante de la trajectoire optimale cherche, fournissant ainsi
un point de dpart appartenant au domaine de convergence de la mthode de
tir. En combinant ainsi les deux approches (mthodes directes puis indirectes),
on peut bnficier de lexcellente prcision numrique fournie par la mthode de
tir tout en rduisant considrablement le dsavantage d la petitesse de son
domaine de convergence.
En appliquant dabord une mthode directe, on peut obtenir une approximation de ltat adjoint. En effet, on a vu quune mthode directe consiste
rsoudre numriquement un problme de programmation non linaire avec
contraintes. Les multiplicateurs de Lagrange associs au Lagrangien de ce problme de programmation non linaire donnent une approximation de ltat adjoint (on a dj vu que le vecteur adjoint nest rien dautre quun multiplicateur
de Lagrange). A ce sujet, voir [21, 66, 34].
Une deuxime solution consiste utiliser une mthode dhomotopie (ou mthode de continuation). Il sagit de construire une famille de problmes de
contrle optimal (P )[0,1] dpendant dun paramtre [0, 1], o le problme initial correspond P0 . On doit sarranger pour que le problme P1 soit
plus simple rsoudre que P0 . Une telle famille ne peut tre construite que si
lon possde une bonne intuition et une bonne connaissance de la physique du
problme. Par la mthode de tir, chaque problme de contrle optimal P se
ramne la dtermination dun zro dune fonction. On obtient donc une famille

9.3. QUELLE MTHODE CHOISIR ?

203

un paramtre dquations non linaires


G (Z) = 0, [0, 1].
Supposons avoir rsolu numriquement le problme P1 , et considrons une subdivision 0 = 0 < 1 < < p = 1 de lintervalle [0, 1]. La solution de P1
peut alors tre utilise comme point de dpart de la mthode de tir applique
au problme Pp1 . Puis, par une procdure inductive finie, la solution du problme Pi+1 constitue une condition initiale pour appliquer la mthode de tir au
problme Pi . Bien entendu il faut choisir judicieusement la subdivision (i ),
et ventuellement la raffiner.
Pour faciliter lintuition, il est important que le paramtre soit un paramtre naturel du problme. Par exemple si le problme de contrle optimal
comporte une contrainte forte sur ltat, du type c(x) 6 1, une mthode dhomotopie peut consister relaxer cette contrainte, en rsolvant dabord des problmes o c(x) 6 A, avec A > 0 grand. Cela revient donc rsoudre une srie
de problmes de contrle optimal o lon introduit petit petit la contrainte sur
ltat. Mathmatiquement, pour pouvoir esprer la convergence de la mthode
en passant dun pas un autre, il faut que la chane de problmes de contrle
optimal introduite dpende continment du paramtre .
On peut gnraliser cette approche par homotopie :
chaque problme P peut lui-mme tre rsolu par homotopie, i.e. par la
rsolution de sous-problmes (ce peut tre le cas si par exemple le problme de contrle optimal initial comporte plusieurs contraintes sur ltat
fortement actives) ;
la classe de problmes considrs peut dpendre de plusieurs paramtres.
Dans ce cas il faut choisir un chemin dans lespace des paramtres, reliant
le problme initial au problme plus simple rsoudre.
En conclusion, on utilisera plutt une mthode directe si
on na pas besoin dune grande prcision de calcul ;
la dimension despace est assez petite ;
on na aucune ide a priori de la trajectoire optimale recherche, par
exemple on ne sait rien sur la structure des commutations ;
on veut introduire facilement des contraintes sur ltat.
On utilisera plutt une mthode indirecte
si la dimension despace est assez grande ;
si on a besoin de calculer la trajectoire optimale de manire trs prcise ;
dans un deuxime temps, aprs avoir appliqu une mthode directe qui a
donn une premire approximation de la solution optimale.
Cependant, pour des problmes de contrle optimal o le systme de contrle
est raide (en anglais stiff system), en aronautique notamment, lapplication
dune mthode directe peut savrer insuffisante pour obtenir une bonne approximation de la solution optimale et du vecteur adjoint, i.e. cette approximation ne constitue pas une condition initiale assez prcise pour faire converger
la mthode de tir. En effet, le problme aux valeurs limites sous-jacent est mal
conditionn, si bien que le domaine de convergence de la mthode est trs petit,

204CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL


inaccessible par une mthode directe. Dans ce cas, on peut avoir recours une
mthode dhomotopie pour tenter de faire converger la mthode de tir.
Par ailleurs, pour des problmes de contrle optimal complexes, comme par
exemple des mission interstellaires, o la trajectoire optimale a une structure trs
complique, une prcision extrme est requise pour calculer numriquement cette
trajectoire. Dans ce cas lapplication dune mthode de tir savre indispensable.
En revanche, si le systme extrmal est lui-mme trs complexe (cest le cas
dans certains problmes de contrle optimal de robots industriels, o lcriture
des quations adjointes peut requrir des centaines, voire des milliers de lignes),
une mthode directe peut tre prfrable la mthode de tir, avec toutefois les
limitations prcdemment dcrites.
Il existe beaucoup dautres mthodes pour contrebalancer les inconvnients
respectifs des mthodes directes ou indirectes. Nous nvoquons pas ici par
exemple les techniques parfois pointues de contrle optimal gomtrique (voir
par exemple [2, 13] pour le contrle gomtrique) qui peuvent amliorer notablement le champ dapplications des mthodes indirectes, comme cela a t montr
de manire rapide dans le chapitre 7.4 sur le contrle optimal de la rentre atmosphrique dune navette spatiale. Pour les mthodes directes, nous renvoyons
le lecteur [11].
Nous donnons ci-dessous un exemple trs simple de mise en oeuvre numrique
cod en Matlab, en utilisant des routines qui, attention, sont connues pour ne pas
tre efficaces (mais elles sont en revanche simples dutilisation, dans un premier
temps). Il faut noter que, dans la pratique, on utilise des outils plus volus et
efficaces, et pour gagner en vitesse dexcution il est prfrable de coder (dans
un second temps) dans un langage compil comme Fortran ou C, en utilisant des
routines expertes quon peut trouver sur le web. Notons enfin quune manire
simple mais efficace de coder des mthodes directes est lutilisation du langage
de modlisation mathmatique AMPL combin une routine doptimisation
non linaire comme IPOPT. Les calculs peuvent mme tre lancs en ligne sur
le site web NEOS Solvers. On trouve sur le web de nombreux softwares "tout-enun", qui implmentent des mthodes directes ou bien des mthodes indirectes.
Faire une telle liste serait fastidieux, et une telle liste volue sans arrt. Le
lecteur intress trouvera facilement sur le web ou pourra demander conseil
des experts.
Exemple 9.3.1. Comparons les mthodes dcrites sur un exemple simple.
Considrons le problme du temps minimal pour le systme de contrle
x(t)

= y(t), x(0) = 0,
y(t)
= u(t), y(0) = 0,
avec |u(t)| 6 1.

(9.9)

Solution exacte.
Commenons par calculer la solution exacte de ce problme. Le Hamiltonien est
H = px y + py u + p0 , et les quations adjointes sont
p x = 0, py = px .

9.3. QUELLE MTHODE CHOISIR ?

205

On en dduit que px (t) = cste = , et donc py (t) = t + . Par ailleurs la


condition de maximum du principe du maximum donne u(t) = signe(py (t)). En
particulier les contrles extrmaux ont au plus une commutation.
Dcrivons la trajectoire obtenue en prenant u(t) = 1 sur [0, t1 [, puis u(t) =
1 sur ]t1 , T ]. Daprs les quations (9.9), on obtient
2
si 0 6 t 6 t1 , alors x(t) = t2 et y(t) = t ;
2
si t1 6 t 6 T , alors x(t) = t2 + 2t1 t t21 et y(t) = t + 2t1 .
Les trajectoires obtenues en prenant dabord u = 1, puis u = 1, sont les
symtriques des prcdentes par rapport lorigine (voir figure 9.1).
3

u=+1

2
u=+1

2
u=1

u=1

3
4

Figure 9.1 Synthse optimale


Il est clair que la courbe dfinie par
= {(x, y) IR2 | x =

y2
signe(y)}
2

est la courbe de commutation. Plus prcisment, le contrle temps minimal est


donn par
2
2
si x > y2 signe(y) ou si x = y2 , alors u(x, y) = +1 ;
2

si x < y2 signe(y) ou si x = y2 , alors u(x, y) = 1.


Calculons la fonction temps minimal T (x, y) pour aller de (0, 0) (x, y).
Supposons que le point (x, y) est en dessous de la courbe . Ce point est atteint
par la succession dun arc u = +1, puis u = 1. On en dduit quil existe un
2
unique couple (t1 , T ) tel que x = T2 +2t1 T t21 , et y = T +2t1 . La rsolution
q
de ce systme conduit facilement T = 2 x + 21 y 2 y. De mme, si le point
q
(x, y) est au-dessus de la courbe , on calcule T = 2 x + 21 y 2 + y. Enfin, le long
de la courbe , on a clairement T = |y|. Finalement, la fonction temps minimal

206CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL


est donne par la formule
r
y2
1

2 x + y 2 y si x > signe(y),
2
2
T (x, y) =
r
2

2 x + y 2 + y si x < y signe(y).
2
2

(9.10)

Remarque 9.3.4. Notons que la fonction temps minimal (9.10) vrifie bien lquation dHamilton-Jacobi associe au problme de contrle optimal (9.9)


T T
y
= 1, T (0, 0) = 0.
+
x
y

Les ensembles de niveau de la fonction temps minimal, i.e. les ensembles


T 1 (r) = {(x, y) IR2 | T (x, y) = r}, o r > 0, sont reprsents sur la figure
9.2. Notons que T 1 (r) est aussi le bord de lensemble accessible en temps r.
1

0.8

0.6

0.4

0.2

0.2

0.4

0.6

0.8

1
1

0.8

0.6

0.4

0.2

0
x

0.2

0.4

0.6

0.8

Figure 9.2 Ensembles de niveau de la fonction temps minimal


Sur cet exemple, nous proposons trois mthodes numriques. Tout dabord,
nous rsolvons numriquement lquation dHamilton-Jacobi. Ensuite, nous mettons en oeuvre une mthode directe, puis une mthode indirecte, pour aller en
temps minimal de (0, 0) (0, 1). Par commodit les programmes sont effectus
sous Matlab, en utilisant certaines routines spcifiques.
Rsolution numrique de lquation dHamilton-Jacobi.
Notons hx (resp. hy ) le pas de discrtisation en x (resp. en y). On discrtise de
la maniere suivante :
si y(j) < 0 alors
y(j)

T (i, j) T (i, j + 1) T (i, j) T (i, j 1)


T (i + 1, j) T (i, j)
+max(0,
,
) = 1.
hx
hy
hy

9.3. QUELLE MTHODE CHOISIR ?

207

si y(j) > 0 alors


y(j)

T (i, j) T (i, j + 1) T (i, j) T (i, j 1)


T (i, j) T (i 1, j)
+max(0,
,
) = 1.
hx
hy
hy

Notons que, en posant m = min(T (i, j 1), T (i, j + 1)), on a :



0
si T < m,
T T (i, j + 1) T T (i, j 1)
,
=
max(0,
T m
si
T > m.
hy
hy
hy
Avec des pas hx = hy = 0.01, et 200 itrations, on obtient le rsultat de la figure
9.3.
Le programme est le suivant.
function hjb2
%%
%%
%%
%%
%%
%%
%%
%%
%%
%%

Discretisation de lequation dHJB :


y dS/dx + |dS/dy| = 1, S(0,0)=0.
On discretise de la maniere suivante :
si y(j)<0 : y(j)*(S(i+1,j)-S(i,j))/hx
+ max(0,(S(i,j)-S(i,j+1))/hy,(S(i,j)-S(i,j-1))/hy) = 1
si y(j)>0 : y(j)*(S(i,j)-S(i-1,j))/hx
+ max(0,(S(i,j)-S(i,j+1))/hy,(S(i,j)-S(i,j-1))/hy) = 1
et on remarque que, si m=min(S(i,j-1),S(i,j+1)) :
max(0,(S-S(i,j+1))/hy,(S-S(i,j-1))/hy) = 0
si S < m
= (S-m)/hy
si S > m

clear all ; close all ; clc ;


hx = 0.01 ; hy = 0.01 ; big=1e6 ; Nit=200 ;
xmin = -1 ; xmax = 1 ; ymin = -1 ; ymax = 1 ;
x = [ xmin : hx : xmax ] ; y = [ ymin : hy : ymax ] ;
S = ones(length(x),length(y))*big ; Snew = S ;
i0 = find(x==0) ; j0 = find(y==0) ;
S(i0,j0) = 0 ;
for it=1:Nit
for i=2:length(x)-1
for j=2:length(y)-1
m = min( S(i,j-1) , S(i,j+1) ) ;
if y(j)>0
if y(j)*(m-S(i-1,j)) > hx
Snew(i,j) = S(i-1,j)+hx/y(j) ;
else
Snew(i,j) = (hx*hy+hx*m+hy*y(j)*S(i-1,j))/(hx+hy*y(j)) ;
end

208CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL


else
if y(j)*(S(i+1,j)-m) > hx
Snew(i,j) = S(i+1,j)-hx/y(j) ;
else
Snew(i,j) = (hx*hy+hx*m-hy*y(j)*S(i+1,j))/(hx-hy*y(j)) ;
end
end
end
end
S = Snew ;
S(i0,j0) = 0 ;
end
[X,Y] = meshgrid(x,y) ; Nx = size(X,1)-2 ; Ny = size(X,2)-2 ;
figure ; contour(S(Nx/4:3*Nx/4,Ny/4:3*Ny/4),[0:0.1:1]) ;
Les rsultats sont donns sur la figure 9.3.
1

0.8

0.6

0.4

0.2

0.2

0.4

0.6

0.8

1
1

0.8

0.6

0.4

0.2

0
x

0.2

0.4

0.6

0.8

Figure 9.3 Ensembles de niveau de la fonction temps minimal


Le problme est la lenteur de la convergence de cet algorithme. Ici, la convergence est en max(hx , hy )1/4 . Les valeurs prises dans le programme prcdent ne
sont donc pas bonnes, et il faut prendre des valeurs hx , hy beaucoup plus petites. Mais alors le temps dexcution du programme est trs long. Il faut donc
absolument avoir recours un langage de programmation compil comme le
C++ pour implmenter cet algorithme, et avoir ainsi un temps dexcution raisonnable. Ceci a t effectu, les rsultats sont sur la figure 9.4. Notons quil
faudrait en fait, vu la lenteur de la convergence, prendre hx = hy = 105 , mais
dans ce cas mme en C++ lalgorithme nest pas efficace. Il faut donc envisager
un algorithme plus fin, ou une mthode de front donde (voir [63]).

9.3. QUELLE MTHODE CHOISIR ?

209
hx=hy=0.01, Nit=200

Solution theorique
0.5

0.5

0.4

0.4

0.9

0.3

0.8
0.9
1

0.1

0.2

0.4

0..89
000.7.6
0.5

0.3

0.2

0.3

0.4

0.6

0.7
0.8
0.9

0.4

0.3
0.4

0.5
0.6
0.7

0.3 0.5
0.6
0.7
0.8
0.9

0.1

0.8
0.7
0.5
0.3
0.20.4 0.1
0.4 0.3
0.6
0.7 0.8

0.7

0.1

0.2

0.6
0.5

0.8

0.9

0.9
0.9

0.8

0.7

0.8

0.8
0.7
0.6
0.6

0.5

0.7

0.8

0.91

0.9
1

0.9
1

0.9

0.8

0.3

0.4
0.2 .1
0

0.2
0.5

0.9
0.8
0.7
0.6
0.5

0.1

0.3

0.7

0.8
0.7
0.6
0.5

0.9

0.2

0.3

0.9

0.4

0.4

0.5
0.5

0.4

0.3

0.2

0.1

0.1

0.2

0.3

0.4

0.5

0.5
0.5

0.4

0.3

0.2

hx=hy=0.002, Nit=1000
0.5

0.4

0.4

0.3

0.3
0.4

0.5

0.6

0.7

0.7

0.7
0.6

0.9

0.4
0.3
0.4

0.1

1
00.9.8
0.7
0.7

0.2

0.8

0.3

0.4

0.5
0.5

0.5

0.9

0.9
0.8
0.7

1
0.9
0.8
0.7

0.1

0.7

0.6

0.6

0.6
0.5
0.3
0.1 0.20.2
0.6
0.5

0.7
0.8
0.9

0.4

0.6
0.5
0.5

0.6

0.3

0.4

0.9
1

0.7
0.8
0.9
1

0.9

0.3

0.4

0.5
0.3 0.4
0.5 0.6
0.8
0.9
1

0.8
0.9
1

0.8

0.2

0.7
0.6
0.4
0.1
0.2

0.3

0.5

0.7
0.6

1
.9
0.1 0 0.8

0.5

0.2

0.3

0.2

0.9
0.8
0.9 .8
0

0.1

0.9

0.1

hx=hy=0.001, Nit=2000

0.5

0.2

0.1

0.4

0.4

0.3

0.2

0.1

0.1

0.2

0.3

0.4

0.5

0.5
0.5

0.4

0.3

0.2

0.1

0.1

0.2

0.5

Figure 9.4 Comparaison des rsultats numriques


Mise en oeuvre dune mthode directe. On se ramne un problme de
programmation non linaire. Un tel problme se rsout laide dune mthode
SQP. Cet algorithme est implment dans la ToolBox optim de Matlab, il sagit
de la routine fmincon.m, que lon utilise ici.
function direct
%%
%%
%%
%%

Discretisation directe (en utilisant fmincon.m)


du probleme de temps minimal
xdot=y, ydot=u, |u|<=1,
le probleme etant de joindre (0,0) a (0,-1) en temps minimal.

clear all ; close all ; clc ;

210CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL

N = 20 ; % nombre de pas de discretisation


uinit = 2*rand(N,1)-1 ; % initialisation aleatoire du controle
tfinit = 1 ; xinit = [uinit ; tfinit] ;
%
point de depart pour fmincon
lb = -ones(N+1,1) ; lb(N+1) = 0 ; ub = ones(N+1,1) ; ub(N+1) = 20 ;
% contrainte sur le controle |u| <= 1, et 0 <= tf <= 20
[rep,Fval,exitflag] = fmincon(@tempsfinal,xinit,[],[],[],[],lb,ub,@cond) ;
exitflag
tf = rep(end) ; x(1)=0 ; y(1) = 0 ;
for i=1:N
x(i+1) = x(i) + tf/N*y(i) ;
y(i+1) = y(i) + tf/N*rep(i) ;
end
% calcul de la trajectoire optimale
subplot(121) ; plot(x,y) ; axis square ; title(Trajectoire) ;
subplot(122) ; plot(linspace(0,tf,N),rep(1:N)) ;
axis square ; title(Controle) ;
%--------------------------------------------------------------function [c,ceq] = cond(x)
N = length(x)-1 ;
c = 0 ;
tf = x(end) ; xf = 0 ; yf
for i=1:N
xf = xf + tf/N*yf ;
yf = yf + tf/N*x(i) ;
end
ceq = [ xf ; yf+1 ] ;

= 0 ;
%
%

calcul du point final au temps tf


avec la methode dEuler explicite

% on impose la condition finale xf=0, yf=-1

%--------------------------------------------------------------function val = tempsfinal(x)


val = x(end) ;

% x=[u;tf], ou u est le discretise du controle,


%
et tf est le temps final

Les rsultats sont tracs sur la figure 9.5.


Mise en oeuvre dune mthode indirecte. On se ramne ici un problme
de tir simple. On utilise une mthode de Newton, implmente dans la ToolBox
optim de Matlab, savoir la routine fsolve.m.

9.3. QUELLE MTHODE CHOISIR ?

211

Trajectoire

Controle

0.8

0.6
0.4

0.5

0.2
0
0
0.2
0.4
0.5

0.6
0.8
1
0.2

0.2

0.4

0.6

0.5

1.5

Figure 9.5 Rsultats de la mthode directe


function tirsimple
% Methode de tir simple, en utilisant fsolve.m,
% pour le systeme de controle
%
xdot=y, ydot=u, |u|<=1.
% On veut aller de (0,0) \a (0,-1) en temps minimal.
clear all ; clf ; clc ; format long ;
global x0 ; x0=[0;0] ;
P0=[1;1] ; tf=5 ;
% Calcul de P0,tf
options=optimset(Display,iter,LargeScale,on);
[P0tf,FVAL,EXITFLAG]=fsolve(@F,[P0;tf],options);
EXITFLAG % 1 si la methode converge, -1 sinon
% Trace de la trajectoire optimale
options = odeset(AbsTol,1e-9,RelTol,1e-9) ;
[t,z] = ode45(@sys,[0;P0tf(3)],[x0;P0tf(1);P0tf(2)],options) ;
subplot(121) ; plot(z(:,1),z(:,2)) ;
axis square ; title(Trajectoire) ;
subplot(122) ; plot(t,sign(z(:,4))) ;
axis square ; title(Controle) ;
%-------------------------------------------------------------

2.5

212CHAPITRE 9. MTHODES NUMRIQUES EN CONTRLE OPTIMAL


function Xzero=F(X)
% Definition de la fonction dont on cherche un zero
global x0 ;
options = odeset(AbsTol,1e-9,RelTol,1e-9) ;
[t,z] = ode113(@sys,[0;X(3)],[x0;X(1);X(2)],options) ;
HamEnd = z(end,3)*z(end,2)+abs(z(end,4))-1 ;
Xzero = [ z(end,1)
% on impose xf=0
z(end,2)+1
% on impose yf=-1
HamEnd
] ;
% tf libre donc H(tf)=0
%------------------------------------------------------------function zdot=sys(t,z)
u=sign(z(4)) ;
zdot = [ z(2)
u
0
-z(3)

] ;

% systeme extremal

Les rsultats sont tracs sur la figure 9.6.


Trajectoire

Controle

0.5
0.5
0
0
0.5
0.5
1

1.5

0.2

0.4

0.6

0.8

0.5

1.5

Figure 9.6 Rsultats de la mthode indirecte

2.5

Troisime partie

Annexe

213

Chapitre 10

Rappels dalgbre linaire


10.1

Exponentielle de matrice

Soit IK = IR ou C, et soit kk une norme multiplicative sur Mn (IK) (i.e. kABk 6


kAk kBk pour toutes matrices A, B Mn (IK) ; par exemple les normes doprateurs sont multiplicatives).
Dfinition 10.1.1. Soit A Mn (IK). On dfinit lexponentielle de la matrice
A par
+
X
Ak
A
.
exp(A) = e =
k!
k=1

Cest une srie normalement convergente dans le Banach Mn (IK), vu que




X

q k
q
q Ak X
A X
kAkk

6
6
6 ekAk .




k!
k!
k!
k=p
k=p
k=p

Proposition 10.1.1.
Pour tout A Mn (IK), on a eA GLn (IK), et
A 1
A
(e ) = e .
Lapplication exponentielle est IK-analytique (et donc en particulier est de
classe C sur le corps IK).
La diffrentielle de Frchet d exp(0) de lapplication exponentielle en 0 est
gale lidentit sur Mn (IK).
Pour toutes matrices A, B Mn (IK) qui commutent, i.e. AB = BA, on
a
eA+B = eA eB .
1

Si P GLn (IK), alors P eA P 1 = eP AP .


Pour A Mn (IK), lapplication f (t) = etA est drivable, et f (t) =
AetA = etA A.
215

CHAPITRE 10. RAPPELS DALGBRE LINAIRE

216

10.2

Rduction des endomorphismes

Lespace vectoriel Mn (IK) est de dimension n2 sur IK, donc les lments
2
I, A, . . . , An sont linairement dpendants. Par consquent il existe des polynmes P annulateurs de A, i.e. tels que P (A) = 0. Lanneau IK[X] tant
principal, lidal des polynmes annulateurs de A admet un unique gnrateur
normalis, i.e. un unique polynme de plus petit degr, dont le coefficient dominant est gal 1, annulant A ; on lappelle polynme minimal de la matrice
A, not A .
Par ailleurs, le polynme caractristique de A, not A , est dfini par
A (X) = det (XI A).
Thorme 10.2.1 (Thorme de Hamilton-Cayley). A (A) = 0.
En particulier, le polynme minimal A divise le polynme caractristique
A . Notons que deg A = n et deg A 6 n.
Exemple 10.2.1. Pour une matrice N Mn (IK) nilpotente, i.e. il existe un
entier p > 1 tel que N p = 0, on a ncessairement p 6 n, N (X) = X p et
N (X) = X n .
Exemple 10.2.2. Pour une matrice compagnon, i.e. une matrice de la forme

0
1
0

0
..
..
..
..
.
.
.
.
0

,
..
..
..
A = ..
.
.
0
.
.

0
0
1
an an1 a2 a1

on a

A (X) = A (X) = X n + a1 X n1 + + an1 X + an .

Le scalaire IK est dit valeur propre sil existe un vecteur non nul v IKn ,
appel vecteur propre, tel que Av = v. Lespace propre associ la valeur
propre est dfini par
E() = ker(A I) ;

cest lensemble des vecteurs propres de A pour la valeur propre .


Lorsque IK = C, les valeurs propres de A sont exactement les racines du
polynme caractristique A . En particulier on a
A (X) =

r
Y

mi

(X i )

i=1

et A (X) =

r
Y

i=1

(X i )si ,

avec si 6 mi . Lentier si (resp. mi ) est appel ordre de nilpotence (resp. multiplicit) de la valeur propre i . Lespace caractristique de la valeur propre i
est dfini par
N (i ) = ker(X i )si .

10.2. RDUCTION DES ENDOMORPHISMES

217

Thorme 10.2.2 (Thorme de dcomposition des noyaux). Soient A


Mn (IK) et P IK[X] un polynme tel que
P (X) =

r
Y

Pi (X),

i=1

o les polynmes Pi sont premiers entre eux deux deux. Alors


ker P (A) =

r
M

ker Pi (A).

i=1

De plus, chaque sous-espace ker


L Pi (A) est invariant par A, et la projection pi
sur ker Pi (A) paralllement j6=i ker Pj (A) est un polynme en A.

En appliquant ce thorme au polynme minimal de A, on obtient, lorsque


IK = C,
r
M
N (i ).
Cn =
i=1

Notons que N (i ) = ker(X i ) = ker(X i )mi .


La restriction de A N (i ) est de la forme i I + Ni , o Ni est une matrice
nilpotente dordre si . On peut alors montrer que toute matrice A Mn (IK)
admet une unique dcomposition A = D + N , o D est diagonalisable sur C, N
est nilpotente, et de plus DN = N D (dcomposition D + N ).
On peut prciser ce rsultat avec la thorie de Jordan.
si

Thorme 10.2.3 (Dcomposition de Jordan). Soit A Mn (IK) ; on suppose


que
sur IK (ce qui est toujours le cas sur C) tel que A (X) =
Qr A est scind
si
(X

)
.
Alors
il existe P GLn (IK) telle que
i
i=1

A1
0

P 1 AP = ... . . . ... ,
0

Ar

o les matrices Ai sont diagonales par blocs

Ji,1
0

.. ,
..
Ai = ...
.
.
0
Ji,ei

et o les matrices Ji,k , 1 6 i 6 r, 1 6 k 6 ei , sont des blocs de Jordan, i.e. des


matrices carres de la forme

i 1
0

0 ... ...
,

Ji,k = .

.
.
..
.. 1
..
0
0 i

218

CHAPITRE 10. RAPPELS DALGBRE LINAIRE

nayant pas forcment toutes le mme ordre |Ji,k |. Pour tout i {1, . . . , r}, on
a ei = dim E(i ), et max |Ji,k | = si .
16k6ei

Chapitre 11

Thorme de
Cauchy-Lipschitz
Dans cette section nous rappelons une version gnrale du thorme de
Cauchy-Lipschitz, adapte la thorie du contrle, qui tablit sous certaines
conditions lexistence et lunicit dune solution dune quation diffrentielle.
Une bonne rfrence ce sujet est [64, Appendix C].

11.1

Un nonc gnral

Soit I un intervalle de IR et V un ouvert de IRn . Considrons le problme de


Cauchy
x(t)

= f (t, x(t)), x(t0 ) = x0 ,


(11.1)
o f est une application de I V dans IRn , et x0 V . Le thorme de CauchyLipschitz usuel affirme lexistence et lunicit dune solution maximale pourvu
que f soit continue, et localement lipschitzienne par rapport x. Mais en thorie
du contrle ces hypothses doivent tre affaiblies car on est amen considrer
des contrles non continus (au mieux, continus par morceaux), et par consquent
la continuit du second membre nest plus assure. En particulier la solution,
si elle existe, nest pas en gnral drivable partout et il faut donc redfinir de
manire adquate le concept de solution.
Dfinition 11.1.1. On suppose que pour tout t I la fonction x 7 f (t, x)
est mesurable, et que pour tout x U la fonction t 7 f (t, x) est continue. On
appelle solution du problme de Cauchy (11.1) tout couple (J, x()), o J est
un intervalle tel que J I et t0 J, et o x() est une fonction absolument
continue de J dans V telle que, pour tout t J,
x(t) = x0 +

f (s, x(s))ds,

t0

219

220

CHAPITRE 11. THORME DE CAUCHY-LIPSCHITZ

ce qui est quivalent


x(t)

= f (t, x(t)) p.p. sur J,


x(t0 ) = x0 .
x
Une solution (J, x()) est dite maximale si, pour toute autre solution (J,
()),

on a J J et x() = x() sur J.


On a alors le thorme suivant.
Thorme 11.1.1 (Thorme de Cauchy-Lipschitz). On suppose que la fonction f : I V V vrifie les deux hypothses suivantes :
1. f est localement lipschitzienne par rapport x au sens suivant :

x V r > 0, B(x, r) V, L1loc (I, IR+ )


t I y, z B(x, r) kf (t, y) f (t, z)k 6 (t)ky zk,
2. f est localement intgrable par rapport t, i.e.
x V

L1loc (I, IR+ )

t I

kf (t, x)k 6 (t).

Alors pour toute donne initiale (t0 , x0 ) I V , il existe une unique solution
maximale (J, x()) du problme de Cauchy (11.1).
Remarque 11.1.1. On na pas forcment J = I ; par exemple considrons le
problme de Cauchy x(t)

= x(t)2 , x(0) = x0 . Alors


si x0 = 0, on a J = IR et x() 0 ;
si x0 > 0, on a J =] , 1/x0 [ et x(t) = x0 /(1 x0 t) ;
si x0 < 0, on a J =]1/x0 , +[ et x(t) = x0 /(1 x0 t).

Remarque 11.1.2. Si f est seulement continue on na pas


p unicit en gnral ;
par exemple considrons le problme de Cauchy x(t)

= |x(t)|, x(0) = 0. La
fonction nulle est solution, ainsi que

0
si t 6 0,
x(t) =
t2 /4
si t > 0.
Thorme 11.1.2 (Thorme dexplosion). Sous les hypothses du thorme
de Cauchy-Lipschitz, soit (]a, b[, x()) une solution maximale. Si b < sup I, alors
pour tout compact K contenu dans V , il existe un rel > 0 tel que x(t)
/ K,
pour tout t ]b , b[.
Remarque 11.1.3. En particulier si V = IRn , alors kx(t)k +.
tb
t<b

Remarque 11.1.4. On a une proprit semblable si a > inf I.


Enonons maintenant une version globale du thorme de Cauchy-Lipschitz.

11.1. UN NONC GNRAL

221

Thorme 11.1.3. Sous les hypothses du thorme de Cauchy-Lipschitz, on


suppose de plus que V = IRn et que f est globalement lipschitzienne par rapport
x, i.e.
L1loc (I, IR+ ) | t I

y, z IRn

kf (t, y) f (t, z)k 6 (t)ky zk.

Alors J = I.
Exercice 11.1.1 (Lemme de Gronwall). Soient et y : [t0 , t1 ] IR+ deux
fonctions continues vrifiant
Z t
(s)y(s)ds.
c > 0 / t [t0 , t1 ] y(t) 6 c +
t0

Montrer que
t [t0 , t1 ] y(t) 6 c exp
Indication : poser F (t) =

t0

Z

t
t0


(s)ds .


 Z t
(s)ds .
(s)y(s)ds, puis G(t) = F (t)exp
t0

Exercice 11.1.2.
1. Soit y0 IR. Justifier quil existe une solution maximale y(.) sur un intervalle ]a, b[ du problme de Cauchy
(E)

y (t) = y(t) +

y(t)4
, y(0) = y0 .
1 + t2

2. Montrer que pout tout t ]a, b[ :


t

y(t) = e y0 +

est

y(s)4
ds
1 + s2

3. Soit T tel que 0 < T < b. Supposons que pour tout t [0, T ] on ait
|y(t)| 6 1. A laide du lemme de Gronwall, montrer que
t [0, T ] |y(t)| 6 |y0 |.
4. Supposons que |y0 | < 1. Montrer que |y(t)| 6 1 pour tout t [0, b[, puis
que b = +.
Indication : utiliser le lemme de Gronwall, et le thorme dexplosion.
Exercice 11.1.3. Soit q : IR IR une fonction de classe C 1 , strictement
positive et croissante. Montrer lexistence et lunicit dune solution maximale
dfinie sur un intervalle contenant [0, +[, pour le problme de Cauchy y (t) +
q(t)y(t) = 0, y(0) = y0 , y (0) = y0 , puis que toutes les solutions de lquation
diffrentielle y (t) + q(t)y(t) = 0 sont bornes sur IR+ .
Indication : driver la fonction V (t) = y(t)2 +

y (t)2
q(t) .

222

CHAPITRE 11. THORME DE CAUCHY-LIPSCHITZ

Exercice 11.1.4 (Mthode des entonnoirs). Soit (E) : x (t) = f (t, x(t)) une
quation diffrentielle, o f : IR IR IR est de classe C 1 .
On dit que (resp. ) est une barrire infrieure (resp. une barrire suprieure), si cest une fonction de classe C 1 telle que pour tout t IR on ait
(t) < f (t, (t)) (resp. (t) > f (t, (t))). On appelle entonnoir lensemble
E = {(t, y) IR IR | (t) < y < (t)}.
Montrer que si t 7 x(t) est une solution de (E) sur un intervalle J IR telle
que x(t0 ) = x0 avec (t0 , x0 ) E, alors (t, x(t)) E pour tout t > t0 , t J.
Indication : raisonner par labsurde, et poser t1 = inf{t > t0 / (t, x(t))
/
E}. Montrer que x(t1 ) = (t1 ) ou (t1 ), et conclure.

Exercice 11.1.5 (Loi de Hubble). Une des thories actuelles de lunivers (thorie du big-bang) admet que lorigine de lunivers est une gigantesque explosion
partir de laquelle la matire de lunivers a commenc diverger partir du
point 0.
On considre que cette expansion est homogne et isotrope ; les positions
successives se dduisent les unes des autres par une homothtie de centre 0 :

OM (t) = (t, t0 )OM (t0 ).


1. Montrer que la vitesse du point M se met sous la forme

v (M ) = H(t)OM (t)

(loi de Hubble)

o on explicitera H(t).
2. Montrer que la loi de Hubble est incompatible avec une valeur constante
de H.
3. La valeur actuelle de H est H 2, 5.1018 s1 . En prenant comme
modle H(t) = t (o est dterminer), trouver lordre de grandeur
du rayon maximum de lunivers (on rappelle la vitesse de la lumire c =
3.108 m.s1 ).
En dduire lge de lunivers selon cette thorie.

11.2

Systmes diffrentiels linaires

Considrons le problme de Cauchy dans IRn


(11.2)

x(t)

= A(t)x(t) + B(t), x(t0 ) = x0 ,


n

o les applications t 7 A(t) Mn (IR) et t 7 B(t) IR sont localement


intgrables sur lintervalle I considr.
Dfinition 11.2.1. On appelle rsolvante du problme (11.2) la solution du
problme de Cauchy
R
(t, t0 ) = A(t)R(t, t0 ), R(t0 , t0 ) = Id,
t
o R(t, t0 ) Mn (IR).

11.2. SYSTMES DIFFRENTIELS LINAIRES

223

Proposition 11.2.1. La rsolvante possde les proprits suivantes :


R(t2 , t0 ) = R(t2 , t1 )R(t1 , t0 ).
Si (t, t0 ) = det R(t, t0 ), on a

(t, t0 ) = tr A(t).(t, t0 ), (t0 , t0 ) = 1.


t
La solution du problme de Cauchy (11.2) est donne par
Z t
x(t) = R(t, t0 )x0 +
R(t, s)B(s)ds
t0

(formule de variation de la constante).


Remarque 11.2.1. Lorsque t0 = 0, on note plutt M (t) = R(t, 0). La formule de
variation de la constante scrit alors
Z t
x(t) = M (t)x0 + M (t)
M (s)1 B(s)ds.
0

Remarque 11.2.2 (Expression de la rsolvante). La rsolvante admet le dveloppement en srie


Z
Z
A(s2 )A(s1 )ds1 ds2 + +
A(s1 )ds1 +
R(b, a) = I +
a6s1 6s2 6b
a6s1 6b
Z
A(sn ) A(s1 )ds1 dsn + .
a6s1 66sn 6b

De plus cette srie est normalement convergente. Cest un dveloppement en


srie chronologique.
Cas des systmes autonomes. Considrons le problme de Cauchy dans IRn
x(t)

= Ax(t), x(0) = x0 ,
o A Mn (IR). Alors, dans ce cas, la rsolvante est M : t 7 etA , et la solution
de ce problme est
x : t 7 etA x0 .
La dcomposition de Jordan permet de prciser ce rsultat. En effet, on a

tJ
0
e 1,e1
1

..
etA = P
P .
.
tJ1,er
0
e

On calcule facilement

tJi,k

=e

ti

..
.
0

..

On obtient donc le rsultat suivant.

..
.
..
.
0

t|Ji,k |1
eti (|J
i,k |1)!
..

.
.

ti

e t
eti

CHAPITRE 11. THORME DE CAUCHY-LIPSCHITZ

224

Proposition 11.2.2. Toute solution du systme x(t)

= Ax(t) est de la forme


X
x(t) =
eti tk vi,k ,
16i6r

06k6|Ji,k |

o vi,k N (i ) (voir chapitre prcdent pour la dfinition de lespace caractristique N (i )).


Exercice 11.2.1. Rsoudre le systme diffrentiel

x = 2x 3y,
y = x 2y.
Indication : exprimer ce systme comme un systme diffrentiel
dordre 1.
Exercice 11.2.2. On pose

4
0
A=
2
0

0
4
0
2

2
0
4
0

0
2
.
0
4

Rsoudre le systme diffrentiel X = AX. En dduire eA .


Exercice 11.2.3. Soit A : ]0, +[ Mn (IR) une application continue. On
considre le systme diffrentiel x (t) = A(t)x(t) et lon note R(t, t0 ) sa rsolvante.
T

1. Montrer que la rsolvante S(t, t0 ) du systme y(t)

= A(t) y(t) est


T
S(t, t0 ) = R(t, t0 ) .
2. On pose

2t + 1t 0 1t t
A(t) = t 1t 3t t 1t .
2
0 2t + t
t 2t

Montrer que A(t) possde une base de vecteurs propres indpendante de


t. En dduire la rsolvante R(t, t0 ).
Exercice 11.2.4. On suppose que lquation diffrentielle
X (t) = AX(t) + B(t),
o A Mn (IR) et t 7 B(t) est une application continue de IR+ dans IRn , admet
une solution X sur IR+ qui vrifie
Z
(kX(t)k2 + kB(t)k2 )dt < +.
0

Montrer que X(t) tend vers 0 lorsque t tend vers +.

11.3. APPLICATIONS EN THORIE DU CONTRLE

225

Indication : montrer que X() est de Cauchy en +.


Exercice 11.2.5. Soit A une matrice carre relle dordre n dont les valeurs
propres (dans C) sont distinctes de 2ik, k Z. Soit dautre part B : IR IRn
une application continue et 1-priodique. Montrer que le systme diffrentiel
x = Ax + B(t) admet une et une seule solution 1-priodique.
Exercice 11.2.6. Soit A : IR+ Mn (IR) une application continue et priodique de priode T . On considre le systme diffrentiel dans IRn
x (t) = A(t)x(t), x(0) = x0 .
Soit M (t) Mn (IR) la rsolvante du systme, cest--dire la solution du problme de Cauchy M (t) = A(t)M (t), M (0) = Id. Montrer pour tout t > 0 la
relation
M (t + T ) = M (t)M (T ).
En dduire que lorigine est asymptotiquement stable pour le systme si et
seulement si les valeurs propres complexes de la matrice M (T ) (appele matrice
de monodromie) sont de module strictement plus petit que 1.

11.3
11.3.1

Applications en thorie du contrle


Systmes de contrle linaires

Considrons le systme de contrle linaire


x(t)

= A(t)x(t) + B(t)u(t) + r(t), x(t0 ) = x0 .


Les hypothses du thorme 11.1.1 sont clairement vrifies si les applications
t 7 A(t), B(t)u(t), r(t), sont localement intgrables sur lintervalle I considr.
Supposons donc
A() L1loc (I, Mn (IR)),
r() L1loc (I, IRn ).
Par ailleurs, les hypothses assurant lintgrabilit locale de B()u() dpendent
de lensemble des contrles considrs.
m
1
Si u() L
loc (I, IR ), alors on suppose que B() Lloc (I, Mn,m (IR)).
m
2
2
Si u() Lloc (I, IR ), alors on suppose que B() Lloc (I, Mn,m (IR)).
De manire gnrale, si u() Lploc (I, IRm ), alors on suppose que B()
Lqloc (I, Mn,m (IR)) o p1 + q1 = 1.
Si les contrles sont des fonctions mesurables valeurs dans un compact
IRm , alors on suppose que B() L1loc (I, Mn,m (IR)).

11.3.2

Systmes de contrle gnraux

Considrons le systme de contrle


x(t)

= f (t, x(t), u(t)), x(t0 ) = x0 ,

226

CHAPITRE 11. THORME DE CAUCHY-LIPSCHITZ

o f est une fonction de I V U , I est un intervalle de IR, V un ouvert de


IRn et U un ouvert de IRm .
Pour rester dans un cadre trs gnral, il suffit de supposer que pour chaque
contrle u considr, la fonction F : (t, x) 7 f (t, x, u(t)) vrifie les hypothses du
thorme 11.1.1. Bien entendu, en fonction de la classe de contrles considre,
ces hypothses peuvent tre plus ou moins difficiles vrifier.
On peut donner des hypothses certes moins gnrales, mais qui suffisent
dans la grande majorit des cas. Ces hypothses sont les suivantes :
m
1. Lensemble des contrles considrs est inclus dans L
loc (I, IR ).

2. La fonction f est de classe C 1 sur I V U .

Il est facile de montrer qualors les hypothses du thorme 11.1.1 sont vrifies,
et donc que, pour chaque contrle fix, il existe une unique solution maximale
(J, x()) du problme de Cauchy
x(t)

= f (t, x(t), u(t)) p.p. sur J,


x(t0 ) = x0 .

Chapitre 12

Modlisation dun systme de


contrle linaire
12.1

Reprsentation interne des systmes de contrle


linaires

Considrons le systme linaire observ


(
x(t)

= Ax(t) + Bu(t),
y(t) = Cx(t),

(12.1)

o x(t) IRn , u(t) IRm , y(t) IRp , A Mn (IR), B Mn,m (IR), et C


Mp,n (IR).
On appelle reprsentation interne ou reprsentation dtat continue lexpression de la sortie y(t) sous la forme
Z t
tA
tA
y(t) = Ce x(0) + Ce
esA Bu(s)ds,
(12.2)
0

appele en anglais input-output relation.

12.2

Reprsentation externe des systmes de contrle


linaires

Dfinition 12.2.1. La rponse impulsionnelle dun systme linaire est la sortie


de ce systme ( conditions initiales nulles) quand on lexcite en entre par une
impulsion de Dirac.
Ici, la rponse impulsionnelle est donc la matrice

CetA B
si t > 0,
W (t) =
(12.3)
0
si t < 0.
227

228CHAPITRE 12. MODLISATION DUN SYSTME DE CONTRLE LINAIRE


En effet, posons, pour tout t [0, ],

0
..
.

0
1

u(t) =
1/ = ei ,
0

.
..
0

et u(t) = 0 sinon. Alors

y(t) = Ce

tA 1

esA Bei ds CetA Bei .


0

Remarque 12.2.1. Puisque x(0) = 0, on a, pour t > 0,


t

W (t s)u(s)ds =

Autrement dit (on rappelle que f g(x) =


suivant.

y(t) =

Proposition 12.2.1. t > 0

W (t s)u(s)ds.

0
IR

f (x y)g(y)dy), on a le rsultat

y(t) = (W u)(t).

Cela incite utiliser la transformation de Laplace, qui transforme un produit


de convolution en un produit.
Dfinition 12.2.2. Soit f L1loc ([0, +[, IR). Il existe a IR {} tel que,
pour tout complexe s, on
ait
R +
si Re s > a alors 0 est |f (t)|dt < +,
R +
si Re s < a alors 0 est |f (t)|dt = +.
Pour tout complexe s tel que Re s > a, on dfinit la transforme de Laplace de
f par
Z
+

L(f )(s) =

est f (t)dt.

Remarque 12.2.2. La transformation de Laplace est linaire (en faisant attention


toutefois au problme du domaine de dfinition). De plus, on a
L(f g) = L(f )L(g).
Enfin, pour toute fonction f de classe C 1 , on a
L(f )(s) = sL(f )(s) f (0).
Posons alors Y (s) = L(y)(s) et U (s) = L(u)(s) (o, par convention, y(t) = 0
et u(t) = 0 si t < 0).

12.2. REPRSENTATION EXTERNE DES SYSTMES DE CONTRLE LINAIRES229


Dfinition 12.2.3. La matrice de transfert H est la transforme de Laplace de
la matrice de rponse impulsionnelle, i.e.
H(s) = L(W )(s) =

W (t)est dt.

(12.4)

Proposition 12.2.2. Y (s) = H(s)U (s).


Par ailleurs, en appliquant la transformation de Laplace au systme (12.1),
avec x(0) = 0 et X(s) = L(x)(s), on a
sX(s) = AX(s) + BU (s), Y (s) = CX(s),
do
Y (s) = C(sI A)1 BU (s).
La proposition suivante sensuit.
Proposition 12.2.3. H(s) = C(sI A)1 B.
Remarque 12.2.3. En particulier, on a L(CetA B)(s) = C(sI A)1 B.
Proposition 12.2.4. Les coefficients de la matrice de transfert H(s) sont des
fractions rationnelles en s, avec un numrateur de degr strictement infrieur
au degr du dnominateur.
Dmonstration. Il suffit de remarquer que
(sI A)1 =

1
T
com(sI A) .
det(sI A)

Remarque 12.2.4. Si le systme scrit


(
x(t)

= Ax(t) + Bu(t),

y(t) = Cx(t) + Du(t),

alors
H(s) = C(sI A)1 B + D.
Dans ce cas, il est clair que les coefficients de la matrice H(s) sont des fractions
rationnelles dont le numrateur et le dnominateur ont mme degr.
Rciproquement, lorsquon dispose dune matrice de transfert H(s) pour
reprsenter un systme linaire continu, on peut chercher calculer un modle
dtat (i.e. dterminer des matrices A, B, C) tel que H(s) = C(sI A)1 B.
Un tel triplet (A, B, C) est appel ralisation dtat continue de la matrice de
transfert H(s).

230CHAPITRE 12. MODLISATION DUN SYSTME DE CONTRLE LINAIRE


Proposition 12.2.5. La fonction de transfert (i.e. m = p = 1)
H(s) = b0 +
admet la ralisation

..

A= .

0
an

1
..

an1

b1 sn1 + + bn
sn + a1 sn1 + + an

..

..

..

1
0
a2


0
0

..

.

.
, B = .. ,


0
1
1
a1

C = (bn b1 ), D = b0 .

La dmonstration se fait par un calcul facile. On peut de mme montrer que


tout matrice de transfert dont les coefficients sont des fractions rationnelles (le
degr du numrateur tant infrieur ou gal celui du dnominateur) admet
une ralisation (voir par exemple [52]).
Remarque 12.2.5. Il ny a pas unicit de la ralisation. En effet si (A, B, C) est
une ralisation de H(s), alors il est bien clair que (A1 , B1 , C1 ) est aussi une
ralisation de H(s) avec

 


A 0
B
A1 =
, B1 =
, C1 = C 0 .

Il existe un thorme dunicit dune ralisation minimale sous forme dun


systme linaire contrlable et observable (voir par exemple [52]).

Exercice 12.2.1. Dterminer une ralisation de la matrice de transfert

1/(s2 1)
H(s) = s/(s2 + s) .
s/(s2 s)

Chapitre 13

Stabilisation des systmes de


contrle
13.1
13.1.1

Systmes linaires autonomes


Rappels

Considrons le systme diffrentiel x(t)

= Ax(t), o A Mn (IR) et x(t)


IRn . On note x(, x0 ) la solution telle que x(0, x0 ) = x0 . On rappelle que le point
origine 0, qui est un point dquilibre, est stable si
> 0 > 0

x0 IRn

kx0 k 6 t > 0 kx(t, x0 )k 6 .

Le point 0 est asymptotiquement stable sil est stable et de plus x(t, x0 ) 0.


t+

Pour un systme linaire, la stabilit locale est quivalente la stabilit globale.


Thorme 13.1.1.
Sil existe une valeur propre de A telle que Re >
0, alors le point dquilibre 0 est instable.
Si toutes les valeurs propres de A sont partie relle strictement ngative,
alors le point dquilibre 0 est asymptotiquement stable.
Le point dquilibre 0 est stable si et seulement si toute valeur propre de
A est partie relle ngative ou nulle, et si toute valeur propre partie
relle nulle est simple.
Remarque 13.1.1. Une valeur propre de A est simple si et seulement si est
racine simple du polynme minimal A . Ceci quivaut dire que N () = E(),
ou bien que ker(A I) = ker(A I)2 , ou encore que la dcomposition de
Jordan de A na pas de bloc de Jordan strict en .
La dmonstration de ce thorme est claire daprs la proposition 11.2.2.
Dfinition 13.1.1. La matrice A est dite de Hurwitz si toutes ses valeurs
propres sont partie relle strictement ngative.
231

232

CHAPITRE 13. STABILISATION DES SYSTMES DE CONTRLE

13.1.2

Critre de Routh, critre de Hurwitz

Dans cette section, on considre le polynme complexe


P (z) = a0 z n + a1 z n1 + + an1 z + an ,
et on cherche des conditions pour que ce polynme ait toutes ses racines partie
relle strictement ngative, i.e. soit de Hurwitz.
Critre de Routh
Dfinition 13.1.2. La table de Routh est construite de la manire suivante :
a0 a2 a4 a6

ventuellement complt par des 0

a1 a3 a5 a7
b1 b2 b3
c1 c2 c3
..
.

..
.

..
.

ventuellement complt par des 0


a1 a4 a0 a5
a1 a2 a0 a3
, b2 =
,...
b4 o b1 =
a1
a1
b 1 a3 a1 b 2
b 1 a5 a1 b 3
c4 o c1 =
, c2 =
,...
b1
b1
..
.

Le processus continue tant que le premier lment de la ligne est non nul.
La table de Routh est dit complte si elle possde n+1 lignes dont le premier
coefficient est non nul.
Thorme 13.1.2. Tous les zros de P sont partie relle strictement ngative
si et seulement si la table complte existe, et les lments de la premire colonne
sont de mme signe.
Thorme 13.1.3. Si la table complte existe, alors P na aucun zro imaginaire pur, et le nombre de zros partie relle strictement positive est gal au
nombre de changements de signes dans la premire colonne.
Critre de Hurwitz
On pose an+1 = an+2 =
dordre n

a1
a0

H =0
0

..
.
0

= a2n1 = 0. On dfinit la matrice carre


a3
a2
a1
a0
0
..
.

a5
a4
a3
a2
a1
..
.

o = a0 ou a1 selon la parit de n.

a2n1
a2n2

a2n3

a2n4
,
a2n5

..
.
an

13.1. SYSTMES LINAIRES AUTONOMES


Soient (Hi )i{1,...,n} les mineurs principaux de

a1 a3



a1 a3
, H3 = a0 a2
H1 = a1 , H2 =


a0 a2
0 a1

233
H, i.e.

a5
a4 , . . . , Hn = det H.
a3

Thorme 13.1.4. Si a0 > 0, tout zro de P est de partie relle strictement


ngative si et seulement si Hi > 0, pour tout i {1, . . . , n}.
Remarque 13.1.2. Supposons a0 > 0.
Si pour toute racine de P , on a Re 6 0, alors ak > 0 et Hk > 0, pour
tout k {1, . . . , n}.
Si n 6 3 et si ak > 0 et Hk > 0, pour tout k {1, 2, 3}, alors toute racine
de P vrifie Re 6 0.
Remarque 13.1.3. Une condition ncessaire de stabilit est donc, si a0 > 0,
k {1, . . . , n} ak > 0.
Mais cette condition nest pas suffisante (poser P (z) = z 4 + z 2 + 1).
Exercice 13.1.1. Une condition ncessaire et suffisante pour quun polynme
de degr infrieur ou gal 4, avec a0 > 0, ait toutes ses racines partie relle
strictement ngative, est
a0 z 2 + a1 z + a2
a0 z + a1 z 2 + a2 z + a3
4
a0 z + a1 z 3 + a2 z 2 + a3 z + a4
3

13.1.3

a1 , a2 > 0
a1 , a3 > 0 et a1 a2 > a0 a3
a1 , a2 , a4 > 0 et a3 (a1 a2 a0 a3 ) > a21 a4

Stabilisation des systmes de contrle linaires autonomes

Dfinition 13.1.3. Le systme x(t)

= Ax(t) + Bu(t), avec x(t) IRn , u(t)


m
IR , A Mn IR, B Mn,m IR, est dit stabilisable (par retour dtat linaire,
ou feedback linaire), sil existe K Mm,n IR tel que le systme boucl par le
feedback u(t) = Kx(t), i.e.
x(t)

= (A + BK)x(t),
soit asymptotiquement stable, i.e.
Spec(A + BK) Re < 0.
Remarque 13.1.4. Ce concept est invariant par similitude
A1 = P AP 1 , B1 = P B, K1 = KP 1 .
Thorme 13.1.5 (Thorme de placement de ples (pole-shifting theorem)).
Si la paire (A, B) vrifie la condition de Kalman, alors pour tout polynme rel P
unitaire de degr n, il existe K Mm,n IR tel que A+BK = P , i.e. le polynme
caractristique de A + BK est gal P .

234

CHAPITRE 13. STABILISATION DES SYSTMES DE CONTRLE

Corollaire 13.1.6. Si le systme de contrle x(t)

= Ax(t) + Bu(t) est contrlable alors il est stabilisable.


Dmonstration du corollaire. Il suffit de prendre P (X) = (X + 1)n et dappliquer le thorme de placement de ples.
Dmonstration du thorme de placement de ples. Faisons dabord la dmonstration dans le cas m = 1 (on se ramnera ensuite ce cas). Par thorme on
sait que le systme est semblable la forme de Brunovski

0
0
1

0
..
..
..
.
.
.
.

.
.
.
A= .
, B = . .
0
0

0
1
1
an an1 a1

Posons alors K = (k1 kn ) et u = Kx. On a

0
1

..
..
..
.
.
.
A + BK =
0

0
k1 an k2 an1
et donc

0
..
.
1
kn a1

A+BK (X) = X n + (a1 kn )X n1 + + (an k1 ).


Donc, pour tout polynme P (X) = X n + 1 X n1 + + n , il suffit de choisir
k1 = an n , . . . , kn = a1 1 .
Dans le cas gnral o m > 1, montrons le lemme fondamental suivant.
Lemme 13.1.7. Si la paire (A, B) vrifie la condition de Kalman, alors il existe
y IRm et C Mm,n (IR) tels que la paire (A + BC, By) vrifie la condition de
Kalman.
Daprs ce lemme, pour tout polynme P unitaire de degr n, il existe
K1 M1,n (IR) tel que A+BC+ByK1 = P , et donc en posant K = C + yK1
Mm,n (IR), on a A+BK = P , ce qui prouve le thorme.
Preuve du lemme. Soit y IRm tel que By 6= 0. On pose x1 = By. On a le fait
suivant.
Fait 1 : Il existe x2 Ax1 + Im B (et donc il existe y1 IRm tel que
x2 = Ax1 + By1 ) tel que dim Vect{x1 , x2 } = 2.
En effet sinon, on a Ax1 + Im B IRx1 , donc Ax1 IRx1 et Im B IRx1 .
Do
Im AB = AIm B IRAx1 IRx1 ,
et par rcurrence immdiate
k IN Im Ak B IRx1 .

13.1. SYSTMES LINAIRES AUTONOMES

235

On en dduit que
Im (B, AB, . . . , An1 B) = Im B + Im AB + + Im An1 B IRx1 ,
ce qui contredit la condition de Kalman.
Fait 2 : Pour tout k 6 n, il existe xk Axk1 + Im B (et donc il existe
yk1 IRm tel que xk = Axk1 + Byk1 ) tel que dim Ek = k, o Ek =
Vect{x1 , . . . , xk }.
En effet sinon, on a Axk1 + Im B Ek1 , do Axk1 Ek1 et Im B
Ek1 . On en dduit que
AEk1 Ek1 .
En effet, on remarque que Ax1 = x2 By1 Ek1 + Im B Ek1 , de mme
pour Ax2 , etc, Axk2 = xk1 Byk1 Ek1 + Im B Ek1 , et enfin,
Axk1 Ek1 .
Par consquent
Im AB = AIm B AEk1 Ek1 ,
et de mme
i IN Im Ai B Ek1 .
Do
Im (B, AB, . . . , An1 B) Ek1 ,
ce qui contredit la condition de Kalman.
On a donc ainsi construit une base (x1 , . . . , xn ) de IRn . On dfinit alors
C Mm,n (IR) par les relations
Cx1 = y1 , Cx2 = y2 , . . . , Cxn1 = yn1 , Cxn quelconque.
Alors la paire (A + BC, x1 ) vrifie la condition de Kalman, car
(A + BC)x1 = Ax1 + By1 = x2 , . . . , (A + BC)xn1 = Axn1 + Byn1 = xn .

Le thorme est prouv.


Remarque 13.1.5. Pour la mise en oeuvre numrique du placement de ples, une
premire solution est, si la dimension despace nest pas trop grande, dappliquer
les critres de Routh ou de Hurwitz de faon dterminer une condition ncessaire et suffisante sur K pour stabiliser le systme. En effet il suffit de calculer,
par exemple laide dun logiciel de calcul formel comme Maple, le polynme
caractristique de la matrice A + BK.
Une deuxime solution consiste implmenter une mthode systmatique
ralisant un placement de ples. Ce problme est essentiellement un problme
inverse aux valeurs propres. Il existe beaucoup dalgorithmes mettant en oeuvre
une mthode de placement de ples. Parmi celles-ci, citons-en qui sont implmentes dans la Control Toolbox de Matlab. La premire, acker.m, est base sur
la formule dAckermann (voir [44]), est limite aux systmes mono-entre, mais

236

CHAPITRE 13. STABILISATION DES SYSTMES DE CONTRLE

nest pas fiable numriquement. Il vaut mieux utiliser place.m, qui est une mthode de placement de ples robuste (voir [45]), base sur des dcompositions
aux valeurs propres.
Dans lexemple 13.3.1 trait plus loin, nous donnons un exemple dutilisation
de cette procdure.
Enfin, une troisime solution consiste appliquer la thorie LQ (voir section
4.4.3).

13.2

Interprtation en termes de matrice de transfert

Tout dabord, remarquons que les ples de la matrice de transfert H(s) sont
exactement les valeurs propres de A. Cest pourquoi on parle des ples de A
(ou modes propres). Ainsi, le systme est naturellement stable si les ples sont
partie relle strictement ngative.
Dfinition 13.2.1. Le systme est dit EBSB-stable (Entre Borne, Sortie
Borne) si pour toute entre borne, la sortie est borne.
Proposition 13.2.1. Si les ples de A sont partie relle strictement ngative
alors le systme est EBSB-stable (la rciproque est fausse).
Remarque 13.2.1. La EBSB-stabilit peut donc se tester par les critres de
Routh-Hurwitz.
Un feedback sinterprte de la manire suivante. Posons C = I. On a H(s) =
(sI A)1 B, et X(s) = H(s)U (s). On prend u = Kx + v, i.e. U = KX + V ,
do
X(s) = (I H(s)K)1 H(s)V (s).
Proposition 13.2.2. Si les ples de I H(s)K sont partie relle strictement
ngative, alors le systme est EBSB-stable.
Dans cette interprtation, la matrice de feedback K sappelle le gain.
Remarque 13.2.2. La rponse impulsionnelle est W (t) = etA B, donc
si W (t) 0, alors le systme est asymptotiquement stable ;
t+

si kW (t)k est borne quand t +, alors le systme est stable ;


si kW (t)k diverge, alors le systme est instable.

13.3
13.3.1

Stabilisation des systmes non linaires


Rappels

Considrons le systme diffrentiel dans IRn


x(t)

= f (x(t)),

13.3. STABILISATION DES SYSTMES NON LINAIRES

237

o f : IRn IRn est C 1 . On note x(, x0 ) la solution de ce systme telle que


x(0, x0 ) = x0 .
Dfinition 13.3.1.
Le point x
est un point dquilibre si f (
x) = 0.
Le point dquilibre x
est dit stable si
> 0

> 0 | x0 B(
x, ) t > 0 kx(t, x0 ) x
k 6 .

Le point dquilibre x
est dit localement asymptotiquement stable (LAS)
si x
est stable et si de plus x(t, x0 ) x.
t+

Thorme 13.3.1 (Thorme de linarisation). Soit A la matrice jacobienne


de f au point dquilibre x.
1. Si toutes les valeurs propres de A sont partie relle strictement ngative,
alors le point dquilibre x est localement asymptotiquement stable.
2. Sil existe une valeur propre de A partie relle strictement positive, alors
le point dquilibre x
est instable.
Dfinition 13.3.2. Soit un ouvert de IRn contenant le point dquilibre x.
La fonction V : IR est une fonction de Lyapunov en x
sur si
V est C 1 sur ,
V (
x) = 0, et x \ {
x} V (x) > 0,
x hV (x), f (x)i 6 0 (si lingalit est stricte, on dit que la fonction
de Lyapunov est stricte).
Remarque 13.3.1.

d
dt V

(x(t)) = hV (x(t)), f (x(t))i.

Thorme 13.3.2 (Thorme de Lyapunov). Sil existe une fonction de Lyapunov au point dquilibre x
sur , alors le point x est stable. Si la fonction de
Lyapunov est stricte alors x est LAS. Si de plus V est propre sur alors x est
globalement asymptotiquement stable (GAS) sur .
Thorme 13.3.3 (Principe de Lasalle). Soit V : IR+ une fonction de
classe C 1 telle que
V est propre, i.e. L V () V 1 ([0, L]) est compact dans ,
x hV (x), f (x)i 6 0.
Soit I le plus grand sous-ensemble de {x | hV (x), f (x)i = 0} invariant
par le flot (en temps t > 0) de x = f (x). Alors toute solution x(t) de x = f (x)
tend vers I, i.e.
d(x(t), I) 0.
t+

Remarque 13.3.2. On peut noncer le principe de Lasalle dans le cas particulier


o lensemble invariant I se rduit au point x. Lnonc est alors le suivant.
Soit x un point dquilibre, et V : IR une fonction de classe C 1
telle que
V (
x) = 0 et x \ {
x} V (x) > 0,
V est propre,

238

CHAPITRE 13. STABILISATION DES SYSTMES DE CONTRLE

x hV (x), f (x)i 6 0, et de plus si x(t) est une solution du systme


telle que hV (x(t)), f (x(t))i = 0 pour tout t > 0, alors x(t) = x
.
Alors x
est GAS dans .
Exercice 13.3.1. Dterminer les points dquilibre du systme diffrentiel
(

x (t) = sin x(t) + y(t)
y (t) = ex(t) 1,

puis tudier leur stabilit.


Exercice 13.3.2. Soit le systme diffrentiel
(

x (t) = y(t) 1 + x(t) y(t)2 ,

y (t) = x(t) 1 + y(t) x(t)2 .

Trouver les points dquilibre de ce systme, et voir sils sont asymptotiquement


stables (resp. instables).
Exercice 13.3.3. On considre le mouvement dun solide rigide en rotation
soumis une force extrieure,
I1 1 = (I2 I3 )2 3 1
I2 2 = (I3 I1 )3 1 2

I3 3 = (I1 I2 )1 2 3

o I1 , I2 , I3 sont les moments dinertie du solide, i.e. des constantes donnes.


Construire une fonction de Lyapunov permettant de montrer que lquilibre est
asymptotiquement stable.
Exercice 13.3.4. Soit g : IR IR de classe C 1 telle que g(0) = 0 et xg(x) > 0
si x 6= 0. Montrer que le point dquilibre x = 0, x = 0 est asymptotiquement
stable pour lquation diffrentielle x + x + g(x) = 0.
Rx
Indication : on tudiera la fonction F (x) = 0 g(y)dy au voisinage
de 0 et on introduira la fonction de Lyapunov V (x, y) = F (x) +

y2
2 .

Exercice 13.3.5. Soit f : IRn IRn une fonction continue telle que toute
solution de lquation y = f (y), y(0) = y0 , reste sur une sphre de IRn , i.e.
t > 0

ky(t)k = ky(0)k.

1. Montrer que f (0) = 0.


2. Montrer que lorigine est asymptotiquement stable pour le systme x =
f (x) x.
Exercice 13.3.6 (Lemme de Lyapunov et applications).
1. (a) Soit A Mn (IR)
dont les valeurs propres sont de partie relle strictement ngative.
Montrer quil existe B Mn (IR) symtrique dfinie positive telle
que AT B + BA = Id. Z
+

(Indication : poser B =

etA etA dt)

13.3. STABILISATION DES SYSTMES NON LINAIRES

239

(b) En dduire que V (x) = hx, Bxi est une fonction de Lyapunov pour
lquation diffrentielle x = Ax, et que lorigine est asymptotiquement stable.
2. (a) Soit q : IRn IRn une fonction continue telle que q(x) = o(||x||).
Montrer que la fonction V prcdente est encore une fonction de
Lyapunov pour le systme x = Ax + q(x), et que lquilibre 0 est
asymptotiquement stable.
(b) Quel rsultat peut-on en dduire sur la stabilit des points fixes dun
systme autonome x = F (x), o F : IRn IRn est de classe C 1 ?

13.3.2

Stabilisation locale dun systme de contrle non


linaire

Considrons le systme de contrle non linaire


x(t)

= f (x(t), u(t)),
et soit (xe , ue ) un point dquilibre, i.e. f (xe , ue ) = 0. Le systme linaris en
ce point est
y(t)
= Ay(t) + Bv(t),
o
A=

f
f
(xe , ue ), B =
(xe , ue ).
x
u

Thorme 13.3.4. Si le systme linaris est stabilisable par le feedback v =


Ky, alors le point dquilibre (xe , ue ) est LAS pour le systme boucl
x(t)

= f (x(t), K(x(t) xe ) + ue ).
Exemple 13.3.1. On tablit quune condition ncessaire et suffisante sur K
pour stabiliser le pendule invers (cf exemple 5.2.1) localement autour du point
dquilibre ( = c , = 0, = 0, = 0) est
k4 k2 L > 0, k3 k1 L (m + M )g > 0, k1 > 0,
k2 ((k4 k2 L)(k3 k1 L (m + M )g) M Lgk2 ) > k1 (k4 k2 L)2 .
Mettons en oeuvre, en Matlab, sur cet exemple, diffrentes mthodes de
stabilisation.
function placementpole
%
%
%
%
%
%

Lexercice consiste \a stabiliser le systeme de controle suivant


(pendule invers\e)
xiddot = (m*L*thetadot^2*sin(theta)-m*g*cos(theta)*sin(theta)+u)/...
(M+m*sin(theta)^2)
thetaddot = (-m*L*thetadot^2*sin(theta)*cos(theta)+...

240
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%

CHAPITRE 13. STABILISATION DES SYSTMES DE CONTRLE

(M+m)*g*sin(theta)-u*cos(theta))/(L*(M+m*sin(theta)^2))
avec M masse du chariot,
m masse du pendule (tige sans masse),
L longueur de la tige,
au voisinage de sa position dequilibre instable
xi = xidot = theta =thetadot = 0.
Le systeme linearise en ce point est Xdot=AX+Bv avec
( 0 1
0
0 )
(
0
)
A = ( 0 0
-m*g/M
0 )
et B = (
1/M
) .
( 0 0
0
1 )
(
0
)
( 0 0 (M+m)*g/(L*M) 0 )
( -1/(L*M) )
Pour cela on va poser u=K*X, o\u K = ( k1 k2 k3 k4 ), et tester
plusieurs m\ethodes.
1. M\ethode directe : calculer \a laide de Maple le polynome
caract\eristique de la matrice A+B*K, puis en appliquant
le crit\ere de Routh d\eterminer une CNS sur K
pour que la matrice A+B*K soit Hurwitz.
Tester diff\erents feedbacks K.
Par identification des coefficients, d\eterminer un feedback
K permettant de placer
les poles exactement aux valeurs (-1,-1,-1,-1).
Tester tous les feedbacks ainsi d\etermin\es sur le syst\eme non
lin\eaire initial.
2. Utilisation des outils Matlab (Control Toolbox).
2.a. Utiliser la fonction Matlab "acker" pour placer les poles
exactement aux valeurs (-1,-1,-1,-1).
2.b. Utiliser la fonction Matlab "place" pour placer les poles
exactement aux valeurs (-1,-2,-3,-4).
(attention : il faut forc\ement prendre des poles distincts,
voir laide sur place)
2.c. Utiliser la fonction Matlab "lqr" pour stabiliser le syst\eme.
Tester ces diff\erents outils pour stabiliser le syst\eme non
lin\eaire initial.

% On prendra les valeurs num\eriques suivantes :


% M = 10 ; m = 1 ; L = 1 ; g = 10 ;
clear all ; close all ; clc ;
global M m L g ; M = 10 ; m = 1 ; L = 1 ; g = 10 ;
% 1. M\ethode directe. On calcule avec Maple :
% PolyCaract(A+B*K)(X) = X^4 + (k4-k2*L)/(M*L)*X^3 +
%
(k3-k1*L-(m+M)*g)/(M*L)*X^2
%
+ k2*g/(M*L)*X + k1*g/(M*L)

13.3. STABILISATION DES SYSTMES NON LINAIRES


%
%
%
%
%
%
%
%

241

et dapr\es le crit\ere de Routh on obtient la CNS suivante :


k4-k2*L>0, k3-k1*L-(m+M)*g>0, k1>0,
k2*((k4-k2*L)*(k3-k1*L-(m+M)*g)-M*L*g*k2) > k1*(k4-k2*L)^2.
(on peut remarquer que n\ecessairement k2>0)
Avec les valeurs num\eriques, cela donne :
k1>0, k3>k1+110, k4>k2, k2*((k4-k2)*(k3-k1-110)-100*k2) > k1*(k4-k2)^2.
Par exemple \c{c}a marche si k1=1, k2=1, k3=300, k4=2
(on peut fixer k1=1, k2=1, k4=2, et donner une in\egalit\e sur k3...)

k1=1 ; k2=1 ; k3=300 ; k4=2 ;


xinit = [0.5 0.2 0.4 1 ] ;
[t,x] = ode45(@systeme,[0 100],xinit,[],k1,k2,k3,k4) ;
figure ; subplot(2,2,1) ; plot(t,x(:,1)) ; title(xi) ;
subplot(2,2,2) ; plot(t,x(:,2)) ; title(xidot) ;
subplot(2,2,3) ; plot(t,x(:,3)) ; title(theta) ;
subplot(2,2,4) ; plot(t,x(:,4)) ; title(thetadot) ;
% Pour avoir les poles exactement aux valeurs (-1,-1,-1,-1),
% on r\esout le syst\eme lin\eaire
%
(k4-k2)/10 = 4
%
(k3-k1-110)/10 = 6
%
k2 = 4
%
k1 = 1
% do\u k1=1, k2=4, k3=171, k4=44.
k1=1 ; k2=4 ; k3=171 ; k4=44 ;
xinit = [0.5 0.2 0.4 1 ] ;
[t,x] = ode45(@systeme,[0 20],xinit,[],k1,k2,k3,k4) ;
figure ; subplot(2,2,1) ; plot(t,x(:,1)) ; title(xi) ;
subplot(2,2,2) ; plot(t,x(:,2)) ; title(xidot) ;
subplot(2,2,3) ; plot(t,x(:,3)) ; title(theta) ;
subplot(2,2,4) ; plot(t,x(:,4)) ; title(thetadot) ;

% 2. Utilisation des outils Matlab


% D\efinition des matrices A et B
A = [ 0 1
0
0
0 0
-m*g/M
0
0 0
0
1
0 0 (M+m)*g/(L*M) 0 ] ;
B = [ 0 ; 1/M ; 0 ; -1/(L*M) ] ;
% 2.a. Utilisation de acker
K = acker(A,B,[-1 -1 -1 -1]) ;
k1=-K(1) ; k2=-K(2) ; k3=-K(3) ; k4=-K(4) ;

242

CHAPITRE 13. STABILISATION DES SYSTMES DE CONTRLE

xinit = [0.5 0.2 0.4 1 ] ;


[t,x] = ode45(@systeme,[0 20],xinit,[],k1,k2,k3,k4) ;
figure ; subplot(2,2,1) ; plot(t,x(:,1)) ; title(xi) ;
subplot(2,2,2) ; plot(t,x(:,2)) ; title(xidot) ;
subplot(2,2,3) ; plot(t,x(:,3)) ; title(theta) ;
subplot(2,2,4) ; plot(t,x(:,4)) ; title(thetadot) ;
% 2.b. Utilisation de place
K = place(A,B,[-1 -2 -3 -4]) ;
k1=-K(1) ; k2=-K(2) ; k3=-K(3) ; k4=-K(4) ;
xinit = [0.5 0.2 0.4 1 ] ;
[t,x] = ode45(@systeme,[0 20],xinit,[],k1,k2,k3,k4) ;
figure ; subplot(2,2,1) ; plot(t,x(:,1)) ; title(xi) ;
subplot(2,2,2) ; plot(t,x(:,2)) ; title(xidot) ;
subplot(2,2,3) ; plot(t,x(:,3)) ; title(theta) ;
subplot(2,2,4) ; plot(t,x(:,4)) ; title(thetadot) ;
% 2.c. Utilisation de lqr
[K,S,e] = lqr(A,B,eye(4),1) ;
k1=-K(1) ; k2=-K(2) ; k3=-K(3) ; k4=-K(4) ;
xinit = [0.5 0.2 0.4 1 ] ;
[t,x] = ode45(@systeme,[0 30],xinit,[],k1,k2,k3,k4) ;
figure ; subplot(2,2,1) ; plot(t,x(:,1)) ; title(xi) ;
subplot(2,2,2) ; plot(t,x(:,2)) ; title(xidot) ;
subplot(2,2,3) ; plot(t,x(:,3)) ; title(theta) ;
subplot(2,2,4) ; plot(t,x(:,4)) ; title(thetadot) ;
% --------------------------------------------------------------function xdot = systeme(t,x,k1,k2,k3,k4)
global M m L g ;
xi = x(1) ; xidot = x(2) ; theta = x(3) ; thetadot = x(4) ;
u = k1*xi + k2*xidot + k3*theta + k4*thetadot ;
xdot = [ xidot
(m*L*thetadot^2*sin(theta)-m*g*cos(theta)*sin(theta)+u)/...
(M+m*sin(theta)^2)
thetadot
(-m*L*thetadot^2*sin(theta)*cos(theta)+...
(M+m)*g*sin(theta)-u*cos(theta))/ (L*(M+m*sin(theta)^2)) ] ;
Les rsultats sont reprsents sur les figures 13.1 pour la mthode directe
(question 1), et 13.2 pour lutilisation de place.m (question 2.b). On peut constater lefficacit de cette dernire procdure.

13.3. STABILISATION DES SYSTMES NON LINAIRES


xi

243

xidot

2
0
0
2

4
6

20

40

60

80

100

20

theta

40

60

80

100

80

100

thetadot

0.6

0.4

0.2
0
0
1
0.2
2

0.4
0.6

20

40

60

80

100

20

40

60

Figure 13.1 Mthode directe

Exercice 13.3.7. On considre le systme de contrle


x(t)

= f (x(t)) + u(t)g(x(t)),
o ltat x et le contrle u sont des rels, les fonctions f et g sont de classe C ,
et f (0) = 0. On suppose que le point dquilibre (x = 0, u = 0) est globalement
asymptotiquement stabilisable au sens suivant : il existe un contrle feedback
u(x) de classe C , avec u(0) = 0, et une fonction de Lyapunov globale stricte
V pour le systme boucl x = f (x) + u(x)g(x) au point dquilibre x = 0.
On considre alors le systme augment
(

x(t)

= f (x(t)) + y(t)g(x(t)),
y(t)
= v(t),

o v est le nouveau contrle. En considrant la fonction


1
W (x, y) = V (x) + (y u(x))2 ,
2
montrer que le feedback
v(x, y) =

u
V
(x)(f (x) + yg(x))
(x)g(x) (y u(x))
x
x

rend le point dquilibre (x = 0, y = 0, v = 0) asymptotiquement stable pour le


systme augment.

244

CHAPITRE 13. STABILISATION DES SYSTMES DE CONTRLE


xi

xidot

10

10

15

20

theta

10

15

20

15

20

thetadot

0.6

0.4
0.5
0.2
0

0.2
0.5
0.4
0.6

10

15

20

10

Figure 13.2 Utilisation de place.m

13.3.3

Stabilisation asymptotique par la mthode de JurdjevicQuinn

Proposition 13.3.5. On considre le systme affine lisse dans IRn


x(t)

= f (x(t)) +

m
X

ui (t)gi (x(t)),

i=1

avec f (
x) = 0. Supposons quil existe une fonction V : IRn IR+ telle que
V (
x) = 0 et x 6= x
V (x) > 0,
V est propre,
x IRn Lf V (x) = hV (x), f (x)i 6 0,
{x IRn | Lf V (x) = 0 et Lkf Lgi V (x) = 0, i {1, . . . , n}, k IN} =
{
x}.

Alors le feedback ui (x) = Lgi V (x), i = 1, . . . , m, rend le point dquilibre x


globalement asymptotiquement stable.
Pm
Dmonstration. Soit F (x) = f (x) i=1 Lgi V (x)gi (x) la dynamique du systme boucl. Notons tout dabord que F (
x) = 0, i.e. x est un point dquilibre
pour le systme boucl. En effet, V est lisse et atteint son minimum en x, donc
x) = 0 pour i = 1, . . . , m ; de plus, f (
x) = 0. On a
V (
x) = 0, do Lgi V (
LF V (x) = hV (x), F (x)i = Lf V (x)

m
X

(Lgi V (x))2 6 0,

i=1

et si LF V (x(t)) = 0 pour tout t, alors


Lf V (x(t)) = 0 et Lgi V (x(t)) = 0, i = 1, . . . , m.

13.3. STABILISATION DES SYSTMES NON LINAIRES

245

Par drivation,

d
Lg V (x(t)) = Lf Lgi V (x(t)),
dt i
puisque Lgi V (x(t)) = 0. Do, clairement,
0=

i {1, . . . , m} k IN Lkf Lgi V (x(t)) = 0.


On en dduit que x(t) = x, et la conclusion sensuit par le principe de Lasalle.
Exercice 13.3.8 (Systme prdateurs-proies). Considrons le systme prdateursproies contrl
x = x(1 y) + u,
y = y(1 x).
Pour le point dquilibre (x = 1, y = 1), montrer que la fonction V (x, y) =
1
xy
vrifie les hypothses de la proposition prcdente, et en dduire
e2 xye
un feedback stabilisant globalement ce point dquilibre.

246

CHAPITRE 13. STABILISATION DES SYSTMES DE CONTRLE

Chapitre 14

Observabilit des systmes de


contrle
Dans tout le chapitre, on se limite au cas linaire autonome
x(t)

= Ax(t) + Bu(t),
y(t) = Cx(t) + Du(t),

(14.1)

o x(t) IRn , u(t) IRm , y(t) IRp , A Mn (IR), B Mn,m (IR), C


Mp,n (IR) et D Mp,m (IR). Dans toute la suite, on peut supposer que D = 0,
cela ne change rien aux rsultats qui suivent.

14.1

Dfinition et critres dobservabilit

Notons (xu (t, x0 ), yu (t, x0 )) la solution de (14.1) telle que xu (0, x0 ) = x0 .


Dfinition 14.1.1. Le systme (14.1) est observable en temps T si
x1 , x2 IRn

x1 6= x2 u L ([0, T ], IRm ) | yu (, x1 ) 6= yu (, x2 )

(dans ce cas on dit que x1 et x2 sont distinguables).


Autrement dit, si x1 et x2 sont distinguables sil existe un contrle tel que
les trajectoires observes diffrent. De manire quivalente, on peut dire
x1 , x2 IRn

u L ([0, T ], IRm ) yu (, x1 ) = yu (, x2 ) x1 = x2 ,

i.e. , la connaissance de la trajectoire observe dtermine de manire univoque


ltat initial.
Lintrt de la notion dobservabilit est le suivant. Si on considre le systme
comme une bote noire laquelle on applique une entre (contrle, input ) u(t),
et de laquelle merge une sortie (observable, output ) y(t), la proprit dtre
247

248

CHAPITRE 14. OBSERVABILIT DES SYSTMES DE CONTRLE

distinguable signifie la possibilit de diffrentier par des expriences de type


entre-sortie.
On est aussi motiv par la stabilisation. En effet, on a vu comment stabiliser
un systme par retour dtat. Or il peut savrer coteux de mesurer ltat complet dun systme. On peut alors se demander si la connaissance partielle de cet
tat permet de reconstituer ltat complet (cest la proprit dobservabilit), et
de stabiliser le systme entier : cest la stabilisation par retour dtat dynamique,
ou synthse rgulateur-observateur.
Thorme 14.1.1. Le systme (14.1) est observable (en temps T quelconque)
si et seulement si

C
CA

rang . = n.
..
CAn1

Dmonstration. Faisons une dmonstration directe de ce thorme. On montre


dabord le lemme fondamental suivant.
Lemme 14.1.2. Le systme (14.1) est observable en temps T si et seulement
si, pour le systme observ x = Ax, y = Cx, x(0) = x0 , on a
x0 6= 0 y() 6 0 sur [0, T ].
Preuve du lemme. Le systme (14.1) est observable en temps T si et seulement
si


x1 6= x2 u L ([0, T ], IRm ) | yu (, x1 ) 6= yu (, x2 ) sur [0, T ]

x1 6= x2 u L ([0, T ], IRm ) t [0, T ] |
Z t
Z t


CetA x1 + CetA
esA Bu(s)ds 6= CetA x2 + CetA
esA Bu(s)ds
0
0


tA
x0 = x1 x2 6= 0 t [0, T ] | Ce x0 6= 0


x0 6= 0 y() 6 0 sur [0, T ] pour le systme x = Ax, y = Cx, x(0) = x0
On est maintenant en mesure de montrer le thorme.
Si (14.1) nest pas observable en temps T , alors
x0 6= 0 | t [0, T ] y(t) = 0,
i.e.
t [0, T ] CetA x0 = 0.

Do, par drivations sucessives, et en prenant t = 0,


Cx0 = CAx0 = = CAn1 x0 = 0,

14.1. DFINITION ET CRITRES DOBSERVABILIT


i.e.

C
CA
..
.

x0 = 0,

n1
CA

rang

et donc

249

C
CA
..
.
CAn1

< n.

Rciproquement, si le rang de cette matrice est strictement infrieur n, alors


il existe x0 6= 0 tel que
Cx0 = CAx0 = = CAn1 x0 = 0,
et donc par le thorme dHamilton-Cayley,
t IR CetA x0 = 0,
et par consquent le systme (14.1) nest pas observable.
Remarque 14.1.1. Pour un systme linaire autonome, lobservabilit a lieu en
temps quelconque si elle a lieu en temps T .
Remarque 14.1.2. La notion dobservabilit pour un systme linaire autonome
ne dpend pas de la matrice B.
Remarque 14.1.3. On a

C
CA


rang . = n rang C T
..

AT C T

CAn1


T
An1 C T = n,

et par consquent, le systme x = Ax + Bu, y = Cx est observable si et seulement si le systme x = AT x + C T u est contrlable. Cest la dualit contrlabilit/observabilit. Ce fait, trs important, permet de transfrer aux systmes
observs tous les rsultats tablis sur les systmes contrls.
On aurait pu prouver cette quivalence directement en utilisant lapplication
entre-sortie, et en remarquant quune application linaire E : L2 IRn est
surjective si et seulement si lapplication adjointe E : IRn L2 est injective.
Corollaire 14.1.3. Le systme (14.1) est observable en temps T si et seulement
si la matrice
Z
T

O(T ) =

esA C T CesA ds

est inversible.

Dfinition 14.1.2 (Similitude). Les systmes


(
(
x 1 = A1 x1 + B1 u1
x 2 = A2 x2 + B2 u2
et
y1 = C1 x1
y2 = C2 x2

250

CHAPITRE 14. OBSERVABILIT DES SYSTMES DE CONTRLE

sont dits semblables sil existe une matrice P GLn (IR) telle que
A2 = P A1 P 1 , B2 = P B2 , C2 = C1 P 1
(et dans ce cas on a x2 = P x1 , u2 = u1 , y2 = y1 ).
Proposition 14.1.4. Tout systme x = Ax + Bu, y = Cx, est semblable un
x + Bu,
y = C x, avec
systme x
= A


A1 0

, C = (C1 0),
A=
A2 A3
i.e.

1 u
1 = A1 x
1 + B

x
2 u
x
2 = A2 x
1 + A3 x2 + B

y1 = C1 x
1

partie non observable

et la paire (A1 , C1 ) est observable.

Dmonstration. Il suffit dappliquer le rsultat vu en contrlabilit au systme


x = AT x + C T u.
Dfinition 14.1.3. Dans cette dcomposition, les valeurs propres de
appeles modes propres inobservables de A, et les valeurs propres de
dites modes propres observables de A.

A3 sont
A1 sont

Proposition 14.1.5 (Forme de Brunovski, cas p = 1). Dans le cas p = 1, le


systme x = Ax + Bu, y = Cx, est observable si et seulement sil est semblable
au systme x 1 = A1 x1 + B1 u, y = C1 x1 , avec

0
0 an
1 0

.
..
..
..
, C1 = (0 0 1).
.
.
0
A1 =

.
.. 0
..

0
0 1 a1
Exercice 14.1.1 (Ressort). Le systme m
x + kx = u est-il observable
avec y = x ?
avec y = x ?

Exercice 14.1.2 (Amortisseurs dune voiture). Le systme


(
x1 = k1 x1 d1 x 1 + l1 u,
x2 = k2 x2 d2 x 2 + l2 u.

est-il observable
avec y1 = x1 , y2 = x2 ?

14.2. STABILISATION PAR RETOUR DTAT STATIQUE

251

avec y = x1 ?
avec y1 = x1 , y2 = x 2 ?
Exercice
vable
avec
avec
avec

14.1.3. Le pendule invers linaris (cf exemple 5.2.1) est-il obser-

14.2

Stabilisation par retour dtat statique

y = ?
y = ?
y1 = , y2 = ?

On peut se demander si, tant donn un systme contrlable et observable


x = Ax + Bu, y = Cx, il existe un feedback u = Ky stabilisant le systme,
i.e. si la matrice A + BKC est Hurwitz.
La rponse est NON. Pour le voir, considrons les matrices


 
0 1
0
A=
, B=
, C = (1 0).
0 0
1
Le systme x = Ax + Bu, y = Cx, est trivialement contrlable et observable.
Pourtant, pour toute matrice scalaire K = (k), la matrice


0 1
A + BKC =
k 0
nest pas Hurwitz.
En conclusion, un feedback par retour dtat statique ne suffit pas en gnral.
Cest pourquoi, dans la suite, on va voir comment construire un retour dtat
dynamique.

14.3

Observateur asymptotique de Luenberger

Motivation : supposons que le systme x = Ax + Bu, y = Cx, soit observable. Le but est de construire un observateur asymptotique x
() de x(), i.e. une
fonction dynamique x() de lobservable y(), telle que x
(t) x(t) 0. Lide
t+

est de copier la dynamique du systme observ et dy ajouter un correctif en


tenant compte de lcart entre la prdiction et la ralit.

Dfinition 14.3.1. Un observateur asymptotique (ou observateur de Luenberger ) x


() de x() est une solution dun systme du type
x
(t) = A
x(t) + Bu(t) + L(C x
(t) y(t)),
o L Mn,p (IR) est appele matrice de gain, telle que
x(0), x(0) IRn

x
(t) x(t) 0.
t+

252

CHAPITRE 14. OBSERVABILIT DES SYSTMES DE CONTRLE

Remarque 14.3.1. Introduisons e(t) = x


(t) x(t), lerreur entre la prdiction
x
() et ltat rel x(). On a
e(t)
= (A + LC)e(t),
et donc e(t) 0 pour toute valeur initiale e(0) si et seulement si la matrice
t+

A + LC est Hurwitz. Construire un observateur asymptotique revient donc


dterminer une matrice de gain L telle que A + LC soit Hurwitz. Ainsi, de
manire duale au thorme de placement de ples, on a le rsultat suivant.

Thorme 14.3.1 (Thorme de placement des modes propres de lobservateur). Si la paire (A, C) est observable, alors le systme admet un observateur
asymptotique (i.e. on peut construire une matrice de gains L telle que A + LC
soit Hurwitz).
Dmonstration. La paire (AT , C T ) tant contrlable, daprs le thorme de
placement de ples il existe une matrice LT telle que la matrice AT + C T LT
soit Hurwitz.

14.4

Stabilisation par retour dynamique de sortie

On a vu comment construire
un rgulateur (feedback) pour un systme contrlable,
un observateur asymptotique pour un systme observable.
Il semble naturel, pour un systme contrlable et observable, de construire un
rgulateur en fonction de lobservateur asymptotique de ltat : cest ltape de
synthse rgulateur-observateur .
Dfinition 14.4.1. On appelle feedback dynamique de sortie, ou observateurrgulateur, le feedback u = K x
, o
x = A
x + Bu + L(C x
y).
Thorme 14.4.1 (Thorme de stabilisation par retour dynamique de sortie).
Si le systme x = Ax + Bu, y = Cx, est contrlable et observable, alors il est
stabilisable par retour dynamique de sortie, i.e. il existe des matrices de gain
K Mm,n (IR) et L Mn,p (IR) telles que les matrices A + BK et A + LC
soient Hurwitz, et alors le systme boucl
x = Ax + BK x

x
= (A + BK + LC)
x Ly
est asymptotiquement stable.
Dmonstration. Posons e = x
x. Alors
  
d x
A + BK
=
0
dt e

BK
A + LC

 
x
,
e

14.4. STABILISATION PAR RETOUR DYNAMIQUE DE SORTIE

253

et donc ce systme est asymptotiquement stable si et seulement si les matrices


A + BK et A + LC sont Hurwitz, ce qui est possible avec les proprits de
contrlabilit et dobservabilit.
Dfinition 14.4.2. Les valeurs propres de A + BK sont dites modes propres
du rgulateur, et les valeurs propres de A + LC sont dites modes propres de
lobservateur.
Application la stabilisation locale dun systme non linaire par
retour dynamique de sortie.
Considrons le systme non linaire
x(t)

= f (x(t), u(t))
y(t) = g(x(t))
Soit (xe , ue ) un point dquilibre, i.e. f (xe , ue ) = 0. Le systme linaris en
(xe , ue ) scrit
x(t)

= Ax(t) + Bu(t)
y(t) = Cx(t)
avec

f
f
g
(xe , ue ), B =
(xe , ue ), C =
(xe ).
x
u
x
Daprs le thorme de linarisation, on obtient le rsultat suivant.
A=

Thorme 14.4.2. Si le systme linaris est contrlable et observable, alors


il existe des matrices de gains K et L telles que les matrices A + BK et A + LC
soient Hurwitz, et alors le contrle u = ue + K
x, o
x
= (A + BK + LC)
x L(y g(xe )),
stabilise localement le systme au voisinage du point dquilibre (xe , ue ).
Exercice 14.4.1 (Problme dexamen). On considre un mlangeur dans lequel
arrivent un mme produit, par deux entres diffrentes, avec des concentrations
respectives c1 et c2 (constantes), et des dbits u1 (t) et u2 (t). Le volume dans le
mlangeur est
p not V (t) et la concentration du produit c(t). Le dbit en sortie
est d(t) = V (t), o est une constante. Les contrles sont u1 (t) et u2 (t).
1. Par un bilan volume-matire, tablir que

V (t) = u1 (t) + u2 (t) d(t),


dt

d (c(t)V (t)) = c u (t) + c u (t) c(t)d(t),


1 1
2 2
dt
puis que

V (t) = u1 (t) + u2 (t) V (t),


1

((c1 c(t))u1 (t) + (c2 c(t))u2 (t)) .


=
c(t)
V (t)

254

CHAPITRE 14. OBSERVABILIT DES SYSTMES DE CONTRLE


Le but est de stabiliser le systme des dbits constants en entre et en
sortie, une concentration constante en sortie, et un volume constant,
i.e. on veut que, lorsque t tend vers +,
u1 (t) u01 , u2 (t) u02 , d(t) d0 , c(t) c0 , V (t) V 0 .

2. (a) Montrer que


(

u01 + u02 = d0 = V 0 ,

c1 u01 + c2 u02 = c0 d0 = c0 V 0 .

(b) Montrer que le systme linaris au point dquilibre (V 0 , c0 , u01 , u02 )


est donn par les matrices




0
1
1
,
A=
, B=
0 2
1 2

c1 c0
c2 c0
avec = , 1 =
et 2 =
.
0
V
V0
2 V0
(c) Montrer que ce systme linaris est contrlable.

k1
(d) Enoncer et dmontrer une condition suffisante sur K =
k3
pour que le systme boucl par le feedback
 0


u1
V V0
u=
+
K
u02
c c0

k2
k4

soit localement asymptotiquement stable en ce point dquilibre.


(e) Construire un tel feedback plaant les ples en 1.
3. On observe en sortie la quantit y(t) = c(t)V (t).
(a) Ecrire le systme linaris observ au point dquilibre prcdent, et
montrer quil est observable.
(b) Expliquer soigneusement comment effectuer une stabilisation locale
en ce point par retour dtat dynamique, en utilisant lobservable prcdente. On donnera notamment des conditions ncessaires et suffisantes sur les matrices de gain assurant la stabilisation.
Exercice 14.4.2 (Problme dexamen). On considre un systme mcanique
plan form dun rail (reprsent par un segment) et dun chariot, assimil un
point matriel de masse m, roulant sans frottement sur le rail. Le rail tourne
autour du point O. Soit langle que fait le rail avec laxe horizontal, et x
labscisse du chariot sur le rail (distance entre O et le chariot). Soit J le moment
dinertie du rail par rapport O, et g lacclration de la pesanteur. Le contrle
est le couple u exerc sur le rail (voir figure 14.1).
1. (a) Montrer que le Lagrangien du systme scrit
= 1 J 2 + 1 m(x 2 + x2 2 ) mgx sin .
L(x, x,
, )
2
2

14.4. STABILISATION PAR RETOUR DYNAMIQUE DE SORTIE

255

x
m

Figure 14.1 Chariot sur rail


(b) En dduire que les quations du systme mcanique sont

2 g sin (t)
(t) = x(t)(t)
x


1
=
mgx(t) cos (t) .
(t)
u(t)

2mx(t)
x(t)

(t)
J + mx(t)2

2.
3.
4.

5.

6.

(c) En posant y = x,
= , et X = (x, y, , ), mettre ce systme sous

forme dun systme de contrle (S) de la forme X(t)


= f (X(t), u(t)).
Dterminer les points dquilibre (Xe , ue ) du systme de contrle (S).
Ecrire le systme linaris autour du point dquilibre (Xe , ue ) = (0, 0), et
montrer quil est contrlable.
(a) Enoncer et dmontrer une condition suffisante sur K = (k1 , k2 , k3 , k4 )
pour que le systme boucl par le feedback u = KX soit localement
asymptotiquement stable en ce point dquilibre.
(b) Construire un tel feedback plaant les ples en 1.
(a) Le systme linaris est-il observable si on observe y = x ?
(b) Est-il possible de stabiliser le systme en (0, 0) par le retour dtat
statique u = ky ?
Expliquer soigneusement comment effectuer une stabilisation en (0, 0) par
retour dtat dynamique, en utilisant lobservable prcdente. On donnera
notamment des conditions ncessaires et suffisantes sur les matrices de
gain assurant la stabilisation.

Exercice 14.4.3 (Problme dexamen). On considre un systme mcanique


plan form de deux pendules de masse m, coupls par un ressort de raideur k, et
ayant un angle i , i = 1, 2, avec la verticale. Pour simplifier, on suppose que les
tiges, de longueur l, des pendules, sont de masse nulle, et que, en approximation,
laxe du ressort reste horizontal au cours du mouvement. On note g lacclration
de la pesanteur. Le contrle est une force u horizontale exerce sur le pendule
de droite.
Avec lapproximation prcdente, les quations du systme mcanique sont
( 2
ml 1 (t) = ka2 (sin 2 (t) sin 1 (t)) cos 1 (t) mgl sin 1 (t)
ml2 2 (t) = ka2 (sin 1 (t) sin 2 (t)) cos 2 (t) mgl sin 2 (t) + u(t) cos 2 (t)

256

CHAPITRE 14. OBSERVABILIT DES SYSTMES DE CONTRLE

a
k
l
2

u
m

1. En posant i = i , i = 1, 2, et X = (1 , 1 , 2 , 2 ), mettre ce systme sous

forme dun systme de contrle (S) de la forme X(t)


= f (X(t), u(t)).
Montrer que (Xe , ue ) = (0, 0) est un point dquilibre du systme.
Dans la suite du problme, on pose
=

g
1
ka2
ka2
+ , =
, =
.
2
ml
l
ml2
ml2

2. Ecrire le systme linaris autour du point dquilibre (Xe , ue ) = (0, 0), et


montrer quil est contrlable.
3. (a) Dmontrer quune condition suffisante sur K = (k1 , k2 , k3 , k4 ) pour
que le systme (S) boucl par le feedback u = KX soit localement
asymptotiquement stable en ce point dquilibre est
k4 < 0, k3 <

2
, k1 + k3 + 2 < 2 ,

(k4 +k2 )(k4 (2k3 )+(k4 +k2 )) < k42 (k3 + 2 2 +k1 ).
(b) Construire un tel feedback plaant les ples en 1.

4. (a) Le systme linaris est-il observable si on observe y = 1 ?


(b) Est-il possible de stabiliser le systme en (0, 0) par le retour dtat
statique u = k0 y ?
(c) Expliquer soigneusement comment effectuer une stabilisation en (0, 0)
par retour dtat dynamique, en utilisant lobservable prcdente. On
donnera notamment des conditions suffisantes sur les matrices de gain
assurant la stabilisation.
Exercice 14.4.4 (Problme dexamen). On considre un systme de suspension
magntique, o une boule magntique de masse m est maintenue en lvitation

14.4. STABILISATION PAR RETOUR DYNAMIQUE DE SORTIE

257

par un lectroaimant reli un circuit lectrique, de rsistance R. Le contrle u


est la tension aux bornes de ce circuit. On note x1 > 0 la position verticale de la
boule, avec, par convention, x1 = 0 lorsque la boule repose sur llectroaimant
(en labsence de courant). On note x3 lintensit traversant le circuit lectrique.
Linductance lectromagntique est modlise par
L(x1 ) = L1 +

L0
,
1 + xa1

o L0 , L1 et a sont des constantes positives. La force lectromagntique (verticale) engendre par llectroaimant est alors
F (x1 , x3 ) =

L0 ax23
.
2(a + x1 )2

Enfin, la boule est aussi soumise une force de friction k x 1 , o k > 0.

x1
R
u
m

lectroaimant

Les quations du systme sont

x 1 = x2

L0 ax23

x 2 = g k x2
m
2m(a + x1 )2



L0 ax2 x3
1

Rx
+
x

=
+
u
3

3
(a + x1 )2
L1 + 1+L0x1
a

1. (a) En posant x = (x1 , x2 , x3 )T , mettre ce systme sous forme dun systme de contrle (S) de la forme x(t)

= f (x(t), u(t)).
(b) Montrer que les points dquilibre (xe , ue ) du systme sont de la forme
((r, 0, i), ue ), o r > 0, et
r
2mg
, ue = Ri.
i = (a + r)
L0 a

258

CHAPITRE 14. OBSERVABILIT DES SYSTMES DE CONTRLE


Dans la suite du problme, on pose
=

1
L0 ai
, =
.
L0
(a + r)2
L1 + 1+
r
a

Le but est de stabiliser le systme en un point dquilibre (xe , ue ) =


((r, 0, i), ue ). On prendra les valeurs numriques suivantes :
m = 0.1 kg, k = 0.001 N.m1 .s1 , g = 9.81 m.s2 , a = 0.05 m,
L0 = 0.01 H, L1 = 0.02 H, R = 1 , r = 0.05 m.
2. (a) Montrer que le systme linaris autour du point dquilibre (xe , ue )
scrit x(t)

= Ax(t) + Bu(t), avec


0
1
0
0
i
k

m
m
A = m(a+r)
, B = 0 ,

0
R
et montrer quil est contrlable (en temps quelconque).

(b) Ce systme linaris est-il stable en labsence de contrle ? Quen


dduire pour le systme (S) ?
3. (a) Dmontrer quune condition suffisante sur K = (k1 , k2 , k3 ) pour que
le systme (S) boucl par le feedback u = ue + K(x xe ) soit localement asymptotiquement stable en ce point dquilibre est
k1 >

i
,
a+r

k3 < R +

k
,
m




k
i
i
R +
Rk + 2
k3
+ k2 kk3 > k1 +
.
m
(a + r)
a+r
(b) Construire un tel feedback plaant les ples en 1.

4. (a) Le systme linaris est-il observable si on observe y = x1 ?


(b) Est-il possible de stabiliser le systme en (xe , ue ) par le retour dtat
statique u = k0 y ?
(c) Expliquer soigneusement comment stabiliser (S) en (xe , ue ) par retour dtat dynamique, en utilisant lobservable prcdente. On donnera notamment des conditions suffisantes sur les matrices de gain
assurant la stabilisation.

Bibliographie
[1] H. Abou-Kandil, G. Freiling, V. Ionescu, G. Jank, Matrix Riccati equations, Control and systems theory, Systems & Control : Foundations &
Applications, Birkhuser Verlag, Basel, 2003.
[2] A. Agrachev, Y. Sachkov, Control theory from the geometric viewpoint,
Encyclopaedia of Mathematical Sciences, 87, Control Theory and Optimization, II, Springer-Verlag, Berlin, 2004.
[3] B. D. Anderson, J. B. Moore, Optimal filtering, Prentice hall, Englewood
Cliffs, 1979.
[4] B. dAndra-Novel, M. Cohen de Lara, Cours dAutomatique, commande
linaire des systmes dynamiques, les Presses, Ecole des Mines de Paris,
2000.
[5] V. I. Arnold, Mthodes mathmatiques pour la mcanique classique, Editions Mir, Moscou, 1976.
[6] A. Avez, Calcul diffrentiel, Masson, Paris, 1983.
[7] M. Bardi, I. Capuzzo-Dolcetta, Optimal control and viscosity solutions of
Hamilton-Jacobi-Bellman equations, Birkhuser, Inc., Boston, 1997.
[8] G. Barles, Solutions de viscosit des quations de Hamilton-Jacobi, Math.
& Appl. 17, Springer-Verlag, 1994.
[9] A. Bensoussan, Filtrage optimal des systmes linaires, Dunod, Paris, 1971.
[10] M. Bergounioux, Optimisation et contrle des systmes linaires, Dunod,
Collection Sciences Sup, 2001.
[11] J.T. Betts, Practical methods for optimal control and estimation using nonlinear programming, Second edition, Advances in Design and Control, 19,
SIAM, Philadelphia, PA, 2010.
[12] O. Bolza, Calculus of variations, Chelsea Publishing Co., New York, 1973.
[13] B. Bonnard, M. Chyba, The role of singular trajectories in control theory,
Math. Monograph, Springer-Verlag, 2003.
[14] B. Bonnard, L. Faubourg, E. Trlat, Optimal control of the atmospheric
arc of a space shuttle and numerical simulations by multiple-shooting techniques, Math. Models Methods Applied Sci. 2, 15, 2005.
259

260

BIBLIOGRAPHIE

[15] B. Bonnard, L. Faubourg, G. Launay, E. Trlat, Optimal control with state


constraints and the space shuttle re-entry problem, Journal of Dynamical
and Control Systems, Vol. 9, no. 2, 2003, 155199.
[16] B. Bonnard, I. Kupka, Generic properties of singular trajectories, Annales
de lIHP, Analyse non linaire, Vol. 14, no. 2, 167186, 1997.
[17] B. Bonnard, E. Trlat, Une approche gomtrique du contrle optimal de
larc atmosphrique de la navette spatiale, ESAIM Cont. Opt. Calc. Var.,
Vol. 7, 2002, 179222.
[18] U. Boscain, B. Piccoli, Optimal syntheses for control systems on 2-D Manifolds, Springer SMAI series, Vol. 43, 2004.
[19] H. Brezis, Analyse fonctionnelle, thorie et applications, Masson, Paris,
1983.
[20] R. Brockett, Finite dimensional linear systems, Wiley, New York, 1973.
[21] A. E. Bryson, Y. C. Ho, Applied optimal control, Hemisphere Publishing
Corp. Washington, D.C., 1975.
[22] F. Clarke, Optimization and nonsmooth analysis, Canadian Mathematical
Society Series of Monographs and Advanced Texts, John Wiley & Sons,
Inc., New York, 1983.
[23] M. G. Crandall, P. L. Lions, Viscosity solutions of Hamilton-Jacobi equations, Trans. Amer. Math. Soc. 277, 1983, 142.
[24] M. Crouzeix, A. Mignot, Analyse numrique des quations diffrentielles,
Collection Mathmatiques Appliques pour la Matrise, Masson, Paris,
1984.
[25] L. C. Evans, Partial differential equations, Amer. Math. Soc., Providence,
RI, 1998.
[26] P. Faurre, M. Depeyrot, Elments dautomatique, Dunod, 1974.
[27] P. Faurre, M. Robin, Elments dautomatique, Dunod, 1984.
[28] H. Federer, Geometric measure theory, Die Grundlehren der mathematischen Wissenschaften, Band 153, Springer-Verlag, New York Inc., 1969.
[29] R. Fletcher, Practical Methods of Optimization, Vol. 1, Unconstrained Optimization, and Vol. 2, Constrained Optimization, John Wiley and Sons,
1980.
[30] B. Friedland, Control system design, Mac Graw-Hill, New York, 1986.
[31] R. V. Gamkrelidze, Discovery of the maximum principle, Journal of Dynamical and Control Systems, Vol. 5, no. 4, 1999, 437-451.
[32] J.-P. Gauthier, Y. Kupka, Deterministic observation theory and applications, Cambridge University Press, Cambridge, 2001.
[33] P. E. Gill, W. Murray, M. H. Wright, Practical Optimization, London,
Academic Press, 1981.
[34] W. Grimm, A. Markl, Adjoint estimation from a direct multiple shooting
method, J. Opt. Theory Appl. 92, no. 2, 1997, 262283.

BIBLIOGRAPHIE

261

[35] J. Harpold, C. Graves, Shuttle entry guidance, Journal of Astronautical


Sciences, Vol. 27, pp. 239268, 1979.
[36] R. F. Hartl, S. P. Sethi, R. G. Vickson, A survey of the maximum principles
for optimal control problems with state constraints, SIAM Review 37, no.
2, 1995, 181218.
[37] H. Hermes, J.P. LaSalle, Functional analysis and time optimal control, Mathematics in Science and Engineering, Vol. 56, Academic Press, New YorkLondon, 1969.
[38] L. M. Hocking, Optimal control, an introduction to the theory with applications, Oxford Applied Mathematics and Computing Science Series, 1991.
[39] A. D. Ioffe, V. M. Tihomirov, Theory of extremal problems, Studies
in Mathematics and its Applications, 6, North-Holland Publishing Co.,
Amsterdam-New York, 1979.
[40] A. Isidori, Nonlinear control systems, Third edition, Communications and
Control Engineering Series, Springer-Verlag, Berlin, 1995.
[41] A. Isidori, Nonlinear control systems, II, Communications and Control Engineering Series, Springer-Verlag London, Ltd., London, 1999.
[42] D. Jacobson, D. Lele, J. L. Speyer, New necessary conditions of optimality
for control problems with state-variable inequality constraints, Journal of
Mathematical Analysis and Applications, Vol. 35, pp. 255284, 1971.
[43] V. Jurdjevic, Geometric control theory, Cambridge university press, 1997.
[44] T. Kailath, Linear Systems, Prentice-Hall, 1980.
[45] J. Kautsky, N. K. Nichols, Robust pole assignment in linear state feedback,
Int. J. Control, 41, 1985, 11291155.
[46] H. K. Khalil, Nonlinear systems, Macmillan Publishing Company, New
York, 1992.
[47] H. Kwakernaak, R. Sivan, Linear optimal control systems, John Wiley,
New-York, 1972.
[48] J. Lafontaine, Introduction aux varits diffrentielles, Presses universitaires, Grenoble, 1996.
[49] P. Lascaux, R. Thodor, Analyse numrique matricielle applique lart
de lingnieur, Tomes 1 et 2, Masson, Paris.
[50] A. Laub, A Schur method for solving algebraic Riccati equations, IEEE
Trans. Automat. Control, AC-24, 1979, 913921.
[51] W. F. Arnold, A. J. Laub, Generalized eigenproblem algorithms and software for algebraic Riccati equations, Proc. IEEE 72, 1984,pp. 1746-1754.
[52] E. B. Lee, L. Markus, Foundations of optimal control theory, John Wiley,
New York, 1967.
[53] G. Leitmann, An introduction to optimal control, McGraw-Hill Book Company, 1966.
[54] A. Locatelli, Optimal control, an introduction, Birkhuser, Basel, 2001.

262

BIBLIOGRAPHIE

[55] H. Maurer, On optimal control problems with bounded state variables and
control appearing linearly, SIAM Journal on Control and Optimization,
Vol. 15, 3, pp. 345362, 1977.
[56] A. Miele, Recent advances in the optimization and guidance of aeroassociated orbital transfers, Acta Astronautica, Vol. 38, 10, pp. 747768, 1996.
[57] H. Nijmeijer, A. J. Van der Shaft, Nonlinear dynamical control systems,
Springer Verlag, 1990.
[58] R. Pallu de la Barrire, Cours dautomatique thorique, Collection Universitaire de Mathmatiques, No. 17, Dunod, Paris, 1966.
[59] F. Pham, Gomtrie diffrentielle, 1992.
[60] L. Pontryagin, V. Boltyanski, R. Gamkrelidze, E. Michtchenko, Thorie
mathmatique des processus optimaux, Editions Mir, Moscou, 1974.
[61] J. Rappaz, M. Picasso, Introduction lanalyse numrique, Presses Polytechniques et Universitaires Romandes, Lausanne, 1998.
[62] A. V. Sarychev, First- and second-order integral functionals of the calculus
of variations which exhibit the Lavrentiev phenomenon, J. of Dynamical
and Control Systems, Vol. 3, No. 4, 1997, 565-588.
[63] J. A. Sethian, Level set methods and fast marching methods. Evolving
interfaces in computational geometry, fluid mechanics, computer vision, and
materials science. Cambridge Monographs on Applied and Computational
Mathematics, 3, Cambridge University Press, 1999.
[64] E. D. Sontag, Mathematical Control Theory, Deterministic Finite Dimensional Systems, Springer-Verlag, 2nd edition, 1998.
[65] J. Stoer, R. Bulirsch, Introduction to numerical analysis, Springer-Verlag,
Berlin, 1980.
[66] O. von Stryk, R. Bulirsch, Direct and indirect methods for trajectory optimization, Annals of Operations Research 37, 1992, 357373.
[67] A. Subbotin, Generalized solutions of first-order PDEs, The dynamical optimization perspective, Systems & Control : Foundations & Applications,
Birkhuser Boston, Inc., Boston, MA, 1995.
[68] H. J. Sussmann, J. C. Willems, The brachistochrone problem and modern
control theory, Contemporary trends in nonlinear geometric control theory
and its applications (Mexico City, 2000), 113166, World Sci. Publishing,
River Edge, NJ, 2002.
[69] H. J. Sussmann, New theories of set-valued differentials and new versions
of the maximum principle of optimal control theory, Nonlinear Control in
the Year 2000, A. Isidori, F. Lamnabhi-Lagarrigue and W. Respondek Eds.,
Springer-Verlag, 2000, 487526.
[70] H. J. Sussmann, A nonsmooth hybrid maximum principle, Stability and
stabilization of nonlinear systems (Ghent, 1999), 325354, Lecture Notes
in Control and Inform. Sci., 246, Springer, London, 1999.

BIBLIOGRAPHIE

263

[71] E. Trlat, Some properties of the value function and its level sets for affine
control systems with quadratic cost, Journal of Dynamical and Control
Systems, Vol. 6, No. 4, 2000, 511541.
[72] E. Trlat, Etude asymptotique et transcendance de la fonction valeur en
contrle optimal ; catgorie log-exp en gomtrie sous-Riemannienne dans
le cas Martinet. Thse de doctorat, Univ. de Bourgogne, 2000.
[73] R. Vinter, Optimal control, Systems & Control : Foundations & Applications, Birkhuser Boston, Inc., Boston, MA, 2000.

Vous aimerez peut-être aussi