Vous êtes sur la page 1sur 230

`

ECOLE
POLYTECHNIQUE

DEPARTEMENT DE MATHEMATIQUES
APPLIQUEES

Majeure
Mathematiques Appliquees

ANALYSE ET COMMANDE
`
DE SYSTEMES
DYNAMIQUES

Frederic Bonnans

Pierre Rouchon

Edition
2003

Avant propos

Les mecanismes de regulation et dadaptation sont largement repandus dans la nature.


Derri`ere ces deux mecanismes se retrouvent souvent en ligrane la commandabilite, lobservabilite et loptimalite. Ces mecanismes sont presents dej`a chez les organismes vivants
an dassurer le maintien de certaines variables essentielles comme le taux de sucre, la
temperature, . . . En ingenierie egalement les mecanismes dasservissement et de recalage
ont une longue histoire. Au temps des romains les niveaux deau dans les aqueducs etaient
pilotes par un syst`eme complexe de vannes.
Les developpements modernes ont debute au 17`eme si`ecle avec les travaux du savant
hollandais Huyghens sur les horloges `a pendules. Il etait alors tr`es important pour la
marine de Louis XIV dembarquer sur les bateaux des horloges les plus precises possible. La
mesure du temps intervenait de facon cruciale dans les calculs de longitude. Huyghens sest
ainsi interesse `a la regulation en vitesse des horloges. Les idees elaborees par Huyghens
et bien dautres comme le savant anglais Robert Hooke furent utilisees dans la regulation
en vitesse des moulins `a vent. Une idee centrale fut alors dutiliser un syst`eme mecanique
`a boules tournant autour dun axe et dont la rotation etait directement proportionnelle
`a celle du moulin. Plus les boules tournent vite et plus elles seloignent de laxe. Elles
actionnent alors par un syst`eme de renvois ingenieux les ailes du moulin de facon a` reduire
le couple d
u au vent. En langage moderne, il sagit dun regulateur proportionnel.
La revolution industrielle vit ladaptation par James Watt du regulateur a` boules pour
les machines a` vapeur. Plus les boules tournent vite, plus elles ouvrent une soupape qui
laisse sechapper la vapeur. La pression de la chaudi`ere baissant, la vitesse diminue. Le
probl`eme etait alors de maintenir la vitesse de la machine constante malgre les variations
de charge. Le mathematicien et astronome anglais Georges Airy fut le premier `a tenter
une analyse du regulateur a` boules de Watt. Ce nest quen 1868, que le physicien ecossais
James Clerk Maxwell publia une premi`ere analyse mathematique convaincante et expliqua
ainsi certains comportement erratiques observes parmi les nombreux regulateurs en service
`a cet epoque. Ses travaux furent le point de depart de nombreux autres sur la stabilite,
sa caracterisation ayant ete obtenue independamment par les mathematiciens A. Hurwitz
et E.J. Routh.
Durant les annees 1930, les recherches aux Bell Telephone Laboratories sur les amplicateurs sont a` lorigine didees encore enseignees aujourdhui. Citons par exemple les
travaux de Nyquist et Bode caracterisant a` partir de la reponse frequentielle en boucle ouverte celle de la boucle fermee. Pendant la seconde guerre mondiale, ces techniques furent
utilisees et tr`es activement developpees en particulier lors de la mise au point de batteries
anti-aeriennes. Le mathematicien Nobert Wiener a donne le nom de cybernetique a`
toutes ces techniques.
Tous ces developpements se faisaient dans le cadre des syst`emes lineaires avec une
seule commande et une seule sortie : on disposait dune mesure sous la forme dun signal
electrique. Cette derni`ere etait alors entree dans un amplicateur (un circuit electrique)
qui restituait en sortie un autre signal electrique que lon utilisait alors comme signal de
controle. Ce nest quapr`es les annees 50 que les developpements theoriques et techno-

4
logiques (calculateurs numeriques) permirent le traitement des syst`emes multi-variables
lineaires et non lineaires avec plusieurs entrees et plusieurs sorties. Citons comme contributions importantes dans les annees 60 celles de Richard Bellmann avec la programmation
dynamique, celles de Rudolf Kalman avec le ltrage et la commande lineaire quadratique
et celles de L. Pontryagin avec la commande optimale.
Ces contributions continuent encore aujourdhui a` alimenter les recherches en theorie
des syst`emes. Lobjectif de ce cours est double : dune part presenter des notions et outils
fondamentaux; dautre part dexposer des methodes analytiques et numeriques utiles pour
les applications.
Nous vous serions reconnaissants de nous faire part de vos critiques et des erreurs que
vous auriez decouvertes par un message explicatif a` frederic.bonnans@inria.fr ou a`
pierre.rouchon@ensmp.fr en identiant votre message par Poly X corrections.

Frederic Bonnans et Pierre Rouchon


Septembre 2003

`
TABLE DES MATIERES

Table des mati`


eres
I

Stabilit
e, Commandabilit
e et Observabilit
e

1 Introduction
1.1 Un exemple emprunte `a la robotique . . . . . . . . . . . . . . . . . . . . .
1.2 Le plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Probl`eme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11
11
16
16

2 Etude
de cas
2.1 Le bio-reacteur . . . . . . . . . . . . . . . . . . . . .

2.1.1 Etude
`a D > 0 xe . . . . . . . . . . . . . . .
2.1.2 Stabilisation (globale) par feedback (borne) .
2.2 Lavion a` decollage vertical . . . . . . . . . . . . . . .
2.2.1 Mod`ele de simulation . . . . . . . . . . . . . .
2.2.2 Mod`ele de commande . . . . . . . . . . . . . .
2.2.3 Commande lineaire . . . . . . . . . . . . . . .
2.2.4 Commande non-lineaire . . . . . . . . . . . .
2.3 Pendule inverse sur un rail . . . . . . . . . . . . . . .
2.4 Moteur electrique `a courant continu . . . . . . . . . .
2.4.1 Stabilite en boucle ouverte . . . . . . . . . . .
2.4.2 Estimation de la vitesse et de la charge . . . .
2.4.3 Le controleur . . . . . . . . . . . . . . . . . .
2.4.4 Lobservateur-controleur . . . . . . . . . . . .
2.4.5 Robustesse par rapport a` la dynamique rapide
2.4.6 Boucle rapide et contrainte de courant . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

19
19
20
24
26
27
28
28
31
32
34
35
35
36
37
37
38

.
.
.
.
.
.
.
.
.
.
.

41
41
41
43
51
52
53
56
56
57
62
65

3 Syst`
emes dynamiques explicites
3.1 Espace detat, champ de vecteurs et ot . . . . . . .
3.1.1 Un mod`ele elementaire de population . . . . .
3.1.2 Existence, unicite, ot . . . . . . . . . . . . .
3.1.3 Remarque sur lespace detat . . . . . . . . . .
3.1.4 Resolution numerique . . . . . . . . . . . . . .
3.1.5 Comportements asymptotiques . . . . . . . .
3.1.6 Letude qualitative ou le contenu des mod`eles
3.2 Points dequilibre . . . . . . . . . . . . . . . . . . . .
3.2.1 Stabilite et fonction de Lyapounov . . . . . .
3.2.2 Les syst`emes lineaires . . . . . . . . . . . . . .
3.2.3 Lien avec le lineaire tangent . . . . . . . . . .

. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
du courant
. . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

`
TABLE DES MATIERES

6
3.3

3.4
3.5

3.6

Syst`emes dynamiques discrets . . . .


3.3.1 Point xe et stabilite . . . . .
3.3.2 Les syst`emes lineaires discrets
Stabilite structurelle et robustesse . .
Theorie des perturbations . . . . . .
3.5.1 Les perturbations singuli`eres .
3.5.2 Moyennisation . . . . . . . . .
Probl`emes . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

4 Commandabilit
e et observabilit
e
4.1 Commandabilite non lineaire . . . . . . . . . . . .
4.1.1 Denition . . . . . . . . . . . . . . . . . .
4.1.2 Integrale premi`ere . . . . . . . . . . . . . .
4.2 Commandabilite lineaire . . . . . . . . . . . . . .
4.2.1 Matrice de commandabilite . . . . . . . .
4.2.2 Invariance . . . . . . . . . . . . . . . . . .
4.2.3 Un exemple . . . . . . . . . . . . . . . . .
4.2.4 Crit`ere de Kalman et forme de Brunovsky
4.2.5 Planication et suivi de trajectoires . . . .
4.2.6 Linearisation par bouclage . . . . . . . . .
4.3 Observabilite non lineaire . . . . . . . . . . . . .
4.3.1 Denition . . . . . . . . . . . . . . . . . .
4.3.2 Crit`ere . . . . . . . . . . . . . . . . . . . .
4.3.3 Observateur, estimation, moindre carre . .
4.4 Observabilite lineaire . . . . . . . . . . . . . . . .
4.4.1 Le crit`ere de Kalman . . . . . . . . . . . .
4.4.2 Observateurs asymptotiques . . . . . . . .
4.4.3 Observateur reduit de Luenberger . . . . .
4.5 Observateur-controleur lineaire . . . . . . . . . .
4.6 Probl`emes . . . . . . . . . . . . . . . . . . . . . .
5 Annexe: Syst`
emes semi-implicites et inversion
5.1 Syst`emes semi-implicites . . . . . . . . . . . . .
5.1.1 Un exemple . . . . . . . . . . . . . . . .
5.1.2 Le cas general . . . . . . . . . . . . . . .
5.1.3 Lineaire tangent . . . . . . . . . . . . . .
5.1.4 Resolution numerique . . . . . . . . . . .
5.2 Inversion et decouplage . . . . . . . . . . . . . .
5.2.1 Un exemple . . . . . . . . . . . . . . . .
5.2.2 Le cas general . . . . . . . . . . . . . . .
Bibliographie comment
ee de la partie I

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

67
68
68
69
72
73
77
80

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

83
84
84
85
86
87
88
90
91
94
96
100
101
101
103
104
104
106
107
107
108

.
.
.
.
.
.
.
.

115
. 117
. 117
. 119
. 123
. 124
. 125
. 125
. 127
133

`
TABLE DES MATIERES

II

M
ethodes Num
eriques en Commande Optimale

137

1 Temps minimal : syst`


emes lin
eaires
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . .
1.2 Un probl`eme dalunissage . . . . . . . . . . . . . . .
1.3 Existence de solutions . . . . . . . . . . . . . . . . .
1.3.1 Position du probl`eme . . . . . . . . . . . . . .
1.3.2 Resultats dexistence . . . . . . . . . . . . . .
1.4 Conditions doptimalite . . . . . . . . . . . . . . . . .
1.4.1 Separation de lensemble accessible de la cible
1.4.2 Crit`ere lineaire sur letat nal . . . . . . . . .
1.4.3 Etat adjoint et principe du minimum . . . . .
1.5 Exemples et classes particuli`eres . . . . . . . . . . . .
1.5.1 Contraintes de bornes sur la commande . . . .
1.5.2 Cas de loscillateur harmonique . . . . . . . .
1.5.3 Stabilisation dun pendule inverse . . . . . . .
1.5.4 Cibles epaisses . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

139
139
139
141
141
142
143
143
145
148
149
149
151
152
154

2 Temps minimal : syst`


emes non lin
eaires
2.1 Presentation du probl`eme . . . . . . . .
2.1.1 Un exemple . . . . . . . . . . . .
2.1.2 Specication du probl`eme . . . .
2.1.3 Existence de solutions . . . . . .
2.2 Conditions doptimalite . . . . . . . . . .
2.2.1 Un resultat general . . . . . . . .
2.2.2 Arc singulier . . . . . . . . . . . .
2.3 Applications . . . . . . . . . . . . . . . .
2.3.1 Pendule . . . . . . . . . . . . . .
2.3.2 Avion a` trajectoire horizontale . .
2.4 Demonstration du resultat principal . . .
2.5 Notes . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

157
157
157
158
158
159
159
160
163
163
164
165
171

3 Commande optimale : lapproche HJB


3.1 Cadre . . . . . . . . . . . . . . . . . . . . . .
3.2 Valeur fonction de letat . . . . . . . . . . . .
3.2.1 Principe de programmation dynamique
3.2.2 Equation de Hamilton-Jacobi-Bellman
3.2.3 Continuite uniforme de la valeur . . . .
3.3 Commande optimale . . . . . . . . . . . . . .
3.4 Solution de viscosite . . . . . . . . . . . . . .
3.4.1 Notion de solutions de viscosite . . . .
3.4.2 Theor`eme de comparaison . . . . . . .
3.5 Temps darret et commande impulsionnelle . .
3.5.1 Probl`emes avec temps darret . . . . .
3.5.2 Commande impulsionnelle . . . . . . .
3.6 Notes . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

173
173
174
174
176
178
179
181
181
183
186
186
188
190

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

`
TABLE DES MATIERES

8
4 R
esolution num
erique de l
equation HJB
4.1 Motivation : probl`eme continu . . . . . . . . . .
4.2 Schemas decentres et extensions . . . . . . . . .
4.2.1 Dimension despace n = 1 . . . . . . . .
4.2.2 Forme de point xe contractant . . . . .
4.2.3 Dimension despace quelconque . . . . .
4.2.4 Discretisation par triangulation . . . . .
4.3 Convergence des schemas et essais numeriques .
4.3.1 Un argument elementaire de convergence
4.3.2 Estimation derreur . . . . . . . . . . . .
4.3.3 Equation eikonale . . . . . . . . . . . . .
4.3.4 Probl`eme dalunissage . . . . . . . . . .
4.4 Notes . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

191
. 191
. 192
. 192
. 193
. 195
. 196
. 197
. 197
. 199
. 201
. 202
. 203

5 Commande optimale stochastique


5.1 Chanes de Markov commandees . . . . . . . . . . .
5.1.1 Quelques exemples . . . . . . . . . . . . . .
5.1.2 Chanes de Markov et valeurs associees . . .
5.1.3 Quelques lemmes . . . . . . . . . . . . . . .
5.1.4 Principe de Programmation dynamique . . .
5.1.5 Probl`emes `a horizon inni . . . . . . . . . .
5.1.6 Algorithmes numeriques . . . . . . . . . . .
5.1.7 Probl`emes de temps de sortie . . . . . . . .
5.1.8 Probl`emes avec decision darret . . . . . . .
5.1.9 Un algorithme implementable . . . . . . . .
5.2 Probl`emes en temps et espace continus . . . . . . .
5.2.1 Position du probl`eme . . . . . . . . . . . . .
5.2.2 Probl`eme discretise en temps . . . . . . . .
5.2.3 Schemas monotones : dimension 1 . . . . . .
5.2.4 Dierences nies classiques . . . . . . . . . .
5.2.5 Dierences nies generalisees . . . . . . . . .
5.2.6 Analyse de la condition de consistance forte
5.3 Notes . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Bibliographie de la partie II

.
.
.
.
.
.
.
.
.
.
.
.

205
205
205
205
207
208
209
210
212
213
214
217
217
217
219
221
223
225
226
229

Premi`
ere partie
Stabilit
e, Commandabilit
e et
Observabilit
e

11

Chapitre 1
Introduction
1.1

Un exemple emprunt
e`
a la robotique

Fig. 1.1 un bras de robot tournant dans un plan vertical autour dun axe horizontal
motorise.
Mod
elisation Commencons par lexemple de la gure 1.1 emprunte `a la robotique. Il
sagit dun bras rigide tournant dans un plan vertical autour dun axe horizontal. Cet
axe horizontal est equipe dun moteur delivrant un couple variable u, que lon peut choisir arbitrairement : u est la commande du syst`eme (on dit aussi lentree). La position
geometrique du syst`eme est compl`etement decrite par un angle S1 (lespace des
congurations geometriques du syst`eme est le cercle S1 ). La conservation du moment
cinetique autour de laxe horizontal permet de relier langle `a la commande en couple u
par lequation dierentielle du second ordre suivante :
+ mlg sin (t) = u(t)
J (t)

(1.1)

o`
u m est la masse du bras, J son moment dinertie par rapport a` laxe, l la distance du
centre de gravite `a laxe et g lacceleration due `a la pesanteur.
Forme d
etat Fixons un intervalle de temps [0,T ]. La commande [0,T ]  t  u(t)
etant xee, nous obtenons la loi horaire [0,T ]  t  (t) en integrant cette equation du

12

CHAPITRE 1. INTRODUCTION

=
second ordre `a partir de conditions initiales en position (0) = 0 et en vitesse (0)
0 . Lensemble des conditions initiales forme letat du syst`eme (lespace des phase en
mecanique). Cela revient en fait `a reecrire cette equation scalaire du second ordre en deux
equations scalaires du premier ordre :
=
= u/J (mgl/J) sin .

(1.2)

Les variables (,) forment alors letat du syst`eme; le triple t  ((t),(t),u(t)) sera dit
trajectoire du syst`eme sil verie, pour tout t, les deux equations dierentielles (1.2).
Commandabilit
e La planication de trajectoires consiste a` trouver une trajectoire du
syst`eme t  ((t),(t),u(t)) partant dun etat (i ,i ) en t = 0 et arrivant en t = T `a letat
nal (f ,f ), ces deux etats etant xes par avance. Il sagit du probl`eme de base de la
commandabilite : comment amener le syst`eme dun endroit (dun etat) a` un autre. Lorsque
le syst`eme est commandable, on dispose, en general, dune innite de trajectoires et donc
de commandes pour realiser cette transition. Se pose alors le probl`eme du choix entre ces
diverses trajectoires : cest en autre lobjet de la commande optimale qui selectionne la
trajectoire qui minimise un certain crit`ere. Citons par exemple le temps minimum pour
aller dune position de repos (i ,i = 0) a` une autre position de repos (f ,f = 0) sachant
que la commande u reste bornee (t, |u(t)| umax o`
u umax est le couple maximum
developpe par le moteur). On en deduit ainsi une trajectoire de reference du syst`eme :
[0,T ]  t  (r (t),r (t),ur (t)).
Bouclage Une autre question, directement liee `a la premi`ere : etant donne que tout
mod`ele est approximatif (les param`etres J et m et l sont connus avec une certaine
precision), il convient dajuster la commande u en temps reel de facon a` compenser les
ecarts a` la trajectoire de reference, r et r , qui peuvent apparatre. Il sagit du suivi
de trajectoire (tracking en anglais). Lorsque cette trajectoire est un point dequilibre du
syst`eme (comme, par exemple (,,u) = 0 ou (,,u) = (,0,0)) on parle alors de stabilisation. Noter que la stabilisation du syst`eme autour dune trajectoire t  (r (t),r (t),ur (t))
qui nest pas une trajectoire du syst`eme, i.e. qui ne verie pas les deux equations de (1.2)
na aucun sens. En particulier, on ne peut pas parler de stabilisation autour dun etat qui
nest pas un etat dequilibre (comme, par exemple, r = /2 et r = 1). Une demarche
tr`es naturelle consiste `a corriger la commande de reference ur (t) par des termes du type
r (t) et r (t). Lutilisation de ce type de terme correspond `a un bouclage detat,
une boucle de retro-action (feedback en anglais) qui lon schematise souvent par le diagramme bloc de la gure 1.2. La mise en oeuvre de ce schema revient, avec un calculateur
temps-reel, `a mettre a` jour tr`es rapidement (avec une periode dechantillonnage Te bien
plus rapide que les echelles de temps naturelles du syst`eme) la commande u en fonction
de la trajectoire de reference et des mesures de et de .
Lin
eaire tangent Considerons, par exemple la stabilisation autour de lequilibre instable (,,u) = (,0,0). Pour cela, linearisons les equations (1.2) autour de ce point :
nous faisons un developpement limite des seconds membres en ne retenant que les termes

A
` LA ROBOTIQUE
1.1. UN EXEMPLE EMPRUNTE

13

Fig. 1.2 schema-bloc dune loi de retro-action, dit aussi retour detat ou feedback.
dordre 1 (ceux dordre 0 sont nuls, car nous sommes autour dun point dequilibre). En

notant ,
et u les ecarts, nous obtenons les equations du syst`eme linearise tangent :

= u/J + (mgl/J).

(1.3)

Stabilisation Si on pose, comme loi de commande, le retour statique detat (feedback),


u = (Jk2 + mgl) Jk1
,

(1.4)

avec k1 et k2 les gains du controleur (param`etres constants que nous choisirons ci-dessous),
alors les equations du syst`eme lineaire tangent boucle (cest `a dire avec sa boucle de retroaction) sont
=

= k2 k1
.
u 0 < 1 < 2 sont des temps caracteristiques,
Avec k1 = (1/1 + 1/2 ) et , k2 = 1/(1 2 ) , o`
ce syst`eme devient asymptotiquement stable : pour toutes conditions initiales, ses solutions
tendent vers zeros lorsque t tend vers linni. La convergence est meme exponentielle :
toute solution est une combinaison lineaire de exp(t/1 ) et exp(t/2 ) : 1/1 et 1/2
sont appeles les p
oles du syst`eme boucle.
Robustesse et th
eorie des perturbations Ce bouclage a ete realise sur une approximation au premier ordre du syst`eme. Se pose alors la question du comportement du
syst`eme non lineaire (1.2) avec le bouclage lineaire u = u = (Jk2 + mgl)( ) Jk1 .
Il est immediat de voir que le linearise tangent autour de lequilibre (,0) du syst`eme non
lineaire boucle est identique au lineaire tangent boucle. Un resultat classique sur la stabilite structurelle des points dequilibres hyperboliques (les valeurs propres de la matrice
jacobienne sont toutes `a partie reelle non nulle) dun syst`eme dynamique garantit alors la
stabilite asymptotique locale du syst`eme non lineaire boucle : cela veut dire simplement

14

CHAPITRE 1. INTRODUCTION

que toute trajectoire du syst`eme (1.2) avec la commande (1.4) qui demarre assez pr`es
de (,0) tends vers (,0) lorsque t tends vers linni, la convergence etant exponentielle,
comme pour le lineaire tangent.
`
Etant
donne que 1 et 2 sont deux constantes de temps arbitraires directement liees
au taux de convergence, on aura tendance a` les choisir aussi proches de zero que possible.
Cependant, il convient de ne pas les choisir trop proches de zero : en eet, le mod`ele sur
lequel la commande est synthetisee, nest valable que pour une certaine gamme dechelles
de temps. Le mod`ele nest pas valable pour des frequences grandes. En eet, la dynamique
du moteur est negligee: pour un moteur `a courant continu, la commande physique est en
fait la tension Um appliquee au moteur. Elle est reliee au couple u par une equation
dierentielle du type :
(1.5)
LIm + RIm = Um , u = Kc Im
(L est linductance, R la resistance, Kc la constante de couple du moteur). En pratique
la dynamique du moteur est souvent negligeable par rapport a` la dynamique inertielle
de la barre. Ainsi la constante de temps
 du moteur m = L/R est bien inferieure au
temps caracteristique du bras b = J/(mlg). Aussi, a-t-on lapproximation suivante
dite quasi-statique :
RIm = Um , u = Kc Im = (Kc /R)Um
qui relie directement le couple u `a la tension Um . Il convient de choisir 1 et 2 du meme
ordre de grandeur que b , et donc tr`es superieur `a m , la constante de temps de la dynamique negligee.
Dautres phenom`enes peuvent apparatre vers les hautes frequences, comme la exibilite du bras. Nous verrons dans le chapitre 3 un resultat asymptotique (theorie de perturbations, syst`emes lents/rapides) assurant quavec des gains k1 et k2 pas trop grands
(1 ,2  m ), le syst`eme non lineaire avec la dynamique du moteur (1.5) et la commande
en tension
Um = (Kc /R) ((Jk1 mgl)( ) + Jk2 )
est localement asymptotiquement stable autour de (,0), pour toute valeur > 0 de L assez
faible.
Observabilit
e La loi de feedback precedente suppose que lon mesure a` chaque instant
letat complet du syst`eme et . Si nous connaissons uniquement la loi t  (t), nous
obtenons (t) par simple derivation : on dit que letat du syst`eme est observable `a partir
de la sortie . Dune facon plus generale, letat x dun syst`eme sera dit observable a` partir
de la sortie y, si lon peut reconstruire x `a partir dun nombre ni de derivees de y.
Pour le bras, nous pouvons deriver numeriquement le signal de mesure pour en deduire
. Cette solution fonctionne correctement si la mesure de nest pas trop bruitee. Sinon,
loperation de derivation est `a eviter. Pour cela, nous pouvons utiliser la dynamique du
syst`eme pour construire un observateur asymptotique, cest a` dire, reconstruire la vitesse
du syst`eme en integrant (on peut dire aussi en ltrant) la position via une equation
dierentielle bien choisie. On obtient alors un ltre causal qui elimine les hautes frequences
`a la fois sur la mesure et ses derivees sans introduire de retard sur la partie basse frequence
des signaux.
Placons nous autour du point (,0) et considerons le lineaire tangent (1.3) avec comme
Lobjectif est de reconstruire a` terme
quantites connues la commande u et langle .

A
` LA ROBOTIQUE
1.1. UN EXEMPLE EMPRUNTE

15

sans utiliser loperation de derivation tr`es sensible au bruit. En revanche nous pouvons
utiliser lintegration et les changements de variables.
Nous allons montrer comment construire un observateur asymptotique (dordre reduit).

Soit un param`etre que nous ajusterons plus tard. Considerons la variable =


+ .

Si lon sait reconstruire , on obtient


avec
= (t).
Or, grace a` (1.3), verie
= u/J (mgl/J) +
= u/J (mgl/J + 2 ) + .
on
Ainsi, en recopiant cette equation et en remplacant la variable non mesuree par ,
obtient une equation dierentielle du premier ordre dependant des quantites connues u et
(un ltre dordre 1 dune combinaison lineaire de la mesure et de la commande u) :

+
= u(t)/J (mgl/J + 2 )(t)

(1.6)

Par soustraction avec lequation dierentielle satisfaite par le vrai , les termes sources
en u et disparaissent. On obtient alors une dynamique de lerreur autonome
d
( ) = ( )
dt
d`es que le param`etre
qui converge vers zero, quelque soit la condition initiale sur ,
= 1/f est choisi negatif (f est la constante de temps de lobservateur (1.6)). L`a
encore, le gain de lobservateur (1.6) doit etre choisi en fonction des niveaux de bruit
sur et surtout des echelles de temps
 naturelles du syst`eme (prendre, par exemple, f du
meme ordre de grandeur que b = J/(mlg)).
Observateur-contr
oleur, principe de s
eparation Ainsi, en combinant lobservateur
nous obtenons un bouclage qui
(1.6) et la commande (1.4) o`
u
est remplace par ,
stabilise localement la position inverse du pendule. Ce bouclage est un bouclage dynamique
sur la sortie y = : le terme dynamique vient du fait que la commande u est une fonction
de et de qui est en fait une sorte dintegrale de u et :

= u/J (mgl/J + 2 ) +

u = (Jk1 + mgl) Jk2 ( ).

(1.7)

Il est alors tr`es simple dutiliser ces deux equations pour obtenir un algorithme temps-reel
de stabilisation. Reprenons le schema de la gure 1.2 et interessons nous `a la boucle de
retro-action. Notons Te la periode dechantillonnage supposee petite, un la valeur de la
commande a` t = nTe , n la valeur de letat interne du controleur et n la mesure. Alors

un+1 et n+1 sont obtenus par recurrence en remplacant dans (1.7) par (n+1 n )/Te :
un /J (mgl/J + 2 )n + n )
n+1 = n + Te (
un+1 = (Jk1 + mgl)n Jk2 (n n )
Ainsi n+1 est garde en memoire pour la commande suivante et un+1 est appliquee au
syst`eme.
Nous nabordons pas ici des probl`emes lies `a lechantillonnage. Nous resterons au
niveau continu, sachant que la mise en oeuvre est possible d`es que la periode Te est
tr`es petite devant les echelles de temps du syst`eme et que les micro-processeurs sont
susamment rapides pour calculer la nouvelle commande en un temps inferieur a` Te .

CHAPITRE 1. INTRODUCTION

16

1.2

Le plan

Cet exemple permet de se faire une idee des techniques presentees dans cette premi`ere
partie du cours. Nous allons maintenant reprendre de facon plus systematique et rigoureuse les divers points evoques ci-dessus. Le chapitre 2 est constitue de 4 etudes de cas.
Chaque cas reprend et applique les methodes et notions fondamentales presentees dans
leur generalite au niveau les chapitres 3 et 4.
Nous abordons dans le chapitre 3 les syst`emes dynamiques explicites et, sans faire
toutes les demonstrations, quelques resultats sur les equations dierentielles ordinaires
(probl`eme de Cauchy, perturbation reguli`ere, singuli`ere, syst`emes lents/rapides, stabilite
au sens de Lyapounov) : ces resultats sont essentiels pour bien comprendre, entre autres, les
liens entre le lineaire tangent et le syst`eme non lineaire associe, les questions de robustesse
par rapport aux erreurs de mod`ele et aux dynamiques negligees.
Dans le chapitre 4, nous abordons la commandabilite et lobservabilite des syst`emes
explicites x = f (x,u). Apr`es de courtes denitions, nous etudions les syst`emes lineaires
stationnaires. Nous mettons laccent sur la forme canonique de Brunovsky, la planication
de trajectoires, et la stabilisation par placement de pole. Nous aborderons ensuite lobservabilite, qui peut etre vue, pour les syst`emes lineaires `a coecients constants, comme le
probl`eme dual de la commandabilite, la construction de bouclages stabilisants conduisant
`a celle dobservateurs asymptotiques. Enn, nous terminons ce chapitre par le principe
de separation et la synth`ese dun bouclage dynamique de sortie (on dit aussi observateurcontroleur ou commande modale).
La presentation sappuie souvent sur des exemples. En general, ces exemples sont
representatifs de questions preoccupant les ingenieurs. Des exercices jalonnent egalement
lexpose. Ils sont souvent l`a pour suggerer au lecteur des extensions `a des situations
plus generales (non lineaire, dimension innie, syst`emes discrets, . . . ). Les parties ecrites
en petits caract`eres peuvent etre ignorees dans une premi`ere lecture : il sagit soit de
complements, soit de prolongements.
Dans lannexe 5 nous etudions les syst`emes semi-implicites. Ce chapitre peut etre
saute dans une premi`ere lecture. En general, la modelisation dun syst`eme dynamique
complexe ne conduit pas directement a` des equations dierentielles explicites mais `a un
syst`eme mixte dequations dierentielles et dequations algebriques. Des manipulations
formelles sont alors necessaires pour mettre le syst`eme sous forme explicite. Ces manipulations utilisent des derivations, lindex etant alors le nombre minimal de derivations
necessaires. Il sav`ere que les techniques utilisees ici sont tr`es proches de celles employees
pour linversion, le decouplage et la linearisation entree/sortie : tout repose sur un algorithme delimination dierentielle dit algorithme de structure. La redaction de ce chapitre sappuie fortement sur deux exemples cles : (5.3) page 117 et (5.5) page 125. Leur
comprehension implique pratiquement celle du cas general qui nest gu`ere plus complique.

1.3

Probl`
eme

On reprend ici, sous la forme dun probl`eme et pour letendre au non lineaire, lobservateurcontroleur que nous avons construit avec le lineaire tangent du syst`eme (1.2). Lobjectif
de commande est daller du point dequilibre = 0 au point dequilibre = pendant le

`
1.3. PROBLEME

17

temps T > 0 en ne mesurant que . Cette extension ne necessite que tr`es peu de calculs
et reste `a un niveau de complexite tr`es elementaire.
1. Donner une trajectoire du syst`eme [0,t]  t  (r (t),r (t),ur (t)) qui assure cette
transition.
2. Calculer le bouclage detat qui stabilise la dynamique de lerreur a` la trajectoire
e = r (t) de la facon suivante :
e + 1 e + 2 e = 0
avec 1 ,2 > 0.
3. On suppose que lon ne mesure que . Montrer que lobservateur non lineaire

= 2 (t) + u(t)/J (mgl/J) sin (t)


permet de reconstruire asymptotiquement par
= , d`es que < 0.
4. Montrer la convergence de lobservateur-controleur o`
u lon a remplace la mesure de
vitesse dans la question 2 par lestimee
de la question 3.
5. Faire des simulations de cette manoeuvre en T = 5 s en prenant comme param`etres
m = 1,0 kg, l = 0,2 m, J = 0,1 kg m2 et g = 9,81 m/s2 . Tester la robustesse de cette
commande dynamique de sortie par rapport a` des dynamiques negligees (rajouter
une dynamique pour le moteur) et par rapport a` des erreurs dans le mod`ele (1.2)
(rajouter un petit frottement au niveau de laxe du bras).

18

CHAPITRE 1. INTRODUCTION

19

Chapitre 2

Etude
de cas
A travers letude detaillee de plusieurs cas, un bio-reacteur, lavion a` decollage vertical,
le pendule inverse et le moteur electrique, nous reprenons diverses notions fondamentales
comme la stabilite, la commandabilite, lobservabilite ainsi que les techniques de base
comme le bouclage (feedback), lobservateur asymptotique, la planication et le suivi de
trajectoire. A chaque fois nous renvoyons le lecteur a` une partie precise du cours o`
u la
formalisation et les denitions sont disponibles. Les reponses que nous apportons ici ne
sont bien s
ur pas les seules possibles. Elles ont cependant le merite detre simples, explicites
et directement exploitables sur un calculateur temps-reel. Enn certaines questions tr`es
naturelles et pourtant sans reponse systematique sont evoquees. En particulier, le respect
de contraintes sur la commande et sur letat est traite par des methodes tr`es speciques.

2.1

Le bio-r
eacteur

Nous avons choisi un bio-reacteur car ce syst`eme est representatif dun vaste domaine:
les procedes de transformation de la mati`ere. Leur modelisation dynamique sappuie sur
les lois de conservation mati`ere et energie, les lois cinetiques et la thermodynamique. Des
secteurs industriels majeurs utilisent des installations de ce type: petrole, petro-chimie,
plastique, chimie ne, pharmacie, biotechnologie, agro-alimentaire, ...
Nous reprenons avec cet exemple certaines notions importantes sur les syst`emes dynamiques et leur stabilite (point dequilibre hyperbolique [denition 10, page 66], fonction de Lyapounov [theor`eme 3, page 58]). Apr`es une etude du comportement qualitatif
(geometrie des courbes integrales, bifurcation) en fonction de la commande prise comme
param`etre, nous montrons quun feedback tr`es simple permet de stabiliser globalement le
syst`eme.
Les equations regissant la dynamique dun bio-reateur fonctionnant en continu sont,
pour un metabolisme simple, les suivantes :
X = ((S) D)X
S = D(Se S) (S)X
o`
u X est la biomasse (les bestioles), S le taux de substrat carbone (le sucre), D > 0 le
taux de dilution (D = L/V , V volume du fermenteur, L debit liquide entrant egal au
debit sortant), (S)X la production de biomasse par unite de volume correspondant au


CHAPITRE 2. ETUDE
DE CAS

20

metabolisme X + S 2X, Se le taux de sucre dans lalimentation. On supposera que


Se > 0 est xe et que D > 0 est la variable de reglage (la commande).
On suppose que la fonction (S) est reguli`ere et admet une forme en cloche (cf =
(0 < S < Se ); (0) = 0; (S)
;
gure 2.1) : est strictement croissante pour S [0,S]
e ] avec (Se ) > 0.
est strictement decroissante pour S [S,S

2.1.1

Etude
`
a D > 0 x
e

Trajectoires, espace invariant, ot


Il sagit de letude en boucle ouverte. Lespace des etats est ici (X,S) [0, + [[0, +
[. Montrons que le mod`ele conduit a` des concentrations positives. Si X = 0 alors X = 0
et X reste toujours nul (pas de generation spontanee). Si S = 0 alors S = DSe > 0 et
donc S a tendance a` crotre. Ainsi le champ de vecteurs

 

X
((S) D)X
x=
 v(x) =
S
D(Se S) (S)X
denissant la dynamique est rentrant dans [0, + [[0, + [. Les trajectoires t 
(X(t),S(t)) sont positives.
Montrons maintenant quelles sont denies sur [0, + [. Soit la variable = S + X,
il est evident que, = D(Se ). Ainsi d`es que Se , 0. Cela signie que v est
rentrant dans tout domaine triangulaire Ta deni par
Ta = {(X,S) [0, + [[0, + [ | X + S a}
avec a > Se . Comme toute condition initiale (X0 ,S0 ) dans [0, + [[0, + [ appartient
`a Ta avec a = max(Se ,X0 + S0 ), la trajectoire demarrant en (X0 ,S0 ) ne peut quitter Ta :
un tel Ta est ainsi positivement invariant [denition 5, page 53]. Ainsi le ot [denition 1,
page 44] t est deni pour tout t 0.
Notons aussi que le segment
= {(X,S) | X + S = Se , X 0, S 0}
est aussi positivement invariant. Cela resulte du fait que 0 d`es que 0 = Se . Nous
avons meme plus, comme (t) = Se + 0 exp(Dt), (t)  Se quand t  +. Ainsi, les
trajectoires du syst`eme convergent toutes vers . On peut montrer
que cela reste vrai
t
meme si D est variable. La convergence est assuree d`es que 0 D( ) d  + quand
t  +.
Points d
equilibre et exposants caract
eristiques
Etudions maintenant en fonction de D les points dequilibre. Ils sont denies par
v(x) = 0, i.e.
((S) D)X = 0
D(Se S) (S)X = 0.
La premi`ere equation se scinde en deux X = 0 et D = (S).


2.1. LE BIO-REACTEUR

21

Fig. 2.1 La fonction (S).


Le point dequilibre X = 0 et S = Se correspond au lessivage du bio-reacteur. Aucune
bio-masse nest presente et le taux de sucre en sortie est celui de lentree.
Reste lautre famille de solution. Il faut trouver S tel que (S) = D. Comme le montre
la gure 2.1, nous distinguons les trois cas suivants
1. D De = (Se ) : seule la racine S de (S) = D donne un point dequilibre
physique avec X > 0 car X = Se S. Notons (Xs ,Ss ) ce point dequilibre.
: deux points dequilibre ayant un sens physique coexistent. Si Ss S
2. De D D
e ] sont les deux racines de (S) = D, on note Xs = Se Ss et Xu =
et Su [S,S
S e Su .
D : (S) = D nadmet pas de solution.
3. D
Etudions la stabilite de ces points dequilibre. Nous savons [theor`eme 5, page 65] quelle
est donnee par le signe de la partie reelle des valeurs propres du jacobien de v.
Pour x = (0,Se ), nous avons,


De D 0
Dv(x) =
.
De
D
Pour D < De , (0,Se ) admet une valeur propre stable D < 0 et une valeur propre instable
De D > 0 : cest un col [gure 3.22, page 63]. Lequilibre est donc instable. Pour D > De ,
(0,Se ) les deux valeurs propres sont stables D < 0 et De D < 0 : cest un noeud stable.
Lequilibre est alors localement asymptotiquement stable.
Pour D = De , une valeur propre est stable D < 0 lautre est nulle : on ne peut
pas conclure avec le lineaire tangent; ce nest pas un point dequilibre hyperbolique
[denition 10, page 66].
Pour lautre famille xs = (Ss ,Xs ) et xu = (Su ,Xu ) de points dequilibre, le jacobien de
v vaut ( = s,u)


0
 (S )X
Dv(x ) =
.
D D  (S )X
Ces valeurs propres sont D et  (S )X . Ainsi lequilibre = s est toujours stable pour
: cest un noeud stable. Lequilibre
(on suppose que  ne sannule quen S = S)
D<D
: cest un col.
= u est toujours instable pour De D < D


CHAPITRE 2. ETUDE
DE CAS

22

ces deux branches dequilibre se rejoignent avec comme valeur


Noter quen D = D,

propre D et 0 : on ne peut rien dire sur la stabilite `a partir du tangent. La valeur D = D


est un valeur critique. Elle correspond `a une bifurcation (bifurcation col-noeud classique),
cest `a dire un changement qualitatif du portrait de phases. Dans les graphiques qui
suivent nous avons, pour

(S) = 2D

S/S

2 + 1 , S = 1,Se = 3
(S/S)

trace le champ de vecteurs ainsi que certaines trajectoires pour diverses valeurs de D.
3
2.5

2
1.5
1
0.5
0
0

2
X

Fig. 2.2 portrait de phase en boucle ouverte D < De ; deux points dequilibres, un col et
un noeud stable.

Fonction de Lyapounov, stabilit


e asymptotique globale
les trajectoires convergent toutes vers le lessivage. A
Montrons que pour D > D,
partir des valeurs propres du tangent nous savons dej`a que cet equilibre est localement
asymptotiquement stable.
Pour cela nous allons utiliser une methode inventee par Lyapounov [theor`eme 3,
page 58]. Considerons la fonction reelle
1
1
V (X,S) = (X + S Se )2 + X 2 .
2
2
Montrons que cest une fonction de Lyapounov : V est innie `a linni dans lorthant
positif; V admet un seul minimum au lessivage (0,Se ) et V 0 comme le montre ce qui
suit.
En eet un calcul simple donne
V = D(X + S Se )2 (D (S))X 2 .


2.1. LE BIO-REACTEUR

23

3
2.5

2
1.5
1
0.5
0
0

2
X

trois points dequilibres, deux


Fig. 2.3 portrait de phase en boucle ouverte De < D < D;
noeuds stables separes par un col.

3
2.5

2
1.5
1
0.5
0
0

2
X

un seul point dequilibre, le lessiFig. 2.4 portrait de phase en boucle ouverte D > D;
vage.


CHAPITRE 2. ETUDE
DE CAS

24
= sup(), on a
Comme D

2.
V D(X + S Se )2 (D D)X
donc V < 0 d`es que (X,S) = (0,Se ). Ce qui montre la stabilite asymptotique
Mais D > D
globale de (0,Se ). Noter linterpretation geometrique de V 0. Le champ de vecteurs
rentre dans les portions dellipses V cte du quart de plan positif (cf gure 2.5).
les calculs precedents restent valables : V reste une fonction de LyapouPour D = D,
nov. Cependant V peut etre nulle sans que necessairement letat soit (0,Se ). Une etude
plus ne `a partir du principe dinvariance de Lasalle est necessaire [theor`eme 3, page 58].
On sait que les trajectoires convergent alors vers le plus grand ensemble invariant contenu
dans V = 0. Ici cela donne donc le syst`emes sur-determine suivant

X = ((S) D)X
e S) (S)X
S = D(S
(S))X 2.
0 = (X + S Se )2 (D
S).
Ainsi les trajectoires
Ses seules solutions sont les points dequilibre (0,Se ) et (Se S,
convergent soit vers le lessivage soit vers le point dequilibre interne correspondant au
maximum de (cf, gure 2.6).
3
2.5

2
1.5
1
0.5
0
0

2
X

Fig. 2.5 V est une fonction de Lyapounov pour D > D.

2.1.2

Stabilisation (globale) par feedback (born


e)

admet un interet pratique evident. Cest le seul


Le point dequilibre double en D = D
point dequilibre avec X > 0 et D le plus grand possible. Il correspond aussi au maximum
du taux de croissant . Il est souvent interessant de maintenir le syst`eme autour de ce
regime.


2.1. LE BIO-REACTEUR

25

3
2.5

2
1.5
1
0.5
0
0

2
X

bifurcation col-noeud.
Fig. 2.6 portrait de phase en boucle ouverte pour D = D;
Alors le portrait
Voyons si cela est possible sans rien faire, juste en maintenant D `a D.
de phase (gure 2.6) fait apparatre deux bassins dattractions. Cependant, pour les tra S),
une petite perturbation sut a` les faire basculer dans
jectoires qui arrivent en (Se S,
le bassin dattraction du lessivage (0,Se ). Ainsi, meme avec une condition initiale dans le
bon bassin dattraction, on aboutira toujours en pratique au lessivage. Une telle methode
nest pas robuste (le point dequilibre vise nest pas asymptotiquement stable, le portrait
de phase nest pas structurellement stable [discussion de la section 3.4, page 69] ). Il faut
S).

donc imaginer quelque chose pour maintenir les trajectoires autour de (Se S,
Nous allons voir que le simple regulateur proportionnel
k(S S)

D=D
avec un gain k bien choisi permet de stabiliser localement les trajectoires autour de (Se
S).
Il convient de bien comprendre la signication de D = D
k(S S).
Le taux
S,
de dilution (i.e., le debit dentree) varie en fonction de la valeur eective du taux de
sucre dans le bio-reacteur selon une simple loi ane. Aussi les raisonnements en boucle
S)

ouverte qui prec`edent ne sont plus valables. La dynamique a change. Certes (Se S,
reste un point stationnaire ainsi que (0,Se ) mais beaucoup dautres choses ont change. En
particulier les exposants caracteristiques [denition 10, page 66] autour de ces points sont
aectes par cette loi de retro-action.
S),
le jacobien du nouveau champ de vecteurs en boucle
Par exemple autour de (Se S,
fermee est



0
k(Se S)
D
k(Se S)
.
D
Pour k > 0, cette matrice admet une trace < 0 et un determinant > 0. Ses valeurs propres
sont donc `a partie reelle strictement negative. Ainsi un simple retour proportionnel avec
k > 0 rend ce point dequilibre hyperbolique et stable.


CHAPITRE 2. ETUDE
DE CAS

26

la commande D
Notre analyse est locale. De plus pour des valeurs de S proches de S,
ainsi calculee reste positive. Elle est donc physiquement realisable. Cependant pour des
ecarts S S importants, D risque detre negatif. Une premi`ere idee est alors de saturer
et 2D.
La commande alors obtenue
D entre deux valeurs, disons 0 < << D

k(S S)
<

si D

k(S S)
> 2D

D = 2D
si D

sinon.
D k(S S)
S).
Montrons
est non lineaire. Pour tout k > 0, elle stabilise localement lequilibre (Se S,

S)
pour
que meme les trajectoires demarrant loin de (Se S,S) convergent vers (Se S,
k assez grand.
Il est facile de voir que X et S restent toujours positifs. Comme d/dt(X+S) = D(Se
X S), les trajectoires sont bornees et puisque D , elles convergent exponentiellement
vers le segment X + S = Se . On peut donc supposer que X + S = Se . Mais alors
u D est une fonction de X `a cause du bouclage S = Se X. Sur
X = ((Se X) D)X o`
ce syst`eme de dimension 1, il est alors facile de montrer que, si k est choisi assez grand,
Le premier est alors instable et le
ses seuls points dequilibres sont X = 0 et X = Se S.
second stable. Comme lillustre le portrait de phase de la gure 2.7, cette loi de retroaction
elementaire stabilise globalement le syst`eme au regime de croissance specique maximum.

3
2.5

2
1.5
1
0.5
0
0

2
X

k(S S)
avec saturation (`
Fig. 2.7 stabilisation globale par un feedback D = D
a
comparer avec la boucle ouverte, gure 2.6).

2.2

Lavion `
a d
ecollage vertical

Ce syst`eme est representatif des probl`emes de guidage et de pilote automatique dengins volants, ottants ou spatiaux. Il sagit souvent de syst`emes mecaniques sous-actionnes,

` DECOLLAGE

2.2. LAVION A
VERTICAL

27

Fig. 2.8 le VTOL, lavion `a decollage vertical.


i.e., avec moins de commandes que de degres de liberte geometrique.
Letude de cet exemple est loccasion de revoir la commandabilite [denition 15,
page 84], la planication et le suivi de trajectoires [section 4.2.5, page 94]. Bien que
les resultats generaux du cours portent sur les syst`emes lineaires, nous montrons comment des calculs comparables (avec les sorties plates, un analogue non lineaire des sorties
de Brunovsky [theor`eme 11, page 91]) permettent de traiter le cas non lineaire. Nous
introduisons ici une dierence importance entre le mod`ele de simulation qui est aussi
complet que possible et le mod`ele de commande de dimension reduite et ne prenant en
compte que les eets dominants. Ces deux mod`eles sont proches lun de lautre au sens
des perturbations singuli`eres [section 3.5.1, page 73]. Lintroduction dun mod`ele de commande dierent du mod`ele de simulation nest pas gratuite : elle est fondamentalement
liee aux questions de robustesse par rapport aux dynamiques negligees. Ces dynamiques
sont dune part mal connues et dautre part tr`es rapides (par rapport aux dynamiques a`
commander) et asymptotiquement stables.
On sinteresse ici au pilotage dun avion a` decollage vertical en mode hovering. En
particulier on voudrait que lavion soit en mesure de suivre une trajectoire horizontale
(manuvre-type dapproche `a latterissage).

2.2.1

Mod`
ele de simulation

Pour simplier on consid`ere que lavion se deplace uniquement dans un plan vertical
(mod`ele plan). Si de plus on neglige les eets aerodynamiques, qui sont tr`es faibles en
mode hovering, le comportement dynamique est decrit par

m
x = (F1 F2 ) sin cos (F1 + F2 ) cos sin + fx (x,
z,,
)

m
z = (F1 F2 ) sin sin + (F1 + F2 ) cos cos mg + fz (x,
z,,
)

z,,
),
J = l(F1 F2 ) cos + f (x,


CHAPITRE 2. ETUDE
DE CAS

28

o`
u (x,z) est la position du centre de masse, langle par rapport a` lhorizontale, F1 ,F2 les
poussees des reacteurs, l leur distance par rapport au centre de masse, leur inclinaison;
m est la masse de lavion et J son moment dinertie. Les fonctions fx , fz et f representent
des petits eets aerodynamiques (en schematisant, ce sont des frottements sopposant a`
la vitesse); ces fonctions sannulent quand lavion ne bouge pas.
Le transfert entre les poussees F1 ,F2 et les manettes de gaz u1,u2 est, grace a` des
asservissements rapides de bas niveau, `a peu pr`es de la forme
F1 = (u1 F1 )
F2 = (u2 F2 )

(2.1)
(2.2)

[voir la section 3.5.1, page 73 o`


u joue le role de 1/].
Les valeurs numeriques utilisees dans les simulations sont (en unites S.I.)
g = 10, m = 10000, J = 45000, l = 4.5, tan = .1, = 15.
On mesure toutes les variables mecaniques, i.e., x,z,,x,
z,
(un avion, surtout de combat, est toujours tr`es bien instrumente).

2.2.2

Mod`
ele de commande

En fait la dynamique (2.1)-(2.2) des reacteurs nest pas tr`es bien connue (cest un
syst`eme tr`es complexe). Par contre, on sait dune part que cette dynamique est plutot
rapide et dautre part quen regime etabli on a vraiment F1 = u1 et F2 = u2 .
m
J
J
F1 + F2
F1 F2
tan , a =
,b=
, v1 =
et v2 =
,
Apr`es avoir pose =
ml
cos
l cos
a
b
on peut prendre comme mod`ele de commande le syst`eme
x = v2 cos v1 sin
z = v2 sin + v1 cos g
= v2 ,
ou v1 et v2 sont les commandes. De fait nous negligeons ici les eets aerodynamiques et
la dynamique des reacteurs. Une justication dans le cadre des perturbations reguli`eres
et singuli`eres est possible [theor`eme 7, page 74 et theor`eme 8, page 76].
Ce mod`ele poss`ede une innite detat stationnaire : (x,z) arbitraire et = 0 ou .
Le cas = correspond a` une poussee negative aussi nous lexcluons. Nous considerons
toujours les equilibres `a lendroit = 0 et (x,z) arbitraire.

2.2.3

Commande lin
eaire

Linearisons les equations autour de (x,z) = 0 et = 0. En notant x, z, . . . , les ecarts


on obtient le syst`eme lineaire tangent suivant :
= g + v2
x
= v1
z
= v2 .

` DECOLLAGE

2.2. LAVION A
VERTICAL

29

Le syst`eme se decompose donc en deux parties. La premi`ere partie


= v1
z
correspond a` la dynamique verticale ne faisant intervenir que v1 lie `a la poussee totale.
La seconde partie
= g + v2 ,
= v2
x
montre que les dynamiques horizontale et angulaire sont couplees et ne dependent que de
v2 , la dierence des poussees.
Le suivi en position
La sortie de Brunovsky [theor`eme 11, page 91] de la dynamique en z est y2 = z car
v1 = y2 . Ainsi le controleur
y2,r ) p1 p2 (z y2,r )
v1 = y2,r + (p1 + p2 )(z
assure le suivi dune reference t  y2,r (t) [section 4.2.5, page 94]. Les poles de suivi sont p1
et p2 [theor`eme 12, page 94]. Ils doivent etre choisis a` partie reelle negative. Une premier
choix est le suivant


g
g
(1 + ), p2 =
(1 ).
p1 =
l
l

Il suppose que lechelle de temps des reacteurs est nettement inferieure `a gl .


La sortie de Brunovsky pour la dynamique en x et est simplement y1 = x .
En eet on a
(4)
y1
y1
y1
x = y1 + , = , u1 =
.
g
g
g
Le controleur

u1 =

1
g



(4)
y (3) ) s2 (g y1,r ) + s3 (x

y 1,r ) s4 (x y1,r
y1,r + s1 (g
1,r

assure le suivi de la reference t  y1,r (t). Les quantites si sont les fonctions symetriques
homog`enes de degre i des 4 poles de suivi r1 , . . . , r4 :
s1
s2
s3
s4

= r1 + r2 + r3 + r4
= r1 r2 + r1 r3 + r1 r4 + r2 r3 + r2 r4 + r3 r4
= r1 r2 r3 + r1 r2 r4 + r1 r3 r4 + r2 r3 r4
= r1 r2 r3 r4 .

Comme pour p1 et p2 on peut prendre




g
g
r1 =
(1 + ) r2 =
(1 )
l
l


g
g
(1/2 + /2) r4 =
(1/2 /2).
r3 =
l
l

30

CHAPITRE 2. ETUDE
DE CAS

Le suivi en vitesse
En pratique les commandes donnees au pilote, le manche a` balai, correspondent a`
des vitesses, plutot qu`a des positions. En eet, pour les manoeuvres datterrissage, de
decollage ou de vol stationnaire, le pilote g`ere `a vue la position. Une autre raison plus
fondamentale est linvariance par translation du mod`ele. Le fait quun pilote conduise
naturellement un avion en vitesse vient en grande partie des symetries de translation :
le comportement de lavion est independant de sa position cartesienne (x,z). Aussi, un
mod`ele reduit en vitesse `a un sens. Il secrit
= g + v2
u
= v1
w
= v2

o`
u u = x et w = z.

Le suivi en vitesse est alors obtenu en tronquant le suivi en position. La sortie de


Brunovsky de la dynamique en w est y2 = w car v1 = y 2 . Ainsi le controleur
v1 = y 2,r + p(w y2,r )
assure le suivi dune reference t y2,r (t) de vitesse verticale. Le pole p doit etre choisi
reel et negatif, par exemple p = gl .

La sortie de Brunovsky pour la dynamique en u et est simplement y1 = u .


En eet on a
(3)
y 1
y
y1
u = y1 + , = , u1 = 1 .
g
g
g
Le controleur


1
(3)

y1,r + s1 (g y1,r ) s2 (g y1,r ) + s3 (u y1,r )


u1 =
g
assure le suivi dune reference t  y1,r (t) de vitesse horizontale. Les quantites si sont les
fonctions symetriques homog`enes de degre i des 3 poles de suivi r1 , r2 et r3 :
s1 = r1 + r2 + r3
s2 = r1 r2 + r1 r3 + r2 r3
s3 = r1 r2 r3 .
Comme pour p on peut prendre



g
g
1 g
r1 =
(1 + ), r2 =
(1 ), r3 =
.
l
l
2 l
Les consignes en vitesse venant du pilote peuvent etre tr`es irreguli`eres sil bouge rapidement le manche a` balai. Il convient de les regulariser un peu. Notons les y1,c et y2,c .
On les supposera uniquement mesurables et bornees. La reference de vitesse verticale doit
etre au moins C 1 et horizontale au moins C 3 . En fait il faut rajouter un ordre de regularite

` DECOLLAGE

2.2. LAVION A
VERTICAL

31

car nous avons neglige la dynamique des reacteurs. Des discontinuite de poussee sont impossibles physiquement. Ainsi les references y1,r et y2,r doivent etre respectivement C 4 et
C 2 . Elles correspondent donc `a des valeurs lissees des consignes brutes issues du manche `a
balai, y1,c et y2,c . Une simple convolution par un noyau regularisant h, positif, dintegrale
egale a` 1, au moins C 4 et `a support compact dans ] ,0] assure ce lissage (i = 1,2) :

yi,r (t) =


avec
()
yi,r (t)

h(t ) yi,c () d,

h() (t ) yi,c() d, = 1, . . . ,4.

On peut aussi utiliser un ltre de dimension ni et dordre 4. Cela revient alors a` une
convolution avec un noyau h donc le support reste toujours dans ] ,0] (causalite du
ltre) mais qui nest plus compact.
Notons enn que ces methodes sont locales et valables pour des vitesses pas trop
grandes et une inclinaison reduite. De plus les ordres de poussees F1 et F2 donnes aux
reacteurs doivent etre entre deux bornes et en particulier positifs. Ici encore, il convient de
sassurer que les trajectoires suivis par lavion verient ces contraintes en poussee, vitesse
et inclinaison. Une facon de les garantir consiste a` generer `a partir des ordres du pilote
(y1,c ,y2,c ) des trajectoires de references (y1,r ,y2,r ) susamment douces. On joue alors sur
la forme h du noyau regularisant.

2.2.4

Commande non-lin
eaire

Le suivi de trajectoires elabore `a partir du lineaire tangent setend au mod`ele non lineaire
de commande :
x
= v2 cos v1 sin
z = v2 sin + v1 cos g
= v2 .
En eet ce syst`eme admet une structure tr`es particuli`ere avec des sorties de Brunovsky non
lineaires, dites sorties plates :
y1 = x sin , y2 = z + cos .
Remplacons x et z par y1 et y2 dans les equations du syst`emes. Cela revient `a etudier le
meme syst`eme mais avec un jeu de variables (y1 ,y2 ,,v1 ,v2 ) dierentes de (x,z,,v1 ,v2 ). Le but est
de faire des changements de variables qui simplient les equations en les mettant sous une forme
canonique dite forme normale. Dans ces nouvelles variables les equations du syst`eme deviennent
y1 = (v1 2 ) sin
y2 = (v1 2 ) cos g
= v2 .
Ainsi nous savons que
y1 )
= arctan(
y2 + g/

mod


CHAPITRE 2. ETUDE
DE CAS

32
et donc
x = y1 
z = y2 

y1
y12

+ (
y2 + g)2
(
y2 + 1)

y12 + (
y2 + g)2

Nous voyons donc que toutes les variable du syst`emes sexpriment comme des fonctions, ici non
lineaires, de y1 , y2 et dun nombre ni de leur derivees. Noter que puisque nous avons deux
commandes independantes, nous pouvons ainsi parametrer toutes les trajectoires du syst`eme `a
partir de y1 et y2 . Cest tr`es comparable aux syst`emes lineaires commandables et leurs sorties
de Brunovsky.
Continuons avec un changement un peu plus general qui touche aux commandes v1 et v2 .
Partons des equations dans les variables (y1 ,y2 ,,v1 ,v2 ). Considerons les nouvelles commandes
(u1 ,u2 ) denies `a partir des anciennes commandes (v1 ,v2 ) par les equations (bouclage dynamique) :
= u1 sin + u2 cos + 2
v1 = + 2
v2 =

(u1 cos + u2 sin + 2).

Des calculs simples montrent alors que


(4)

y1 = v1 ,

(4)

y2 = v2 .

Cest la forme normale de Brunovsky dun syst`eme lineaire commandable a` 8 etats et 2 commandes. Ainsi par changement de variables et bouclage on se ram`ene `a un syst`eme lineaire
commandable. D`es lors, il sut de planier les trajectoires et de construire le suivi dans ces
nouvelles variables o`
u les equations sont particuli`erement simples.
Une question se pose naturellement apr`es ces quelques calculs : est-ce toujours possible de
faire ainsi? La reponse est negative. Il nest pas possible en general de tuer les non linearites par
des changements de variables et bouclages astucieux. Cependant, pour de nombreux syst`emes
physiques, cest souvent le cas avec les changements de variables ayant un sens physique direct.
Les syst`emes rencontres en pratique ne sont pas des syst`emes generiques. Ils admettent souvent
une structure particuli`ere, liee `a la physique, qui simplie alors notablement leur contr
ole. Pour
lexemple de lavion, (y1 ,y2 ) sont les coordonnees cartesiennes du centre doscillation 1 de lavion
pour un axe de rotation orthogonal au plan Oxz et passant par le point dintersection des
deux directions de poussee (si les directions de poussees sont parall`eles ( = 0) alors le centre
doscillation se confond avec le centre de gravite ( = 0)). Pour plus de detail, voir le cours sur
les syst`emes plats telechargeable `a ladresse http://math.polytechnique.fr/xups/vol99.html.

2.3

Pendule invers
e sur un rail

Cet exemple est ultra-classique. Il permet neanmoins de se faire une idee des limitations
des techniques non lineaires memes les plus recentes. En eet, son approximation lineaire
tangente peut se traiter sans rien connatre. Il sut juste dutiliser les loi de la mecanique
1. Voir les travaux de Huygens sur les horloges a` pendules.

SUR UN RAIL
2.3. PENDULE INVERSE

33

Fig. 2.9 pendule inverse sur un rail.


et lapproximation des petits angles. En revanche, d`es que les angles sont grands, des eets
non lineaires intrins`eques (i.e., que lon ne peut pas eliminer par changements de variables
et bouclages comme pour lavion a` decollage vertical) apparaissent. Par des techniques
non lineaires dites controle-Lyapounov, on sait calculer des commandes simples qui font
passer de lequilibre stable a` lequilibre instable. Cependant d`es que lon rajoute un second
pendule (double pendule) on ne sait plus a` lheure actuelle elaborer des controles simples et
mathematiquement prouves qui retournent le double pendule. En revanche la stabilisation
locale en position inverse ne pose pas de probl`eme en utilisant le lineaire tangent (cf. le
stand du double pendule inverse au musee des sciences et de lindustrie de la Villette `a
Paris, section mathematique).
Un pendule inverse sur un rail admet la dynamique suivante (approximation des petits
angles)
d2
d2
(D + l) = g, M 2 D = mg + F
dt2
dt
o`
u la commande est la force F appliquee au chariot et l est la distance du centre doscillation a` laxe de rotation du pendule. Il est clair que la sortie de Brunovsky est y = D + l.
En eet
= y/g, D = y l
y /g.
Un bouclage grand gain sur le chariot (u est la consigne de position du chariot)
F = Mk1 D Mk2 (D u)

u = l/g est le temps caracteristique du pendule, permet
avec k1 10/ , k2 10/ 2 o`
daccelerer par la commande le porteur. On obtient ainsi une commande hierarchisee avec
un asservissement rapide en position du porteur et une stabilisation lente du pendule a`
partir du mod`ele lent
d2
yu
(y) = g(y u)/l =
.
2
dt
2
Le simple bouclage
u = y 2 yr (t) + (y yr (t)) + (y yr (t))

34

CHAPITRE 2. ETUDE
DE CAS

assurent le suivi dune trajectoire de reference t  yr (t) pour labscisse du centre doscillation du pendule.

2.4

Moteur
electrique `
a courant continu

Avec cet exemple nous abordons les capteurs logiciels, des traitements en temps-reel
de linformation venant des capteurs pour en deduire des informations non bruitees sur
des grandeurs mesurees ou non. Sur lexemple choisi ici, il sagit, a` partir de la mesure
des tensions et des courants qui traversent le moteur , destimer de facon causale sa vitesse mecanique et son couple de charge. Linteret pratique est evident: les informations
electriques sont toujours disponibles car les capteurs sont simples et ables. En revanche,
les informations mecaniques necessitent une instrumentation plus complexe, plus ch`ere et
moins able. Aussi pour des raisons de co
ut mais aussi de securite, deduire des courants et
tensions, la vitesse de rotation est un enjeu technologique important en electro-technique.
Dans dautres domaines, on rencontre des probl`emes tr`es similaires. Pour les procedes,
les debits, temperatures et pressions sont faciles a` avoir par des capteurs simples et robustes alors que les qualites sont plus diciles `a mesurer rapidement (temps de retard
de lanalyse, ...). Un traitement de linformation contenue dans les temperatures, pressions et debits permet souvent dobtenir des estimations precieuses sur les compositions.
Pour estimer lorientation relative dun mobile par rapport a` un referentiel terrestre les
mesures sont de deux types: les gyrom`etres donnent de facon precise les vitesses angulaires; des magnetom`etres on deduit une mesure bruitee des cosinus directeurs de la
direction du champ magnetique par rapport au mobile. Il faut en deduire grace aux relations cinematiques une estimation robuste de lorientation du mobile (ses trois angles
dEuler, i.e., une matrice de rotation). Ce probl`eme est centrale pour la mise au point
davion sans pilote.
Lexemple du moteur a` courant continu permet de se faire une idee des questions soulevees et des techniques utiles pour apporter des solutions simples `a ce type de question.
Cet exemple illustre lobservabilite [denition 19, page 101], les observateurs asymptotiques [section 4.4.2, page 106], lobservateur-controleur [section 4.5, page 107] et les questions de robustesse en liaison avec les syst`emes lents-rapides [n de la sous-section 3.5.1,
page 73].
Un premier mod`ele de moteur a` courant continu est le suivant :
J = k p
L = k R + u
o`
u est la vitesse de rotation du moteur, le courant, u la tension, L > 0 la self, R > 0
la resistance, k la constante de couple, p le couple de charge et J linertie de la partie
tournante (moteur + charge).
Nous supposons les param`etres J > 0, k > 0, L > 0 et R > 0 connus et constants. En
revanche seule lintensite est mesuree. La charge p est une constante inconnue. Il nous
faut concevoir un algorithme qui ajuste en temps reel la tension u de facon a` suivre une
vitesse de reference r (t) variable dans le temps. Pour cela nous ne disposons que dun
capteur de courant. Beaucoup de variateurs de vitesse regulent la vitesse du moteur sans
la mesurer. Rajouter un capteur de vitesse sur larbre du moteur est parfois delicat. En


` COURANT CONTINU
2.4. MOTEUR ELECTRIQUE
A

35

revanche, brancher entre le moteur et son alimentation electrique une petit boite, i.e. le
variateur de vitesse, est tr`es simple `a realiser.

2.4.1

Stabilit
e en boucle ouverte

Il est facile de constater que la dynamique en boucle ouverte u = cte est stable. On
peut le voir directement en veriant que les exposants caracteristiques [denition 10,
page 66] sont a` partie reelle negative. Une autre facon de le voir, plus physique, consiste
`a remarquer que leet Joule R2 est dissipatif. Lenergie du syst`eme
1
1
E = J 2 + L2 ,
2
2
somme de lenergie cinetique de la partie tournante et de lenergie magnetique contenu
dans les bobinages du moteur, verie
dE
= p + ui R2 .
dt
Or la stabilite du syst`eme pour u et p non nuls est equivalente ici (le syst`eme est lineaire) `a
celle du syst`eme avec u et p nuls (il sut de faire une simple translation). Ainsi E est une
fonction de Lyapounov pour u = p = 0: le syst`eme est stable et meme asymptotiquement
stable (invariance de Lasalle) [theor`eme 3, page 58].

2.4.2

Estimation de la vitesse et de la charge

Verions que le syst`eme


p = 0
J = k p
L = k R + u
avec comme commande u et comme sortie y = est observable [denition 21, page 101].
Cela revient a` se pose la question suivante : connaissant t  ((t),u(t)) et les equations
du syst`eme, est-il possible de calculer et p. La reponse est positive et immediate car
= (u L R)/k, p = k (J/k)(u L R).
Le syst`eme est donc observable. On pourrait aussi reprendre le crit`ere de Kalman [theor`eme 14,
page 104]. Il est issu du meme calcul que celui qui prec`ede mais sur un syst`eme lineaire
general.
Cependant les mesures de courant sont bruitees. Il est donc hors de question de deriver
ce signal. Le fait detre en theorie observable ne donne pas un algorithme destimation
realiste. Il nous faut concevoir un algorithme qui soit insensible au bruit, i.e., qui les
ltre astucieusement sans introduire de dephasage. Ici apparat une idee centrale celle
dobservateur asymptotique. Elle consiste a` copier la dynamique du syst`eme en lui rajoutant des termes correctifs lies `a lerreur entre la prediction et la mesure. Cela donne ici
lobservateur suivant
p = Lp ( )
J
= k p + L ( )
L = k
R + u + L ( )


CHAPITRE 2. ETUDE
DE CAS

36

o`
u il est dusage de rajouter un chapeau sur les estimees. Noter que le param`etre inconnu
p est rajoute `a letat avec comme equation p = 0. On parle souvent pour p didentication,
p etant la valeur identiee. En choisissant correctement les gains Lp , L et L les ecarts
entre les estimees et les vraies valeurs tendent vers zero. En eet la dynamique de lerreur
(il est dusage de noter avec un tilde les ecarts entre les estimees et les grandeurs reelles)
p = Lp
J
=
p + (L + k)

L = (L R) k
.
Il sagit dun syst`eme autonome donc les exposants caracteristiques sont les racines du
polynome de degre 3 suivant
X3

Lp k
L R 2 k(L + k)
X +
X
.
L
LJ
LJ

Etant
donne quen jouant sur les Lp , L et L , on peut donner nimporte quelles valeurs
aux fonctions symetriques des racines, il est possible de les choisir comme lon veut. Si
Lp , L et L verient
L R
= r1 + r2 + r3
L
k(L + k)
= r1 r2 + r1 r3 + r2 r3
LJ
Lp k
= r1 r2 r3
LJ
alors les racines seront r1 , r2 et r3 . On peut choisir pour les poles dobservation [theor`eme 15,
page 106] les valeurs suivantes

R
R
k2
r1 = (1 + 1), r2 = (1 1), r3 =
.
L
L
LJ
Ce choix correspond aux echelles de temps caracteristiques du syst`eme en boucle ouverte.
Les valeurs p,
et ainsi calculees convergent vers p, et , quelque-soit la loi horaire
t  u(t). Noter aussi que meme si la mesure de courant est bruitee (bruit haute frequence
et centre autour de 0), lobservateur nous donne une valeur ltree, , sans dephasage et
qui nelimine que le bruit.

2.4.3

Le contr
oleur

A cause de ce qui prec`ede, nous pouvons supposer maintenant , p et connus et


elaborer le suivi de trajectoire. La sortie de Brunovsky est (ici p nest quun param`etre
qui va intervenir dans le bouclage). On a

Rk
k
k2

+
u.
LJ
LJ
LJ

Donc le bouclage assurant le suivi de r est obtenu en ajustant u de sorte que

=
r + (p1 + p2 )( r ) p1 p2 ( r )


` COURANT CONTINU
2.4. MOTEUR ELECTRIQUE
A

37

. Les poles de suivi [theor`eme 12, page 94] peuvent etre choisis
o`
u p intervient car = kp
J
plus rapides que ceux de lobservateur (au aussi plus lents) :

k2
k2
p1 = 2
(1 + 1), p2 = 2
(1 1)
LJ
LJ

2.4.4

Lobservateur-contr
oleur

Partons maintenant des deux signaux, t  y(t), la mesure de courant et t  r (t), la


reference de vitesse. Nous supposons pour simplier que r est C 2 par morceau (le moteur
ne peut pas suivre des references de vitesse plus irreguli`eres)
Voyons quel algorithme causal nous avons pour calculer u. Lobservateur est le syst`eme
dynamique
p = Lp ( y(t))
J
= k p + L ( y(t))
L = k
R + u(t) + L ( y(t)).
La commande est alors obtenue en remplacant dans le controleur les variables par leur
estimees. Ainsi u(t) est solution du syst`eme lineaire

k2
Rk
k
k p

+
u=
r + (p1 + p2 )(
r ) p1 p2 (
r ).
LJ
LJ
LJ
J

Le principe de separation 2 [section 4.5, page 107] assure alors la convergence du syst`eme
physique
J = k p
L = k R + u
couple `a lobservateur-controleur : les estimees tendent vers les vraies grandeurs et la
vitesse converge vers sa reference r meme si cette derni`ere varie tout le temps.

2.4.5

Robustesse par rapport `


a la dynamique rapide du courant

Supposons, et cest souvent le cas, que la dynamique electrique est nettement plus
rapide que la dynamique mecanique. Cela revient `a dire que la self L est tr`es petite,
positive mais mal connue. Ainsi tout ce que lon sait cest que L o`
u est un petit
param`etre positif inconnu. Il est alors facile de voir que les perturbations singuli`eres
[section 3.5.1, page 73] sappliquent ici : le syst`eme reste stable en boucle ouverte avec
une dynamique du courant convergeant immediatement vers son regime quasi-statique
dequation 3
= (u k)/R
et la dynamique lente de la vitesse etant alors
J = (k 2 /R) + (k/R)u p.
2. On parle de principe de separation car, pour les syst`emes lineaires, il est possible de traiter
separement la construction de lobservateur et celle du controleur. Ce nest plus le cas en general pour
les syst`emes non lineaires (c.f. la commande adaptative).
3. On parle souvent dequation de la couche limite. Historiquement, les syst`emes lents rapides ont ete
mis en evidence par Prandtl dans letude des uides peu visqueux et de leur prols de vitesse pr`es des
parois, la derivee en temps etant alors remplacee par la derivee en espace.


CHAPITRE 2. ETUDE
DE CAS

38

Reprenons maintenant les calculs du controleur en reperant les petits diviseurs, i.e. les
divisions par notre estimation de L = . La commande est solution de

k2
Rk
k
k p

+
u=
r + (p1 + p2 )(
r ) p1 p2 ( r ).
J
J
J
J

Avec comme dynamique reelle


Rk
k
k2
+
u
w =
J
J
J
o`
u la vraie self L = reste petite et positive, nous avons en boucle fermee
w =

(
r + (p1 + p2 )( r ) p1 p2 ( r )) .

Mais une petite erreur en valeur absolue sur = L peut etre grande en valeur relative.
Ici certaines divisions sont catastrophiques : peut etre tr`es loin de 1. Aussi ce controleur
nest pas robuste a` ce type dincertitude sur = L. On peut eectuer la meme analyse
pour lobservateur et obtenir les memes conclusions.
Comment faire? Il sut de rependre la synth`ese du controleur et de lobservateur sur
le mod`ele lent. Nous avons alors un mod`ele de commande qui ne depend plus de :
= (u k)/R, J = (k 2 /R) + (k/R)u p.
Tout se passera alors bien [n de la section 3.5.1, page 73]. Il sut de remarquer que
puisque = (u R)/k, la vitesse est indirectement connue en combinant la tension et
la mesure de courant. Lobservateur aura la forme suivante :
p = Lp (
z(t))

J
= (k 2 /R)
+ (k/R)u p + L (
z(t))
o`
u la mesure z(t) = (u(t) R(t))/k correspond a` la vitesse . Le suivi sera alors assure
par u solution de
+ (k/R)u p = J( r (
r )/ ).
(k 2 /R)
La seule limitation est celle des gains Lp , L et 1/ : ils doivent respecter les echelles de
temps du syst`eme et ne pas etre trop grands. Le mod`ele de commande est un mod`ele
approche. Il represente bien les dynamiques nettement plus lentes que celles du courant.
Aussi les dynamiques dobservation et de suivi doivent etre, elles aussi, nettement plus
lentes que celles du courant.

2.4.6

Boucle rapide et contrainte de courant

Il est important pour des raisons de securite de garantir un courant borne. Ainsi
nous avons comme contrainte
|| max
o`
u max > 0 est le courant maximum supporte par le variateur et le moteur. Les algorithmes precedents ne garantissent pas le respect de cette contrainte detat. Neanmoins, il


` COURANT CONTINU
2.4. MOTEUR ELECTRIQUE
A

39

est possible de prendre en compte cette contrainte en ne modiant que le controleur de la


section precedente sans toucher `a lobservateur. On consid`ere donc un premier bouclage
grand gain en courant :
1
u = R + u k
+ ( )

o`
u est une reference de courant et tel que R  1. Un tel bouclage rend la dynamique
du courant stable et bien plus rapide que celle de la vitesse. Remarquer que meme si L
est petit, ce bouclage ne fait que renforcer la rapidite du courant sans le destabiliser. En
eet on a
L = k
(R + 1/)( )
et donc est une tr`es bonne approximation. Ainsi la dynamique de la vitesse se reduit
`a
J = ki p.
Une justication mathematique de cette reduction rel`eve encore de la theorie des perturbations singuli`eres.
La reference de courant peut alors etre calculee ainsi :
=

J r J(
r )/ + p
k

o`
u > 0 est un temps nettement superieur lechelle de temps de la dynamique du courant,
i.e.,  L/(R+1/). Si la reference de courant ainsi calculee ne verie pas la contrainte
alors il sut de la saturer en valeur absolue `a max en preservant son signe. Il est facile de
voir quune telle saturation ne peut pas destabiliser la vitesse. Elle assure de fait le suivi
au mieux de la reference r .

40

CHAPITRE 2. ETUDE
DE CAS

41

Chapitre 3
Syst`
emes dynamiques explicites
Dans ce chapitre nous rappelons quelques resultats fondamentaux necessaires `a letude
des equations dierentielles ordinaires explicites, x = v(x) : existence et unicite des solutions, comportements asymptotiques pour des temps grands. La theorie des equations
dierentielles ordinaires permet detudier de nombreux processus devolution deterministes,
nis et dierentiables. Nous exposons ici les principales notions indispensables a` letude
de tels syst`emes. Ces notions sont `a la base de la theorie des syst`emes dynamiques dont
lobjet principal est lanalyse qualitative des solutions sur de longs intervalles de temps.
La diculte principale vient du fait que, dans le cas general, nous ne connaissons pas la
solution generale de tels syst`emes.
Ce chapitre reprend des elements du cours de tronc commun [2]. Pour une presentation
intrins`eque nous renvoyons au cours de calcul des variations [6]. Sauf cas contraire, les
demonstrations des resultats ci-dessous se trouvent dans [3] ou [12].

3.1

Espace d
etat, champ de vecteurs et ot

Nous commencons par introduire les notions despace detat (on parle aussi despace
des phases), de champ de vitesse et de ot sur un exemple simple. Puis nous abordons le
cas general avec les justications mathematiques qui conviennent.

3.1.1

Un mod`
ele
el
ementaire de population

Considerons une population de x micro-organismes (x grand) dans un milieu nutritif


favorable (un fermenteur par exemple) et avec une vitesse de reproduction proportionnelle
`a x (cette condition est une bonne approximation tant que la nourriture est susante,
tant que les micro-organismes ne meurent pas, . . . ).
Ce processus est decrit par lequation dierentielle de bilan suivante :
dx
= x
dt

(3.1)

o`
u est la vitesse specique de reproduction ( est une constante positive exprimee par
exemple en 1/h). x est la grandeur caracteristique du syst`eme, son etat : il appartient
`a lensemble des reels positifs [0, + [, lespace detat, appele aussi espace des phases

42

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

pour des raisons historiques 1 . x est la vitesse devolution : elle resulte des hypoth`eses de
modelisation.
Nous voyons quil nest pas necessaire de connatre les solutions de (3.1) pour connatre
explicitement la vitesse devolution. Il sut de connatre la position x dans lespace detat,
i.e. letat. Il est alors naturel dintroduire la notion de champ de vecteurs vitesse : le
champ de vecteurs vitesse est lapplication qui a` chaque point x de lespace detat fait
correspondre le vecteur vitesse v(x) (ici v(x) = x) devolution du phenom`ene.
La modelisation se decompose donc en deux etapes :

etape 1 : se donner un espace detat convenable qui permette de caracteriser le syst`eme


`a chaque instant par un point dans cet espace ;

etape 2 : decrire quantitativement levolution de proche en proche du syst`eme par un


champ de vecteurs vitesse et en donner une expression calculable en fonction de la
position x dans lespace detat.
A partir dune population initiale x0 au temps t = 0, la resolution explicite de (3.1)
conduit a` la loi horaire
x(t) = exp(t)x0 .
On constate alors les points suivants, egalement vrais pour les syst`emes generaux dierentiables :
deux solutions ayant la meme condition initiale x0 sont identiques (unicite de la
solution) ;
par une condition initiale x0 passe une solution (existence pour des intervalles de
temps ni).
Pour chaque instant t, lapplication
t : [0, + [ [0, + [
x exp(t)x
est une bijection reguli`ere (il est dusage de dire dieomorphisme) de lespace detat
([0, + [) dans lui meme et (t )1 = t . Remarquons aussi que t s = t+s et
0 = I (I est lidentite). Ainsi, lensemble G = (t )tR est un groupe a` un param`etre de
dieomorphismes. Il est dusage dappeler ot 2 ce groupe {t }. On appelle trajectoires,
les courbes de lespace detat t (x) parametrees par le temps t.
La connaissance du ot {t } entrane la connaissance du champ de vecteurs vitesse.
En eet

d 
v(x) = x =  (t (x)).
dt t=0
1. Lespace des phases a ete introduit par H. Poincare en mecanique. Le mouvement dun syst`eme
mecanique autonome a` n degres de liberte (espace des congurations) est enti`erement caracterise par un
point dans un espace des phases de dimension 2n. Par exemple, la lorientation dun solide en rotation
autour dun point xe est reperee par les 3 angles dEuler (espace des congurations SO(3), lensemble
des rotations de lespace euclidien physique R3 ), alors que sa dynamique, i.e. son evolution au cours du
temps est caracterisee par sa position et sa vitesse initiale, i.e. les trois angles dEuler et les trois vitesses
instantanees de rotation. Dans cet exemple, lespace des phases est de dimension 6 (le bre tangent
de SO(3)). Nous renvoyons le lecteur interesse par ces notions au remarquable livre de V.I. Arnold [4]
ainsi quau cours de calcul des variations [6].
2. Le terme ot vient dune analogie cinematique avec lecoulement stationnaire dun uide : si x0
est la position dun element de uide a` linstant t = 0, t (x0 ) est la position de lelement de uide a`
linstant t lorsque chaque element de uide de position x est soumis `a la vitesse decoulement v(x).


3.1. ESPACE DETAT,
CHAMP DE VECTEURS ET FLOT

43

Nous voyons donc quil est equivalent de se xer le champ de vecteurs vitesse ou le ot :
lun permet la determination de lautre et reciproquement. Plus generalement, a` tout
groupe a` un param`etre de dieomorphismes est associe une equation dierentielle par la
relation precedente.
Nous avons directement sur le ot {t } les comportements des solutions de (3.1)
lorsque t devient grand en valeur absolue :
si x0 = 0 alors t (x0 ) = 0 pour tout t R ;
si x0 > 0 alors t (x0 ) + quand t tend vers + et t (x0 ) 0 quand t tend
vers .
Ce type de renseignement sur le comportement asymptotique des solutions nest pas
evident a priori pour un champ de vecteurs vitesse v(x) quelconque. Ici reside lune des difcultes majeures : la modelisation fournit principalement lespace detat et le champ v(x)
sur cet espace alors que les reponses aux questions qualitatives sont fournies par le
ot {t }. Dans le cas general, il est extraordinairement dicile de deduire, de la connaissance du champ de vecteurs vitesse, des proprietes globales relatives au ot et aux comportements asymptotiques densembles de solutions.

3.1.2

Existence, unicit
e, ot

Fig. 3.1 champ de vecteurs vitesse v(x) sur un domaine U contenu dans Rn .
Les resultats dexistence et dunicite sont locaux en temps et en espace. Aussi peuventils etre enonces pour un syst`eme dierentiel du type
dx
= v(x)
dt

(3.2)

o`
u x = x(t) appartient `a un ouvert U (un ouvert de lespace detat parametre par les coordonnees locales x) de Rn et v est une application reguli`ere de U dans Rn . Lapplication v
est appelee champ de vecteurs (vitesse), c.f. gure 3.1.
Comme v ne depend pas du temps, le syst`eme est dit autonome. Tout syst`eme non
dx
autonome
= v(x,t) peut etre vu comme une partie dun syst`eme autonome de plus
dt
grande dimension. Il sut de poser x = (x,t) et v(
x) = (v(x),1) et de considerer le syst`eme
d
x
= v(
x).
etendu
dt

44

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

Th
eor`
eme 1 (existence et unicit
e) Considerons le syst`eme (3.2) et supposons le champ
de vecteurs v contin
ument derivable sur U. Pour tout x0 dans U, il existe a < 0 < b reels
et une unique solution
(x0 ) : ]a,b[ U
t t (x0 )
satisfaisant (3.2) avec x(0) = x0 (0 (x0 ) = x0 ).
Lhypoth`ese de derivabilite de v peut etre aaiblie en supposant v localement lipschitzienne (v(x) v(y) Kx y avec K constante de Lipschitz). Cette hypoth`ese
de regularite sur la variation de v est indispensable pour lunicite. En eet, lequation
dx
= x2/3 admet deux solutions distinctes ayant la meme condition initiale 0 :
scalaire
dt
t 0 et t t3 /27.
Lintervalle de temps ]a,b[ depend a priori de x0 . Si x0 evolue dans un compact de U, il
est possible de borner inferieurement |a| et b. Ce qui permet de considerer tout un ensemble
de conditions initiales et ainsi de denir le ot. Le theor`eme 1 assure lexistence dune

Fig. 3.2 transport dun ensemble V par le ot t


solution sur un petit intervalle de temps autour de 0. En raison de lunicite, deux solutions,
qui concident au moins en un point, sont necessairement egales. Comme lillustre la
gure 3.3 deux trajectoires distinctes dun syst`eme autonome ne peuvent ni se recoller, ni
se croiser. Cette propriete est tout a` fait importante. Elle permet de denir la notion de

Fig. 3.3 jonction, tangence et intersection entre deux trajectoires dierentes sont impossibles.
courbe integrale maximale, dorbite (c.f. gure 3.5) et de ot.


3.1. ESPACE DETAT,
CHAMP DE VECTEURS ET FLOT

45

D
enition 1 (ot, trajectoire, orbite, portrait de phase) Le champ de vecteurs v
est appele generateur innitesimal du ot t : U U deni par
d
(t (x))|t= = v( (x)) et 0 (x) = x
dt
pour x U et entre 0 et t.
A x U xe, la courbe parametree t t (x) est appelee trajectoire. Le lieu geometrique
{t (x)}t est appelee orbite ou encore courbe integrale passant par x. La partition de lespace detat en orbites est appele portrait de phase.
Il faut noter que, pour x dans U, t (x) est toujours deni pour t proche de 0. Le ot
t satisfait a` des proprietes de groupe (lorsque les operations sont denies) : 0 = I et
t s = t+s . Ainsi x t (x) a pour reciproque x t (x).

Fig. 3.4 le pendule ponctuel.


Un pendule ponctuel de longueur l, soumis a` une gravite g et dangle par rapport a`
la verticale (c.f. gure 3.4) obeit `a lequation du second ordre
g
d2
= sin .
2
dt
l
Cette equation dierentielle se met sous la forme dun syst`eme du premier ordre ayant
deux equations
d
g
d
= ,
= sin
(3.3)
dt
dt
l
et deux inconnues x = (,). Lespace engendre par x correspond au cylindre S1 R,
produit cartesien du cercle S1 et de la droite reelle R (langle est deni a` 2 pr`es et la
vitesse angulaire varie de `a +). t (,) S1 R admet donc deux composantes:
elles correspondent `a langle et `a la vitesse du pendule `a linstant t sachant qu`a linstant
0 langle etait et la vitesse .
D
efinition 2 (int
egrale maximale) Pour une condition initiale x xee, il est possible de
choisir lintervalle de temps ]a,b[, sur lequel la solution t (x) peut etre denie, le plus grand
possible : il correspond au prolongement maximal dans le passe (t < 0) et dans le futur (t > 0)
de la solution passant par x `
a t = 0. On appelle integrale maximale une telle solution. Une orbite
correspond donc a
` lensemble des points de lespace detat decrit par une integrale maximale. On
porte habituellement sur le dessin dun portrait de phases le sens de parcours des orbites.

46

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

Fig. 3.5 exemple de prolongement maximum dans le passe et dans le futur dune courbe
integrale.
Les cas o`
u lintervalle ]a,b[ de denition dune integrale maximale nest pas R tout entier
sont essentiellement les suivants (c.f. gure 3.6) :
explosion en temps ni (la norme de la solution part vers linni) : lexemple de base est
1
dx
= x2 = v(x) ; t (0) = 0, t (x) =
pour x = 0 ; si x > 0
le suivant U = R et
dt
t 1/x
alors lintegrale maximale passant par x est denie sur ] ,1/x[ ;
la courbe integrale arrive sur le bord du domaine U , en un temps ni, en un endroit o`
u
le vecteur vitesse v(x) pointe soit vers lexterieur de U (on dit que v est sortant) soit
vers linterieur de U (on dit que v est rentrant) selon que lon a b = + ou a = ,
respectivement.

Fig. 3.6 les deux cas darret en temps ni dune trajectoire.


Les principaux cas o`
u les courbes integrales sont denies sur un intervalle de longueur innie
sont (gure 3.7) :
soit U = Rn et Dv, la matrice jacobienne de v, est bornee sur Rn (evite les phenom`enes
dexplosion en temps ni) ; soit U est un domaine borne de Rn et le champ de vecteurs
vitesse est tangent sur le bord de U (cas o`
u v est nul sur le bord par exemple) ; dans les
deux cas a = et b = + ;
si U est un domaine borne de Rn et si le champ de vecteurs est rentrant dans U , alors b =
+.
U est une variete compacte.

Proposition 1 (d
ependance r
eguli`
ere par rapport aux conditions initiales) Soit
le syst`eme (3.2) avec v contin
ument derivable et {t }
le ot associ
e. Pour tout t, x  t (x)
]
[
t
i
), est solution de lequation
est C 1 . Sa derivee, notee Dx t (x) (la matrice n n
xj


3.1. ESPACE DETAT,
CHAMP DE VECTEURS ET FLOT

47

Fig. 3.7 courbes integrales sur des intervalles de temps innis.


dierentielle matricielle (premi`ere variation)
d
(Dx t (x))t= = Dx v( (x)) Dx (x)
dt
avec comme condition initiale Dx 0 (x) = In . De plus Dx t (x) v(x) = v(t (x)).
Si v depend reguli`erement dun param`etre (v = v(x,)) alors le ot de v(,), {t }
depend aussi reguli`erement de et on a

d 
D t (x) t= = Dx v( (x),) D (x) + D v( (x),)
dt
avec comme condition initiale D 0 (x) = 0.
Pour retrouver ces relations, il sut de deriver par rapport a` x et les relations
denissant le ot,

d
(t (x))t= = v( (x),), 0 (x) = x.
dt
Montrons comment faire les calculs sur lexemple (3.3) du pendule. Prenons des notation pour les deux composantes du ot :
t (,) = (t (,),t (,)).
On veut alors calculer les derivees partielles de et par rapport a` et , i.e., la matrice
jacobienne :


D(,) t =

Chaque colonne de cette matrice verie la meme equation dierentielle; seules les conditions initiales changent. Pour la premi`ere colonne, on obtient cette equation dierentielle
en derivant (3.3) par rapport a` :


d
d

=
,
= cos(t (,))
.
dt

dt
l

Les deux inconnues sont


et
. Elles admettent comme conditions initiales 1 et 0 res

pectivement. Noter que les quantites et sont des param`etres xes ici et que t (,)
et t (,) sont considerees comme des fonctions du temps uniquement.

48

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

Ces notations sont assez lourdes. Pour faire les calculs, on leur pref`ere des notations
moins rigoureuses mais bien plus commodes et . Elles permettent dobtenir rapidement lequation dierentielle ordinaire satisfaite par les derivees partielles precedentes :
d()
= ,
dt

d()
g
= cos((t))
dt
l

o`
u on a remplace t (,) par (t) qui maintenant correspond a` la valeur courante de
langle. Cette equation correspond tout simplement au terme du 1er ordre en et
dans (3.3) lorsque lon remplace et par + et + . Ce qui explique le nom
de premi`ere variation donne `a cette equation dierentielle lineaire en (,). Ainsi en
meme temps que lon calcule une solution ((t),(t)) de (3.3) on peut ainsi calculer sa
variation au premier ordre par rapport a` une erreur de condition initiale (0 ,0 ). Avec
(0 ,0 ) = (1,0) (resp. (0 ,0 ) = (0,1) on obtient les derivees partielles en (resp. ).
Exercice 1 Quelle est lequation dierentielle (avec sa condition initiale) veriee par la
derivee par rapport a` l des solutions de (3.3).
Nous voyons donc que deux trajectoires t (x) et t (y), ayant des conditions initiales
voisines (x y petit), restent voisines lune de lautre sur un intervalle de temps borne
(t (x) t (y) reste petit pour 0 t b, b < +).
Plus precisement, on a lestimation a priori suivante (pour une demonstration voir [12]).
Proposition 2 Si la norme de la matrice jacobienne Dx v (norme matricielle issue de la norme
sur les vecteurs de Rn ) est bornee sur U par une constante K alors, pour x et y dans U ,
t (x) t (y) x y exp(Kt).
Comme lillustre la gure 3.8, rien ne dit que pour des temps grands, t  1/K, les trajectoires restent encore voisines si elles le sont au depart. La majoration precedente peut tr`es
bien etre une bonne approximation de lecart entre deux trajectoires : la divergence est alors
eectivement exponentielle sur des temps longs. Cette divergence peut etre aussi interpretee
comme une sensibilite importante par rapport aux conditions initiales. Cette propriete est lune
des caracteristiques des syst`emes instables et dits chaotiques.

Fig. 3.8 sensibilite aux conditions initiales du ot {t }.


Soit y = f (x) un changement (local) de coordonnees sur U (par exemple le passage de
coordonnees cartesiennes aux coordonnees polaires dans le plan). Autrement dit f : x y =


3.1. ESPACE DETAT,
CHAMP DE VECTEURS ET FLOT

49

f (x) est un dieomorphisme local. Alors, lequation dierentielle (3.2) devient dans les nouvelles
variables y

f
dy
=
v(f 1 (y)) = w(y).
(3.4)
dt
x f 1 (y)
Il est alors clair que le ot t (y), de generateur innitesimal w(y), est relie au ot t (x), de
generateur innitesimal v(x), par la relation
t (f (x)) = f (t (x)),
soit t f = f t pour chaque t.
Nous allons voir que, autour dun point o`
u la vitesse v est non nulle, la structure locale du ot
(i.e. des trajectoires) est particuli`erement simple : comme lillustre la gure 3.9, un changement
de variables sur x (changement de coordonnees locales) permet de redresser le champ de vitesse
en un champ constant arbitraire.

Fig. 3.9 structure locale du ot l`a o`u le champ des vitesses est non nul.
On a le theor`eme suivant, dit theor`eme de redressement.
Th
eor`
eme 2 (redressement) Soit a dans U tel que v(a) = 0. Alors, il existe un dieomorphisme
local f autour de a, y = (y1 , . . . ,yn ) = f (x), qui transforme lequation dierentielle (3.2) dans
la forme normale suivante :
dy1
= 0 ...
dt

dyn1
=0
dt

dyn
= 1.
dt

La preuve de ce resultat est particuli`erement simple si lon fait une gure et que lon raisonne
geometriquement :
Preuve On peut supposer a = 0. Une fois que lon a compris la construction de la gure 3.10,
la preuve devient tr`es simple. Il sut dintroduire un hyperplan ne contenant pas v(0), passant
par 0 et dont la direction est denie par les vecteurs (e1 , . . . ,en1 ) associes aux n 1 premi`eres
coordonnees de x (quitte `a permuter des composantes de x, cest toujours possible). Les nouvelles
variables y, qui mettent le syst`eme localement sous la forme normale du theor`eme, sont alors
donnees par f = g1 avec
g : y = (y1 , . . . ,yn1 ,yn ) x = yn (y1 , . . . ,yn1 ,0)
o`
u t est le ot de v. Le fait que g soit un dieomorphisme local resulte aussitot du theor`eme
dinversion locale. Par construction, la matrice jacobienne de g au point y = 0 est inversible.

50

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

Fig. 3.10 preuve du theor`eme de redressement dans R3 .

Fig. 3.11 espaces detat les plus courants qui ne sont pas des ouverts sans trous (i.e. simplement connexes) de la droite R ou du plan R2 .


3.1. ESPACE DETAT,
CHAMP DE VECTEURS ET FLOT

3.1.3

51

Remarque sur lespace d


etat

Dans les denitions precedentes, nous avons suppose que lespace detat est un ouvert U
de Rn . Or, pour une vision globale du ot, et en particulier des comportements sur de grands
intervalles de temps du syst`eme, on est souvent oblige dintroduire la notion de variete detat.
Une variete abstraite peut etre vue comme une mise bout `a bout globalement coherente douverts
de Rn correspondant, au moyen de coordonnees locales, `a des petits morceaux (voisinages) de
la variete (pour une denition mathematique dune variete dierentiable voir [3]). La notion de
variete dierentiable a pour origine letude des courbes (variete de dimension 1) et des surfaces
(variete de dimension 2). La gure 3.11 rappelle les prototypes les plus classiques de varietes de
dimension 1 et 2 :
S1 , le cercle, est le prototype des courbes fermees (orbite periodique) et donc apparat tr`es
souvent au cours de letude de comportements periodiques.
Le cylindre S1 R est la variete detat naturelle du pendule plan : a` chacun des points (,)
du cylindre S1 R est associe un vecteur vitesse, tangent au cylindre (c.f. gure 3.12) au
point considere. La dynamique est alors determinee par un champ de vecteurs tangents
au cylindre.

Fig. 3.12 lespace detat du pendule est le cylindre, (, = ) S 1 R, et le vecteur


vitesse v(,) est tangent au cylindre.
Le tore T 2 = S1 S1 apparat naturellement lors de letude de deux oscillateurs.
Bien que le tore T 2 ait la meme dimension que la sph`ere S2 , il nest pas possible de
faire correspondre globalement de facon reguli`ere et biunivoque les points de T 2 et ceux
de S2 (il est instructif dessayer) 3 . Cette impossibilite est dordre topologique. Elle a
des consequences sur laspect global des champs de vecteurs tangents et sur les ots.
Par exemple, il est possible de construire sur le tore T 2 un champ regulier de vecteurs
tangents ne sannulant jamais, alors que cest impossible pour la sph`ere S2 (probl`eme dit
du herisson).
3. Contrairement aux notations, ici trompeuses, S1 S1 nest pas egal (dieomorphe) a` S2 .

52

3.1.4

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

R
esolution num
erique

Nous ne rappelons ici que des faits tr`es elementaires. La premi`ere idee qui vient `a
lesprit est la recurrence suivante :
n
xn+1
t xt
= v(xnt )
t

o`
u xnt serait une approximation de x `a linstant t = n t. Ce schema est connu sous
le nom de schema dEuler explicite. Il est dordre 1. Il est convergent. La convergence
signie ici la chose suivante : connaissant la condition initiale x0 `a t = 0, la solution
x(t) en t = T > 0 (quand elle existe) est alors la limite quand n tend vers + de xnt
(x0t = x0 ) o`
u t = T /(n 1) depend de n. La convergence nest pas une propriete
evidente a` demontrer. Elle nest pas directement reliee `a lordre. Un schema dordre 10
peut tr`es bien etre divergent et donc inutilisable. La diculte vient du fait que plus le
pas t est petit, plus le nombre diterations pour atteindre le temps nal T est grand.
Le schema dEuler implicite correspond a` la recurrence suivante
n
xn+1
t xt
= v(xn+1
t ).
t

ecessite la resolution dune equation implicite et donc la mise en oeuvre


Calculer xn+1
t n
de techniques type algorithme de Newton. Les calculs sont donc plus lourds. Ce schema
dordre 1 est convergent.
Les schemas implicites sont bien adaptes aux syst`emes raides, cest `a dire, aux syst`emes
lents/rapides qui comportent une grande diversite dechelles de temps, les echelles les plus
rapides etant stables (c.f. la section sur la theorie des perturbations ci-dessous). En eet,
il nest necessaire davoir un pas de temps t plus petit que lechelle de temps la plus
rapide comme cest le cas pour les methodes explicites. Aussi il peut etre plus economique
deectuer peu diterations avec un t assez grand (sachant que chaque iteration co
ute
assez ch`ere) plutot que beaucoup diterations avec un t tr`es petit.
Prenons un exemple :
x = x/ + y, y = y/
( >> sont deux param`etres positifs). Le schema dEuler explicite donne la recurrence
xn+1 = (1 t/ ) xn + t y n
y n+1 = (1 t/) y n .
Cette recurrence est stable si t < 2. Le schema implicite conduit a` (la resolution est
facile)


1
t
n+1
n
n
x +
y
x
=
1 + t/
1 + t/
1
y n,
y n+1 =
1 + t/
recurrence stable pour tout t > 0. Par exemple t /10 donne dej`a une bonne
approximation de la solution du syst`eme `a des echelles de temps de lordre de . Nous


3.1. ESPACE DETAT,
CHAMP DE VECTEURS ET FLOT

53

renvoyons le lecteur a` [21] o`


u sont presentees les methodes numeriques les plus classiques
comme celle de Gear (predicteur-correcteur) pour resoudre les syst`emes raides.
Exercice 2 Pour un syst`eme x = v(x) avec v regulier, montrer la convergence du schema
dEuler explicite.

3.1.5

Comportements asymptotiques

Fig. 3.13 exemple de point dequilibre, le col.


L`a o`
u la vitesse est non nulle, la structure locale du portrait de phases est tr`es simple
(theor`eme de redressement) : dans les bonnes coordonnees, les orbites sont des droites
parall`eles. En revanche, l`a o`
u la vitesse sannule, le portrait de phases peut etre nettement
plus complique. Pour sen convaincre il sut de comparer la gure 3.9, avec la gure 3.13.
Lune des raisons essentielles de cette dierence est que, pour etudier la structure des
orbites autour dun point o`
u le vecteur vitesse sannule, il faut considerer des intervalles
de temps non bornes, contrairement au cas o`
u la vitesse est non nulle.
D
enition 3 (point d
equilibre) Les points x o`
u le champ de vitesse v sannule sont
appeles points critiques, ou points dequilibre. Ils correspondent `a des points xes du
ot : t (x) = x pour tout t.
Exercice 3 Quels sont les points dequilibre du pendule (3.3)?
Un point dequilibre est une trajectoire particuli`ere. Une autre trajectoire particuli`ere
est la trajectoire qui se referme sur elle-meme (c.f. gure 3.14).
D
enition 4 (orbite p
eriodique) On appelle cycle, ou trajectoire periodique, ou encore orbite periodique, une trajectoire t (x) qui nest pas reduite `a un point et telle quil
existe T > 0 veriant T (x) = x. Le plus petit reel T strictement positif tel que T (x) = x
est appele periode. Elle est independante du point x pris sur la trajectoire.
Les points dequilibre et les orbites periodiques sont des exemples de sous-ensembles
invariants dont la denition est donnee ci-dessous.

54

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

Fig. 3.14 le cycle limite attracteur.


D
enition 5 (ensemble invariant) Soit A un sous-ensemble de lespace detat U. A
est dit invariant (resp. positivement invariant) par le ot t , si, pour tout t dans R (resp.
dans [0, + [), t (A) est inclus dans A.
Dautres exemples densembles invariants sont fournis par les hypersurfaces de niveau
dune fonction reelle de lespace detat qui reste constante le long des trajectoires, i.e. une
integrale premi`ere.
D
enition 6 (int
egrale premi`
ere) On appelle integrale premi`ere, une fonction C 1 h :
d
U R telle que [h(t (x))] = 0 pour tout x dans U et pour tout t. Cette condition est
dt
equivalente a` Dx h(x)v(x) = 0 pour tout x dans U (ce qui evite de connatre explicitement
le ot). Ainsi les hypersurfaces de niveau, {x U : h(x) = c} avec c constante reelle,
sont invariantes par le ot.
Geometriquement (c.f. gure 3.15) le champ de vitesses v est tangent aux hypersurfaces
de niveau 4 .

dx
= v(x) lorsque le vecteur v(x) est tangent
Fig. 3.15 h est une integrale premi`ere de
dt
aux hypersurfaces de niveau h = cte.

4. En labsence de point critique de h o`


u h sannule.


3.1. ESPACE DETAT,
CHAMP DE VECTEURS ET FLOT

55

Exercice 4 (int
egrale premi`
ere du pendule) Montrer que (3.3) admet comme integrale
1 2
premi`ere 2 g/l cos . En deduire lequation des orbites. Dessiner lallure du portrait
de phase sur le cylindre S1 R.
Exercice 5 (int
egrale premi`
ere et
energie) Les syst`emes mecaniques holonomes parfaits (sans frottement) obeissent aux equations de Lagrange :

L
d L
, i = 1, . . . ,n
=
dt qi
qi
o`
u q = (q1 , . . . ,qn ) sont les coordonnees generalise
es et L(q,q)
= T (q,q)
U(q) est le
lagrangien, dierence entre lenergie cinetique T = i,j ai,j (q)qi qj et lenergie potentielle
U(q). Montrer que lenergie H = T + U est une integrale premi`ere du syst`eme.
La notion dintegrale premi`ere setend aux syst`emes dynamiques regis par des equations
aux derivees partielles (EDP). Ces syst`emes sont dits de dimension innie car leur espace
detat, un espace fonctionnel, est de dimension innie. Lexercice qui suit en est une
illustration.
Exercice 6 (int
egrale premi`
ere pour les EDP) La dynamique dun uide parfait incompressible dans une cavite R3 obeit aux equations dEuler
Vi  Vi
p
+
Vj =
t
xj
xi
j=1
3

3

Vi
i=1
3


xi

i = 1,2,3

=0

Vi ni = 0 sur

i=1

o`
u x = (x1 ,x2 ,x3 ) sont des coordonnees cartesiennes, V (x,t) = (V1 ,V2 ,V3 ) le champ des
vitesses (letat du syst`eme), p la pression, n = (n1 ,n2 ,n3 ) la normale exterieure `a la
fronti`ere . Montrer que lenergie cinetique

1
T =
(V12 + V22 + V32 )(x,t) dx
2
est constante si V verie les equations dEuler.
Un prototype densemble positivement invariant, tr`es lie aux syst`emes dits dissipatifs, est
schematise sur la gure 3.16. Soit K un sous-ensemble ferme et borne (compact) de U dont le
bord K est regulier (morceaux dhypersurfaces). Si le champ de vitesse v est rentrant dans K,
alors K est positivement invariant, i.e. t (K) est contenu dans K pour tout t 0. Il est alors
naturel de considerer lensemble residuel,
 lui aussi invariant, que lon obtient par le ot a` partir
t (K),
de K lorsque t tend vers + : A =
t0

Ce cas type est `a la base de la notion intuitive dattracteur : ce vers quoi les trajectoires
tendent lorsque le temps devient grand. Cette notion est dicile a` denir dune mani`ere mathematiquement rigoureuse. Nous contenterons ici de la denition densemble attracteur

56

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

Fig. 3.16 exemple densemble invariant K pour les temps positifs.


D
efinition 7 (ensemble attracteur) Un sous-ensemble ferme A de lespace detat est un ensemble attracteur sil existe un ouvert V de lespace detat contenant A tel que, pour tout x
dans V , t (x) V pour t 0 et t (x) A lorsque t +.

3.1.6

L
etude qualitative ou le contenu des mod`
eles

Les resultats precedents (existence et unicite des solutions, theor`eme de redressement)


sont de nature locale en espace et en temps. Ils ne disent rien sur le comportement des
solutions lorsque le temps devient grand. Les equations de Lorenz,

dx1

= s(x1 + x2 )

dt
dx2
= rx1 x2 x1 x3

dt

dx3

= bx3 + x1 x2 .
dt
sont dapparence tr`es simples, bien que, pour s = 10, r = 28 et b = 8/3, lallure des
solutions, sur de grands intervalles de temps, soit tr`es irreguli`ere.
En general, lobjectif de la commande est deviter ce type dinstabilites et de comportements asymptotiques tr`es irreguliers. Au contraire, nous cherchons `a stabiliser le syst`eme
autour dun point ou dune trajectoire. Nous abordons maintenant un cas elementaire :
les trajectoires convergent vers un point stationnaire (le regime limite du syst`eme est un
point stationnaire).
Les developpements qui suivent sont limites `a quelques outils analytiques caracterisant
la stabilite dun point dequilibre (valeurs propres du linearise tangent et fonction de
Lyapounov). A cette occasion, on introduit la notion fondamentale dhyperbolicite pour
un point dequilibre.

3.2

Points d
equilibre

Un point dequilibre du syst`eme continu (3.2) correspond a` ce que lon appelle aussi un
regime stationnaire. La question de la stabilite se pose alors en des termes tr`es simples :


3.2. POINTS DEQUILIBRE

57

Fig. 3.17 les deux positions dequilibre du pendule.


si lon ecarte le syst`eme de lequilibre, y reviendra-t-il ? Ou encore : une petite perturbation, qui eloigne leg`erement le syst`eme de son regime stationnaire, peut-elle avoir des
consequences importantes et etre ampliee au cours du temps?

3.2.1

Stabilit
e et fonction de Lyapounov

Prenons le pendule (3.3). Tout le monde connat ses deux positions dequilibre (gure 3.17) : celle du bas, = 0, est stable (un petit ecart nentrane que de petits eets)
et celle du haut, = , est instable (un petit ecart entrane de grands eets). Si lon tient
compte du freinage de lair, il est clair que lequilibre du haut reste instable. Lequilibre du
bas reste stable mais avec en plus un amortissement au cours du temps des petits ecarts.
On dit alors que lequilibre du bas est asymptotiquement stable : au bout dun certain
temps, qui peut etre grand si le freinage de lair est faible, le pendule devient immobile
(physiquement).
Ces questions de stabilite ont ete etudiees par A.M. Lyapounov qui en a donne une
denition assez generale englobant de nombreux syst`emes physiques [16].
D
enition 8 (stabilit
e locale) Un point dequilibre x de (3.2) est stable au sens de
Lyapounov si, pour tout > 0, il existe > 0 (dependant de mais independant du
temps t) tel que, pour tout x veriant x x , t (x) x pour tout t > 0.
Dans un langage plus image : un petit desequilibre initial nentraine quun petit desequilibre
au cours du temps, desequilibre qui peut tr`es bien etre permanent.
D
enition 9 (stabilit
e asymptotique locale) Un point dequilibre x de (3.2) est asymptotiquement stable au sens de Lyapounov sil est stable au sens de Lyapounov (c.f. denition 8)
et si de plus, pour tout x susamment proche de x, lim t (x) = x.
t+

Remarquons que ces denitions sont locales en espace : elles concernent uniquement les
orbites voisines dun point dequilibre.
Revenons au pendule (3.3) et supposons que le freinage de lair soit proportionnel a`
La dynamique du pendule est alors decrite par
la vitesse angulaire = .
d
= ,
dt

d
g
= sin
dt
l

(3.5)

o`
u > 0 est le coecient de frottement avec lair divise par la masse du pendule. Lenergie
mecanique du pendule est proportionnelle a` la fonction V (,) = 2 /2 (g/l)(cos 1)

58

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

Fig. 3.18 stabilite asymptotique de lequilibre du bas ( = 0 , = 0) du pendule en


presence de frottement (portrait de phases local).
(lenergie mecanique de lequilibre du bas (,) = 0 est prise egale a` 0). La presence de
frottement implique physiquement une dissipation denergie. Elle se traduit ici par le fait
que V decrot le long des trajectoires,
dV
= 2 0,
dt
le travail des forces de frottement est negatif.
V est appele fonction de Lyapounov du syst`eme. Linteret dune telle fonction est
quil nest pas necessaire de resoudre explicitement lequation dierentielle (3.5) pour en
deduire la stabilite de lequilibre den bas. Contenu du fait que
V (,) 2 + (g/2l)2
pour (,) proche de 0, les ensembles {(,) : V (,) }, avec > 0 petit, sembotent
les uns dans les autres autour de 0. La relation V 0 signie geometriquement que le
champ de vecteurs,

(,)
,
g/l sin
est rentrant dans cette famille densembles embotes. On obtient ainsi la gure 3.18 qui
montre clairement que lequilibre inferieur est asymptotiquement stable au sens de Lyapounov.
Les developpements des deux paragraphes precedents peuvent etre rendus parfaitement rigoureux et correspondent `a ce que lon appelle premi`ere methode de Lyapounov ou encore methode directe. Ils sappuient sur les deux resultats generaux suivants
(demonstration dans [16]).
ere m
Th
eor`
eme 3 (1`
ethode de Lyapounov, invariance de Lasalle) Soient (3.2) avec
n
U = R (pour simplier) et une fonction C 1 , V : Rn [0, + [, telle que :
si x Rn tend vers linni en norme, V (x) tend aussi vers linni ;
dV
0.
V decrot le long de toutes les trajectoires,
dt


3.2. POINTS DEQUILIBRE

59

Alors, toutes les trajectoires sont denies sur [0, + [ et convergent asymptotiquement
vers le plus grand ensemble invariant (c.f. denition 5) contenu dans lensemble deni
par Dx V v = 0.
Une fonction V veriant les hypoth`eses du theor`eme 3 est appelee fonction de Lyapounov (globale). Le principe dinvariance consiste simplement a` ecrire le syst`eme surdetermine suivant,
x = v(x), Dx V (x) v(x) = 0,
syst`eme caracterisant le plus grand ensemble invariant contenu dans dV = 0.
dt
Pour le pendule avec frottement (3.5), V = 0 secrit = 0. Pour savoir vers quoi
tendent les solutions, nous avons a` resoudre le syst`eme sur-determine suivant :
d
=
dt
d
= g/l sin
dt
= 0.
Les solutions sont = 0, et = 0. Ainsi quelque soit la condition initiale, les trajectoires
tendent soit vers lequilibre du haut soit vers lequilibre du bas.
Exercice 7 Dessiner, en utilisant les resultats qui prec`edent et ceux de lexercice 4, le
portrait de phase de (3.5) avec > 0 petit. En deduire egalement le portrait de phase
pour < 0 petit en valeur absolue.
Ce theor`eme global admet aussi une version locale autour dun point dequilibre.
Th
eor`
eme 4 Si x est un point dequilibre de (3.2) et si la fonction C 1 , V : U [0,+[,
est telle que :
V (x) = 0 et V (x) > 0 pour x = x ;
V decrot le long de toutes les trajectoires (

dV
0).
dt

dV
Alors x est stable au sens de Lyapounov. Si lon suppose en plus que
< 0 si x = x,
dt
alors x est asymptotiquement stable au sens de Lyapounov. Si lon suppose encore en plus que
V (x) tend vers linni lorsque x Rn tend vers linni, toutes les trajectoires, meme celles qui
demarrent loin de x, tendent vers x : on dit alors que le point x est globalement asymptotiquement
stable.

Ces deux theor`emes restent valables meme si la fonction de Lyapounov V nest pas aussi
reguli`ere. Par exemple V peut etre supposee continue et uniquement derivable par morceaux. Pour de plus amples details voir [16].
Exercice 8 (stabilit
e pour des syst`
emes d
ependant du temps) Nous reprenons ici
une idee tr`es simple(cf. aussi lexercice 11 pour des prolongements en dimension innie).

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

60

u a` chaque instant la parSoit le syst`eme dependant du temps x = v(x,t), x 


Rn o`
vi
tie symetrique de la matrice jacobienne Dx v = xj est denie negative. Soient deux
solutions distinctes (t) et (t) de x = v(x,t).
1. Montrer que la distance euclidienne entre et decrot au cours temps, i.e., que
r(t) = ((t) (t))2 decrot.
2. Que doit-on rajouter comme hypoth`ese sur la partie symetrique de Dx v pour avoir
la convergence exponentielle de vers , i.e., pour avoir lexistence de a > 0
(independant de et ), tel que, pour tout t > 0, r(t) r(0) exp(at).
Comme les integrales premi`eres, les fonctions de Lyapounov existent aussi pour les
syst`emes au derivees partielles comme le montrent les exercices qui suivent.

Fig. 3.19 poutre en torsion.

Exercice 9 (poutre en torsion) Une poutre en torsion (c.f. gure 3.19) autour dun
axe admet en elasticite lineaire le mod`ele suivant
t2 (x,t) = x2 (x,t), x [0,1]
x (0,t) = u
x (1,t) = t2 (1,t),
Les conditions aux limites viennent du fait quen x = 0 la poutre est solidaire dun moteur
exercant un couple u, quen x = 1 la poutre est solidaire dune inertie.
1. Calculer la derivee le long des trajectoires de lenergie mecanique

T =
0


1
1
[t (x,t)]2 + [x (x,t)]2 dx + [t (1,t)]2 .
2
2

En deduire pour u = 0 (le syst`eme est libre) que T est une integrale premi`ere.
2. On dispose dun capteur de vitesse en x = 0 (on connat donc `a chaque instant la
vitesse du moteur t (0,t)). Comment ajuster u de facon `a faire decrotre T (donner
une interpretation physique).


3.2. POINTS DEQUILIBRE

61

Fig. 3.20 equation de la chaleur pour une barre homog`ene.


Exercice 10 (
equation de la chaleur) Levolution du prol de temperature (x,t) (c.f.
gure 3.20) dans une barre homog`ene isolee du cote x = 0 et en contact avec un thermostat
`a la temperature constante a en x = 1 est
t (x,t) = x2 (x,t),
x (0,t) = 0
(1,t) = a
Montrer que

x [0,1]

((x,t) a)2 dx

decrot au cours du temps. En deduire (formellement) que tend vers a.


Exercice 11 (r
eaction diusion et entropie) Un syst`eme enferme dans le domaine
3
R , isole de lexterieur, si`ege de diusion et de reactions chimiques, peut etre
represente par le mod`ele suivant
t C(x,t) = div (M(C)grad C) + v(C), x
C
= 0 sur ( normale exterieure)

avec C = (C1 , . . . ,Cn ) le vecteur des concentrations et n le nombre desp`ece chimiques.


M(C), la matrice des coecients de diusion, est symetrique denie positive (relations
dOnsager). v = (v1 , . . . ,vn ) correspond aux cinetiques des diverses reactions chimiques.
Nous supposons
quil existe a tel que v(a) = 0 et que la partie symetrique de la matrice
vi
jacobienne C
est symetrique denie negative. Montrer que
j

(C(x,t) a)2 dx

decrot au cours du temps (cette quantite peut etre interpretee comme lopposee dune
entropie et sa decroissance comme la croissance de lentropie). En deduire (formellement)
que le prol de concentration C tend vers le prol homog`ene a lorsque t tend vers +
(ce qui est bien conforme au second principe de la thermodynamique).

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

62

3.2.2

Les syst`
emes lin
eaires

Cette sous-section ne comporte que le strict minimum sur les syst`emes lineaires. Pour
un expose complet avec demonstration, nous renvoyons a` [12]. Nous considerons le syst`eme
lineaire
dx
= Ax
(3.6)
dt
avec x Rn et A une matrice n n constante.
Lexponentielle dune matrice
La matrice dependant du temps exp(tA) est denie par la serie absolument convergente


t2 2
tk k
exp(tA) = I + tA + A + . . . + A + . . .
(3.7)
2!
k!
o`
u I est la matrice identite. Toute solution de (3.6) passant par x `a t = 0 sexprime sous
la forme
exp(tA) x = t (x).
Voici les principales proprietes de lexponentielle :
exp(tA) exp(sA) = exp((t + s)A)
d
(exp(tA)) = exp(tA) A
dt
exp(P AP 1) = P exp(A)P 1

m
A
exp(A) = lim
I+
m+
m
det(exp(A)) = exp(tr(A))
o`
u t et s sont des reels, P est une matrice inversible, det designe le determinant ettr
designe la trace.
Soient deux matrices carrees A1 et A2 de meme taille. En general exp(A1 + A2 ) =
exp(A1 ) exp(A2 ) car le produit de matrices nest pas commutatif. Pour avoir legalite, on
peut supposer que A1 et A2 commutent : A1 A2 = A2 A1 . Ainsi, le ot dun syst`eme lineaire
dependant du temps x = A(t)x nadmet pas dexpression simple avec des exponentielles :
t
en general, x(t) = exp( 0 A( )d ) x(0). Legalite a lieu si A(t1 ) et A(t2 ) commutent pour
tout t1 , t2 . Pour sen convaincre prendre lequation x = (a + bt)x qui nadmet pas de
quadrature simple (fonction dAiry).
Portrait de phases
Nous allons considerer maintenant les cas les plus interessants, principalement les
cas generiques (i.e. stables par petites perturbations des elements de A), que lon peut
rencontrer en dimensions n = 2 et n = 3.
Dimension n = 2 Les principaux cas sont resumes sur les gures 3.21, et 3.22. 1 et
2 sont les valeurs propres de A (distinctes ou non, reelles ou complexes conjuguees), 1
et 2 sont les vecteurs propres reels associes quand ils existent.


3.2. POINTS DEQUILIBRE

63

Fig. 3.21 portraits de phases plans et lineaires lorsque les deux exposants caracteristiques, 1 et 2 , ont une partie imaginaire non nulle.

Fig. 3.22 portraits de phases plans et lineaires, x = Ax, lorsque les exposants caracteristiques, 1 et 2 , sont reels (1 et 2 vecteurs propres de A, lorsquils existent).

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

64

Fig. 3.23 exemple de portrait de phases dun syst`eme lineaire de dimension 3 en fonction
de ses exposants caracteristiques.
Dimension n = 3 La gure 3.23, montre sur un exemple comment, a` partir des portraits
de phases en dimension 2, on construit, dans les cas generiques, le portrait de phases
en dimension 3 : il sut de decomposer R3 en somme despaces propres invariants de
dimension 1 ou 2.
Forme de Jordan et calcul de lexponentielle dune matrice
Le calcul de exp(tA) peut etre simplie en faisant intervenir une transformation P
inversible qui diagonalise A, lorsque cest possible, ou qui transforme A en une matrice
diagonale par blocs, dite matrice de Jordan (c.f. [12]). En dimension 2, on peut ainsi
toujours se ramener aux trois formes normales de Jordan suivantes :




1 0
exp(1 )
0
1
A=P
et exp(tA) = P
P 1
P
0 2
0
exp(2 )

A=P

A=P

1
0


P 1 et exp(tA) = exp(t) P

et exp(tA) = exp(t) P

cos(t) sin(t)
sin(t) cos(t)
1 t
0 1


P 1


P 1.

En dimension 3, une matrice A poss`ede toujours une valeur propre reelle et un


vecteur propre reel. Si lon suppose que nest pas une valeur propre de multiplicite 3,
ce qui est tr`es exceptionnel, on a

0
P 1
a b
A=P
0
c d
avec P matrice dordre 3 inversible et , a, b, c et d reels. On se ram`ene ainsi `a la
dimension 2.
Exercice 12 (syst`
eme lin
eaire dans le plan) Pour un syst`eme lineaire x = Ax de
dimension 2, etablir en fonction de la trace et du determinant de A, des dierents portraits
de phases possibles.


3.2. POINTS DEQUILIBRE

3.2.3

65

Lien avec le lin


eaire tangent

Une methode (dite indirecte ou seconde methode de Lyapounov) pour analyser la


stabilite autour dun point dequilibre x de x = v(x) consiste `a etudier le syst`eme linearise
tangent :



vi
d(x)
= Dx v(x) x o`
u Dx v(x) =
(
x) 
.
dt
xj
1i,jn
On a alors les deux resultats suivants.
Th
eor`
eme 5 Soit x un point dequilibre de (3.2). Si les valeurs propres de Dv(x) sont
toutes a` partie reelle strictement negative, alors x est un equilibre asymptotiquement stable
au sens de Lyapounov.
Cette condition susante sur les valeurs propres du linearise tangent nest pas une
dx
= x3 dont les solutions t +
condition necessaire comme le montre lequation scalaire

dt

1/(t a) convergent toutes vers 0 quand t tend vers +.
Preuve Elle consiste a` construire une fonction de Lyapounov pour le lineaire tangent et
`a montrer que cest aussi une fonction de Lyapounov locale pour le syst`eme non lineaire.
Pour construire cette fonction de Lyapounov, nous pouvons utiliser la connaissance explicite du ot du lineaire tangent via lexponentielle. La connaissance explicite du ot du
syst`eme non lineaire etant hors de portee, cest la seule mani`ere de proceder.
Quitte a` changer de notations, on suppose x = 0. Notons A = Dv(0). Comme les
valeurs propres de A sont toutes a` partie reelle negative, lintegrale suivante est absolument
convergente ( signie transpose),


Q=

exp(tA ) exp(tA) dt,

sa valeur Q est une matrice symetrique strictement positive car pour tout t, exp(tA ) exp(tA)
est symetrique denie positive (exp(tA) est inversible). Montrons que V (x) = (1/2)x Qx
est une fonction de Lyapounov de x = v(x) autour de 0. Clairement V est positive, bornee
inferieurement. On a, en developpant v `a lordre 1 en 0,
V = x Qx = x Q(Ax + o(x)).
Or

x QAx =

x exp(tA ) exp(tA)Ax dt.

Comme d/dt(exp(tA)) = exp(tA)A,


exp(tA ) exp(tA)A = (1/2)
Ainsi


0

d
(exp(tA ) exp(tA)).
dt

x exp(tA ) exp(tA)Ax dt = x x/2.

66
et donc

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES
V = x Qx = x2 /2 + o(x2 )).

Ce qui montre que V < 0 si x = 0 est proche de zero. Le theor`eme 4 permet alors de
conclure.
De facon tr`es similaire, on a la condition susante (mais non necessaire) dinstabilite
suivante.
Th
eor`
eme 6 Soit x un point dequilibre de (3.2). Si lune des valeurs propres de Dv(x)
poss`ede une partie reelle strictement positive alors x nest pas un equilibre stable au sens
de Lyapounov.
Exercice 13 (
equation de Lyapounov) Montrer que x = Ax est asymptotiquement
stable si, et seulement si, pour tout matrice Q symetrique denie positive, il existe une
matrice P , symetrique denie positive, veriant lequation dite de Lyapounov
P A + A P + Q = 0.
(Considerer la fonction de Lyapounov V (x) = x P x et lintegrale

 +
0

exp(tA )Q exp(tA) dt).

Les valeurs propres du linearise tangent en x ne dependent pas des coordonnees locales
autour de x (ce qui est faux si x nest pas un point dequilibre). En eet, si y = g(x) est
un changement de variable local en x, alors (3.2) secrit, dans les coordonnees y,
dy
= Dg(g 1(y)) v(g 1(y)).
dt
Un calcul simple montre que la matrice du linearise tangent en y = g(x) est semblable `a
x). Ainsi les valeurs propres sont les memes : ce sont des invariants par changement
Dx v(
de variables.
D
enition 10 (exposants caract
eristiques, hyperbolicit
e) Soit x un point stationnaire de (3.2), v(x) = 0. Les valeurs propres de Dv(x) sont appelees exposants caracteristiques du point dequilibre x. Le point dequilibre x est dit hyperbolique si tous ses
exposants caracteristiques sont a` partie reelle non nulle.
Pour un syst`eme commande, x = f (x,u), et un point dequilibre (
x,
u) (f (
x,
u) = 0,
les poles en boucle ouverte sont les exposants caracteristiques du syst`eme autonome x =
v(x) = f (x,
u) a` lequilibre x.
Exercice 14 Discuter en fonction du signe du coecient la stabilite et lhyperbolicite
des deux points dequilibre du pendule (3.5).
Noter (c.f. gure 3.24) que labsence de stabilite au sens de Lyapounov nimplique nullement
que les trajectoires, qui demarrent pr`es de x, ne convergent pas, quand t tend vers +, vers x.
Reprenons la signication du theor`eme de redressement dans une logique developpement
limite. Ce theor`eme signie que le premier terme v(
x) du developpement en serie de v autour
de x,
v(x) = v(x) + Dv(x) (x x) + . . . ,
est susant pour avoir lallure du portrait de phases autour de x si v(x) = 0.

`
3.3. SYSTEMES
DYNAMIQUES DISCRETS

67

Fig. 3.24 exemple de point dequilibre x, instable au sens de Lyapounov, mais dont toutes les
trajectoires, initialement proches de x, convergent vers x lorsque t +.
Pour un point dequilibre, le premier terme de cette serie est nul (v(x) = 0), il est alors naturel
de considerer le second terme, cest `a dire le syst`eme linearise tangent au point stationnaire :
dx
= Dv(x) x
dt
avec x = x x. Des resultats precedents sur la stabilite dun point dequilibre, il ressort que,
meme si la matrice Dv(x) est inversible, on ne peut rien dire, en general sur le portrait de phases
autour de x (i.e. des trajectoires qui demarrent pr`es de x).
Si le terme lineaire du developpement limite nest pas susant pour en deduire la stabilite
locale (point dequilibre non hyperbolique), il convient alors dutiliser les termes dordre superieur
et des techniques vraiment non lineaires comme la variete centrale et leclatement de singularites
[11, 4].

3.3

Syst`
emes dynamiques discrets

Un syst`eme dynamique discret (suite recurrente) est de la forme


xk+1 = G(xk )

(3.8)

o`
u G est une application reguli`ere (un dieomorphisme en general) dun ouvert U de Rn dans
lui meme. Le syst`eme continu (3.2) peut etre etudie comme un syst`eme discret si, au lieu de
considerer son ot continu t , on consid`ere > 0 (sorte de periode dechantillonnage) et
lapplication associee
G : U U
.
x G(x) = (x)
Comme = 2 , il est clair que letude de t lorsque t + et celle de
Gk = G G . . . G
k fois
lorsque lentier k tend vers + doivent etre tr`es similaires.
Nous rappelons ici, succinctement, comment les notions et resultats precedents, introduits
pour les syst`emes continus, se transposent aux syst`emes discrets.

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

68

3.3.1

Point xe et stabilit
e

D
efinition 11 (point fixe, multiplicateurs, hyperbolicit
e) Soit le syst`eme discret (3.8).
Un point xe x est deni par la relation G(x) = x. Les valeurs propres du jacobien de G
en x, DG(x), sont appelees multiplicateurs caracteristiques de G en x. Le point xe x est dit
hyperbolique si aucun de ses multiplicateurs caracteristiques nest de module egal a
` 1.

Fig. 3.25 la fonction exponentielle envoie le demi-plan des complexes a` partie reelle negative
dans linterieur du cercle unite.
La gure 3.25 illustre comment lexponentielle complexe permet de passer des exposants
caracteristiques aux multiplicateurs caracteristiques, et justie la terminologie.
D
efinition 12 (stabilit
e locale) Un point xe x de (3.8) est stable au sens de Lyapounov si,
pour tout > 0, il existe > 0 (dependant de mais independant du nombre diterations k) tel
que, pour tout x veriant x x , Gk (x) x pour tout entier k > 0.
D
efinition 13 (stabilit
e asymptotique locale) Un point xe x de (3.8) est asymptotiquement stable au sens de Lyapounov sil est stable au sens de Lyapounov et si, de plus, pour tout
x susamment proche de x, lim Gk (x) = x.
k+

Pour etudier la stabilite autour dun point xe x, il est souvent utile detudier le syst`eme
linearise tangent :
xk+1 = DG(x) xk
o`
u x = xx correspond a` un petit ecart par rapport a` x. On a alors les deux resultats suivants.
Proposition 3 Soit x un point xe de (3.8). Si ses multiplicateurs caracteristiques sont tous
de module strictement inferieur a
` 1, alors x est asymptotiquement stable au sens de Lyapounov.
Cette condition de stabilite sur les multiplicateurs caracteristiques nest pas necessaire. Elle nest
que susante. On a aussi la condition susante (mais non necessaire) dinstabilite suivante.
Proposition 4 Soit x un point xe de (3.8). Si lun des multiplicateurs caracteristiques de x
est de module strictement superieur a
` 1, alors x est nest pas stable au sens de Lyapounov.
La preuve utilise simplement le fait que G est une contraction locale autour de x
.

3.3.2

Les syst`
emes lin
eaires discrets

Nous considerons ici le syst`eme lineaire discret suivant


xk+1 = Axk

(3.9)

STRUCTURELLE ET ROBUSTESSE
3.4. STABILITE

69

avec x Rn et A Rn Rn constant. Letude des comportements asymptotiques de la suite


recurrente xk repose sur le calcul des puissances successives de A. Comme pour les equations
dierentielles lineaires `a coecients constants, il est commode dutiliser la decomposition en
blocs de Jordan.
En dimension 2, on a uniquement les 3 cas suivants ((,1 ,2 ,,) reels, P matrice 2 2
inversible) :
k



1 0
1 0
1
k
et A = P
P
P 1
A=P
0 2
0 k2

A=P

cos() sin()
sin() cos()

A=P

0
1


P 1

et

Ak

et

Ak


P 1

=P

cos(k) sin(k)
sin(k) cos(k)

k
0
kk1 k


P 1


P 1 .

En dimension 3, on se ram`ene, sauf cas exceptionnel, `a la dimension 2 par la decomposition


de A suivante :

0
P 1
a b
A=P
0
c d
avec P matrice dordre 3 inversible et , a, b, c et d reels.
A partir des calculs precedents, il est assez simple de dessiner lallure des trajectoires, i.e.
les portraits de phases, (Ak (x))k0 , dans R2 et R3 . Les gures 3.26 et 3.27 en donnent quelques
uns.

3.4

Stabilit
e structurelle et robustesse

Nous navons pas encore aborde une question centrale : la stabilite structurelle que
lon retrouve en automatique avec la notion de robustesse.
Un syst`eme dynamique est dit structurellement stable si, et seulement si, les portraits
de phases de tous les syst`emes voisins sont topologiquement equivalents. Deux syst`emes
sont dits topologiquement equivalents si et seulement sil existe une homeomorphisme
(bijection continue et dinverse continue) entre les espaces detat qui transforment les
orbites de lun en les orbites de lautre, en preservant le sens de parcours des orbites 5
Par exemple, si un syst`eme structurellement stable admet un seul point dequilibre
asymptotiquement stable x hyperbolique, alors, tout syst`eme voisin admet aussi un
seul point dequilibre, proche de x, asymptotiquement stable et hyperbolique.
Il convient bien s
ur de denir ce quest un syst`eme voisin : le plus simple consiste
`a perturber le champ de vitesse v(x) par addition dun champ v(x) petit en norme (la
norme peut aussi porter sur les derivees en x, Dx (v),. . . ) et a` considerer alors le syst`eme
dynamique v(x) + v(x) comme syst`eme voisin.
Il est clair que cette question poss`ede des motivations physiques importantes. En effet, toute modelisation est une approximation. Il est donc normal de sinteresser aux
5. Il nest pas possible de conserver la parametrisation en temps car alors les periodes des orbites
periodiques de deux syst`emes topologiquement equivalents seraient rigoureusement egales. Ce qui est
beaucoup trop contraignant.

70

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

trajectoire

multiplicateurs caracteristiques

Fig. 3.26 portraits de phases de syst`emes lineaires discrets dans le plan, xk+1 = Axk , en
fonction de leurs multiplicateurs caracteristiques.

STRUCTURELLE ET ROBUSTESSE
3.4. STABILITE

71

Fig. 3.27 exemple de syst`eme lineaire hyperbolique discret, xk+1 = Axk , de dimension 3.
syst`emes voisins du syst`eme dynamique de modelisation. En particulier, il apparat important de savoir si les comportements asymptotiques contenus dans le syst`eme issu de
la modelisation sont persistants et stables aux petites perturbations des equations, i.e.
du champ des vitesses. Do`
u le nom de stabilite structurelle (`a ne pas confondre avec la
stabilite asymptotique) donne `a ces questions.
dx
Par exemple, un syst`eme
= v(x) qui admet un point stationnaire x dont lun des exdt
posants caracteristiques est `a partie reelle nulle, nest pas structurellement stable. En eet,
de petites perturbations v du champ des vitesses v induisent sur la matrice Dv(x), ainsi
que sur ses valeurs propres (les exposants caracteristiques), des perturbations dans toutes
les directions. Or, la stabilite asymptotique est une propriete invariante par equivalence
topologique. Donc, necessairement, un tel syst`eme ne peut pas etre structurellement stable
pour des perturbations aussi generales. En revanche, il peut tr`es bien le rester pour des perturbations plus speciques, i.e. une topologie plus ne qui restreint la classe des syst`emes
voisins possibles.
La mise en forme des idees evoquees ci-dessus necessite lutilisation de notions mathematiques assez elaborees qui debordent largement le cadre de cet expose dintroduction.
Un lecteur interesse pourra consulter dabord [1], et pour en savoir plus [5, 9, 7].
En automatique, la notion de commande robuste est directement liee au probl`eme
suivant (cas lineaire). Etant donne x = Ax + Bu, une incertitude sur la dynamique Mx
de taille M (le vrai syst`eme est en fait x = (A + M)x + Bu), calculer une borne
sur M pour quil existe un bouclage K stabilisant le syst`eme perturbe. Ainsi, il faut
trouver K tel que x = (A + M + BK)x soit stable pour toute incertitude M veriant
M .
Ce probl`eme est dicile : la dependance des valeurs propres de la matrice A+M +BK
en fonction de M et de K est loin detre triviale. De nombreuses methodes existent
et repondent en partie `a cette question (methodes LMI (Linear Matrix Inequalities),
commande H , marge de gain et marge de phase en frequentiel, . . . ).
Pour des incertitudes M(x) non lineaires, il est illusoire de vouloir donner des bornes
en general. Tout au plus, peut-on esperer le resultat perturbatif suivant : si lincertitude
M(x) est susamment petite et letat initial assez proche de 0, alors le syst`eme restera
asymptotiquement stable d`es que le lineaire tangent boucle est asymptotiquement stable
x = (A+BK)x est stable. Dans ce cours, nous en resterons `a ce niveau. Nous verrons donc
la robustesse comme une consequence de la stabilite structurelle des points dequilibre

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

72
hyperboliquement stables.

3.5

Th
eorie des perturbations

syst`eme lent-rapide
x

syst`eme lent
x

perturbations
singuli`eres

1/

1/

1/

moyennisation
-

1/

Fig. 3.28 la theorie des perturbations consiste a` eliminer les eets `a court terme, t 1,
quils soient asymptotiquement stables ou oscillants, an de ne conserver que les eets a`
long terme, t 1/ (0 <  1).
Par rapport a` la stabilite structurelle, qui suppose un nombre xe dequations dierentielles (on ne change pas despace detat mais seulement le champ de vitesse), la theorie
des perturbations permet de relier les trajectoires de deux syst`emes ayant des espaces
detat de dimensions dierentes : le syst`eme dit perturbe poss`ede alors un nombre detats
plus grand que le syst`eme dit reduit. Plus precisement, cette theorie fournit un ensemble
de techniques pour approximer un syst`eme perturbe, en eliminant les eets `a court terme
et en ne conservant que les eets `a long terme. Ainsi, la theorie des perturbations constitue
un outil precieux pour letude dun syst`eme dynamique et de son approximation par des
syst`emes lents de taille plus petite, cest `a dire pour la construction de mod`eles reduits qui
resument lessentiel des comportements qualitatifs `a long terme.
Classiquement, on distingue deux cas illustres par la gure 3.28 :
les eets rapides se stabilisent tr`es vite et on parle alors de perturbations singuli`eres
et dapproximation quasi-statique ;
les eets rapides ne sont pas asymptotiquement stables mais restent damplitude
bornee ; ils sont donc oscillants et lon parle alors de moyennisation.
Ces deux cas font lobjet des deux principales parties de cette section.
On consid`ere les syst`emes continus (une analyse similaire peut etre conduite pour les


3.5. THEORIE
DES PERTURBATIONS

73

Fig. 3.29 Le champ de vecteur est quasi-vertical pour la forme normale de Tikhonov
(3.10)
syst`emes discrets) du type :

dx

= f (x,y,)

dt
(3.10)

dy = g(x,y,)
dt
n
m
avec x R , y R , 0 <  1 un petit param`etre, f et g des fonctions reguli`eres.
Letat partiel x correspond aux variables dont levolution est lente (variation signicative
sur une duree en t de lordre 1/) et y aux variables dont levolution est rapide (variation
signicative sur une duree en t de lordre de 1). Ainsi t 1 correspond a` lechelle de
temps rapide et t 1/ `a lechelle de temps lente. Dans (3.10) lechelle de temps est
donc rapide. Avec le changement de temps = t, on obtient les equations du syst`eme
en echelle de temps lente :

dx

= f (x,y,)

d
(3.11)

dy


= g(x,y,).
d

3.5.1

Les perturbations singuli`


eres

Considerons pour commencer lexemple suivant

dx

= y
dt

dy = x y
dt

(3.12)

avec 0 <  1. Intuitivement, on voit que x est une variable lente (sa vitesse est petite et
dordre ), tandis que y est une variable rapide (sa vitesse est dordre 1). On a donc envie

74

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

de dire que y atteint rapidement son point dequilibre x et que x evolue selon x = x.
Cette idee est fondamentalement correcte, mais contient un certain nombre de subtilites
comme par exemple celle de lexercice qui suit.
Exercice 15 (chercher lerreur) On reprend (3.12) et le raisonnement intuitif precedent.
Les arguments suivants conduisent `a une contradiction : on fait lhypoth`ese que y a atteint
son point dequilibre, i.e., y = x. Mais cela implique dune part que y = 0, car y = x y.
Dune autre part y = x puisque y = x; mais alors y = y puisque x = x. Ce qui
contredit y = 0. O`
u est lerreur?
On suppose ici que les eets rapides sont asymptotiquement stables et hyperboliques.
Comme exemple caracteristique citons la cinetique chimique o`
u les constantes de vitesses
de certaines reactions peuvent etre nettement plus grandes que dautres (reactions limitatives et reactions quasi-instantanees).
La situation geometrique est donnee par la gure 3.29 : grossi`erement, pour > 0
assez petit et localement autour de g(x,y,0) = 0, les trajectoires du syst`eme sont quasiverticales et convergent toutes vers une sous-variete de lespace detat, , invariante par
la dynamique, et donnee `a lordre 0 en par lequation g(x,y,0) = 0.
Les resultats ci-dessous justient alors, sous certaines hypoth`eses de stabilite du rapide
et du lent, lapproximation des trajectoires du syst`eme perturbe (3.10) par celle du syst`eme
semi-implicite lent :

dx = f (x,y,)
dt
(3.13)

0 = g(x,y,)
(les dynamiques de convergence vers la sous-variete invariante sont negligees). Toute
trajectoire du syst`eme (3.10) demarrant en (x,y) est proche, apr`es une duree en t de
lordre de 1, de la trajectoire du syst`eme lent demarrant avec le meme x.
Nous voyons que cette approximation saccompagne dune diminution de la dimension
de letat. En fait, la reduction nest quune restriction a` une sous-variete invariante du
champ de vecteurs donne par (3.10), les equations de cette sous-variete etant approximativement donnees par g(x,y,0) = 0. On a le premier resultat general suivant (demonstration
dans [8])
Th
eor`
eme 7 (Tikhonov) Soit le syst`eme (3.10). Supposons que
H1 lequation g(x,y,0) = 0 admet une solution, y = h(x), avec h fonction reguli`ere de x
et
g
(x,h(x),0)
y
est une matrice dont toutes les valeurs propres sont a` partie reelle strictement
negative ;
H2 le syst`eme reduit

dx
= f (x,h(x),0)
(3.14)
d
x( =0) = x0
avec = t admet une solution x0 ( ) pour [0,T ], 0 < T < +.


3.5. THEORIE
DES PERTURBATIONS

75

Alors, pour susamment proche de 0, le syst`eme complet

dx

= f (x,y,) x(0) = x0

d
dy


= g(x,y,) y(0) = y0
d
admet une solution (x ( ),y ( )) sur [0,T ] d`es que y0 appartient au bassin dattraction du
point dequilibre h(x0 ) du sous-syst`eme rapide
d
= g(x0 ,,0).
dt
De plus on a
lim x ( ) = x0 ( ) et

0+

lim y ( ) = y 0 ( )

0+

uniformement en temps sur tout intervalle ferme contenu dans [0,T ] et ne contenant pas 0.
Lhypoth`ese H1 implique que, `a x xe, la dynamique de
d
= G(x,,0).
dt
est asymptotiquement stable autour du point dequilibre h(x).
Exercice 16 (r
eduction de sch
ema cin
etiques) Soit le schema cinetique comportant
3 esp`eces chimiques X1 , X2 et X3 et mettant en jeu trois reactions chimiques independantes :
k x

1 1
X2 ,
X1

k x

2 2
X2
X1 ,

kx x

1 2
X1 + X2
X 2 + X3 ;

les xi correspondent aux concentrations des esp`eces Xi ; k1 , k2 et k sont les constantes


cinetiques. Le petit param`etre > 0 indique que la troisi`eme reaction est nettement
plus lente que les deux premi`eres. Les equations de conservation de chacune des esp`eces
conduisent, pour un reacteur fermee homog`ene, aux equations dierentielles suivantes :
x 1 = k1 x1 + k2 x2 kx1 x2
x 2 = k1 x1 k2 x2
x 3 = kx1 x2 .

(3.15)

1. Montrer que = x1 + x2 + x3 est une integrale premi`ere (les chimistes parlent


dinvariant chimique). En deduire que seules les deux premi`eres equations de (3.15)
sont importantes.
2. Le mod`ele lent est-il obtenu en faisant brutalement x 2 = 0, i.e., lapproximation
k1 x1 = k2 x2 dans lequation de x 1 ? (indication : considerer le changement de variables (x1 ,x2 )  (x1 +x2 ,x2 ); etablir les equations du mod`ele lent dans les nouvelles
variables; repasser ensuite aux variables dorigine (x1 ,x2 )).
Sans hypoth`eses supplementaires lapproximation du theor`eme 7 nest valable, en
general, que sur des intervalles de temps rapides t de longueur T /, i.e sur des intervalles de temps lents de longueur bornee T . Lhypoth`ese supplementaire, quil convient

76

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

alors dutiliser pour avoir une bonne approximation pour tous les temps positifs, concerne
le comportement asymptotique du syst`eme reduit : si ce dernier admet un point dequilibre
hyperbolique et asymptotiquement stable, lapproximation est alors valable pour tous les
temps positifs (pourvu que les conditions initiales soient proches de cet equilibre).
Th
eor`
eme 8 Supposons en plus des hypoth`eses du theor`eme 7 que le syst`eme reduit (3.14)
admet un point dequilibre hyperboliquement stable x : f (
x,h(
x),0) = 0 et que les valeurs
propres de
f
f h
+
x y x
en x = x, y = h(
x) sont a` partie reelle strictement negative. Alors, pour tout 0 assez
proche de 0, le syst`eme perturbe (3.10) admet un point dequilibre proche de (
x,h(
x)) et
hyperboliquement stable.
Preuve Lexistence du point stationnaire pour le syst`eme perturbe est laissee en exercice
(il sut dutilise le theor`eme des fonctions implicites pour g = 0 et ensuite pour f =
0). Quitte a` faire, pour chaque une translation, nous supposons que (0,0) est point
stationnaire du syst`eme perturbe :
f (0,0,) = 0, g(0,0,) = 0.
Notons, y = h (x), la solution, proche de x = 0, de g(x,y,) = 0. Suite a` la translation
precedente, on a h (0) = 0. Considerons le changement de variables (x,y)  (x,z =
y h (x)). Les equations du syst`eme perturbe dans les coordonnees (x,z) ont alors la
forme suivante

x = f(x,z,),
z = g(x,z,)

avec f(0,0,)
= 0, g(x,0,) 0. Le syst`eme reduit secrit alors, dans les coordonnees
(x,z) :
x = f(x,0,).
Ce changement de variable triangularise le jacobien du syst`eme perturbe :


xf (0,0,) zf (0,0,)

g
0
(0,0,)
z

g
(0,0,) = 0. Comme les valeurs propres de xf (0,0,0) et de
(0,0,0) sont toutes a`
z
x

g
parties reelles strictement negatives, les valeurs propres de xf (0,0,) et
(0,0,) le sont
z
aussi pour assez petit. Ce qui montre la stabilite asymptotique du syst`eme perturbe
pour tout assez petit.
Cette preuve peut etre amelioree pour montrer que lapproximation du theor`eme 7
devient valide, localement autour de (
x,h(
x)) et pour tous les temps t positifs, des que
est assez petit (le caract`ere local etant alors independant de tendant vers zero).
En automatique le theor`eme 8 est utilise de la mani`ere suivante. Rajoutons une commande u `a (3.10) et supposons, a` commande u xee, que les hypoth`eses du theor`eme de

car


3.5. THEORIE
DES PERTURBATIONS
Tikhonov soient valables. Ainsi

dx

= f (x,y,u,)

dt

dy = g(x,y,u,)
dt

77

(3.16)

d
= g(x,,u,0).
avec h(x,u) le point dequilibre hyperbolique et stable de la partie rapide
dt
dx
= f (x,h(x,u),u,0) dans lechelle de temps lente = t.
Le syst`eme lent est alors
d
Supposons que nous ayons un retour detat lent u = k(x) (en utilisant par exemple de
lineaire tangent) tel que le syst`eme lent boucle soit asymptotiquement stable autour du
point dequilibre (
x,
u = k(
x)) hyperbolique. Alors pour tout > 0 assez petit, le syst`eme
perturbe (3.16) avec le bouclage lent u = k(x), admet un point dequilibre hyperbolique
proche de (
x,
y = h(
x,
u)). Cela veut simplement dire que lon peut, pour la synth`ese dun
bouclage, ignorer des dynamiques hyperboliquement stables et assez rapides. On parle
alors de robustesse par rapport aux dynamiques negligees. Noter que le retour detat ne
porte que sur la partie lente, x. Un bouclage sur y risquerait de destabiliser la partie
rapide.

3.5.2

Moyennisation

On suppose ici que les eets rapides ont un caract`ere oscillant. La methode de moyennisation
a ete utilisee en mecanique celeste depuis longtemps pour determiner levolution des orbites
planetaires sous linuence des perturbations mutuelles entre les plan`etes et etudier la stabilite
du syst`eme solaire. Gauss en donne la denition suivante qui est des plus intuitives : il convient
de repartir la masse de chaque plan`ete le long de son orbite proportionnellement au temps passe
dans chaque partie de lorbite et de remplacer lattraction des plan`etes par celle des anneaux de
mati`ere ainsi denis.
Dans ce cadre, les equations non perturbees du mouvement de la terre sont celles qui ne
prennent en compte que la force dattraction due au soleil. Lorbite de la terre est alors une ellipse
dont le soleil est lun des foyers. Les equations perturbees sont celles o`
u lon rajoute les forces
dattraction entre la terre et les autres plan`etes en supposant que ces derni`eres decrivent toutes
des orbites elliptiques selon les lois de Kepler. Le param`etre correspond au rapport de la masse
du soleil a` celles des plan`etes : 1/1000. Lechelle de temps rapide est de lordre dune periode
de revolution, quelques annees. Lechelle de temps lente est de lordre de quelques millenaires.
La question est alors de savoir si ces petites perturbations dordre peuvent entraner a` terme,
i.e. a` lechelle du millenaire, une derive systematique des longueurs du grand axe et du petit
axe de la trajectoire de la terre, ce qui aurait des consequences catastrophiques pour le climat.
En fait, les calculs (moyennisation) montrent quil nen est rien. En revanche, lexcentricite des
orbites oscille lentement. Ces oscillations inuencent le climat.
Revenons au syst`eme (3.10). Le regime oscillatoire le plus simple pour y est le regime
periodique, de periode T :

dy1

= g1 (x,y,)



dt = y2
y1
,
y=
 2
y2

2
dy
2

=
y1 = g2 (x,y,),

dt
T

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

78

Sans changer de notation on pose f (x,y(t),) = f (x,t,) : f est reguli`ere en x et depend de t de


facon periodique (periode T ). Le syst`eme perturbe secrit alors
dx
dt

= f (x,t,), 0  1.

(3.17)

Le syst`eme moyennise (ou syst`eme lent) est alors


dz
dt

1
T

f (z,t,0) dt

def
= f (z).

(3.18)

Remplacer les trajectoires du syst`eme instationnaire (3.17) par celles du syst`eme stationnaire
(3.18), revient alors a` lisser les trajectoires de (3.17).
Le theor`eme suivant montre qu`
a un point dequilibre hyperbolique du syst`eme moyen correspond une petite orbite periodique du syst`eme perturbe (3.17) (demonstration dans [11]).
Th
eor`
eme 9 (moyennisation a
` une fr
equence) Considerons le syst`eme perturbe (3.17) avec f
reguli`ere. Il existe un changement de variables, x = z + w(z,t) avec w de periode T en t, tel
que (3.17) devienne
dz
= f (z) + 2 f1 (z,t,)
dt
avec f denie par (3.18) et f1 reguli`ere de periode T en t. De plus,
(i) si x(t) et z(t) sont respectivement solutions de (3.17) et (3.18) avec comme conditions initiales x0 et z0 telles que x0 z0  = O(), alors x(t) z(t) = O() sur un intervalle de
temps de lordre de 1/.
(ii) Si z est un point xe hyperbolique stable du syst`eme moyenne (3.18), alors il existe > 0 tel
que, pour tout ]0,], le syst`eme perturbe (3.17) admet une unique orbite periodique (t),
proche de z ( (t) = z + O()) et asymptotiquement stable (les trajectoires demarrant pr`es
a senrouler autour de cette derni`ere). Lapproximation, a
` O() pr`es,
de (t) ont tendance `
des trajectoires du syst`eme perturbe (3.17) par celles du syst`eme moyenne (3.18) devient
valable pour t [0, + [.
Il est instructif de voir comment est construit le changement de coordonnees x = z + w(z,t)
en enlevant a` x des termes oscillants dordre (w de periode T en t). On a, dune part,
dz
w
dz
w
dx
=
+
(z,t) +
(z,t)
dt
dt
z
dt
t
et, dautre part,
dx
= f (z + w(z,t),t,).
dt
Ainsi
dz
dt

1 

w
w
= I +
(z,t)
(z,t)
f (z + w(z,t),t,)
z
t


w
(z,t) + O(2 ).
= f (z,t,0)
t

Comme la dependance en t de w est T -periodique, il nest pas possible dannuler compl`etement


le terme dordre 1 en car il ny a aucune raison pour que la fonction denie par
 t
f (z,s,0) ds
0


3.5. THEORIE
DES PERTURBATIONS

79

soit T -periodique en temps. En revanche, on peut eliminer la dependance en temps du terme


dordre 1 en . Il sut de poser
 t


f (z,s,0) f (z) ds
w(z,t) =
0

(noter que w est bien de T -periodique) pour obtenir


dz
= f (z) + O(2 ).
dt
Si cette approximation nest pas susante, il faut prendre en compte les termes dordre 2 et
eliminer leur dependance en temps par un changement de variable du type x = z + w1 (z,t) +
2 w2 (z,t) avec w1 et w2 T -periodique.
Terminons cette section par un exemple, lequation du second ordre suivante :
d
d2
= + (1 2 ) .
2
dt
dt
Cest lequation dun pendule pour lequel on a rajoute un petit frottement positif pour les
grandes amplitudes ( > 1) et negatif pour les petites ( < 1). Mettons dabord ce syst`eme sous
la forme standard
dx
= f (x,t,).
dt
Le terme oscillant vient du syst`eme non perturbe
d2
=
dt2
dont les orbites sont des cercles. Les phenom`enes lents (echelle de temps 1/) sont clairement
relatifs aux rayons de ces cercles (i.e. les amplitudes des oscillations). Cest pourquoi il convient
de passer en coordonnees polaires en posant = r cos() et = r sin(). Dans ces coordonnees,
le syst`eme perturbe secrit :

dr

= [1 r 2 cos2 ()] sin2 ()

dt

d = 1 + sin() cos()[1 r 2 cos2 ()].


dt
est quasiment egal, `a une constante pr`es, au temps t. On peut ecrire
dr dt
dr
=
.
d
dt d
Ainsi, on se ram`ene `a la forme standard en prenant comme variable de temps :
[1 r 2 cos2 ()] sin2 ()
dr
=
= f (r,,).
d
1 + sin() cos()[1 r 2 cos2 ()]
Le syst`eme moyennise est alors

du
= u(4 u2 ).
d
8
u = 2 est un point dequilibre hyperbolique attracteur pour , i.e. t +. Donc pour
susamment petit, lequation perturbee poss`ede un cycle limite hyperbolique attracteur donc
lequation est approximativement 2 + 2 = 4 + O().
Linconvenient principal de la theorie des perturbations est quil faut, d`es le depart, avoir
une idee assez precise de ce que lon cherche : il convient de trouver un petit param`etre et
disoler la partie rapide du syst`eme. A ce niveau lintuition physique joue un r
ole important.

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

80

3.6

Probl`
emes

Probl`
eme 1 (des lapins et des renards) Un mod`ele dit predateur-proie, initialement
introduit et etudie par le mathematicien italien Vito Volterra est le suivant. On consid`ere
deux esp`eces, lesp`ece y, les renards, devorant lautre esp`ece x, les lapins. On se pose alors
la question suivante. Quelles peuvent etre les evolutions temporelles possibles du nombre de
lapins x(t) et du nombre de renards y(t) si lon emet les hypoth`eses grossi`eres suivantes :
H1 lorsque les lapins sont peu nombreux et en labsence de renards, ils ont susamment
dherbe (et de serpolet) `a manger pour avoir un taux de reproduction specique
constant ;
H2 toujours en labsence de renards, si les lapins deviennent trop nombreux, ils ont
des dicultes dapprovisionnement en herbe frache, ce qui fait chuter leur taux
specique de reproduction ;
H3 un renard devore dautant plus de lapins quils sont nombreux et faciles a` rencontrer ;
H4 sans lapin, les renards sont obliges de faire un regime dautant plus sev`ere et ravageur
quils sont plus nombreux ;
H5 plus il y a de lapins, plus les renards deviennent nombreux.
1. Montrer quun mod`ele simple (bilan sur les lapins et les renards) formalisant et
quantiant les 5 hypoth`eses precedentes est le suivant :
dx
= (a by x)x
dt
dy
= (cx d y)y
dt

(3.19)

o`
u a, b, c , d, et sont des param`etres positifs.
2. Quel est lespace detat du syst`eme? Montrer que les solutions sont denies sur
[0, + [ (indication : considerer les deux isoclines, les etats o`
u le champ de vecteurs
est parall`ele `a laxe des x ou a` laxe des y).
3. Discuter, en fonction des valeurs des param`etres le nombre et la stabilite des points
dequilibre.
Probl`
eme 2 (syst`
emes lents/rapides) Pour certains syst`emes lents/rapides de la forme (3.10),
comme celui considere dans cet exercice, lapproximation du theor`eme 7 est insusante,
bien que le syst`eme comporte, de mani`ere evidente physiquement, deux echelles de temps
tr`es distinctes.
Considerons le syst`eme dierentiel

dx1

= x1 x2

dt

dx2
= x1 x2 x2 + x3

dt

dx3 = x x
2
3
dt

(3.20)

`
3.6. PROBLEMES

81

correspondant `a un reacteur parfaitement agite ferme o`


u les reactions chimiques suivantes
apparaissent :
x2
x1 x2

X1  X2 et X2 x3 X3

(xi est la concentration de lesp`ece chimique Xi , i = 1,2,3).


1. Peut-on appliquer le theor`eme de Tikhonov?
2. En introduisant un changement de variable utilisant = x1 + x2 + x3 , montrer que
lon se ram`ene a` la forme standard du theor`eme de Tikhonov.
3. Montrer que les conditions du theor`eme de Tikhonov sont alors remplies. En deduire
le syst`eme lent.
4. Cette approximation est-elle valable pour tous les temps t > 0?
5. Comment faire pour obtenir une meilleure approximation (question dicile)?
Probl`
eme 3 (Colonne `
a distiller ) La dynamique dune colonne `a distiller separant
un melange de deux composants (propane/butane par exemple) peut etre representee par
le syst`eme suivant (c.f. gure 3.30)

H1 x 1 = V k(x2 ) V x1

Hj x j = Lxj1 + V k(xj+1 )

Lxj V k(xj ), j = 2, . . . ,jf 1

Hjf x jf = Lxjf 1 + V k(xjf +1 )


(3.21)
(L + F )xjf V k(xjf ) + F zf

Hj x j = (L + F )xj1 + V k(xj+1 )

(L + F )xj V k(xj ), j = jf + 1, . . . ,n 1

Hn x n = (L + F )xn1 (L + F V )xn V k(xn )


avec xi [0,1] la composition du liquide au plateau i (i = 1, . . . ,n); L et V sont des debits
de reglage (0 < L < V < L + F ); F > 0 et zF [0,1] sont le debit et la composition de
lalimentation; k est une bijection de [0,1] sur [0,1]; k(x) est la composition de la vapeur
en fonction de celle du liquide. Le param`etre Hi > 0 (constant) correspond `a la retention
totale du plateau i.
1. Montrer que, pour toutes conditions initiales sur les xi entre dans [0,1], les composantes xi de la solution x(t) restent dans [0,1] pour tout t > 0.
2. Montrer que
n

|Hi x i |
i=1

est une fonction de Lyapounov ((L,V,F,zF ) sont supposes constants). En deduire


que les trajectoires convergent vers un point dequilibre
3. (facultatif ) Montrer lunicite du point dequilibre.

`
CHAPITRE 3. SYSTEMES
DYNAMIQUES EXPLICITES

82

condenseur
total


?

V, y2

H1
plateau 2


reux 
H2 
? 6

L, x1

plateau 1

distillat
-

V L, x1

xj1 yj
L? 6
V
Hj
plateau j
L? 6
V
xj yj+1
alimentation
F,zf

? 6
- Hjf
plateau jf
? 6

? 6

Hn1

plateau n 1


L
+F ? 6
V


rebouilleur

Hn


plateau n


residu
L + F V, xn

Fig. 3.30 colonne a` distiller binaire.

83

Chapitre 4
Commandabilit
e et observabilit
e
Un syst`eme commande sous forme explicite, x = f (x,u), est un syst`eme sous-determine.
La dierence entre le nombre dequations (independantes) et le nombre de variables
donne le nombre de commandes independantes m = dim u. Noter que le degre de sousdetermination est inni car il sagit de m fonctions arbitraires du temps. Aussi letude
des syst`emes sous-determines dequations dierentielles ordinaires est dune nature tr`es
dierente de celle des syst`emes determines, syst`emes etudies dans le chapitre precedent.
La premi`ere partie de ce chapitre aborde la commandabilite. Apr`es de courtes denitions,
nous etudions en detail les syst`emes lineaires explicites x = Ax + Bu. Leur commandabilite est caracterisee par le crit`ere de Kalman et la forme normale dite de Brunovsky.
Cette derni`ere permet un parametrage explicite de toutes les trajectoires en fonctions
de m fonctions scalaires arbitraires t  y(t) et dun nombre ni de leurs derivees. Ces
quantites y, dites sorties de Brunovsky, sont des combinaisons lineaires de x. Elles jouent
dune certaine facon le role dun potentiel 1 . Elles permettent surtout de calculer tr`es
simplement les commandes u pour aller dun etat vers un autre (planication de trajectoire). Elles permettent egalement de construire le bouclage (feedback) qui assure le
suivi asymptotique dune trajectoire de reference arbitraire (stabilisation par placement
de poles).
Le calcul de tels bouclages necessite la connaissance a` chaque instant de letat x. Il
est frequent que seule une partie de letat soit directement accessible `a la mesure. Aussi
est on confronte au probl`eme suivant. Connaissant les equations du syst`eme (i.e., ayant
un mod`ele), x = f (x,u), les relations entre les mesures y et letat, y = h(x), les entrees
t  u(t) et les mesures t  y(t) , estimer x. Cela revient `a resoudre le probl`eme suivant
x = f (x,u), y = h(x)
o`
u x est linconnue (une fonction du temps) et o`
u u et y sont des fonctions connues du
temps. Il est clair que ce probl`eme est sur-determine. Lunicite de la solution correspond
`a lobservabilite. Lexistence au fait que y et u ne peuvent pas etre des fonctions du temps
independantes lune de lautre. Elles doivent verier des relations de compatibilite qui
prennent la forme dequations dierentielles.

1. Il est classique en physique de parametrer toutes les solutions du syst`eme sous-determine div B = 0,

par un potentiel vecteur arbitraire A avec la formule B = rot A . Le potentiel vecteur A est alors deni

a partir du champs magnetique B `


`
a un champ de gradient pr`es.

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

84

Fig. 4.1 la planication de trajectoire.


La seconde partie de ce chapitre aborde cette question. Tout dabord nous donnons les
denitions et les crit`eres assurant lexistence et lunicite de la solution. Pour les syst`emes
lineaires nous presentons une methode tr`es econome en calculs pour obtenir x avec un
observateur asymptotique.
En resume, lessentielle de ce chapitre porte sur les syst`emes lineaires invariants en
temps. Pour les syst`emes non lineaires une reference classique est [15]. On trouvera aussi
dans [2] des resultats sur la commandabilite non lineaire.

4.1

Commandabilit
e non lin
eaire

On consid`ere le syst`eme explicite (f fonction reguli`ere)


dx
= f (x,u), x Rn , u Rm
dt

4.1.1

(4.1)

D
enition

D
enition 14 (trajectoire) On appelle trajectoire du syst`eme (4.1) toute fonction reguli`ere
I  t  (x(t),u(t)) Rn Rm qui satisfait identiquement sur un intervalle dinterieur
non vide I de R les equations (4.1).
D
enition 15 (commandabilit
e) Le syst`eme (4.1) est dit commandable en temps T >
0, si et seulement si, pour p,q Rn , il existe une loi horaire [0,T ]  t  u(t) Rm , dite
commande en boucle ouverte, qui am`ene le syst`eme de letat x(0) = p `a letat x(T ) = q,
cest `a dire, telle que la solution du probl`eme de Cauchy
x = f (x,u(t)) pour t [0,T ]
x(0) = p
verie x(T ) = q. Le syst`eme est dit simplement commandable lorsquil est commandable
pour au moins un temps T > 0.
Dautres denitions sont possibles : elles correspondent toutes `a des variantes plus ou
moins subtiles de la denition 15. Comme lillustre la gure 4.1, la commandabilite est
une propriete topologique tr`es naturelle. En general, la commande en boucle ouverte
[0,T ]  t  u(t) nest pas unique, il en existe une innite. Cette etape sappelle planication de trajectoire : calculer t  u(t) a` partir de la connaissance de f , p et q constitue

NON LINEAIRE

4.1. COMMANDABILITE

85

Fig. 4.2 un reacteur chimique exothermique o`


u u correspond aux echanges thermiques
avec lexterieur.
lune des questions majeures de lautomatique. Cette question qui est loin detre resolue
actuellement.
Exercice 17 (commandabilit
e des syst`
emes discrets) Donner une denition de la
commandabilite pour le syst`eme discret deni par la recurrence en k suivante :
xk+1 = f (xk ,uk )

xk Rn , uk Rm .

Tr`es souvent, labsence de commandabilite est due `a lexistence dintegrales premi`eres


non triviales. Ce sont des observables qui restent constantes le long de toute trajectoire.

4.1.2

Int
egrale premi`
ere

Considerons le reacteur exothermique de la gure 4.2. Les equations de bilan mati`ere


et energie donnent alors les equations dierentielles suivantes :
x 1 = D(xin
1 x1 ) k0 exp(E/RT )x1
x 2 = Dx2 + k0 exp(E/RT )x1
T = D(T in T ) + H exp(E/RT )x1 + u.

(4.2)

La cinetique est lineaire du premier ordre, les constantes physiques usuelles (D, xin
1 , k0 ,
E, T in , et H) sont toutes positives, la commande u est proportionnelle `a la puissance
thermique echangee avec lexterieur. xi est la concentration de lesp`ece chimique Xi , i =
1,2. On reconnat leet non lineaire essentiel de la loi dArrhenius k = k0 exp(E/RT )
qui relie la constante de vitesse k `a la temperature T . Il est assez facile de voir que ce
syst`eme nest pas commandable. En eet, le bilan global sur X1 + X2 , elimine le terme
non lineaire pour donner
d
(x1 + x2 ) = D(xin
1 x1 x2 ).
dt

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

86

Ainsi donc la quantite = x1 + x2 verie une equation dierentielle autonome =


in
D(xin
u 0 est la valeur initiale de . Si, dans la
1 ). Donc = x1 + 0 exp(Dt) o`
denition 15, on prend letat initial p tel que = x1 +x2 = xin
1 et q tel que = x1 +x2 = 0, il
nexiste pas de commande qui am`ene le syst`eme de p vers q. En eet, pour toute trajectoire
demarrant en un tel p, la quantite x1 + x2 reste constante et egale a` xin
1 . Cette partie non
commandable du syst`eme representee par la variable admet ici un sens physique precis.
Elle est bien connue des chimistes. Cest un invariant chimique.
Lexemple ci-dessus nous indique que labsence de commandabilite peut-etre liee `a
lexistence dinvariants, i.e., a` des combinaisons des variables du syst`eme (on pourrait les
appeler des observables) et eventuellement du temps, qui sont conservees le long de toute
trajectoire. Pour (4.2), il sagit de (x1 +x2 xin
` 0 . Nous sommes
1 ) exp(Dt) correspondant a
donc conduits a` prolonger la notion dintegrale premi`ere pour les syst`emes commandes.
D
enition 16 (int
egrale premi`
ere) Une fonction reguli`ere R Rn  (t,x)  h(t,x)
R est appelee integrale premi`ere du syst`eme (4.1), si elle est constante le long de toute trajectoire du syst`eme. Une integrale premi`ere est dite triviale si cest une fonction constante
sur R Rn .
Si h est une integrale premi`ere, sa derivee le long dune trajectoire arbitraire est nulle :
d
h h
h=
+
x 0
dt
t
x
pour toute trajectoire (t  (x(t),u(t)) du syst`eme.
Exercice 18 (int
egrale premi`
ere en discret) Donner une denition de la notion dintegrale premi`ere pour le syst`eme dynamique discret deni par la recurrence en k : xk+1 =
f (xk ,uk ), xk Rn , uk Rm .
Si (4.1) admet une integrale premi`ere non triviale t  h(t,x) alors, (4.1) nest pas
commandable. Sinon, il existe T > 0, tel que pour tout p,q Rn et tout instant initial t
h(t,p) = h(t + T,q) (il existe une trajectoire reliant p `a q sur [t,t + T ]). Donc h est une
fonction periodique du temps et independante de x. Mais alors la derivee de h le long des

trajectoires du syst`eme correspond a` t


h. Comme elle est nulle, h est une constante, ce
qui contredit lhypoth`ese. Nous avons montre la proposition suivante
Proposition 5 Si le syst`eme (4.1) est commandable, alors ses integrales premi`eres sont
triviales.
Il est possible de caracteriser en termes nis (i.e., `a partir de f et dun nombre ni
de ses derivees partielles) lexistence dintegrale premi`ere non triviale. Nous allons nous
restreindre dans ce cours au cas lineaire. En eet, la demarche est la meme pour le cas non
lineaire. Elle conduit `a des calculs plus lourds qui, pour etre presentes de facon compacte,
necessitent le langage de la geometrie dierentielle et les crochets de Lie.

4.2

Commandabilit
e lin
eaire

Nous considerons ici les syst`emes lineaires stationnaires du type


x = Ax + Bu

(4.3)

LINEAIRE

4.2. COMMANDABILITE

87

o`
u letat x Rn , la commande (on dit aussi lentree) u Rm et les matrices A et B sont
constantes et de tailles n n et n m, respectivement.

4.2.1

Matrice de commandabilit
e

Supposons que (4.3) admette une integrale premi`ere h : R Rn  (t,x)  h(t,x) R.


Soit le changement de variables sur x denit par x = exp(tA)z. Avec les variables (z,u),
(4.3) devient z = exp(tA)Bu et lintegrale premi`ere devient h(t, exp(tA)z) = l(t,z).
Comme la valeur de l est constante le long de toute trajectoire nous avons, en derivant le
long dune trajectoire arbitraire t  (z(t),u(t))
l
l
+ z = 0.
l =
t z
Comme z = exp(tA)Bu, pour toute valeur de z et u on a lidentite suivante :
l
l
(t,z) + (t,z) exp(tA)Bu 0.
t
z
En prenant, u = 0, z et t arbitraires, on en deduit (prendre, e.g., la trajectoire du syst`eme
qui passe par z `a linstant t et dont la commande u est nulle) :
l
(t,z) 0.
t
Donc necessairement l est uniquement fonction de z. Ainsi
l
(z) exp(tA)B 0.
z
En derivant cette relation par rapport a` t, on a,
l
(z) exp(tA)AB 0
z
car dtd (exp(tA)) = exp(tA)A. Plus generalement, une derivation a` nimporte quel
ordre k 0 donne
l
(z) exp(tA)Ak B 0.
z
En prenant t = 0 on obtient
l
(z)Ak B = 0, k 0.
z
l
(z) appartient a` lintersection des noyaux `a gauche de la famille innie
Ainsi le vecteur z
k
de matrice (A B)k0 . Le noyau a` gauche de Ak B nest autre que Im(Ak B) , lorthogonal
de limage de Ak B. Donc

l
Im(Ak B) .
(z)
z
k0

Mais


k0



Im(Ak B) = Im(B) + . . . + Im(Ak B) + . . . .

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

88

La suite despace vectoriel Ek = Im(B) + . . . + Im(Ak B) est une suite croissante pour
linclusion, Ek Ek+1 . Si pour un certain k, Ek = Ek+1 , cela signie que Im(Ak+1 B) Ek ,
donc A(E k ) Ek . Mais Im(Ak+2 B) = Im(AAk+1 B) A(E k+1 ). Ainsi Im(Ak+2 B) Ek .
u Ek+r = Ek . Ainsi la suite des
On voit donc que pour tout r > 0, Im(Ak+r B) Ek , do`
Ek est une suite de sous-espaces vectoriels de Rn embotes les uns dans les autres. Cette
suite stationne d`es quelle nest plus, pour un certain k, strictement croissante. Il sut
donc de ne considerer que ses n premiers termes soit E0 , . . . En1 , car automatiquement
En1 = En+r pour tout r > 0.
l
(z) dans le
En revenant `a la suite des noyaux a` gauche de Ak B, nous voyons que z
l
k
noyau a` gauche de la suite innie de matrices (A B)k0, est equivalent a`, z
(z) dans le
k
2
noyau a` gauche de la suite nie de matrices (A B)0kn1 .
l
Ainsi, pour tout z, z
(z) appartient au noyau a` gauche de la matrice n (nm),
C = (B,AB,A2 B, . . . ,An1 B)

(4.4)

dite matrice de commandabilite de Kalman. Si C est de rang n, son noyau a` gauche est
nul, donc l ne depend pas de z : l est alors une fonction constante et h egalement.
Reciproquement, si la matrice de commandabilite C nest pas de rang maximal, alors il
existe un vecteur w Rn /{0}, dans le noyau a` gauche de (4.4). En remontant les calculs
avec l(z,t) = w  z on voit que = 0 le long des trajectoires. En passant aux variables
(x,u), on obtient une integrale premi`ere non triviale = h(t,x) = w  exp(tA)x. Toute
trajectoire du syst`eme se situe dans un hyperplan orthogonal `a w.
En resume, nous avons demontre la
Proposition 6 La matrice de commandabilite C = (B,AB,A2 B, . . . ,An1 B) est de rang
n, si, et seulement si, les seules integrales premi`eres du syst`eme (4.3) sont triviales.
Des propositions 5 et 6, il vient : si le syst`eme (4.3) est commandable, sa matrice de
commandabilite est de rang n. Nous allons voir que la reciproque est vraie. Pour cela,
nous avons besoin de certaines proprietes dinvariance.

4.2.2

Invariance

D
enition 17 (changement d
etat, bouclage statique r
egulier) Un changement
lineaire de coordonnees x  x est deni par une matrice M inversible dordre n : x = M x.
Un bouclage statique regulier u  u est deni par une matrice N inversible dordre m et
une autre matrice K, m n : u = K x + N u. Cest un changement de variables sur les
commandes parametre par letat.
2. On pourrait aussi utiliser le theor`eme de Cayley-Hamilton qui donne un resultat plus precis : toute
matrice carree est racine de son polyn
ome caracteristique. Cela veut dire, A etant de taille n, que An est
k
une combinaison lineaire des (A )0kn1 :
An =

n1


pk Ak

k=0


k
o`
u les pk sont denis par det(In A) = n n1
efere un argument plus simple
k=0 pk . Nous avons pr
avec la suite des Ek mais qui a lavantage de passer au non lineaire et qui correspond au calcul de lalg`ebre
de Lie de commandabilite.

LINEAIRE

4.2. COMMANDABILITE
Lensemble des transformations



x
x
M 0
x

=
u
u
K N
u

89

(4.5)

forment un groupe lorsque les matrices M, N et K varient (M et N restant inversibles).


Exercice 19 Si x = Ax + Bu est commandable (resp. nadmet pas dintegrale premi`ere)
!x+B!
! u obtenu avec (4.5) est commandable (resp. nadmet pas dintegrale
montrer que x
! = A!
premi`ere).
Les notions de commandabilite et dintegrale premi`ere sont intrins`eques, cest-`a-dire,
independantes des coordonnees avec lesquelles les equations du syst`eme sont etablies. Si
la matrice de commandabilite dans les coordonnees (x,u) est de rang n, la matrice de
commandabilite dans les coordonnees (
x,
u) sera aussi de rang n. Cette simple remarque
conduit au resultat non evident suivant :
=n
AB,
. . . ,An1 B)
rang(B,AB, . . . An1 B) = n equivaut a` rang(B,
sobtiennent en ecrivant x = Ax + Bu dans les coordonnees (
o`
u A et B
x,
u) :
x + M 1 BN u.
x = M 1 (AM + BK)
= M 1 BN. En fait, il est possible daller beaucoup
Soit A = M 1 (AM + BK) et B
plus loin et de montrer que les indices de commandabilite denis ci-dessous sont aussi
invariants.
D
enition 18 (indices de commandabilit
e) Pour tout entier k, on note k le rang
de la matrice (B,AB,A2 B, . . . ,Ak B). Les (k ) sont appeles indices de commandabilite du
syst`eme lineaire (4.3),
La suite k est croissance, majoree par n. Ainsi, labsence dintegrale premi`ere est equivalente
a` n1 = n.
Proposition 7 (invariance) Les indices de commandabilite de x = Ax + Bu sont invariants par changement de variable sur x et bouclage statique regulier sur u.
Nous laissons la preuve de ce resultat par recurrence sur n en exercice.
Il est important de comprendre la geometrie derri`ere cette invariance. Les transformations (x,u)  (
x,
u) du type (4.5) forment un groupe. Ce groupe denit une relation
dequivalence entre deux syst`emes ayant meme nombre detats et meme nombre de commandes. La proposition precedente signie simplement que les indices de commandabilite
sont les meme pour deux syst`emes appartenant `a la meme classe dequivalence, i.e, le
meme objet geometrique vu dans deux rep`eres dierents. En fait, on peut montrer que les
indices de commandabilite sont les seuls invariants : il y a autant de classes dequivalence
que dindices de commandabilite possibles. Nous ne montrerons pas en detail ce resultat.
Tous les elements necessaires `a cette preuve se trouvent dans la construction de la forme
de Brunovsky ci-dessous (voir aussi [13, 17]).

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

90

Fig. 4.3 deux masses couplees par un ressort, le tout pilote par une seule force u.

4.2.3

Un exemple

Soit le syst`eme mecanique `a deux degres de liberte et une seule commande de la


gure 4.3. Il sagit dun syst`eme mecanique sous actionne contrairement au bras motorise
etudie au chapitre 1 (un degre de liberte (langle ) et un moteur). En negligeant les
frottements et en supposant le ressort lineaire de raideur k, on est conduit au mod`ele
suivant :

m1 x1 = k(x2 x1 ) + u
(4.6)
m2 x2 = k(x1 x2 ).
Exercice 20 Calculer la matrice de commandabilite de (4.6). Quel est son rang?
Montrons que ce syst`eme est commandable. Il sut pour cela de remarquer que la quantite
x2 , labscisse de la masse qui nest pas directement soumise `a la force u, joue un role tr`es
particulier (sortie de Brunovsky). Si au lieu de donner t  u(t) et dintegrer (4.6) a` partir
de positions et vitesses initiales, on xe t  x2 (t) = y(t). Alors x1 = mk2 y + y et donc
y . Ainsi on peut ecrire le syst`eme en faisant
u = m1 x1 + m2 x2 = m1km2 y (4) + (m1 + m2 )
jouer `a x2 un role privilegie :

x1 = (m2 /k) y + y
x2 = y

y.
u = (m1 m2 /k) y (4) + m1 + m2 )
On obtient ainsi un parametrisation explicite de toutes les trajectoires du syst`eme. Les
relations precedentes etablissent une correspondance bi-univoque et reguli`ere entre les
trajectoires de (4.6) et les fonctions reguli`eres t  y(t).
Exercice 21 Quel est lindex du syst`eme semi-implicite forme de (4.6) avec x2 = y(t)
o`
u y(t) est une fonction connue du temps.
Ainsi nous constatons que linverse du syst`eme (4.6) avec comme sortie y = x2 est sans
dynamique. Cela permet de calculer de la facon la plus elementaire possible une commande
[0,T ]  t  u(t) qui fait passer de letat p = (xp1 ,v1p ,xp2 ,v2p ) a` letat q = (xq1 ,v1q ,xq2 ,v2q ) (vi
correspond a` x i ). Comme

x1 = (m2 /k) y + y

v = (m /k) y (3) + y
1
2

x
2 = y

v2 = y

LINEAIRE

4.2. COMMANDABILITE

91

imposer p en t = 0 revient a` imposer y et ses derivees jusqu`a lordre 3 en 0. Il en est de


meme en t = T . Il sut donc de trouver une fonction reguli`ere [0,T ]  t  y(t) dont les
derivees jusqu`a lordre 3 sont donnees a priori en 0 et en T : un polynome de degre 7 en
temps repond a` la question mais il existe bien dautres possibilites.
Nous allons voir, avec la forme normale de Brunovsky, quune telle correspondance
entre y et les trajectoires du syst`eme est generale. Il sut que (4.3) soit commandable.
Tout revient donc a` trouver la sortie de Brunovsky y de meme dimension que la commande u.
Exercice 22 On veut transferer (4.6) de la conguration stationnaire x1 = x2 = 0 `
a la
conguration stationnaire x1 = x2 = D > 0 durant le temps T . Calculer explicitement
une commande [0,T ]  t  u(t) qui assure le transfert. On pourra supposer donnee une
k
k
fonction C 4 : [0,1]  [0,1] telle que (0) = 0, (1) = 1 et ddsk (0) = ddsk (1) = 0 pour
k = 1,2,3.

4.2.4

Crit`
ere de Kalman et forme de Brunovsky

Th
eor`
eme 10 (crit`
ere de Kalman) Le syst`eme x = Ax + Bu est commandable si,
et seulement si, la matrice de commandabilite C = (B,AB, . . . An1 B) est de rang n =
dim(x).
Pour abreger, on dit souvent que la paire (A,B) est commandable, pour dire que le rang
de la matrice de commandabilite C est maximum.
La preuve que nous allons donner de ce resultat nest pas la plus courte possible.
Cependant, elle permet de decrire explicitement, pour toute duree T > 0 et pour p,q Rn ,
les trajectoires du syst`eme qui partent de p et arrivent en q. Cette preuve utilise la forme
dite de Brunovsky. Cette derni`ere se construit grace a` une methode delimination, proche
de celle tr`es classique du pivot de Gauss. La meme technique de calcul permet de traiter
compl`etement la realisation dun transfert rationnel causal (c.f. probl`eme 7).
Th
eor`
eme 11 (forme de Brunovsky) Si (B,AB, . . . An1 B), la matrice de commandabilite de x = Ax + Bu, est de rang n = dim(x) et si B est de rang m = dim(u),
alors il existe un changement detat z = Mx (M matrice inversible n n) et un bouclage
statique regulier u = Kz + Nv (N matrice inversible m m), tels que les equations du
syst`eme dans les variables (z,v) admettent la forme suivante (ecriture sous la forme de
m equations dierentielles dordre 1) :
(1 )

y1
(1)

= v1 ,
(1 1)

avec comme etat z = (y1 ,y1 , . . . ,y1


entiers positifs.

...
,

(m )
,ym
= vm

...

(1)

(4.7)
( 1)

,ym ,ym , . . . ,ym m

), les i etant des

Les m quantites y, qui sont des combinaisons lineaires de letat x, sont appelees sorties
de Brunovsky.
Exercice 23 (indices de commandabilit
e et forme de Brunovsky) Relier, pour une
paire (A,B) commandable, les indices de commandabilite k , aux m entiers i de la forme
de Brunovsky.

92

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

Exercice 24 On reprend les hypoth`eses du theor`eme 11. Les sorties de Brunovsky y sont
des combinaisons lineaires de letat x : y = Cx. Quel est lindex du syst`eme semi-implicite
x = Ax + Bu, 0 = Cx.
Quelles sont ses solutions?
Preuve du th
eor`
eme 11. Elle repose sur
1. une mise sous forme triangulaire des equations detat et lelimination de u;
2. linvariance du rang de (B,AB, . . . An1 B) par rapport aux transformations (4.5);
3. une recurrence sur la dimension de letat.
Mise sous forme triangulaire On suppose que B est de rang m = dim(u) (sinon, faire
un regroupement des commandes en un nombre plus petit que m de facon a` se ramener
`a ce cas). Alors, il existe une partition de letat x = (xr ,xu ) avec dim(xr ) = n m et
dim(xu ) = m telle que les equations (4.3) admettent la structure bloc suivante
x r = Arr xr + Aru xu + Br u
x u = Aur xr + Auu xu + Bu u
o`
u Bu est une matrice carree inversible. Cette partition nest pas unique, bien s
ur. En
tirant u de la seconde equation et en reportant dans la premi`ere, on obtient
x r = Arr xr + Aru xu + Br Bu1 (x u Aur xr Auu xu )
x u = Aur xr + Auu xu + Bu u.
En regroupant les derivees dans la premi`ere equation, on a
x r Br Bu1 x u = (Arr Br Bu1 Aur )xr + (Aru Br Bu1 Auu )xu
x u = Aur xr + Auu xu + Bu u.
Avec une transformation (4.5) denie par
xr = xr Br Bu1 xu , xu = xu , u = Aur xr + Auu xu + Bu u,
les equations x = Ax + Bu deviennent
xr = Ar xr + Au xu
xu = u
o`
u Ar = (Arr Br Bu1 Aur ) et Au = (Arr Br Bu1 Aur )Br Bu1 + (Aru Br Bu1 Auu ). Dans
cette structure triangulaire o`
u la commande u nintervient pas dans la premi`ere equation,
nous voyons apparatre un syst`eme plus petit detat xr et de commande xu . Cela nous
permet de reduire la dimension de x et de raisonner par recurrence.
Invariance Un simple calcul par blocs nous montre que si (B,AB, . . . An1 B) est de
rang n alors (Au ,Ar Au , . . . Arnm1 Au ) est de rang n m. Du syst`eme de taille n on passe
ainsi au syst`eme de taille reduite n m, xr = Ar xr + Au xu (
xr letat, xu la commande).

LINEAIRE

4.2. COMMANDABILITE

93

R
ecurrence sur le nombre d
etats Supposons donc, le resultat vrai pour toutes les
dimensions detat inferieures ou egales a` n 1. Considerons un syst`eme x = Ax + Bu
avec n = dim(x), sa matrice de commandabilite de rang n, et B de rang m = dim(u) > 0.
Lelimination de u donne, apr`es une transformation de type (4.5),
xr = Ar xr + Au xu
xu = u
o`
u dim(u) = dim(xu ) = m et dim(xr ) = n m avec (Au ,Ar Au , . . . Arnm1 Au ) de rang
n m < n (les ont ete enleves pour alleger les notations). Notons m
le rang de Au .
xu ,
xu ) = P xu avec P inversible,
Comme m
m, un changement de variable sur xu , (
permet decrire le syst`eme sous la forme
xr = Ar xr + Au xu
x u = u
x u = u

(4.8)

et Au de rang m.
Comme le rang de la matrice de
avec (
u,
u) = P u, dim(
xu ) = m
commandabilite de xr = Ar xr + Au xu (xr est letat et xu la commande) est egal a` n
m = dim(xr ), lhypoth`ese de recurrence assure lexistence dun changement de variable
v est la nouvelle commande ici)
xr = Mz et dun bouclage statique regulier xu = Kz+N v (
mettant ce sous syst`eme sous forme de Brunovsky. Alors le changement detat (xr ,
xu ,
xu )
deni par

xr
M 0 0
z
xu = K N 0 v
xu
0 0 1
xu
et le bouclage statique regulier sur (
u,
u)
u = KM 1 (Ar xr + Au xu ) + N v, u = v
transforme alors le syst`eme (4.8) sous forme de Brunovsky avec v = (
v ,
v ) comme nouvelle
commande.
Preuve du th
eor`
eme 10 La commandabilite est independante du choix des variables
sur x et dun bouclage statique regulier sur u. On peut donc supposer le syst`eme sous
sa forme de Brunovsky. Dans ces coordonnees, aller dun etat a` un autre est elementaire.
Il se ram`ene `a etudier la commandabilite du syst`eme scalaire y () = v. Letat initial
(1)
(1)
) et letat nal (yb , . . . ,yb
) ainsi que la duree T etant donnes, les lois ho(ya , . . . ,ya
raires t  v(t) assurant le passage entre ces deux etats pendant la duree T correspondent
alors a` la derivee -i`eme de fonctions [0,T ]  t  (t) R, dont les derivees jusqu`a
lordre 1 en 0 et T sont imposees par
(r)

(r) (0) = ya(r) , (r) (T ) = yb , r = 0, . . . , 1.


Il existe bien s
ur une innite de telles fonctions (on peut prendre pour un polynome
de degre 2 1, par exemple).
Exercice 25 (commandabilit
e les syst`
emes lin
eaires discrets) Montrer que le syst`eme
discret
xk+1 = Axk + Buk , xk Rn , uk Rm

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

94

est commandable si, et seulement si, le rang de (B,AB,A2 B, . . . ,An1 B) vaut n. Quel est
alors lequivalent de la forme de Brunovsky.

4.2.5

Planication et suivi de trajectoires

De la preuve des deux theor`emes precedents, il est important de retenir deux choses :
Dire que le syst`eme x = Ax + Bu est commandable, est equivalent a` lexistence
dun bouclage statique regulier u = Kz + Nv et dun changement detat x = Mz
se ramenant a` la forme de Brunovsky y () = v et z = (y, . . . ,y (1) ) (par abus de
( )
( )
notation y = (y1 , . . . ,ym ) et y () = (y1 1 , . . . ,ym m )). Ainsi
x = M(y, . . . ,y (1) ), u = L(y, . . . ,y () )
o`
u la matrice L est construite avec K, N et M. Lorsque lon consid`ere une fonction
reguli`ere arbitraire du temps t  (t) Rm et que lon calcule x(t) et u(t) par les
relations
x(t) = M((t), . . . ,(1) (t)), u(t) = L((t), . . . ,() (t))
alors t  (x(t),u(t)) est une trajectoire du syst`eme : on a identiquement x(t)

Ax(t) Bu(t) = 0. Reciproquement, toutes les trajectoires reguli`eres du syst`eme


se parametrisent de cette facon, grace a` m fonctions scalaires arbitraires 1 (t), . . .,
m (t) et un nombre ni de leurs derivees par les formules ci-dessus.
La commandabilite de x = Ax + Bu implique la stabilisation par retour detat. En
eet, il sut de considerer la forme de Brunovsky et dans la forme de Brunovsky,
( )
chacun des m sous-syst`emes independants yi i = vi . Soient i valeurs propres,
1 , . . . ,i , correspondant au spectre dune matrice reelle de dimension i . Notons
sk les fonctions symetriques des i (des quantites reelles donc) homog`enes de degre k,
i
"

(X k ) = X i s1 X i 1 + s2 X i 2 + . . . + (1)i si

k=1

Alors, d`es que les k sont a` partie reelle strictement negative, le bouclage
(i 1)

vi = s1 yi

(i 2)

s2 y i

+ . . . + (1)i 1 si yi

( )

assure la stabilite de yi i = vi : en eet, les exposants caracteristiques (on dit aussi


les p
oles) du syst`eme boucle sont les k .
Aussi de la forme de Brunovsky lon deduit directement le resultat suivant :
Th
eor`
eme 12 (placement de p
oles) Si la paire (A,B) est commandable alors, pour
toute matrice reelle F n n, il existe une matrice m n, K (non necessairement unique),
telle que le spectre de A + BK concide avec celui de F .

LINEAIRE

4.2. COMMANDABILITE

95

Fig. 4.4 le suivi de trajectoire.


De retour dans les coordonnees de modelisation, x = Ax + Bu, la planication de
trajectoire nous donne une trajectoire du syst`eme (par exemple la trajectoire que doit
suivre une fusee au decollage, la manoeuvre datterrissage dun avion, . . .). Nous la notons
t  (xr (t),ur (t)) avec lindice r pour reference. En pratique, et `a cause des aleas de
lexistence, il convient, comme lillustre la gure 4.4, de corriger en fonction de lecart x,
la commande de reference ur (il est rare de piloter un syst`eme en aveugle, uniquement en
sachant do`
u lon part et o`
u lon veut aller). Le probl`eme est donc de calculer la correction
u `a partir de x de facon a` revenir sur la trajectoire de reference. On peut alors utiliser
un bouclage stabilisant en placant les poles sur la forme de Brunovsky.
Dune facon plus precise : comme x r = Axr + Bur , on obtient, par dierence avec
x = Ax + Bu lequation derreur suivante
d(x)
= A x + B u
dt
o`
u x = x xr et u = u ur ; le syst`eme etant commandable, il existe K, matrice
mn, telle que les valeurs propres de A+BK soient `a parties reelles strictement negatives
(placement de poles). Ainsi la correction
u = K x
assure le suivi asymptotique de la trajectoire de reference t  xr (t). La stabilite structurelle des points dequilibres hyperboliques garantie que toute erreur assez faible (petite
incertitude sur A et B, eets non lineaires faibles, erreurs de mesure, erreurs de troncature
dues `a la discretisation de la loi de controle obtenue, . . .) ne sera pas ampliee au cours
du temps : x restera ainsi proche de xr .
Nous terminerons par une constatation dordre experimental : lorsque le mod`ele dynamique x = Ax + Bu est dorigine physique, il nest pas rare que sa partie non commandable, i.e., ses integrales premi`eres, ait une signication physique immediate, tout
comme les grandeurs y, fonction de x et intervenant dans la forme de Brunovsky (c.f.
theor`eme 11) de sa partie commandable. Cet etat de fait nest vraisemblablement pas
d
u enti`erement au hasard : en physique, les grandeurs qui admettent une signication
intrins`eque, i.e., les grandeurs physiques, sont celles qui ne dependent pas du rep`ere de
lobservateur. En automatique, le passage dun rep`ere `a un autre correspond, entre autre,
`a une transformation de type (4.5). Il est alors clair que le sous-espace engendre par les
sorties de Brunovsky est un invariant. Il a donc toutes les chances davoir un sens physique
immediat. De plus les sorties de Brunovsky admettent un equivalent non lineaire pour de
nombreux syst`emes physiques. On les appelle alors sorties plates (cf. exercices 26 et 27).

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

96

Exercice 26 Soit le syst`eme de la gure 4.3. On suppose que le ressort est non lineaire.
Dans (4.6) la raideur k est fonction de x1 x2 : k = k0 +a(x1 x2 )2 avec k0 et a > 0. Montrer que le syst`eme reste commandable et calculer sa sortie non lineaire de Brunovsky
(la sortie plate).
Exercice 27 Prenons lexemple (4.2) en ne considerant que les deux equations dierentielles
relatives a` x1 et T (nous ne considerons que la partie commandable). Montrer (formellement) que ce sous-syst`eme a` deux etats et une commande est commandable (indication :
la quantite y = x1 joue le role de sortie non lineaire de Brunovsky (la sortie plate))
Calculer le bouclage statique qui linearise le syst`eme.
Exercice 28 Pour le syst`eme (4.6) calculer explicitement un bouclage detat qui place
oles pour assules poles. Connaissant les param`etres m1 , m2 , et k que choisir comme p
rer la stabilite asymptotique du syst`eme boucle ainsi que la robustesse par rapport a` des
dynamiques negligees.
Exercice 29 Soit le syst`eme de la gure 4.3. On rajoute un amortisseur lineaire entre
les deux masses. Ainsi (4.6) devient (a > 0 est le coecient de frottement)


m1 x1 = k(x2 x1 ) + a(x 2 x 1 ) + u
m2 x2 = k(x1 x2 ) + a(x 1 x 2 ).

Montrer que le syst`eme reste commandable et calculer sa sortie de Brunovsky.

4.2.6

Lin
earisation par bouclage

Equivalence statique
La relation dequivalence qui permet de mettre un syst`eme lineaire x = Ax + Bu commandable sous forme de Brunovsky peut etre prolongee de la mani`ere suivante. Au lieu de considerer
des transformations du type
 


x
Mx

u
Kx + N u
avec M et N matrices inversibles, considerons des transformations inversibles plus generales et
non lineaires suivantes
 


x
z = (x)

u
v = k(x,u)
o`
u est un dieomorphisme et `a x bloque, u  k(x,u) egalement. Il est donc logique de
considerer maintenant les syst`emes non lineaires de la forme x = f (x,u) et leur classication
modulo le groupe de transformations ci-dessus. La relation dequivalence qui en resulte est
appelee equivalence par bouclage statique regulier et changement de coordonnees (dune facon
plus abregee equivalence statique). Decider si deux syst`emes avec les memes nombres detats et
des commandes, x = f (x,u) et z = g(z,v), (f , g reguli`eres) sont equivalents, est un probl`eme
de geometrie tr`es compliquee et largement ouvert. En revanche, il existe une caracterisation
explicite des syst`emes non lineaires equivalents aux syst`emes lineaires commandables.

LINEAIRE

4.2. COMMANDABILITE

97

CNS de lin
earisation statique
Linteret pratique est le suivant. Les equations issues de la physique x = f (x,u) sont en
general non lineaires dans les coordonnees de modelisation x et u. La question Existe-t-il des
coordonnees, z = (x) et v = k(x,u), qui rendent les equations lineaires, z = Az +Bv avec (A,B)
commandable ? est alors dimportance. En eet, une reponse positive signie que le syst`eme
est faussement non lineaire: le syst`eme est alors dit linearisable par bouclage statique. Il sut
de changer de rep`ere pour que tout devienne lineaire.
A partir de maintenant, nous considerons le syst`eme
x = f (x,u), x Rn , u Rm
avec f reguli`ere et f (0,0) = 0. Notre point de vue sera local autour de lequilibre (x,u) = (0,0).
Il peut etre elargi `a lespace tout entier sans diculte importante.
Lemme 1

Les deux propositions suivantes sont equivalentes

1. Le syst`eme etendu

x = f (x,u)

(4.9)

u = u

est linearisable par bouclage statique (


u est ici la commande)
2. Le syst`eme
x = f (x,u)

(4.10)

est linearisable par bouclage statique.

Preuve Si x = (z) et u = k(z,v) transforment (4.10) en un syst`eme lineaire commandable


z = Az + Bv, alors (x,u) = ((z),k(z,v)) et u
=

k
z (Az

+ Bv) +

v v

transforment (4.9) en

z = Az + Bv, v = v

(4.11)

syst`eme lineaire commandable. Ainsi la seconde proposition implique la premi`ere.


Supposons maintenant la premi`ere proposition vraie. Comme tout syst`eme lineaire commandable peut secrire sous la forme (4.11) avec (A,B) commandable, (cf forme de Brunovsky) il
existe une transformation (x,u) = ((z,v),(z,v)) et u
= k(z,v,
v ) qui transforme (4.9) en (4.11)
avec dim(z) = dim(x). Cela veut dire que pour tout (z,v,
v)

(z,v)(Az + Bv) +
v = f ((z,v),(z,v)).
z
v
Donc ne depend pas de v et la transformation inversible x = (z), u = (z,v) transforme (4.10)
en z = Az + Bv.
Ainsi, quitte a` etendre letat en posant u = u
et en prenant comme entree u
, on peut toujours
supposer que f est ane en u, i.e., que le syst`eme admet les equations
x = f (x) + u1 g1 (x) + . . . + um gm (x)

(4.12)

o`
u f et les gi sont des champs de vecteurs reguliers. Il est alors facile de voir que les transformations x = (z) et u = k(z,v) qui rendent le syst`eme lineaire sont necessairement anes en v,
i.e., k(x,v) = (x) + (x)v avec inversible pour tout x.

98

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

Prenons maintenant un changement regulier de variables: x = (z) dinverse = 1 ,


z = (x). Considerons maintenant le syst`eme deni par (4.12) dans le rep`ere x. Dans le rep`ere
z, nous avons les equations suivantes:
z = (D f + u2 D g1 + . . . + um D gm )x=(z)

o`
u D est la matrice jacobienne de :

i
xj


i,j

(4.13)

. Ainsi f (resp. gk ) devient D f (resp. D gk ).

A partir de ces champs de vecteurs denissant (4.12), on denit une suite croissantes despaces vectoriels indexes par x par la recurrence suivante
E0 = {g1 , . . . ,gm },

Ei = {Ei1 ,[f,Ei1 ]} i 1

o`
u [f,g] est le crochet de Lie de deux champs de vecteurs f et g et o`
u { } signie espace
vectoriel engendre par les vecteurs `a linterieur des parenth`eses. On rappelle que le crochet de
deux champs de vecteurs f et g, de composantes (f1 (x),...,fn (x)) et (g1 (x),...,gn (x)) dans les
coordonnees (x1 ,...,xn ), admet comme composantes dans les memes coordonnees x
[f,g]i =

n

gi
fi
gk
fk .
xk
xk
k=1

Un simple calcul montrent que si z = (x) est un changement regulier de variables on obtient
les composantes du crochet [f,g] dans les coordonnees z par les memes formules que dans les
coordonnees x. Cela veut dire que
D.[f,g] = [D.f,D.g].
Ainsi on sait faire du calcul dierentiel intrins`eque sans passer par un choix particulier de rep`ere.
Les Ek deviennennt, dans les coordonnees z, D.Ek . On appelle ce type dobjet des distributions
(rien a` voir avec les distributions de Laurent Schwartz). Ce sont des objets intrins`eques car la
methode de construction de Ek ne depend pas du syst`eme de coordonnees choisies pour faire les
calculs. Le resultat suivant date des annees 1980.
Th
eor`
eme 13 CNS lin
earisation statique Autour de lequilibre (x,u) = (0,0), le syst`eme (4.12)
est linearisable par bouclage statique regulier si, et seulement si, les distributions Ei , i =
1, . . . ,n 1 denies ci-dessus sont involutives (stables par le crochet de Lie), de rang constant
autour de x = 0 et le rang de En1 vaut n, la dimension de x.
Une distribution E est dite involutive, si et seulement si, pour tous champs de vecteurs f et g
dans E (pour tout x, f (x) et g(x) appartiennent a` lespace vectoriel E(x)), alors le crochet [f,g]
reste aussi dans E.

Preuve Il est evident que les distributions Ei restent egalement inchangees par bouclage
statique u = (x) + (x)v avec (x) inversible. Comme pour un syst`eme lineaire commandable
x = Ax + Bu, Ei correspondent a` limage de (B,AB, . . . ,Ai B), les conditions sur les Ei sont
donc necessaires.
Leur cote susant repose essentiellement sur le theor`eme de Frobenius [10]. Ce resultat
classique de geometrie dierentielle dit que toute distribution involutive E de rang constant m
correspond, dans des coordonnees adaptees w = (w1 ,...,wn ), a` lespace vectoriel engendre par les
m premi`eres composantes. On a lhabitude de note /wk le champ de vecteurs de composantes
(i,k )1in dans les coordonnees w. Alors E = {/w1 ,...,/wm }.

LINEAIRE

4.2. COMMANDABILITE

99

Si les Ei verient les conditions du theor`eme, alors il existe un syst`eme de coordonnees


locales (x1 , . . . ,xn ) autour de 0 tel que
#
Ei =

,...,
x1
xi

o`
u i est le rang de Ei . Dans ces coordonnees locales, x i pour i > 0 ne depend pas de la
commande u. Ainsi, en remplacant u par (x) + (x)u avec une matrice inversible bien
choisie, la dynamique (4.12) secrit necessairement ainsi
x i = ui , i = 1, . . . ,0
x i = fi (x),

i = 0 + 1, . . . ,n.

Un raisonnement simple montre que, pour i > 1 , fi ne depend pas de (x1 , . . . ,x0 ) car E1
involutive. Ainsi nous avons la structure suivante
x i = ui , i = 1, . . . ,0
x i = fi (x1 , . . . ,xn ), i = 0 + 1, . . . ,1
x i = fi (x0 +1 , . . . ,xn ), i = 1 + 1, . . . ,n.
De plus le rang de (f0 +1 , . . . ,f1 ) par rapport a` (x1 , . . . ,x0 ) vaut 1 0 . Donc 0 1 0 .
Quitte a` faire des permutations sur les 0 premi`eres composantes de x, on peut supposer que
(x1 , . . . ,x1 0 )  (f0 +1 , . . . ,f1 ) est inversible. Cela permet de denir un nouveau syst`eme de
coordonnees en remplacant les 1 0 premi`eres composantes de x par (f0 +1 , . . . ,f1 ) . Dans
ces nouvelles coordonnees et apr`es bouclage statique regulier u  (x)u avec (x) inversible
bien choisi, nous avons la structure suivante (les notations avec u, x et f sont conservees) :
x i = ui , i = 1, . . . ,0
x i = xi0 , i = 0 + 1, . . . ,1
x i = fi (x0 +1 , . . . ,xn ), i = 1 + 1, . . . ,n.
On sait que ce syst`eme est linearisable si, et seulement si, le syst`eme reduit
x i = xi0 , i = 0 + 1, . . . ,1
x i = fi (x0 +1 , . . . ,xn ),

i = 1 + 1, . . . ,n

avec (x1 , . . . ,x1 0 ) comme commande. Comme les distributions Ei associees `a ce syst`eme reduit
se deduisent simplement de celles du syst`eme etendu en eliminant les champs de vecteurs x 1 ,
. . . x , on voit quelles verient, elles aussi, les conditions du theor`eme. Ainsi il est possible de
0
reduire encore le syst`eme. A chaque etape, la linearisation du syst`eme etendu est equivalente a`
celle du syst`eme reduit. Au bout de cette elimination (en au plus de n1 etapes), la linearisation
du syst`eme de depart est alors equivalent a` celle dun syst`eme reduit de la forme
x = f (x,u)
o`
u le rang de f par rapport a` u est egale `a la dimension de x, linearisation qui est alors triviale.

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

100
Bouclage dynamique

Le lemme 1 est trompeur. Il semble suggerer que le fait detendre un syst`eme en rajoutant
des derivees de la commande dans letat ne rajoute rien pour la linearisation. Ceci est vrai si
on rajoute le meme nombre dintegrateurs sur toutes les commandes (prolongation totale).
Par contre, des nombres dierents peuvent permettre de gagner quelque chose. Par exemple le
syst`eme
x
= u1 sin , z = u1 cos 1, = u2
nest pas linearisable par bouclage statique bien que le syst`eme etendu
1 = u
1 , = u2
x
= u1 sin , z = u1 cos 1, u
de commande (
u1 ,u2 ) le soit. Ce fait nest nullement contraire au lemme 1 puisque seule lentree
u1 a ete prolongee deux fois. Pour un syst`eme `a une seule commande, on ne gagne evidement
rien.
Cette remarque est `a lorigine de la linearisation par bouclage dynamique. Un syst`eme x =
f (x,u) est dit linearisable par bouclage dynamique regulier, si, et seulement si, il existe un
compensateur dynamique regulier
= a(x,,v),

u = k(x,,v),

tel que le syst`eme boucle


x = f (x,k(x,,v)),

= a(x,,v)

soit linearisable par bouclage statique regulier. Noter que la dimension de est libre. La dimension de lespace dans lequel on doit travailler peut a priori etre arbitrairement grande. Noter
egalement que les compensateurs dynamiques qui consistent a` ne prolonger que les entrees, sont
des compensateurs particuliers. Ils ne permettent pas de lineariser certains syst`emes comme celui
ci :
x
= u2 cos u1 sin
z = u2 sin + u1 cos g
= u2 .
( )

1 ,
En eet, on peut montrer que, quelque soit le compensateur dynamique de la forme u1 1 = u
(2 )
2 (1 et 2 entiers arbitraires), le syst`eme etendu nest pas linearisable par bouclage
u2 = u
statique. En revanche il est linearisable par le bouclage dynamique endog`ene construit en 2.2.4.
Cette question est `a lorigine des syst`emes plats, les syst`emes linearisables par des bouclages dynamiques dits endog`enes et auxquels est associee une relation dequivalence (i.e., une
geometrie). Pour en savoir plus voir [19].

4.3

Observabilit
e non lin
eaire

Nous considerons les syst`emes non lineaires de la forme :

dx = f (x,u)
dt

y = h(x)
avec x Rn , u Rm et y Rp . Les fonctionsf et h sont reguli`eres.

(4.14)

NON LINEAIRE

4.3. OBSERVABILITE

4.3.1

101

D
enition

Pour denir lobservabilite, il convient dabord de denir la notion de distinguabilite.


D
enition 19 (distinguabilit
e) Deux etats initiaux x et x
! sont dits indistinguables
(notes xI x
!) si pour tout t 0, les sorties y(t) et y!(t) sont identiques pour toute entree
u(t) admissible 3. Ils sont dits distinguables sinon.
Lindistinguabilite est une relation dequivalence. Notons I(x) la classe dequivalence de x.
Lobservabilite est alors denie de la mani`ere suivante :
D
enition 20 (observabilit
e globale) Le syst`eme (4.14) est dit observable en x si
I(x) = {x} et il est observable si I(x) = {x} pour tout x.
En fait, le syst`eme est observable si pour tous les etats initiaux x et x
!, il existe une entree
admissible u qui distingue x et x
!, cest `a dire telle que y(t) = y!(t) pour au moins un temps
t 0.
Il peut exister des entrees qui ne distinguent pas certains points. Cependant, le syst`eme
peut etre malgre tout observable. Par exemple

x 1 = ux2
x 2 = 0

y = x1
est observable (pour u = 1 par exemple). Cependant lentree u = 0 ne distingue pas les
point x et x tel que x1 = x1 et x2 = x2 . Notons que lobservabilite ne signie pas que
toute entree distingue tous les etats. Lobservabilite est un concept global. Il peut etre
necessaire daller tr`es loin dans le temps et dans lespace detat pour distinguer deux etats
initiaux. Pour cela nous introduisons le concept plus fort :
D
enition 21 (observabilit
e locale en temps et en espace) Letat x de (4.14) est
localement observable, si pour tout > 0 et pour tout voisinage U de x, il existe > 0 plus
petit que et un voisinage V de x contenu dans U, tel que pour tout x
! V , il existe une
entree [0,]  t  u(t) qui distingue x et x
!, i.e. telle que y() = y!(). Le syst`eme (4.14)
est localement observable sil lest pour tout x.
Intuitivement, le syst`eme (4.14) est localement observable si on peut instantanement
distinguer chaque etat de ses voisins en choisissant judicieusement lentree u.

4.3.2

Crit`
ere

La seule facon eective de tester lobservabilite dun syst`eme est de considerer lapplication qui `a x associe y et ses derivees en temps. Nous supposerons dans cette section que
y et u sont des fonctions reguli`eres du temps. Nous supposerons egalement que les rangs
en x des fonctions de (x,u,u,
. . .) qui apparaissent ci-dessous sont constants.
Considerons donc (4.14). On note h0 (x) := h(x). En derivant y par rapport au temps
on a
y = Dx h(x)x = Dx h(x) f (x,u) := h1 (x,u).
3. y(t) (resp. y!(t)) correspond a` la sortie de (4.14) avec lentree u(t) et la condition initiale x (resp. x
!).

102

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

Des derivations successives conduisent donc a` une suite de fonctions hk (x,u, . . . ,u(k1) )
denie par la recurrence
d
hk+1 = (hk ), h0 (x) = h(x).
dt
Si pour un certain k, le rang en x du syst`eme

h0 (x) = y

h1 (x,u) = y
..

hk (x,u, . . . ,u(k1) ) = y (k)


vaut n = dim(x) alors le syst`eme est localement observable. Il sut dutiliser le theor`eme
dinversion locale pour calculer x en fonction de (y, . . . ,y (k) ) et (u, . . . ,u(k1) ). Si a` partir
dun certain k, hk+1 ne fait plus apparatre de nouvelle relation en x, i.e., si le rang en
x de (h0 , . . . ,hk ) est identique a` celui de (h0 , . . . ,hk ,hk+1 ) , alors il en est de meme pour
k + 2, k + 3, . . . Ainsi, il nest pas necessaire de deriver plus de n 1 fois y pour savoir
si un syst`eme est localement observable ou non. Ce raisonnement est correct autour dun
etat generique, nous ne traitons pas les singularites qui peuvent apparatre en des etats et
entrees particuli`eres. Nous renvoyons a` [18] pour les cas plus generaux avec singularites.
Ce calcul elementaire montre aussi que y et u sont relies par des equations dierentielles.
Elles correspondent aux relations de compatibilite associees au syst`eme sur-determine (4.14)
o`
u linconnue est x et les donnees sont u et y. On obtient toutes les relations possibles en
eliminant x du syst`eme

h0 (x) = y

h1 (x,u) = y
..

hn (x,u, . . . ,u(n1) ) = y (n) .


On peut montrer que pour un syst`eme localement observable, u et y sont relies par
p = dim(y) equations dierentielles independantes. Ces equations font intervenir y derive
au plus n fois et u derive au plus n 1 fois.
La mise en forme des idees precedentes est assez fastidieuse mais neanmoins instructive.
Nous nous contenterons de retenir quen general lobservabilite signie que letat peut etre
exprime en fonction des sorties, des entrees et dun nombre ni de leur derivees en temps.
Dans ce cas, y et u sont relies par p equations dierentielles dordre au plus n en y et
n 1 en u.
Pour conclure, reprenons lexemple du reacteur chimique (4.2) (page 85) an dillustrer
lanalyse formelle precedente. Nous ne considerons que x1 et T car linvariant chimique
erature T est mesuree (thermox1 + x2 est suppose egal a` xin
1 . Nous supposons que la temp
couple) mais pas la concentration x1 . Nous avons donc `a resoudre le syst`eme sur-determine
(les quantites autres que (x1 ,u,y,T ) sont des constantes connues)
x 1 = D(xin
1 x1 ) k0 exp(E/RT )x1
T = D(T in T ) + H exp(E/RT )x1 + u
y(t) = T.

NON LINEAIRE

4.3. OBSERVABILITE

103

et u :
On a facilement x1 en fonction de (y,y)
x1 =

y D(T in y) u
.
H exp(E/Ry)

(4.15)

Le syst`eme est donc observable. y et u sont relies par une equation dierentielle du second
ordre en y et du premier ordre en u. On lobtient en utilisant lequation donnant x 1 :


d y D(T in y) u
y D(T in y) u
. (4.16)

(D
+
k
exp(E/Ry))
= Dxin
0
1
dt H exp(E/Ry)
H exp(E/Ry)
Il sagit dune condition de compatibilite entre y et u. Si elle nest pas satisfaite alors le
syst`eme sur-determine de depart nadmet pas de solution. On concoit tr`es bien que ces
relations de compatibilite sont a` la base du diagnostique et de la detection de panne.

4.3.3

Observateur, estimation, moindre carr


e

Savoir que le syst`eme est observable est bien. Calculer x `a partir de y et u est encore mieux. Cependant, la demarche formelle precedente ne repondre en pratique qu`a
la premi`ere question. En eet, avoir x en fonction de derivees des mesures sav`ere dune
utilite fort limitee d`es que lordre de derivation depasse 2 et/ou d`es que les signaux sont
bruites. Il convient en fait de calculer x en fonction dintegrales de y et u. Dans ce cas, le
bruit sur les signaux est beaucoup moins genant. La synth`ese dobservateur, cest `a dire
estimer x sans utiliser les derivees de y, pose des probl`emes supplementaires (et nettement
plus diciles en fait) que la caracterisation des syst`emes observables.
Revenons `a (4.14). Nous avons en fait un nombre inni dequations en trop. En eet,
puisque lentree u est connue, letat est enti`erement donne par sa condition initiale x grace
au ot ut de = f (,u(t)). Ainsi x verie `a chaque instant t, p equations, p etant donc
le nombre de mesures :
y(t) = h(ut (x)).
Il est tr`es tentant de resoudre ce syst`eme par les moindres carres, meme si, pour un
syst`eme non-lineaire cela na pas beaucoup de sens (depend du choix des coordonnees et
de la methode utilisee pour mesurer les ecarts). Fixons nous un intervalle dobservation
[0,T ]. x peut etre calcule comme largument du minimum de


(y(t) h(ut (x))2 dt.

J() =
0

x est ainsi obtenu comme on obtient un param`etre a` partir de donnees experimentales et


dun mod`ele o`
u ce param`etre intervient : en minimisant lerreur quadratique entre lobservation y(t) et la valeur predite par le mod`ele ut (x). Ainsi les probl`emes dobservateur
sont fondamentalement proches des probl`emes destimation pour lesquels loptimisation
joue un role important. Cependant les dicultes ne sont pas pour autant aplanies : le
calcul du ot, i.e., la resolution de lequation dierentielle x = f (x,u) ne peut se faire
que numeriquement en general; la fonction J na aucune raison davoir les bonnes proprietes de convexite qui assure la convergence des principaux algorithmes doptimisation
(c.f.[14]). La synth`ese dobservateur reste donc une question dicile en general bien que

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

104

tr`es importante en pratique. Noter enn que lidentication de param`etres sur un mod`ele
x = f (x,u,) est un sous-probl`eme : lidentiabilite correspond alors a` lobservabilite du
syst`eme
x = f (x,u,), = 0, y = x
detat (x,) et de sortie y = x.
Dans le cas lineaire, f = Ax + Bu et h = Cx, ut (x) est une fonction ane en x :

ut (x)

exp((t s)A)Bu(s) ds.

= exp(tA)x +
0

Avec un intervalle dobservation [0,T ], x peut etre calcule comme largument du minimum
de

T

(z(t) C exp(tA)x)2 dt

J() =

(4.17)

t
o`
u z(t) = y(t)C 0 exp((ts)A)Bu(s) ds. Nous voyons clairement que J est quadratique.
On retrouve alors le ltre de Kalman dans le cadre deterministe et la commande LQG.
Cet aspect etant traite par ailleurs, nous nen parlerons pas. Nous allons maintenant
aborder lobservabilite des syst`emes lineaires avec un point de vue moins classique qui
met laccent sur les observateurs asymptotiques. Ces derniers fournissent, avec des calculs
tr`es economiques, x en fonction de y, u et leurs integrales.

4.4

Observabilit
e lin
eaire

On consid`ere ici le syst`eme, dentree u, detat x et de sortie y suivant


x = Ax + Bu
y = Cx

(4.18)

o`
u A est une matrice n n, B une matrice n m et C une matrice p n.

4.4.1

Le crit`
ere de Kalman

Th
eor`
eme 14 (crit`
ere de Kalman) Le syst`eme x = Ax + Bu, y = Cx est observable
au sens de la denition 21 si, et seulement si, le rang de la matrice dobservabilite

C
CA

O=

..

.
n1
CA
est egal a` n = dim(x).
Pour abreger, on dit souvent que la paire (A,C) est observable lorsque le rang de la matrice
dobservabilite O est maximum.

LINEAIRE

4.4. OBSERVABILITE

105

Preuve Derivons y et dutilisons lequation detat. Une premi`ere derivation donne


y = C x = CAx + CBu.
Donc x est necessairement solution du syst`eme (les fonctions y et u sont connues)
Cx = y
CAx = y CBu.
A ce niveau, tout se passe comme si la quantite y1 = y CBu etait une nouvelle sortie. En
la derivant de nouveau, nous avons CA2 x = y 1 CABu. Maintenant, x est necessairement
solution du syst`eme etendu
Cx = y0 = y
CAx = y1 = y CBu
CA2 x = y2 = y 1 CABu.
Il est alors facile de voir que x sera necessairement solution des equations
CAk x = yk

(4.19)

o`
u les quantites connues yk sont denies par la recurrence yk = yk1 CAk1 Bu pour
k 1 et y0 = y.
Si le rang de la matrice dobservabilite est maximum et egal a` n, elle admet un inverse
`a gauche (non necessairement unique), P matrice n pn veriant

C
CA

P
= 1n .
..

.
n1
CA
Ainsi

y0

x = P ... .
yn1

La condition de rang est donc susante.


Supposons maintenant que la matrice dobservabilite, de taille pn n, soit de rang
r < n. Nous allons montrer quil existe, au moins, deux trajectoires dierentes avec les
memes commandes, donnant la meme sortie. Cela montrera que la condition est aussi
necessaire.
Soit w Rn un element non nul du noyau de la matrice de commandabilite. Pour
k = 0, . . . ,n 1, CAk w = 0. Par un raisonnement identique a` celui fait lors de la preuve
de la proposition 6 avec les noyaux a` gauche de Ak B, on a necessairement CAk w = 0,
pour toute k n. Donc w est dans le noyau de toutes les matrices CAk . Prenons comme
premi`ere trajectoire [0,T ]  t  (x,u) = 0. Alors, y = 0. Prenons maintenant comme
seconde trajectoire, celle qui, a` commande nulle, demarre en w : [0,T ]  t  (x,u) =
(exp(tA)w,0). Sa sortie vaut
C exp(tA)w =

+ i

t
i=0

i!

CAi w = 0

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

106

car chaque terme de la serie est nul.


Exercice 30 Montrer que J denie par (4.17), page 104, est strictement convexe si, et
seulement si, (A,C) est observable.
Exercice 31 Le syst`eme (4.6), page 90, est-il observable avec comme mesure y = x1 ?
Lest-il avec y = x 1 ?
Exercice 32 Donner pour les syst`emes discrets lineaires
xk+1 = Axk + Buk ,

yk = Cxk

une denition de lobservabilite et montrer que le crit`ere de Kalman reste inchange.

4.4.2

Observateurs asymptotiques

Il est classique de noter par x


' une estimation de la quantite x. Nous cherchons ici a`
obtenir une estimation de letat sans utiliser les derivees de y et u. La premi`ere idee qui
vient `a lesprit est de copier la dynamique du syst`eme. On int`egre directement
x = A
x + Bu
a` partir dune condition initiale xO . Si la matrice A est stable, alors x peut etre pris
comme estimation de x car lerreur ex = x x tend vers 0 puisque e x = Aex .
Si A est instable cette methode ne marchera pas. En eet, une petite erreur initiale
ex (0) sera ampliee exponentiellement. Intuitivement, si lerreur x x devient grande alors,
le syst`eme etant observable, lerreur sur les sorties y y deviendra grande egalement 4 .
Comme y est connue, il est alors tentant de modier x = A
x + Bu par lajout dun
terme du type L(
y y) quon connat et qui correspond `a lerreur dobservation. Ainsi, le
probl`eme suivant se pose, peut-on choisir la matrice L de facon a` ce que la solution x du
syst`eme
x = A
x + Bu(t) + L(
y y(t)), y = C x
converge vers x? Puis que y = Cx, la question se pose ainsi : peut-on ajuster la matrice
L de facon a` obtenir une equation dierentielle derreur stable :
e x = (A + LC)ex ?
Par un choix judicieux de L, peut-on imposer a` A + LC davoir toutes ses valeurs propres
`a partie reelle strictement negative?
Or, les valeurs propres restent inchangees par la transposition : A + LC admet le
meme spectre que A + C  L . De plus la paire (A,C) est observable si, et seulement si,
la paire (A ,C  ) est commandable : on obtient le crit`ere de Kalman de commandabilite
en transposant celui de lobservabilite. Ainsi le theor`eme 12 se transpose de la mani`ere
suivante :
Th
eor`
eme 15 (observateur asymptotique) Si (A,C) est observable, il existe L, matrice n p, telle que le spectre de A + LC soit le meme que celui de nimporte quelle
matrice reelle n n.
4. On a note y = C x
.

4.5. OBSERVATEUR-CONTROLEUR
LINEAIRE

107

Exercice 33 (forme canonique) Donner pour un syst`eme lineaire observable la forme


canonique duale de celle de Brunovsky. Quelle est la relation dequivalence associee a` cette
forme canonique?

4.4.3

Observateur r
eduit de Luenberger

Supposons que C soit de rang maximum p = dim(y) et que la paire (A,C) soit observable. On peut toujours supposer, quitte a` faire un changement de variable sur x, que
y correspond aux p premi`eres composantes de letat x : x = (y,xr ). Lequation detat
x = Ax + Bu secrit alors sous forme blocs :
y = Ayy y + Ayr xr + By u
x r = Ary y + Arr xr + Br u.
Il est facile de montrer, en revenant, par exemple a` la denition de lobservabilite, que
(A,C) est observable si, et seulement si, (Arr ,Ayr ) lest : en eet connatre y et u implique
la connaissance de Ayr xr = y Ayy y By u, qui peut etre vu comme une sortie du syst`eme
x r = Arr xr + (Br u + Ary y).
En ajustant correctement la matrice des gains dobservation Lr , le spectre de Arr +
Lr Ayr concide avec celui de nimporte quelle matrice reelle carree dordre np = dim(xr ).
Considerons alors la variable = xr + Lr y au lieu de xr . Un simple calcul montre que
= (Arr + Lr Ayr ) + (Ary + Lr Ayy (Arr + Lr Ayr )Lr )y + (Br + Lr By )u.
Ainsi en choisissant Lr , de facon a` avoir Arr + Lr Ayr stable, nous obtenons un observateur dordre reduit n p pour (donc pour xr = Lr y) en recopiant cette equation
dierentielle

= (Arr + Lr Ayr ) + (Ary + Lr Ayy (Arr + Lr Ayr )Lr )y(t) + (Br + Lr By )u(t).
En eet la dynamique de lerreur sur , e = verie lequation autonome stable
e = (Arr + Lr Ayr )e .
Cet observateur reduit est interessant lorsque np est petit, typiquement np = 1,2 :
la stabilite dun syst`eme de dimension 1 ou 2 est tr`es simple `a etudier.
Exercice 34 (observateur r
eduit non lin
eaire) Construire pour le reacteur chimique (4.2),
page 85, un observateur asymptotique reduit de la concentration x1 `a partir de la mesure
de temperature T (considerer = x1 + T avec bien choisi).

4.5

Observateur-contr
oleur lin
eaire

En regroupant les resultats sur la commandabilite et lobservabilite lineaires, nous


savons comment resoudre de facon robuste par rapport a` de petites erreurs de mod`ele et
de mesures, le probl`eme suivant : amener, a` laide de la commande u, letat x du syst`eme
de p `a q pendant le temps T en ne mesurant que y sachant que : x = Ax + Bu, y = Cx,
(A,B) commandable et (A,C) observable.

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

108

En eet, comme (A,B) est commandable, nous savons avec la forme de Brunovsky
construire explicitement une trajectoire de reference [0,T ]  t  (xr (t),ur (t)) pour aller
de p `a q. Le respect de certaines contraintes peut-etre important a` ce niveau et etre
un guide dans le choix de cette trajectoire de reference (denition du crit`ere pour la
commande optimale).
Toujours a` cause de la commandabilite, nous savons construire un bouclage statique
sur x, Kx, de facon a` ce que la matrice A + BK soit stable (placement de pole). La
matrice K est souvent appelee matrice des gains de la commande.
Grace a` lobservabilite, nous savons construire un observateur asymptotique sur x en
choisissant les gains dobservation L de facon a` avoir A + LC stable.
Alors le bouclage dynamique de sortie
x xr (t)) controleur
u(t) = ur (t) + K(
x = A
x + Bu(t) + L(C x y(t)) observateur
assure le suivi asymptotique de la trajectoire de reference [0,T ]  t  (xr (t),ur (t)). Avec
ce bouclage, appele commande modale ou encore observateur-contr
oleur, les petites erreurs
de conditions initiales sont amorties lorsque t crot et les petites erreurs de mod`ele et de
mesures ne sont pas ampliees au cours du temps.
En eet, comme x = Ax + Bu et y = Cx, on a pour la dynamique du syst`eme boucle :
x = Ax + B(ur (t) + K(
x xr (t)))
x = A
x xr (t))) + L(C x Cx)
x + B(ur (t) + K(
o`
u letat est maintenant (x,
x). Comme (xr ,ur ) est une trajectoire du syst`eme, x r = Axr +
Bur , on a en prenant comme variables detat (x = x xr (t),ex = x x) au lieu de (x,
x),
la forme triangulaire suivante :
dex = (A + LC) e
x
dt
d(x)
= (A + BK) x + BK ex .
dt
Ce qui montre que ex et x tendent vers 0 exponentiellement en temps.
Exercice 35 On dispose sur (4.6), page 90, de deux capteurs de position y1 = x1 et
y2 = x2 . Calculer une commande u, ne dependant que des mesures y1 et y2 et de leurs
integrales, qui stabilise asymptotiquement en 0 (indication pour avoir des calculs simples :
utiliser un observateur reduit pour les vitesses; rajouter par la commande du frottement).
Reprendre la question precedente dans le cas o`
u le ressort est non lineaire (cf. exercice 26).

4.6

Probl`
emes

Probl`
eme 4 (une classe de syst`
emes `
a retard) Soit le syst`eme a` retard suivant :
x(t)

= Ax(t) + Bu(t 1),

dim x = n,

dim u = m.

1. Montrer que si la paire (A,B) est commandable, alors ce syst`eme est commandable.

`
4.6. PROBLEMES

109

2. Montrer la relation suivante

exp((t s)A)Bu(s) ds.

x(t + 1) = exp(A)x(t) +
t1

En deduire un bouclage `a retards repartis du type


 
u(t) = Lx(t) +
R(t s)u(s) ds
t1

qui stabilise le syst`eme (donner lallure des matrices L et R(t s)). Montrer que
cette methode de stabilisation est robuste a` de petites incertitudes sur les matrices
A et B.
3. Ecrire explicitement le bouclage pour x(t)

= x(t) + u(t 1). Tester en simulation la


robustesse du bouclage pour une erreur de 10% sur les param`etres du mod`ele.
Probl`
eme 5 (d
ecomposition en partie commandable et non commandable) Pour
x = Ax + Bu, on note n p le rang de la matrice de commandabilite (n = dim(x)). Monx2 ) avec
trer quil existe un changement de variable sur x uniquement x = M x, x = (
x1 ,
dim(
x2 ) = p, tel que lequation detat admette la structure bloc suivante :
1 u
x 1 = A11 x1 + A12 x2 + B

x 2 = A22 x2
1 ) est commandable. La partie non commandable correspond ainsi `a une equation
o`
u (A11 ,B
dierentielle autonome incluse dans le syst`eme. On pourra considerer la decomposition
de lespace detat Rn en une somme directe faisant intervenir limage de la matrice de
commandabilite et un espace vectoriel complementaire de rang p, les coordonnees x1 et x2
etant associees a` cette somme directe.
Probl`
eme 6 (d
ecomposition en partie observable et non observable) En sinspirant de lexercice 5, montrer que tout syst`eme x = Ax + Bu, y = Cx, se decompose, par
changement de variables sur letat uniquement, ainsi :
1 u
x 1 = A11 x1 + A12 x2 + B
2 u
x 2 = A22 x2 + B
y = C2 x2
o`
u (A22 ,C2 ) est observable.
Probl`
eme 7 (r
ealisation dun transfert causal) Considerons le transfert causal suivant
p
bi si
y(s) = pi=0 i u(s)
i=0 ai s
o`
u s est la variable de Laplace et correspond a` loperateur d/dt , dim y = dim u = 1, avec
u des derivees de
ap = 0 Ainsi y et u sont relies par une equation dierentielle dordre p o`
la commande u apparaissent jusqu`
a lordre p au plus :
ap y (p) + . . . + a0 y = bp u(p) + . . . + b0 u.

110

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

1. Montrer que la forme detat secrit de la mani`ere suivante


x = Ax + B0 u + B1 u + . . . + Bp u(p) , y = Cx.
Expliciter x, A, B0 , . . ., Bp et C.
2. Montrer que le changement de variables x = x Bp u(p1) donne
p1 u(p1) ,
x + B
0 u + B1 u + . . . + B
x = A

y = C x

et permet deliminer u(p) (un peu comme pour lelimination de u dans la preuve de
B
0 , . . ., B
p1 et C.

la forme de Brunovsky). Expliciter A,


3. En deduire un algorithme en p etapes qui realise le transfert entre y et u sous la
forme
z = F z + Gu, y = Hz + Lu.
4. Donner avec lalgorithme precedent la taille et les valeurs des matrices F , G, H et
L, pour p = 1 et p = 2 en fonction des ai et des bi .
5. Etendre lalgorithme au cas multi-variable.
Probl`
eme 8 (r
egulation de niveau) Un debit liquide F variable au cours du temps
(la perturbation) entre dans un reservoir contenant un volume V de liquide (letat). Ce
reservoir poss`ede un soutirage liquide dont le debit L est ajustable avec une vanne (la
commande). Sauf indication contraire, on suppose que lalimentation t  F (t) est connue
et que le volume V est mesure par lintermediaire dune mesure de niveau. Le mod`ele
elementaire de ce syst`eme est
dV
= F L.
dt
1. On veut maintenir le niveau V `a une consigne xe Vc . Quelle loi de bouclage sur L
proposez-vous?
2. La consigne est maintenant variable : t  Vc (t) est une fonction C 1 . Comment
modier la loi precedente de facon `a suivre asymptotiquement la trajectoire t 
Vc (t), i.e., de facon a` avoir limt (V (t) Vc (t)) = 0?
3. On suppose a` partir de maintenant que F est xe mais inconnue. La commande
a
que vous proposez assure-t-elle limt V (t) = Vc ? Comment la modier de facon `
assurer la convergence vers Vc ? (rajouter un terme integral).
4. Une facon de faire est de construire un observateur pour F .
(a) Montrer que le syst`eme
V = F L, F = 0
est observable avec comme sortie y = V , comme commande u = L et comme
etat x = (V,F ).
(b) Montrer que, si la constante < 0, V converge vers F o`
u est solution
de
= 2 V L.
(c) Montrer alors que la commande de la question 1 o`
u F est remplace par V
assure le suivi asymptotique de Vc . Calculer le transfert du syst`eme en boucle
fermee Vc  V . Que remarque-t-on sur les zeros du numerateur?

`
4.6. PROBLEMES

111

(d) Que se passe-t-il si F varie selon une loi ane en temps F (t) = F0 + Qt, (Q
constante)?
5. Reprendre la construction de lobservateur en prenant comme mod`ele de perturbation
que F = 0, au lieu de F = 0. Donner le transfert en boucle fermee entre Vc  V .
Montrer que 0 annule `a lordre 2 le numerateur. Que se passe-t-il maintenant si F
varie selon une loi ane en temps?
Probl`
eme 9 (dynamique verticale dune montgol`
ere) Il sagit de piloter la dynamique verticale dune montgol`ere, la dynamique horizontale etant tr`es peu commandable
comme chacun sait (cest justement cette partie non commandable qui fait tout le charme
de lengin . . .).
On note lecart de temperature par rapport a` lequilibre dans le ballon, v la vitesse
ascensionnelle et h laltitude. Un premier mod`ele simple est le suivant :
= /1 + u
v = v/2 + + w/2
h = v
o`
u 1 > 0 et 2 > 0 sont des constantes de temps xes, est un param`etre de couplage
correspondant `a la poussee dArchim`ede. w est la vitesse verticale du vent, consideree ici
comme une perturbation. u est la commande proportionnelle `a la chaleur fournie au ballon
par le br
uleur.
1. On suppose dans cette question que la commande est w et que u est une perturbation.
Le syst`eme est-il commandable? Peut-on le stabiliser par un bouclage detat?
2. On suppose que u est la commande que w est une perturbation constante. Montrer
que le syst`eme est commandable. Quelle est sa sortie de Brunovsky y ? Construire
un contr
oleur qui permet de suivre une trajectoire reguli`ere t  yc (t) sur y.
3. On desire maintenant aller dune altitude stabilisee h0 vers une autre altitude stabilisee h1 . Comment faire, en sachant que la commande doit rester comprise entre
deux bornes a2 u b2 ?
4. On suppose que lon dispose dun altim`etre donnant h. Peut-on en deduire v, et w
en supposant quon connaisse u (cest un minimum) et que w varie peu, i.e. w = 0?
5. On suppose que u est la commande, h la mesure et que w est une perturbation
constante. Construire lobservateur qui permet de reconstruire asymptotiquement
letat.
Probl`
eme 10 (satellite en orbite) On sinteresse ici a` la position (et non a` lorientation) dun satellite de masse m tournant autour de la terre dont le referentiel est suppose galileen. La position du centre de gravite est reperee avec les coordonnees spheriques
(r,,).
1. Montrer que son energie cinetique T est donnee par
T = m(r 2 + r 2 2 + r 2 2 cos2 )/2

112

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE
et que son energie potentielle U vaut U = km/r o`
u k est une constante. En deduire
les equations du mouvement suivantes
r = r 2 cos2 + r 2 k/r 2 + ur /m
+ 2 sin / cos + u /(mr cos )
= 2r /r
2
= cos sin 2r /r
+ u /(mr)

o`
u u = (ur ,u ,u ) sont les composantes en spheriques des forces exercees par les trois
moteurs sur le satellite (on peut retrouver aussi ces equations a` partir des equations
de Newton ecrites en coordonnees spheriques).
2. Montrer que la trajectoire equatoriale r(t) = r, (t) =
t et (t) = 0 est une
2 3
trajectoire du syst`eme a` commande u = 0 si
r = k (loi de Kepler). Verier que
les equations linearisees autour de cette trajectoire sont donnees par
= 3
r
2r + 2
r + ur /m
= 2(
r)

/
r )r + u /(m
2

=
+ u /(m
r ).
Que remarque-t-on?
3. Montrer que le syst`eme lineaire tangent est commandable et le mettre sous forme
de Brunovsky. En deduire un bouclage qui stabilise le satellite autour de cette trajectoire. Comment placeriez-vous les poles du syst`eme?
4. En partant directement du syst`eme non lineaire de depart construire un bouclage
non lineaire cette fois-ci qui linearise le syst`eme
r = vr ,

= v ,

= v .

En deduire la commandabilite ainsi quun bouclage stabilisant autour de nimporte


quelle trajectoire de reference C 2 , t  (rc (t),c (t),c (t)).
5. Generaliser encore au cas des syst`emes mecaniques compl`etement commandes, cest`a-dire ayant autant de degres de liberte que de commandes independantes (comme
les robots avec au moins un moteur par axe). En particulier montrer quils sont
commandables.

`
4.6. PROBLEMES

113

Probl`
eme 11 (pont roulant) On se propose ici de resoudre le probl`eme suivant : comment deplacer une charge de masse m avec un pont roulant. Il sagit de prendre la charge
au repos a` t = 0, de la deplacer et de la remettre au repos a` t = T . Nous supposons,
pour simplier les calculs, le syst`eme dans un plan vertical xe. La generalisation a` une
dimension horizontale supplementaire ne pose pas de probl`eme et peut etre un excellent
exercice. Pour eectuer cette manoeuvre, on dispose de deux commandes de haut niveau,
la vitesse horizontale de deplacement du pont D = vD et la vitesse denroulement du c
able
R = vR . En eet, des regulateurs (PI) de bas niveau dont la dynamique est rapide, assure
la transformation des commandes de haut niveau (vD ,vR ), lentement variables pour les
regulateurs, en eorts physiques developpes par les moteurs electriques du pont.
On note 0x laxe horizontal sur lequel se deplace le chariot et Oz laxe vertical descendant. g est lacceleration de la pesanteur. On suppose la charge m ponctuelle et le cable
de masse negligeable. On note langle du cable par rapport a` la verticale.
1. Montrer que le syst`eme obeit `a lequation du second ordre suivante (Lagrange) :
cos + g sin = 0.
R + 2R + D
(indication : energie cinetique de la masse T = m/2(D 2 + R 2 + R2 2 + 2RD cos +
2D R sin ); energie potentielle U = mgR cos ). Montrer quen posant p = R +
D cos , on obtient les equations suivantes (Hamilton) :
= (p D cos )/R
p = R D sin g sin .
Donner la forme detat du lineaire tangent autour dun point dequilibre = 0 et
> 0.
R=R
2. Montrer que ce syst`eme est commandable et donner sa forme de Brunovsky (la sortie
de Brunovsky correspond aux deux coordonnees cartesiennes de la masse m).
et D = 0. On desire la deplacer pendant le
3. A t = 0 la charge est au repos en R = R
et D = L. Construire une trajectoire du
temps T `a la position dequilibre en R = R
lineaire tangent et une commande en boucle ouverte qui realise ce deplacement. Que
se passe-t-il si lon utilise directement cette commande en boucle ouverte. Donner
les equations du bouclage lineaire detat qui stabilise le syst`eme autour de cette
trajectoire.
4. On suppose que toutes les composantes de letat ne sont pas disponibles.
(a) On ne mesure que D et R. Le syst`eme est-il observable au premier ordre. Si
le syst`eme est-il observable?
lon mesure en plus la vitesse angulaire ,
(b) Nous supposons maintenant quon mesure (D,R,), la conguration du syst`eme.
Montrer lobservabilite. Donner les equations de lobservateur reduit qui reconstruit asymptotiquement limpulsion generalisee, p, et donc la vitesse angulaire

.
(c) Ecrire les equations de lobservateur-contr
oleur qui assure le suivi asymptotique
de la trajectoire de reference (question 3). Qualitativement, comment doit-on
choisir le temps de transport T et les p
oles du syst`eme boucle de facon a` obtenir
une commande realiste?

114

ET OBSERVABILITE

CHAPITRE 4. COMMANDABILITE

5. Simuler la commande modale precedente avec comme mod`ele de simulation les


equations non lineaires sous forme de Hamilton. Tester en simulation, le domaine
dattraction et montrer linteret dune telle strategie par rapport a` de simples lois
horaires sur D, allant de 0 `a L, et ne prenant pas en compte les oscillations de la
charge m generees par le deplacement.

115

Chapitre 5
Annexe: Syst`
emes semi-implicites et
inversion
Commencons par un exemple : le pendule sous forme semi-implicite. Une autre facon de
representer la dynamique du pendule (3.3) (gure 3.4, page 45) est decrire directement les
lois de Newton en faisant intervenir les coordonnees cartesiennes du pendule (x,z) ainsi que la
tension du l T = (Tx ,Tz ). On obtient alors le syst`eme (m est la masse du pendule) :
d2 x
dt2
d2 z
dt2
Tx
x
2
x + z2

= Tx /m
= Tz /m g
Tz
z
2
=l .
=

La troisi`eme equation dit que T est co-lineaire a` la direction du pendule, la quatri`eme que le
pendule est le longueur constante l. Il est facile de mettre le syst`eme sous forme du premier ordre
en rajoutant la vitesse (vx ,vz ) du pendule. On obtient un syst`eme determine avec (x,vx ,z,vz )
comme inconnues dierentielles et (Tx ,Tz ) comme inconnues algebriques :

dx

= vx

dt

dvx

= Tx /m

dt

dz

= vz
dt
(5.1)

dvz

= Tz /m g

dt

Tz
Tx

x
z

2
x + z 2 = l2 .
Tr`es souvent les syst`emes issus de la modelisation sont naturellement sous cette forme. Les
mettre sous forme explicite necessite alors des calculs compliques et des changements de variables
diciles `a manipuler. Pour un syst`eme mecanique elementaire comme le pendule, les calculs sont
assez simples. Pour des syst`emes mecaniques comportant plusieurs corps, les calculs deviennent
tr`es vite inextricables.

116

`
CHAPITRE 5. ANNEXE: SYSTEMES
SEMI-IMPLICITES ET INVERSION

Dans ce chapitre nous presentons les premiers resultats necessaires `a letude des syst`emes
dierentiels dits implicites et comportant autant dequations que dinconnues. Ils se presentent
sous deux formes.
La forme semi-implicite : on parle parfois de syst`emes algebro-dierentiels
x = f (x,u), 0 = h(x,u),
o`
u le vecteur des inconnues se decompose en deux, x les inconnues dites dierentielles au
nombre de n et u les inconnues dites algebriques au nombre de m (m = dim u = dim h).
La forme implicite :
f (x,x)
=0
o`
u toute les derivees de x apparaissent implicitement dans les equations et o`
u la matrice
jacobienne Dx f est toujours singuli`ere (de determinant identiquement nul).
Ces syst`emes sont caracterises par leur index, un entier positif. Lindex correspond au nombre
de derivations necessaires pour ecrire le syst`eme sous forme explicite. Son calcul repose sur
lalgorithme de structure, algorithme qui fournit aussi les contraintes algebriques supplementaires
que doivent satisfaire les conditions initiales pour lexistence et lunicite du probl`eme de Cauchy.
Ainsi nous verrons quun syst`eme dierentiel implicite est en fait (en dehors des singularites) un
syst`eme dierentiel explicite de plus petite taille.
Nous ne traiterons pas la forme implicite generale. Nous nous contenterons detudier les
syst`emes semi-implicites. En eet f (x,x)
= 0 peut etre vu comme une syst`eme semi-implicite
de dimension double par le prolongement suivant :
x = u
0 = f (x,u).
Noter que les syst`emes explicites sont alors ceux pour lesquelles la partie algebrique 0 = h(x,u)
nexiste pas : ce sont les equations dierentielles explicites, objet du chapitre 3.
Exercice 36 Quelles sont les relations entre (,) de (3.3) et (x,z,Tx ,Ty ) de (5.1)?
Resoudre
x = f (x,u), 0 = h(x,u),
ou inverser le syst`eme dynamique

dx
= f (x,u)
dt
y = h(x,u).
en imposant aux sorties y detre nulles `a chaque instant, revient exactement au meme. Ce nest
quune question de vocabulaire. Les variables u sont interpretees comme des commandes, les
variables y = h(x,u) comme des sorties, les variables x comme letat, la fonction f (x,u) comme
la dynamique en boucle ouverte, la fonction h(x,u) comme la fonction de sortie. Le probl`eme
senonce ainsi : connaissant la loi horaire des sorties, calculer la loi horaire des commandes,
u(t) pour t 0, sachant quelles agissent sur les sorties h(x,u) par lintermediaire de lequation
dierentielle x = f (x,u). Autrement dit, connaissant les sorties, calculer les entrees : ce probl`eme
dinversion identique a` la resolution des syst`emes semi-implicites est en fait tr`es proche du
decouplage et de la linearisation entree/sortie : tout repose encore sur lalgorithme de structure.

`
5.1. SYSTEMES
SEMI-IMPLICITES

117

Ces questions feront lobjet du reste du chapitre avec la construction du bouclage dynamique
qui decouple 1 et linearise la relation entre y et u .
La presentation ne faire appel qu`
a un nombre limite doutils mathematiques. De plus il sut
de traiter un exemple pour comprendre lessentiel. Aussi nous conseillons le lecteur dapporter
toute son attention aux exemples traites dans les deux sous-sections 5.1.1 et 5.2.1. Le cas general
sera alors tr`es facile `a comprendre ensuite.

5.1

Syst`
emes semi-implicites

Nous abordons ici lexistence et lunicite des solutions pour un syst`eme semi-implicite,

dx = f (x,u), x Rn , u Rm
dt
(5.2)

0 = h(x,u),
avec f = (f1 , . . . ,fn ) et h = (h1 , . . . ,hm ) fonctions reguli`eres. Si la condition initiale (x0 ,u0 ) ne
verie que h(x0 ,u0 ) = 0, la solution nexiste pas en generale, meme si le syst`eme est correctement
pose. La condition initiale doit verier dautres equations algebriques, independantes de h et
que lon obtient en derivant 1 fois les equations, etant lindex du syst`eme.
Nous presentons sur un exemple comment obtenir ces equations supplementaires. Les calculs reposent sur un algorithme delimination dierentielle, dit algorithme de structure. Cet
algorithme est presente en toute generalite apr`es lexemple.

5.1.1

Un exemple

Soit le syst`eme semi-implicite suivant :

x 1

x
2

x 3
x 4

=
=
=
=

x1 + 2x1 u1 u2
x3 + x1 u1 u2
x3 + x4 + x3 u2
x4 + u1 u2

(5.3)

= 1 + x1 + x1 u1 u2
= x2 + x1 u1 u2 .

On note x = (x1 ,x2 ,x3 ,x4 ) et u = (u1 ,u2 ). Nous nous posons la question suivante (probl`eme
de Cauchy). Soit (x0 ,u0 ) veriant les deux equations algebriques. Existe-t-il une solution de ce
syst`eme semi-implicite ayant comme condition initiale (x0 ,u0 ). Nous allons voir que la reponse
est non si (x0 ,u0 ) ne verie pas dautres conditions, conditions dites de compatibilite et obtenues
par lalgorithme de structure qui suit.

Lalgorithme de structure
Etape 0 Il est clair que nous ne pouvons pas calculer u en fonction de x `a partir de
#

0 = 1 + x1 + x1 u1 u2
0 = x2 + x1 u1 u2 .

1. Ici, decoupler signier diagonaliser.

118

`
CHAPITRE 5. ANNEXE: SYSTEMES
SEMI-IMPLICITES ET INVERSION

En eet, le rang de ce syst`eme par rapport a` u est 1. Donc necessairement, il contient implicitement une equation qui ne depend que de x. Pour lobtenir, il sut ici de faire la dierence entre
les deux equations. On obtient alors le syst`eme,
#
0 = 1 + x1 + x1 u1 u2
0 = 1 + x1 x2 ,
equivalent algebriquement au syst`eme de depart et qui se decompose en deux parties : une
premi`ere partie (ici la premi`ere equation) dont la dependance par rapport a` u1 et u2 est maximum ; une seconde partie (ici la seconde equation) qui ne depend que de x. Le nom delimination
donne `a cette methode sexplique alors clairement. En eet, elle consiste `a reecrire, de facon
algebriquement equivalente, le syst`eme en eliminant au maximum la presence de u dans les
equations.

Etape 1 On peut maintenant continuer en derivant par rapport au temps la seconde equation 2 .
En utilisant les equations relatives `a x,
on obtient ainsi un nouveau syst`eme,
#
0 = 1 + x1 + x1 u1 u2
0 = x1 x3 + x1 u1 u2 ,
algebriquement independant du precedent. Son rang par rapport a` u est toujours egal `a 1. Par
soustraction, on obtient le syst`eme,
#
0 = 1 + x1 + x1 u1 u2
0 = x3 + 1,
algebriquement equivalent et en deux parties comme a` letape precedente.

Etape 2 On derive par rapport au temps la seconde equation et on obtient le syst`eme


#

0 = 1 + x1 + x1 u1 u2
0 = x3 + x4 + x3 u2 .

Son rang par rapport a` u est egal 2. Par inversion de ce syst`eme algebrique, nous obtenons u en
fonction de x :

1 + x1

u1 u2 =

x1
x
+ x4

u2 = 3
.
x3

Index et probl`
eme de Cauchy
En remplacant u par sa valeur dans

x 1

x
2
x 3

x 4

les equations donnant x,


on obtient
= x1 2(1 + x1 )
= x3 (1 + x1 )
= 0
= x4

1 + x1
.
x1

2. Si nous avions directement derive lune des deux equations de


#
0 = 1 + x1 + x1 u1 u2
0 = x2 + x1 u1 u2 ,
nous aurions obtenu des termes en u dont nous naurions eu que faire.

`
5.1. SYSTEMES
SEMI-IMPLICITES

119

Cest un syst`eme dierentiel ordinaire qui admet, localement au moins, une solution unique si
lon xe la condition initiale x0 . Supposons que x0 verie les deux equations ne dependant que
de x et obtenues lors des deux etapes 0 et 1 :
#

1 + x01 x02 = 0
1 + x03 = 0.

Puisque x 3 = 0, on a x3 = 1 a` chaque instant. Il est alors immediat de voir que x 1 x 2 = 0


et donc que 1 + x1 x2 = 0 a` chaque instant.
Nous avons en fait montre que, pour quil existe une solution au syst`eme semi-implicite de
depart ayant comme condition initiale x0 et u0 veriant les equations algebriques,
#

0 = 1 + x01 + x01 u01 u02


0 = x02 + x01 u01 u02 ,

il faut et il sut quen plus la condition initiale x0 et u0 verie deux autres equations, algebriquement
independantes des deux premi`eres, qui sont obtenues au cours des etapes 1 et 2 :

u02 =
1 + x03 = 0.

x03 + x04
x03

Le nombre de derivation necessaires pour obtenir ces conditions algebriques supplementaires est
ici 2. On dit alors que lindex est de 3, car une derivation supplementaire permet de calculer u
en fonction de x et u et donc de mettre le syst`eme sous forme explicite on parle aussi de forme
involutive ou formellement integrable.
Remarquons enn quintegrer ce syst`eme semi-implicite revient en fait `a integrer un syst`eme
dierentiel de taille inferieure `a x, les variables dierentielles. En eet, au cours des calculs
precedents, nous avons obtenu deux types dequations algebriques : les equations qui fournissent
u en fonction de x et les equations ne portant que sur x
1 + x1 + x2 = 0, 1 + x3 = 0.
Aussi il sut de connatre, par exemple, x1 et x4 pour en deduire les 4 autres variables a` partir
des 4 equations algebriques dont nous disposons. Mais (x1 ,x4 ) sont les solutions du syst`eme
autonome
dx4
1 x1
dx1
= x1 2,
= x4
,
dt
dt
x1
obtenues en remplacant u1 u2 par (1 + x1 )/x1 . La resolution du syst`eme de depart se ram`ene
`a celle de ce syst`eme explicite de dimension deux avec deux conditions initiales independantes.
Un syst`eme semi-implicite peut donc etre vu comme un syst`eme dierentiel explicite de taille
inferieure. Les syst`emes dierentiels implicites sont en fait des syst`emes dierentiels explicites sur
une sous-variete. Les equations de la sous-variete etant celles issues de lalgorithme de structure.

5.1.2

Le cas g
en
eral

Nous revenons maintenant au syst`eme semi-implicite general (5.2).

120

`
CHAPITRE 5. ANNEXE: SYSTEMES
SEMI-IMPLICITES ET INVERSION

Lalgorithme de structure
Nous restons `a un niveau structurel. Une presentation mathematiquement rigoureuse est possible en utilisant soit de la geometrie dierentielle et la theorie des jets, soit lalg`ebre dierentielle.
Le principal raccourci de cette presentation consiste `a supposer, pour tout syst`eme dit algebrique
h(x,u) = 0, que le rang de h par rapport a` u, i.e., le rang de la matrice carre


hi
,
uj 1 i m
1jm
est constant et inferieur ou egal `a m. Aussi les composantes de h se decompose en deux parties
(sous des hypoth`eses convenables) :
la premi`ere partie, notee h, regroupe composantes de h; elle est telle que le rang de


hi
uj 1 i
1jm
soit
la seconde partie, notee !
h, regroupe les m composantes restantes; !
h peut alors sexprimer comme une fonction de x et de h :
!
h(x,u) = (x,h(x,u)).
Une telle decomposition revient a` eliminer u de h(x,u) = 0 pour obtenir (x,0) = 0, un syst`eme
de plus petite taille m ou seul x apparat.
Exercice 37 Donner des hypoth`eses qui assurent lexistence dune telle decomposition de h en
h et !
h. Cette decomposition est-elle unique?
` chaque etape de lalgorithme, nous supposerons implicitement que les manipulations precedentes
A
sappliquent. Nous nous interessons au cas generique. Les probl`emes de singularite sont des
probl`emes diciles qui rel`event de considerations topologiques et que nous ne voulons pas aborder ici.
On note h0 (x,u) la fonction h(x,u) du syst`eme (5.2). On denit par recurrence les fonctions
h1 (x,u), h2 (x,u), . . . , hk (x,u) a` valeurs dans Rm comme suit.
Soit k 0. Supposons denie hk , fonction de x et u `a valeurs dans Rm . Soit k le rang de
hk par rapport a` u, i.e. le rang de la matrice
hk
.
u
Quitte a` permuter les lignes de hk , on peut supposer que ses k premi`eres lignes hk = (h1k , . . . ,hk k )
sont telles que le rang de
hk
u
k = (hk +1 , . . . ,hm ) ne
est maximum et egal `a k . Ainsi les m k derni`eres lignes de hk , h
k

dependent de u que par lintermediaire de hk : il existe donc une fonction k (x,) telle que
k (x,u) = k (x,hk (x,u)).
h

`
5.1. SYSTEMES
SEMI-IMPLICITES

121

On denit hk+1 fonction de x et u `


a valeurs dans Rm par 3

hk (x,u)



hk+1 (x,u) =
k
d
[k (x,0)] =
f (x,u)
dt
x (x,0)

A letape k +1, les k premi`eres composantes de hk+1 sont choisies de facon a` former exactement
les k composantes du vecteur hk .

Index et probl`
eme de Cauchy
La suite k est une suite croissante dentiers inferieurs `a m. Elle stationne donc a` partir
dun certain rang. Il est intuitif, mais pas evident de demontrer sans faire appel a` des outils
mathematiques plus generaux, que la suite des entiers k est en fait independante du choix des
coordonnees sur x et du choix des commandes u : si x = () et u = V (,v) sont des changements
de variables sur x ( est un dieomorphisme) et sur u (V (,) est un dieomorphisme), alors
lalgorithme precedent donne la meme suite k pour le syst`eme (5.2) ecrit avec ces nouvelles
variables :


1

d =
())
f ((),V (,v))
dt

0 = h((),V (,v)).
` m alors, lindex du syst`eme semi-implicite est + 1
D
efinition 22 Si la suite k stationne a
` une valeur strictement
o`
u est le plus petit entier k tel que k = m. Si la suite k stationne a
inferieure a
` m alors lindex est inni.
On peut demontrer le resultat suivant :
Lemme 2 Si lindex + 1 du syst`eme (5.2) est ni, alors n et le rang du jacobien

0 (x,0)

..

.
x
1 (x,0)
est egal au nombre de ses lignes :

k=0 (m

k ).

Ce resultat implique donc que lalgorithme de structure comporte au plus n etapes. Ainsi pour
mettre un syst`eme semi-implicite sous forme explicite il sut de deriver au plus n + 1 fois, n
etant le nombre de variables dierentielles.
La demonstration de ce resultat nest quune mise en forme des deux remarques suivantes.
Supposons que le passage de letape k `a letape k + 1 gen`ere de nouvelles equations entre
x et u : lindex etant ni, ces nouvelles equations sont alors necessairement independantes
de celles obtenues aux etapes precedentes; ainsi le rang des equations ne faisant intervenir
que x,
0 (x,0) = 0, . . . , k (x,0) = 0,

est maximum, i.e., egal aux nombres dequations k+1
i=0 (m i ).


k
d
3. En fait,
f (x,u) est egal a` h
a chaque instant.
k (x,u), car hk est nul `
x (x,0)
dt

122

`
CHAPITRE 5. ANNEXE: SYSTEMES
SEMI-IMPLICITES ET INVERSION
Supposons que le passage de letape k `a letape k + 1 ne gen`ere plus aucune equation
nouvelle : alors letape k + 2 sera identique a` letape k + 1; nous deriverons les memes
equations, celles obtenues `a letape k; il est inutile de deriver davantage; lalgorithme
sarrete car il ne fournit plus de nouvelle equation.

Nous avons ainsi le resultat suivant.


Th
eor`
eme 16 Supposons que le syst`eme semi-implicite (5.2) soit dindex ni + 1. Prenons
0
0
(x ,u ) qui verie h (x0 ,u0 ) = 0 et k (x0 ,0) = 0 pour k = 1, . . . , 1. Alors il existe une unique
solution de (5.2) ayant comme condition initiale (x0 ,u0 ).
Le fait que la condition initiale verie h(x0 ,u0 ) = 0 nest pas susant pour assurer lexistence de la solution d`es que lindex du syst`eme exc`ede 1. En eet, d`es lindex 2, des conditions
supplementaires et algebriquement independantes de h apparaissent.
Si lindex est inni, i.e. si les k stationnent a` une valeur < m, il nest pas possible
de calculer la derivee de u. Dans ce cas, les equations de depart sont liees entre elles. Elles
ne sont pas dierentiellement algebriquement independantes : la partie algebrique h(x,u) = 0
ne comporte en fait que equations dierentiellement algebriquement independantes. Alors
pour une condition initiale xee, le syst`eme admet soit aucune solution, soit une innite si la
condition initiale verie toutes les equations algebriques issue de lalgorithme de structure. En
pratique, un index inni indique une modelisation incompl`ete.
Exercice 38 Quel est lindex du syst`eme semi-implicite (5.1)? Quelles sont les contraintes que
doit satisfaire la condition initiale pour assurer lexistence de la solution.
Les syst`emes implicites apparaissent aussi pour les equations aux derivees partielles mais
alors les calculs et la theorie sont bien plus compliques. Prenons cependant un exemple qui
indique que la methode reste cependant la meme : enchaner alternativement des derivations et
des eliminations. Prenons les equations dEuler des uides parfaits dans une cavite (n normale
exterieure) :
V
p
V
+
V =
t
x
x
div V = 0
V n = 0 sur le bord .
Par analogie avec le pendule (5.1) nous voyons que le champ de vitesse V correspond a` la position
(x,z) et que la pression p joue le r
ole de la tension T . Ainsi les deux contraintes, divV = 0 a`
linterieur et V n = 0 sur le bord, correspondent aux deux equations algebriques de (5.1). Pour
calculer p, on derive donc ces deux contraintes par rapport a` t :
V
(div V )
= div
= p div
0=
t
t
et
p
V
n=

0=
t
n

V
V
x

V
V
x


n.

Ainsi p depend de V dune facon statique (comme la tension T du pendule est une fonction
de la position et de la vitesse du pendule). La pression est obtenue, a` une constante pr`es, en

`
5.1. SYSTEMES
SEMI-IMPLICITES

123

fonction de V en resolvant le probl`eme de Neuman suivant [14] :


3

Vi Vj
p =
xj xi
i,j=1

3

p
Vi
=
Vj nj
n
xj

sur .

i,j=1

5.1.3

Lin
eaire tangent

La methode delimination ci-dessus est generale. Elle peut etre mise en oeuvre (au moins
formellement) pour nimporte quel syst`eme. Cependant, la diculte essentielle nest pas ici. Elle
reside dans le fait que les calculs sont inextricables pour les syst`emes complexes etudies par les
ingenieurs. Souvent deux a` trois derivations sont necessaires pour rendre le syst`eme explicite : en
pratique lindex est souvent plus petit que 3. Nous montrons ici comment calculer les exposants
caracteristiques du linearise-tangent autour dun point dequilibre directement `a partir de la
forme semi-implicite sans passer par la forme explicite qui est de taille reduite.
Un point dequilibre (
x,
u) de (5.2) est caracterise par
0 = f (
x,
u),

0 = h(
x,
u)

Le syst`eme tangent est alors obtenu en ne conservant que les termes dordre 1 :
f
f
d(x)
=
x +
u
dt
x (x,u)
u (x,u)
h
h
x +
u
0=
x (x,u)
u (x,u)
avec x = x x
et u = u u
.
En supposant que le point dequilibre est un point generique du syst`eme (absence de singularite. . . ), nous pouvons avoir la dimension du syst`eme dierentielle explicite de taille inferieur
ainsi que les valeurs propres de son lineaire tangent directement sur le tangent implicite. Notons


1n 0
E=
0 0


et
A=

f
x (
x,
u)
h
x (
x,
u)

f
u (
x,
u)
h
u (
x,
u)

Les exposants caracteristiques sont alors donnes par les solutions de lequation polyn
omiale
suivante
det(E A) = 0.
le degre de ce polyn
ome etant alors la dimension de la dynamique du syst`eme. Il sagit dune
generalisation naturelle du cas explicite o`
u E est la matrice identite. La demonstration de ce
resultat repose sur la theorie des faisceaux de matrices. Nous renvoyons le lecteur interesse `a [22].
Exercice 39 Calculer le point dequilibre de (5.3) et ecrire son linearise tangent. Verier que,
pour ce syst`eme, le degre de det(E A) = 0 est bien egal a
` deux. Calculer les deux racines de
ce polyn
ome en . Verier que lon obtient bien les memes valeurs quen calculant le lineaire
tangent sur la forme explicite reduite issue de lalgorithme de structure.

124

`
CHAPITRE 5. ANNEXE: SYSTEMES
SEMI-IMPLICITES ET INVERSION

5.1.4

R
esolution num
erique

Commencons par la resolution numerique des syst`emes dindex 1, i.e. ceux pour lesquels la
partie algebrique 0 = h(x,u) est de rang maximum en u et fournit donc u en fonction de x par
inversion locale. Le premier schema de discretisation qui vient a` lesprit est le suivant :
xn+1 xn
= f (xn ,un ), 0 = h(xn+1 ,un+1 )
t
a implicite en
o`
u (xn ,un ) serait une approximation de (x,u) a` linstant nt. Ce schema est dej`
u.Connaissant (xn ,un ), il faut, pour calculer un+1 resoudre h = 0. Un tel schema correspond en
fait au schema dEuler explicite. Son ordre est 1. Il est convergent d`es que le pas de discretisation
t est choisi plus petit que les constantes de temps les plus rapides du syst`eme.
Un tel schema ne peut pas convenir pour des syst`emes dindex 2. En eet ll nest plus
possible de calculer un+1 car h nest plus inversible par rapport a` u. Dune facon plus general,
les methodes de Gear [20] sont bien adaptees `a la resolution des syst`emes dindex 1. Pour des
index superieurs une adaptation du schema est necessaire.
Une facon de contourner le probl`eme est de resoudre un syst`eme dierentiel dindex 1 ou 0
dont on sait, par des considerations physiques de modelisation, que les solutions sont proches
de celles du syst`eme de depart et dindex > 1. Tr`es souvent un index > 1 resulte de dynamiques
rapides, stables et negligees. Un bon sens physique permet de rajouter ces petites dynamiques.
Cette facon de proceder admet une justication dans le cadre de la theorie des perturbations et
les syst`emes lents/rapides (c.f. section 3.5).
Nous traitons a` titre dexemple le pendule (5.1). Supposons que la barre qui soutient
la masse

soit leg`erement elastique de raideur 1/, > 0 (la tension dans la barre est alors ( x2 + z 2 l)/).
On peut egalement prendre en compte lamortissement des vibrations hautes frequences en
rajoutant un terme oppose `a la vitesse delongation dans le calcul de la tension de la barre
(xx + z z)/,

> 0 ). Alors, les equations du pendule (5.1) deviennent :

dx
dt
dvx
dt
dz
dt
dvz
dt
Tx
x

= vx
= Tx /m
= vz

= Tz /m g

Tz

x2 + z 2 l xvx + zvz

xTx + zTz =

Ce syst`eme est dindex 1. Ses trajectoires sont proches de celles de (5.1) si lon choisit et
petits.
`
Exercice 40 Etendre
ce qui prec`ede au mouvement dune masse ponctuelle (x,y,z) dans lespace `
a trois dimensions. Cette masse est soumise a
` un champ de force derivant dun potentiel
V (x,y,z). Elle glisse sans frotter sur une surface dequation h(x,y,z) = 0.


5.2. INVERSION ET DECOUPLAGE

5.2

125

Inversion et d
ecouplage

Nous considerons le syst`eme suivant

dx = f (x,u)
dt

y = h(x,u)

(5.4)

avec letat x Rn , les commandes u Rm , les sorties y Rm . Les fonctions f et h sont supposees
reguli`eres. Nous presentons la demarche `a suivre pour calculer un bouclage quasi-statique qui
linearise la relation entree/sortie lorsque le syst`eme est inversible (i.e., lorsque cest possible). On
appelle dynamique des zeros le syst`eme semi-implicite issu de (5.4) en bloquant y `a une valeur
xe. La stabilite locale du syst`eme boucle est alors conditionnee par la stabilite locale de cette
dynamique des zeros. Plus precisement, si elle est hyperboliquement stable, alors il est possible
de stabiliser localement le syst`eme avec un bouclage linearisant la relation entre y et u. Si la
dynamique des zeros est instable (son lineaire tangent admet un p
ole `a partie reelle positive),
alors un bouclage fonde sur la linearisation entree/sortie destabilise le syst`eme et na que peu
dinteret. En lineaire, les syst`emes qui admettent une dynamique des zeros asymptotiquement
stable sont dits `a dephasage minimal.

5.2.1

Un exemple

Soit le syst`eme

dx1
dt
dx2
dt
dx3
dt
dx4
dt
y1
y2

= x1 x2 + u1
= x1 x2 + x3 + u1
= x3 + x4 + u2

(5.5)

= x3 x4 + x4 + u2
= x1
= x2

avec un param`etre. On note x = (x1 ,x2 ,x3 ,x4 ), u = (u1 ,u2 ) et y = (y1 ,y2 ). Nous voulons
que y suive avec stabilite une loi horaire t  y r (t), la reference de sortie denie par avance. Il
sagit dun probl`eme typique de poursuite de trajectoire (output tracking en anglais). Pour
cela nous disposons de la mesure de letat x `a chaque instant (nous savons o`
u est le syst`eme) et
nous connaissons les equations du syst`eme (nous disposons dun mod`ele). Comment ajuster en
temps-reel la commande u de facon `
a ce que lerreur de suivi y y r converge vers 0.
Nous allons voir quun bouclage du type
y r (t))
u = k(x,y r (t),y r (t),
repond a` la question. Dautres reponses sont possibles avec des techniques dierentes. Celle que
nous presentons est en faite elementaire et reprend lalgorithme de structure que nous avons
dej`
a vu.
En derivant une fois y, on a :

y 1 = x1 x2 + u1
y2 = x1 x2 + x3 + u1 .
Ce syst`eme est de rang 1 par rapport a` u. Lelimination de u donne lequation
y 2 = y 1 + x3

126

`
CHAPITRE 5. ANNEXE: SYSTEMES
SEMI-IMPLICITES ET INVERSION

que lon derive par rapport au temps pour obtenir


y2 = y1 + x3 x4 + u2 .
Ainsi on a
y 1 = x1 x2 + u1
y2 = y1 + x3 x4 + u2 .
Nous pouvons donc imposer une vitesse arbitraire v1 `a y1 et une acceleration arbitraire v2 `a y2
en choisissant u1 et u2 solution de
v1 = x1 x2 + u1
v2 = v 1 + x3 x4 + u2 .
Nous aurions pu tout aussi bien imposer lacceleration de y1 et la vitesse de y2 . Dierents choix
sont possibles a` ce stade. Prenons
v1 = y1r (t) a(y1 y1r (t))
et
v2 = y2r (t) b(y2 y 2r (t)) c(y2 y2r (t))
avec a,b,c > 0 (param`etres de reglage, les gains du suivi). Alors lerreur de suivi y = y y r
obeit `a
d(y1 )
= ay1
dt
et `a
d(y2 )
d2 (y2 )
cy2 .
= b
2
dt
dt
Il sagit de deux equations dierentielles lineaires, decouplees et asymptotiquement stables car
les gains a, b et c sont positifs. Ce qui explique la terminologie decouplage et linearisation
entree/sortie.
Voyons maintenant lallure du bouclage. Comme u1 = v1 x1 x2 , et y1 = x1 , on a
u1 = y 1r (t) a(x1 y1r (t)) x1 x2 .
On sait aussi que u2 = v2 v 1 x3 x4 . Calculons donc v2 et v 1 en fonction de x, de la reference
y r et ses derivees. On a
v2 = y2r (t) b(y1r (t) a(x1 y1r (t)) + x3 y 2r (t)) c(x2 y2r (t))
puisque y2 = x2 et y 2 = y1 + x3 = v1 + x3 = y1r (t) a(x1 y1r (t)) + x3 . On obtient v 1 en derivant
v1 = y1r (t) a(y1 y1r (t))
par rapport au temps, soit
v 1 = y1r (t) a(v1 y 1r (t)) = y1r (t) a2 (y1 y1r (t))
car y 1 = v1 = y 1r (t) a(y1 y1r (t)).
Ainsi le bouclage en u2 est donne par
u2 = y2r (t) b(y1r (t) a(x1 y1r (t)) + x3 y2r (t)) c(x2 y2r (t)) y1r (t) + a2 (y1 y1r (t)) x3 x4 .


5.2. INVERSION ET DECOUPLAGE

127

Ce type de bouclage appele bouclage quasi-statique assure donc la stabilisation des sorties y
vers leur reference y r . Cela ne signie pas que le syst`eme en entier est stable. Supposons que la
reference y r soit constamment nulle. Alors y converge vers 0. Ainsi les trajectoires du syst`eme
sont a` terme proches des trajectoires du syst`eme semi-implicite obtenu en annulant y :

dx1
dt
dx2
dt
dx3
dt
dx4
dt
0
0

= x1 x2 + u1
= x1 x2 + x3 + u1
= x3 + x4 + u2
= x3 x4 + x4 + u2
= x1
= x2 .

Lindex de ce syst`eme vaut 3 et il est alors facile de voir que x1 = x2 = x3 = 0, que u1 = 0


et u2 = x4 . La dynamique explicite dite dynamique des zeros est ainsi de dimension 1 avec
x 4 = ( 1)x4 . Si > 1 cette dynamique nest pas asymptotiquement stable. Si < 1, cette
dynamique est asymptotiquement stable.
On peut aisement montrer que lorsque la dynamique de zeros est hyperboliquement stable
une telle methode de commande stabilise localement le syst`eme tout entier (on ne peut rien dire
globalement `a cause de phenom`enes de picking meme si la dynamique des zeros est globalement
asymptotiquement stable).
Exercice 41 Le mod`ele dynamique dun reacteur batch est le suivant :

dCA

dt

dCB
dt

dT

dt

2
= k1 (T )CA
2 k (T )C
= k1 (T )CA
2
B

(5.6)

2 + k (T )C + (a + a T ) + (b + b T )u
= 1 k1 (T )CA
2 2
B
1
2
1
2

= T

avec CA et CB les concentrations de A et B, T la temperature, u la variable de commande


(apport ou extraction de chaleur), k1 (T ) et k2 (T ) des fonctions positives de T , 1 , 2 , a1 , a2 ,
b1 et b2 des param`etres constants. Le but de la commande est de suivre un prol de temperature
[0,]  t  T r (t) durant toute la duree du batch .
1. Calculer le bouclage qui linearise la dynamique de lerreur T = T T r
2. Discuter en fonction de k1 et de k2 la stabilite de la dynamique des zeros.
Exercice 42 Calculer pour la colonne a
` distiller du probl`eme 3, page 81 (syst`eme (3.21)) le
bouclage linearisant avec u = (L,V ) et y = (x1 ,xn ). Que dire des calculs autour dun point
stationnaire x
? Savez-vous montrer que la dynamique des zeros est stable?

5.2.2

Le cas g
en
eral

Revenons au syst`eme general (5.4).

128

`
CHAPITRE 5. ANNEXE: SYSTEMES
SEMI-IMPLICITES ET INVERSION

Inversion
Nous reprenons ici les calculs de lalgorithme de structure avec y dependant du temps. Ainsi
la donnee est t  y(t) supposee susamment derivable par rapport au temps. Les inconnues
sont x et surtout u. La derivee -i`eme en temps dune variable est notee () , ceci an dalleger
les calculs qui suivent.

Etape
k = 0 Notons h0 (x,u) la fonction h(x,u) du syst`eme (5.4). Par denition, y = h0 (x,u).
Soit 0 le rang de

h0
.
u
Quitte a` permuter les lignes de h0 et donc les composantes de y, on peut supposer que les 0
premi`eres lignes h0 = 0 = (h10 , . . . ,h0 0 ) sont telles que le rang de
h0
u

h0 = (h0 0 +1 , . . . ,hm
eres lignes de h0 . Ainsi
est maximum et egal `a 0 . Notons
0 ) les m 0 derni`
0 ne depend de u que par lintermedaire de h0 . Il existe donc une fonction 0 (x,) telle que
h
0 (x,u) = 0 (x,h0 (x,u)).
h
Il est clair que y = h0 (x,u) est algebriquement equivalent a`
#
y0 = h0 (x,u) = 0 (x,u)
y1 = 0 (x,y0 )
y1 ) avec y0 = y 0 , les 0 premi`eres composantes de y, et y1 rassemblant les m 0
o`
u y = (y0 ,
derni`eres composantes de y.

Etape
k 0 Supposons denies
la suite croissante dentiers 0 , . . . ,k ;
yk+1 ) ; y k = (y0 , . . . ,yk ) est
une partition des composantes de y en deux groupes, y = (y k ,
de dimension k , chaque yi etant de dimension i i1 4 ; yk est de dimension m k ;
a valeurs dans Rm , dependant de
la fonction hk `
(x,u,y, . . . ,y (k) ),
k ) ;
de rang k par rapport a` u et dont les composantes se divisent en deux : hk = (hk ,h
hk = (0 , . . . ,k ) est de dimension k , chaque i etant de dimension i i1 ; le rang de
k est de dimension m k ; hk verie
hk par rapport a` u est egal `a k ; h

y0 = 0 (x,u)

(1)
(1)

= 1 (x,u,y0 ,y0 )
y1

..

.




(k)
(i)
(k)

= k x,u, yi , . . . ,yi
yk

i=0,...,k1

(k)
(i)
(k)
(1)
(k)

yk+1 = k x, yi , . . . ,yi
,(y0 ,y1 , . . . ,yk ) .
i=0,...,k1

4. Avec la convention 1 = 0.


5.2. INVERSION ET DECOUPLAGE

129

On denit alors hk+1 en remplacant la derni`ere equation du syst`eme precedent par sa derivee
rapport au temps :



k
(k+1)
(i)
(k+1)
=
f (x,u) + k x, yi , . . . ,yi
yk+1
x
i=0,...,k
avec



d
k
(i)
(k)
(1)
(k)
f + k =
k x, yi , . . . ,yi
,(y0 ,y1 , . . . ,yk )
.
x
dt
i=0,...,k1
On denit alors hk+1 par
dk
f + k ).
hk+1 = (0 , . . . ,k ,
dt
hk+1 est une fonction de (x,u,y, . . . ,y (k+1) ). Son rang par rapport a` u est par denition k+1 .
Par construction de hk+1
k+1 k ;
on peut poser, quitte a` permuter des lignes, que
k
k+1 )
f + k = (k+1 ,h
x
o`
u k+1 est une fonction de



(i)
(k+1)
(x,u, yi , . . . ,yi

i=0,...,k

u
hk+1 est aussi une fonction des memes variables mais `a valeurs
a` valeurs dans Rk+1 k , o`
m
k+1
, et o`
u le rang de hk+1 = (hk ,k+1 ) par rapport a` u est egal `a k+1 ;
dans R
k+1 en deux parties, yk+1 = (yk+1 ,
yk+2 ) avec yk+1 de dimen yk+1 se decompose comme h
yk+2 ) avec y k+1 = (y k ,yk+1 )
sion k+1 k , yk+2 de dimension mk+1 ; on pose y = (y k+1 ,
de dimension k+1 .
k+1 ) et de hk+1 par rapport a` u, il est clair que h
k+1
Comme k+1 est le rang de hk = (hk+1 ,h
ne depend de u que par lintermediaire de hk+1 ; autrement dit, il existe une fonction



(i)
(k+1)
, .
k+1 x, yi , . . . ,yi
i=0,...,k

telle que





k+1 x,u, y (i) , . . . ,y (k+1)
=
h
i
i
i=0,...,k


(i)
(k+1)
,
k+1 x, yi , . . . ,yi
i=0,...,k



(i)
(k+1)
hk+1 x,u, yi , . . . ,yi

i=0,...,k

Ainsi, on a

y0
(1)
y1

(k+1)

yk+1

(k+1)

yk+2


.

= 0 (x,u)
(1)
= 1 (x,u,y0 ,y0 )
..
.




(i)
(k+1)
= k+1 x,u, yi , . . . ,yi
i=0,...,k



(i)
(k+1)
(1)
(k+1)
= k+1 x, yi , . . . ,yi
,(y0 ,y1 , . . . ,yk+1 ) .

Ce qui permet de passer `a letape suivante k + 1.

i=0,...,k

130

`
CHAPITRE 5. ANNEXE: SYSTEMES
SEMI-IMPLICITES ET INVERSION

D
ecouplage et lin
earisation entr
ee/sortie
Le decouplage consiste a` trouver une commande par retour detat (ici quasi-statique), u =
K(x,v,v,
. . . ,v (r) ), telle que, sur le syst`eme boucle,

dx = f (x,K(x,v,v,
. . . ,v (r) ))
dt

y = h(x,K(x,v,v,
. . . ,v (r) )),
chaque composante de y verie une equation dierentielle faisant intervenir uniquement cette
composante, un nombre ni de ses derivees et une seule composante de v. Ainsi, le decouplage
consiste `a construire un changement de variable sur la commande u  v, changement de variable
parametre par letat et sinterpretant comme un bouclage, tel que la relation entre la nouvelle
commande v et la sortie y soit diagonale. Cela revient a` compenser par bouclage les couplages
non diagonaux entre u et y. Nous allons voir que lon peut meme aller un cran plus loin et en
plus lineariser la relation entre la nouvelle entree v et la sortie y.
Ce probl`eme nadmet de solution (autour dun point generique) que si le syst`eme est inversible, i.e., si la suite croissante des k stationne `a m. On note alors lunique entier tel que
= m et 1 < m : est appele ordre relatif du syst`eme entre u et y.
Nous allons maintenant expliquer comment calculer formellement un tel bouclage. Pour cela
nous reprenons lalgorithme dinversion. La suite croissante dentiers 0 , . . . , conduit a` une
partition des sorties en + 1 groupes de composantes y = (y0 , . . . ,y ) (de tailles respectives
(0 ,1 0 , . . . , 1 )) 5 associes aux + 1 fonctions (0 , . . . , ). Il est possible de choisir
u = K(x,v,v,
. . . ,v () ) tel que la dynamique en boucle fermee des sorties verie

y0 = v0

y (1) = A1 (y1 ) + v1
1
..

y () = A (y , . . . ,y (1) ) + v

o`
u
les fonctions (Ai )i=0,..., sont des fonctions arbitraires ;
les nouvelles commandes v Rm se decomposent en +1 blocs de composantes (v0 , . . . ,v )
de tailles respectives (0 ,1 0 , . . . , 1 ).
La loi de commande est a priori une fonction de
()

(1)

x, (v0 , . . . ,v0 ), (v1 , . . . ,v1

(1)

), . . . , (v1 ,v1 ), et v .

En eet, u est obtenu a` partir du syst`eme resultant de la derni`ere etape k = 1 de


lalgorithme et o`
u lon a remplace les yii par Ai + vi (i = 0, . . . ,) :

v0 = 0 (x,u)

(1)

A1 (y1 ) + v1 = 1 (x,u,y0 ,y0 )

..
.

(1)
(i)
()

A (y , . . . ,y
) + v = x,u, yi , . . . ,yi
i=0,...,1

Cependant, il convient dexprimer les derivees jusqu`


a lordre de y0 , . . . , y en fonction de x
et des derivees jusqu`
a lordre des nouvelles commandes v.
5. Noter que la composante yk nexiste pas si k k1 = 0.


5.2. INVERSION ET DECOUPLAGE
(k)

(k)

Il est evident que y0 = v0

131
(k)

pour k = 0, . . . ,. Pour y1 , nous distinguons deux cas :


(0)

si 0 = k < 1, alors par construction y1 est donne par la fonction 0 (x,y0 ) egale `a
(0)
(0) (0)
(0)
y1 = (y1 ,y2 , . . . ,y ) et obtenue a` letape 0 de linversion ;
(1)

(0)

(k)

si k 1 il convient de deriver k 1 fois y1 = A1 (y1 )+ v1 pour obtenir y1 explicitement


(0)
(k1)
(0)
) ; comme y1 est une fonction de x et y0 , on obtient
en fonction de y1 et (v1 , . . . ,v1
(k)
(k1)
).
en n de compte y1 en fonction de x, v0 , et (v1 , . . . ,v1
(k)

(k)

(k)

De proche en proche, on proc`ede de meme pour y2 , y3 , . . . ,y (k = 0, . . . ,).


Il apparat alors que v0 doit etre derive au plus fois, v1 au plus 1 fois, . . . , v1 au
plus 1 fois et v au plus 0 fois. Ce qui explique pourquoi u depend de x et uniquement de
(i)
)i=0,..., .
(vi , . . . ,vi

132

`
CHAPITRE 5. ANNEXE: SYSTEMES
SEMI-IMPLICITES ET INVERSION

BIBLIOGRAPHIE

133

Bibliographie
[1] R.H. Abraham and C.D. Shaw. Dynamics The Geometry of Behavior : I-IV. Aerial
Press, Santa Cruz, California, 1981.
La BD des syst`
emes dynamiques: sans equation et uniquement avec des
dessins cette s
erie de 4 livres donne un aper
cu fid`
ele et assez vaste
de divers types de comportements dynamiques allant des cycles limites vers
laccrochage de fr
equences et les syst`
emes chaotiques comme le cheval de
Smale.

[2] C. Viterbo. Syst`emes dynamiques et equations dierentielles. Ecole Polytechnique,


majeure de mathematiques, 2002.
Les r
esultats de base sur les
equations diff
erentielles avec la
moyennisation, la stabilit
e, et une ouverture vers le contr^
ole
non-lin
eaire.

[3] V. Arnold. Equations Dierentielles Ordinaires. Mir Moscou, 1974.


Un livre classique dintroduction; tr`
es g
eom
etrique sans trop de
formalisme.

[4] V. Arnold. Methodes Mathematiques de la Mecanique Classique. Mir Moscou, 1976.


Une excellente r
ef
erence pour les syst`
emes dynamiques m
ecaniques
(Lagrangien, Hamiltonnien, principes de moindre actions). Dun bon niveau
avec de nombreuses annexes.

[5] V. Arnold. Chapitres Supplementaires de la Theorie des Equations Dierentielles


Ordinaires. Mir Moscou, 1980.
De nombreux r
esultats sur les bifurcations et la th
eories de pertubations
(moyennisation). Dun niveau
elev
e avec une r
edaction parfois elliptique
mais toujours tr`
es suggestive.

[6] J.P. Bourguignon. Calcul Variationnel. Ecole Polytechnique, 1989.


Un cours de g
eom
etrie diff
erentielle intrins`
eque (vari
et
es, fibr
e tangent
et co-tangent, champ de vecteurs, ...) avec de nombreuses informations
historiques. Tr`
es compl
ementaire de [3, 4].

[7] M. Demazure. Geometrie, Catastrophes et Bifurcations. Ecole Polytechnique, 1987.


Une excellente introduction `
a l
etude qualitative des
equations
diff
erentielles. Plus accessible que [5].

[8] A. Tikhonov, A. Vasileva, and A. Sveshnikov. Dierential Equations. Springer,


New York, 1980.
Sur les syst`
emes diff
erentiels ordinaires lents-rapides et leur
d
eveloppements asymptotiques.

BIBLIOGRAPHIE

134

[9] R Thom. Stabilite Structurelle et Morphogen`ese. Inter-Edition,


Paris, 1972.
Une discussion parfois philosophique sur les mod`
eles et la robustesse par
le p`
ere de la th
eorie des catastrophes.

[10] C. Godbillon. Geometrie dierentielle et mecanique analytique. Hermann, Paris,


1969.
Un classique fran
cais tr`
es formel. Tr`
es diff
erent de [4].

[11] J. Guckenheimer and P. Holmes. Nonlinear Oscillations, Dynamical Systems and


Bifurcations of Vector Fields. Springer, New York, 1983.
Traite dans le d
etail des exemples classiques de syst`
emes chaotiques
(oscillations forc
ees, Van-der-Pol, Duffing, Lorenz,...). Dun bon niveau
avec de nombreux r
esultats pointus. Tr`
es compl
ementaire de [1].

[12] M.W. Hirsch and S. Smale. Dierential Equations, Dynamical Systems and Linear
Algebra. Acamedic Press: New-York, 1974.
Excellente indroduction avec des preuves d
etaill
ees. Moins complet
que [3].

[13] T. Kailath. Linear Systems. Prentice-Hall, Englewood Clis, NJ, 1980.


Classique et tr`
es complet sur le contr^
ole des syst`
emes lin
eaires.

[14] G. Allaire. Analyse numerique et optimisation. Ecole Polytechnique, mathematiques


appliquees, 2002.
La partie sur loptimisation traite la commande quatratique et les
equations de Riccati.

[15] H.K. Khalil. Nonlinear Systems. MacMillan, 1992.


Manuel classique sur le contr^
ole non lin
eaire. De nombreux rappels sur les
syst`
emes dynamiques, la th
eorie des perturbations et la stabilit
e. Assez
math
ematique.

[16] J.P. LaSalle and S. Lefschetz. Stability by Liapounovs Direct Method With Applications. Academic Press, New York, 1961.
Un classique sur la stabilit
e des syst`
emes dynamiques.

[17] E. Sontag. Mathematical Control Theory. Springer Verlag, 1990.


Une pr
esentation abstraite des syst`
emes.

[18] J.P. Gauthier and I. Kupka. Deterministic Observation Theory and Applications.
Cambridge University Press, 2001.
Une monographie r
ecente sur lobservabilit
e en non-lin
eaire avec un accent
mis sur les situations singuli`
eres.

[19] Ph. Martin, R. Murray and P. Rouchon. Flat systems, equivalence and trajectory
generation. Technical report http://www.cds.caltech.edu/reports/, 2003.
Sur la lin
earisation par bouclage, les syst`
emes plats avec extension aux
equations aux d

eriv
ees partielles avec contr^
ole fronti`
ere. Catalogue de
plusieurs dizaines dexemples physiques.

[20] K.E. Brenan, S.L. Campbell, and L.R. Petzold. Numerical Solution of Initial-Value
Problems in Dierential-Algebraic Equations. North-Holland, Amsterdam, 1989.
Un classique sur lanalyse num
erique des syst`
emes mixtes ou dits
implicites (
equations diff
erentielles ordinaires coupl
ees `
a des
equations
alg
ebriques).

BIBLIOGRAPHIE

135

[21] M. Crouzeix and A.L. Mignot. Analyse Numerique des Equations Dierentielles.
Masson, Paris, 1992.
Permet de sorienter dans les divers sch
emas num
eriques propos
es par
Matlab ou Scilab pour la r
esolution des
equations diff
erentielles
ordinaires.

[22] F.R. Gantmacher. Theorie des Matrices: tome 1 et 2. Dunod, Paris, 1966.
Un classique tr`
es complet sur les matrices, une mine de r
esultats...

136

BIBLIOGRAPHIE

137

Deuxi`
eme partie
M
ethodes Num
eriques en
Commande Optimale

139

Chapitre 1
Temps minimal : syst`
emes lin
eaires
1.1

Introduction

Lors de la conception du transfert dun syst`eme dynamique commande vers un point


de lespace detat, il est necessaire de prendre en compte plusieurs crit`eres, en general en
conit les uns avec les autres, dont les principaux sont :

Le temps de transfert,
Lenergie depensee,
Lecart par rapport a` une trajectoire de reference,
La robustesse par rapport a` des perturbations,
La complexite du probl`eme de calcul de la commande,
La simplicite de mise en uvre en temps reel.

Les poids respectifs de ces crit`eres dependent de chaque application. Dans les chapitres
suivants, nous allons nous concentrer sur le probl`eme de transfert en temps minimal.
Le plan du chapitre est le suivant. Nous discutons lexemple du probl`eme dalunissage en section 1.2. Lexistence de solutions est analysee en section 1.3, et les conditions
doptimalite en section 1.4. Enn la theorie est appliquee `a plusieurs exemples en section
1.5.

1.2

Un probl`
eme dalunissage

Dans sa phase nale, et en negligeant la gravite, une manuvre dalunissage peut se


modeliser par lequation
= m1 u(t), t 0,
(1.1)
h(t)
o`
u h est laltitude, m > 0 la masse de lengin, et u la poussee nette (apr`es deduction de
et on impose la contrainte u(t) [1,1] a` tout instant.
la pesanteur). On notera v := h,
Le probl`eme est damener lengin `a vitesse et altitude nulle en un temps minimal.
La situation physique est celle o`
u laltitude initiale est positive. La solution intuitive
est de xer dabord u = 1 jusqu`a atteindre un point o`
u on commute a` u = 1.
Nous allons resoudre graphiquement ce probl`eme de transfert par une commande ne
prenant que les valeurs 1, et changeant de signe au plus une fois. La theorie developpee

CHAPITRE 1. TEMPS MINIMAL : SYSTEMES


LINEAIRES

140

ulterieurement permettra de montrer que que pour ce probl`eme, ces commandes realisent
le transfert en temps minimal (voir la remarque 1.31).
Soit h0 , v0 la condition initiale. Calculons dabord les commandes permettant datteindre la cible avec une commande constante egale a` 1. Si u(t) vaut 1 pour tout t 0,
alors
h(t) = h0 + tv0 + 12 t2 , v(t) = v0 + t, t 0.
(1.2)
La trajectoire atteint la cible au temps T > 0 ssi v0 = T et h0 = 12 T 2 . Si u(t) vaut 1
pour tout t 0, alors
h(t) = h0 + tv0 12 t2 , v(t) = v0 t, t 0.

(1.3)

La trajectoire atteint la cible au temps T > 0 ssi v0 = T et h0 = 12 T 2 . Les deux demi


paraboles sont tracees en trait plein sur la gure 1.1.

0.5
0.4
0.3
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.16

-0.12

-0.08

-0.04

0.04

0.08

0.12

0.16

Fig. 1.1 Trajectoires en temps minimal


Si la condition initiale se trouve sous la courbe en traits pleins la trajectoire obtenue
avec u = 1 permet datteindre le lieu des point pouvant etre transferes `a 0 par une
commande egale a` 1; si la condition initiale se trouve au dessus, la trajectoire obtenue
avec u = 1 permet datteindre le lieu des point pouvant etre transferes `a 0 par une
commande egale a` 1. Il est facile de verier que toutes les commandes egales a` 1 et
changeant de signe au plus une fois sont de ce type.
La courbe en traits pleins est le lieu de changement de signe; elle partage lespace
detat en deux zones o`
u la commande est constante. Nous avons realise (comme cela sera
justie ulterieurement) la synth`ese, cest `a dire le calcul de la commande optimale en
tout point de lespace detat : la commande sexprime comme fonction de retour detat,
ou feedback

v 0 et h 12 v 2 ,
1 si
1 si
v > 0 et h < 12 v 2 ,
u(h,v) =
(1.4)

1 sinon.

1.3. EXISTENCE DE SOLUTIONS

1.3
1.3.1

141

Existence de solutions
Position du probl`
eme

Considerons le syst`eme dynamique lineaire


x(t)

= Ax(t) + Bu(t), t 0,

(1.5)

avec x(t) IRn , u(t) IRm , et A et B de taille respectivement n n et n m. La


commande, fonction mesurable IR+ IRm , doit respecter une contrainte du type
u(t) U,

p.p.

t 0,

(1.6)

o`
u U est un ensemble convexe, compact et tel que 1 0 int U.
Soit C une partie convexe et fermee de lespace detat IRn , appelee la cible. On consid`ere
le probl`eme de transfert en temps minimal dun etat initial x0 C `a la cible :
Inf

(x,u,T )

T;

x(T ) C;

x(0) = x0 ;

(x,u)

satisfont (1.5)-(1.6).

(1.7)

Remarque 1.1 La presence de la contrainte sur la commande est essentielle. En eet,


si le syst`eme est commandable, le transfert de x0 `a un point quelconque de la cible est
possible en un temps arbitrairement petit en labsence de telles contraintes.
On dira que le probl`eme en temps minimal (1.7) est realisable sil existe une commande
transferant letat initial a` la cible. Le temps minimal note T (x0 ) est la valeur de linmum
dans (1.7), et vaut par denition + si le probl`eme nest pas realisable.
On dit que la commande u, fonction mesurable de [0,T (x0 )] a` valeurs dans U p.p., est
une commande en temps minimal si elle realise le transfert de letat initial a` la cible.
Rappelons la formule


e(ts)A Bu(s)ds, t 0,

tA 0

x(t) = e x +

(1.8)


i
es t 0 et x0 IRn , on designe par R(t,x0 ) lensemble
o`
u eA :=
i=0 A /i!. Etant donn
des etats accessibles au temps t en partant de x0 au temps t = 0. Autrement dit,
#
R(t,x ) =
0

tA 0

(ts)A

e x +

$
Bu(s)ds; u(s) U, p.p. s [0,t] .

(1.9)

Soit T > 0. On verie facilement que 0tT R(t,x0 ) est borne. Il est clair que R(T,x0 )
est convexe; les proprietes de fermeture sont etudiees dans la section suivante a` loccasion
de lanalyse de lexistence de solutions pour le probl`eme (1.7).
1. On notera int U linterieur de U , deni comme lensemble des u U tels que, pour > 0 assez petit,
la boule B(u,) de centre u et rayon est contenue dans U .

142

1.3.2

CHAPITRE 1. TEMPS MINIMAL : SYSTEMES


LINEAIRES

R
esultats dexistence

Th
eor`
eme 1.2 Si le probl`eme en temps minimal (1.7) est realisable, alors il existe une
commande optimale.
La demonstration du theor`eme necessite un resultat danalyse fonctionnelle que nous
admettrons (voir Brezis [11]) :
Lemme 1.3 Soit E une partie convexe fermee dun espace de Hilbert F . De toute suite
bornee {ei } dans E, on peut extraire une sous suite {ej }jJ qui converge faiblement vers un
certain e E, au sens o`
u, pour toute forme lineaire continue L sur F , on a limjJ L(ej ) =
L(
e).
Lemme 1.4 Soient > 0, k , et xk R(k ,x0 ). Alors tout point dadherence xd
de {xk } appartient a` R(,x0 ).
D
emonstration. On peut supposer que xk xd . Notons uk une commande
`a valeurs p.p. dans U telle que letat associe note xuk verie xuk (k ) = xk . Comme
0tT1 R(t,x0 ) est borne, lequation detat implique que x uk L (0,k ,IRn ) est uniformement
bornee par L > 0. On en deduit que ces fonctions sont lipschitziennes de constante L, et
donc xuk (
) xd .
Par ailleurs la restriction de uk `a [0, ] est bornee dans lensemble convexe ferme
2
L (0,
,U). Extrayant si necessaire une sous suite on deduit du lemme 1.3 la convergence
,U). En particulier
faible de cette restriction vers un certain u L2 (0,


(ts)A
) =
e
Buk (s)ds
e(ts)A B u(s)ds.
(1.10)
xk (
0

Comme xk (
) xd , ceci implique que xd est la valeur de letat associe `a u `a linstant
do`
u la conclusion.

D
emonstration du th
eor`
eme 1.2. Posons T := T (x0 ). Par denition du temps minimal, il existe une suite decroissante {Tk } T telle que R(Tk ,x0 ) C = , et donc il
existe des commandes uk , fonctions mesurables de [0,Tk ] `a valeurs dans U p.p., telles que
les etats associes xk verient xk (Tk ) C. Extrayant une sous-suite, on peut supposer que
la suite bornee {xk (Tk )} converge vers un point xd ; on conclut avec le lemme 1.4.

Notons lensemble des instants pour lesquels on peut atteindre la cible par
(
)
T (x0 ) := t > 0; R(t,x0 ) C = .

(1.11)

Cet ensemble, ferme dapr`es le lemme 1.4, a une structure simple dans deux cas particuliers.
D
enition 1.5 On dira que la cible C est viable si, pour tout xd C, il existe une
commande a` valeur p.p. dans U telle que le syst`eme (1.5) avec etat initial x(0) = xd
verie x(t) C pour tout t 0.
La cible est viable si elle est reduite a` 0, et plus generalement si, pour tout xd C, il
existe u U tel que Axd + Bu = 0. On peut donner des caracterisations de la viabilite


1.4. CONDITIONS DOPTIMALITE

143

basees sur la notion despace tangent a` C, voir par exemple H. Frankowska [19, Section
1.3.5].
Proposition 1.6 Si letat initial est nul, ou si C est viable, alors T (x0 ) est de la forme
[T (x0 ),[.
D
emonstration. Notons dabord que T (x0 ) T (x0 ) dapr`es le theor`eme 1.2. Si
x0 = 0, tout etat accessible en temps t par une commande admissible u = u(s) peut
aussi etre atteint en un temps t > t avec une commande u nulle sur [0,t t[ et egale a`
u (s) = u(s (t t)) sur [t t,t ].
Si u transf`ere x0 `a xd C en un temps t, la viabilite de C implique lexistence dune

commande transferant x0 `a un point de C en tout temps t > t.
Remarque 1.7 Loscillateur harmonique, presente dans la section 1.5.2, est un exemple
de syst`eme pour lequel, en general, si C nest pas reduit `a {0}, alors T (x0 ) nest pas de
la forme [T (x0 ),[.

1.4

Conditions doptimalit
e

Cette section etablit des conditions necessaires doptimalite pour un probl`eme de transfert en temps minimal du type (1.7). Ces conditions, susantes dans certains cas, permettront de resoudre compl`etement un certain nombre dexemples.

1.4.1

S
eparation de lensemble accessible de la cible

Dans cette section, on notera T := T (x0 ) le temps minimal de transfert de x0 `a C.


On suppose que x0 C, et donc T > 0. Les conditions doptimalite sont fondees sur la
notion de separation densembles convexes.
D
enition 1.8 On dit quune forme lineaire q sur IRn separe deux parties C1 et C2 de
IRn si q = 0 et
(1.12)
q x1 q x2 , pour tout x1 C1 , x2 C2 .
Th
eor`
eme 1.9 Il existe une forme lineaire separant C de R(T ,x0 ). Autrement dit, il
existe q IRn non nulle telle que
q y q x,

pour tout y C et x R(T,x0 ).

(1.13)

D
emonstration. Soit {Tk } une suite strictement croissante de limite T, telle que
T0 > 0. Par denition du temps minimal, R(Tk ,x0 ) C = . Nous allons separer C de
R(Tk ,x0 ), puis passer a` la limite. Notons dist(,C) la distance (euclidienne) a` lensemble
C:
dist(x,C) := inf{x y; y C}.
(1.14)
Cette fonction continue atteint son minimum sur le compact R(Tk ,x0 ) en un point xk .
Puisque C est ferme, il existe y k C tel que dist(xk ,C) = y k xk . Posons
q k := (xk y k )/xk y k .

(1.15)

CHAPITRE 1. TEMPS MINIMAL : SYSTEMES


LINEAIRES

144
Montrons que

q k y q k y k q k xk q k x,

pour tout

y C, x R(Tk ,x0 ).

(1.16)

La seconde inegalite est consequence directe de (1.15). La premi`ere traduit le fait que y k
est la projection de xk sur C. Enn il est facile de verier que xk est la projection de y k
sur R(Tk ,x0 ), ce que traduit la troisi`eme inegalite.
Or {xk } est bornee, et {y k } lest donc aussi. Extrayant une sous suite si necessaire, on
peut supposer que xk converge vers xd , avec xd R(T,x0 ) dapr`es le lemme 1.4, que y k
converge vers y, avec y C puisque C est ferme, et enn que q k converge vers q, forme
lineaire de norme 1.
De plus, tout x R(T,x0 ) est limite dune suite de points de R(Tk ,x0 ) : il sut de
prolonger la commande transferant a` x en un temps T sur [Tk ,T ].
Passant a` la limite dans (1.16), nous obtenons donc
q y q y q xd q x,

pour tout

y C et x R(T ,x0 ),

do`
u le resultat.

(1.17)


Remarque 1.10 On peut verier que les points xd et y construits dans la demonstration
precedente concident.
La fronti`ere dune partie K de IRn est notee K := K \ int K.
Remarque 1.11 La demonstration nutilise pas le fait que T est le temps minimal de
transfert, mais seulement lexistence dune suite {Tk } qui converge vers T , et telle que
R(Tk ,x0 ) C = . La propriete de separation est donc satisfaite par tout element de
la fronti`ere T (x0 ) de T (x0 ). Ce nest donc pas une condition susante doptimalite si
T (x0 ) = {T (x0 )}, autrement dit si T (x0 ) = T (x0 ,[. On verra dans le theor`eme 1.23
que sous certaines hypoth`eses supplementaires ces conditions sont susantes.
Lemme 1.12 Tout etat nal x(T) associe `a une commande en temps minimal appartient
aux fronti`eres des ensembles C et R(T ,x0 ).
D
emonstration. Il sut de combiner le theor`eme 1.9 et le lemme qui suit 2 .

Lemme 1.13 Soit une partie C convexe de IRn contenant y. Alors y int C ssi il nexiste
pas de forme lineaire separant y de C.
D
emonstration. Montrons dabord que, si y int C, il nexiste pas de forme lineaire
separant y de C. Soit > 0 tel que B(y,) C. Sil existe une forme lineaire q separant
y de C, posons := /q. Alors y q C, et donc avec (1.12), 0 q2 ce qui donne
la contradiction recherchee.
b) Soit maintenant y C; il faut construire une forme lineaire separant y de C.
Dans le cas contraire, puisque
Notons C la fermeture de C. Montrons que y C.
on aurait y int C,
ce qui, grace a` la convexite de C, impliquerait y int C,
y C,
contraire a` lhypoth`ese.
2. On peut admettre en premi`ere lecture ce lemme classique danalyse convexe.


1.4. CONDITIONS DOPTIMALITE

145

Il existe donc une suite y k y, avec y k C pour tout k. Notons z k la projection


et q k := z k y k . Puisque y k C,
on a q k = 0. Si x C et
(orthogonale) de y k sur C,
et donc
]0,1], on a z k + (x z k ) C,
0 lim
0

z k + (x z k ) y k 2 z k y k 2
= q k (x z k ).
2

(1.18)

Ceci prouve que


Or q k (z k y k ) = q k 2 > 0, donc q k (x y k ) 0 pour tout x C.
q k separe y k de C. Extrayant une sous suite si necessaire, on peut supposer que q k /q k 
converge vers q IRn , de norme 1. Passant (`a x xe) `a la limite dans la relation
qk
qk
k

y
x, pour tout
q k 
q k 

x C,

(1.19)


on obtient la relation desiree.

A vrai dire, lappartenance `a la fronti`ere de lensemble accessible nest une information


utile que si le syst`eme est commandable. Dans le cas contraire, le lemme ci-dessous nous
indique en eet que tout point accessible en temps T est un point fronti`ere de R(T,x0 ).
Lemme 1.14 Pour tout T > 0, lensemble R(T,x0 ) est dinterieur non vide ssi le syst`eme
est commandable.
D
emonstration. Si le syst`eme nest pas commandable, soit w IRn un element
non nul du noyau `a gauche de la matrice de commandabilite. Nous savons que la forme
lineaire x w etA x est une integrale premi`ere; donc R(T ) est dinterieur vide.
Si le syst`eme est commandable, soit > 0 tel que B(0,) U, et soit ej un vecteur de
base de IRn . Il existe une commande continue uj amenant letat 0 a` letat ej en un temps
T . Posons M := maxj |uj |L (0,T ) . Alors M 1 uj est admissible pour tout j, et am`ene
x0 `a eT A x0 M 1 ej en un temps T ; donc R(T,x0 ) eT A x0 + M 1 E, o`
u E designe
lenveloppe convexe de {e1 , . . . , en }. Puisque E est dinterieur non vide, il en est de

meme pour R(T,x0 ).

1.4.2

Crit`
ere lin
eaire sur l
etat nal

Dans cette section nous allons oublier (provisoirement) les probl`emes de transfert en
temps minimal, pour nous consacrer a` letude du probl`eme suivant :
Inf q x(T );

(x,u)

satisfont (1.5)-(1.6),

(1.20)

o`
u q IRn et lhorizon T sont donnes. La propriete de separation (1.13) implique en eet
quune commande en temps minimal est solution dun tel probl`eme, lorsque q est la forme
lineaire separante et T = T (x0 ).
Ce probl`eme est convexe : il a un crit`ere lineaire et des contraintes ponctuelles sur
la commande. On peut caracteriser ses solutions par un syst`eme doptimalite faisant
intervenir le pseudo-hamiltonien H : IRn IRm IRn IR deni par
H(x,u,p) := p (Ax + Bu),

(1.21)

CHAPITRE 1. TEMPS MINIMAL : SYSTEMES


LINEAIRES

146

et letat adjoint p C([0,T ],IRn ), solution de


#
p(t)

= Hx (x(t),u(t),p(t)) = A
p(t), t [0,T ],
p(T ) = q.

(1.22)

On dira que la commande u, fonction mesurable de [0,T ] vers U, verie le Principe du


minimum pour le probl`eme (1.20) si elle satisfait la relation
H(x(t),u(t),p(t)) = inf H(x(t),v,p(t)),
vU

p.p.

t [0,T ].

(1.23)

Noter que (1.23) equivaut a` p(t) B(v u(t)) 0, pour tout v U, p.p. t [0,T ].
Th
eor`
eme 1.15 Une commande u, fonction mesurable de [0,T ] vers U, est solution de
(1.20) ssi elle verie le principe du minimum.
D
emonstration. Soit u une autre commande a` valeur p.p. dans U. Posons
u (t) := u(t) si H(x(t),u(t),p(t)) H(x(t),u (t),p(t)), u (t) sinon.

(1.24)

Alors u est mesurable, `a valeur dans U p.p.; notons x letat associe. Puisque x(0) =
x (0) = x0 , on a avec (1.5) et (1.22), apr`es simplication,
0 q (x (T ) x(T ))
 T
 T
d

p(t) B(u (t) u(t)) dt.
=
[p(t) (x (t) x(t))] dt =
dt
0
0

(1.25)

Or p(t) B(u (t) u(t)) 0 p.p., donc p(t) Bu(t) p(t) Bu (t) p(t) Bu(t) p.p.
comme on voulait le montrer.

On utilisera le lemme suivant dont la demonstration est immediate.
Lemme 1.16 Soient a et b deux fonction reelles dune variable u. Alors




 inf a(u) inf b(u) sup |a(u) b(u)|.


uU

uU

(1.26)

uU

et
inf a(u) inf b(u)

uU

uU

sup(a(u) b(u)).

(1.27)

uU

Proposition 1.17 Si une commande u satisfait le principe du minimum sur [0,T ], alors
lapplication t H(x(t),u(t),p(t)) est essentiellement constante 3.
D
emonstration. Posons
h(t) := inf H(x(t),u(t),p(t)).
vU

(1.28)

Le lemme 1.16 implique


|h(t ) h(t)| |p(t ) Ax(t ) p(t) Ax(t)| + sup |(p(t ) p(t)) Bv| .
vU

3. Autrement dit, constante a` un ensemble de mesure nulle pr`es.

(1.29)


1.4. CONDITIONS DOPTIMALITE

147

On en deduit facilement lexistence de M > 0 tel que


|h(t ) h(t)| M (x(t ) x(t) + p(t ) p(t)) .

(1.30)

Or x et p sont lipschitziens, donc


 Th lest aussi, et a en consequence une derivee dans

pour tout t [0,T ]. Montrons que h(t)


=0
L (0,T ). De plus h(t) = h(0) + 0 h(t)dt,
presque partout. Soit t0 un point o`
u h est derivable. Le principe du minimum implique
0 ) lim H(x(t),u(t0 ),p(t)) H(x(t0 ),u(t0 ),p(t0 ))
h(t
t>t0
t t0
= Dx H(x(t0 ),u(t0 ),p(t0 ))x(t
0 ) Dp H(x(t0 ),u(t0 ),p(t0 ))p(t
0 ) = 0.

(1.31)

0 ) 0 et donc h est nulle p.p., de sorte que h


De meme, avec t < t0 on montre que h(t
est constante. Or h(t) = H(x(t),u(t),p(t)) p.p. dapr`es le principe du minimum, do`
u la
conclusion.

Soit p(t) solution de (1.22). Alors B
p(t) est une fonction analytique de t, donc soit
est identiquement nulle, soit a un nombre ni de zeros sur [0,T ]. Dans ce dernier cas on
deduit du principe du minimum nombre de renseignements sur la commande en temps
minimal.
D
enition 1.18 On dit que U est strictement convexe si, etant donne deux points distincts u1 et u2 de U, le segment 4 ]u1 ,u2 [ appartient `a linterieur de U.
Exemple 1.19 Dans IRn , la boule unite fermee pour la norme p est strictement convexe
si 1 < p < , mais pas si p = 1 ou p = .
Th
eor`
eme 1.20 Soit p solution de (1.22), avec q = 0. Alors
(i) Si le syst`eme est commandable, lapplication t B
p(t) nest pas identiquement
nulle.
(ii) Si B
p(t) nest pas identiquement nulle, toute solution u du probl`eme a` co
ut lineaire
(1.20) est telle que u(t) U p.p. t [0,T ].
(iii) Si de plus lensemble U est strictement convexe, alors (1.20) a une solution unique,
continue en tout instant t, sauf peut-etre ceux (en nombre ni) o`
u B
p(t) est nul.
D
emonstration. (i) Supposons au contraire B
p(t) identiquement nulle. Alors 0 =
T ) = , do`
u q BAi = 0, pour i = 1, . . . ,n 1; autrement dit, q apparB
p(T ) = B
p(
tient au noyau a` gauche de la matrice de commandabilite. Si le syst`eme est commandable,
ceci implique q = 0, ce qui est impossible.
(ii) Dapr`es le theor`eme 1.15, u(t) doit minimiser la forme lineaire v p(t) Bv sur U
`a tout instant. Sauf en un nombre ni de points, cette forme lineaire est non nulle, ce qui
implique que u(t) est point fronti`ere de U.
(iii) Le minimum dune forme lineaire sur un ensemble strictement convexe compact existe
et est unique. Il est facile de verier quil depend contin
ument de la forme lineaire si cette
derni`ere nest pas nulle, ce qui assure le point (iii).

4. Ce segment est par denition {u1 + (1 )u2 ; ]0,1[}.

148

1.4.3

CHAPITRE 1. TEMPS MINIMAL : SYSTEMES


LINEAIRES

Etat adjoint et principe du minimum

Revenons maintenant au probl`eme de temps minimal (1.7). On dira que la commande


u, fonction mesurable de [0,T ] vers U, verie le Principe du minimum pour le probl`eme
(1.7) si elle satisfait les relations suivantes :
#
x(t)

= Ax(t) + Bu(t), t 0,
(1.32)
x(0) = x0 ,
#
p(t)

= A
p(t), t [0,T ],
(1.33)
p(T ) = q.
H(x(t),u(t),p(t)) = inf H(x(t),v,p(t)), p.p. t [0,T ],
(1.34)
vU

q y q x(T ),

pour tout y C;

x(T ) C;

q = 0.

(1.35)

Le pseudo-hamiltonien dans (1.34) est toujours deni par (1.21). On reconnat lequation
detat et detat adjoint, ainsi que la propriete de minimisation du pseudo-hamiltonien.
Enn (1.35) est consequence de la propriete de separation de la section 1.4.1. Denissons
une normale exterieure `a C en z C comme un element q IRn tel que
q y q x(T ),

pour tout y C.

(1.36)

Alors (1.35) dit que q est une normale exterieure non nulle `a C en x(T ).
Des theor`emes 1.9 et 1.20, on deduit immediatement le resultat principal de ce chapitre,
qui exprime des conditions necessaires doptimalite :
Th
eor`
eme 1.21
(i) Toute solution u du probl`eme de temps minimal (1.7) satisfait le principe du minimum
(1.32)-(1.35), avec T = T (x0 ), et t H(x(t),u(t),p(t)) a une valeur constante p.p. le
long de la trajectoire optimale.
(ii) Si le syst`eme est commandable, toute solution u de (1.7) satisfait p.p. u(t) U.
(iii) Si le syst`eme est commandable, et U est strictement convexe, alors (1.7) a une solution unique, continue en tout instant t, sauf peut-etre ceux (en nombre ni) o`
u B
p(t)
est nul.
Exemple 1.22 Etudions le cas o`
u U est la boule unite euclidienne fermee, qui est strictement convexe. Le minimum de v r v sur U, pour r = 0, est atteint en r/r.
Donc si B
p(t) nest pas identiquement nulle, la commande en temps minimal vaut p.p.
u(t) = B
p(t)/B
p(t).
Discutons maintenant la susance du principe du minimum.
Th
eor`
eme 1.23 On suppose U strictement convexe, le syst`eme commandable, et la cible
viable. Alors une commande transferant le syst`eme de x0 `a C en en temps T realise le
transfert en temps minimal si et seulement elle satisfait le principe du minimum (1.32)(1.35).
D
emonstration. Dapr`es le theor`eme 1.20, ces conditions sont necessaires. Reciproquement, supposons que la commande u satisfait (1.32)-(1.35). Le theor`eme 1.15 arme
que (1.32)-(1.34) caracterise les solutions du probl`eme convexe (1.20). Soit u une autre

`
1.5. EXEMPLES ET CLASSES PARTICULIERES

149

commande transferant x0 `a la cible en un temps T < T . Prolongeant u sur [T ,T ] grace


`a la viabilite de C, par une commande encore notee u . On obtient le transfert de x0 en
un point x C avec la commande u . Alors (1.35) implique que u est aussi solution de
(1.20). Comme ce dernier a une solution unique, u = u comme il fallait le montrer. 
Remarque 1.24 La demonstration nexclut pas linegalite T (x0 ) < T . Si une commande
satisfait le principe du minimum, le temps de transfert est donc le premier instant o`
u
letat associe appartient `a la cible.
Remarque 1.25 La remarque 1.11 montre que, si la cible nest pas viable, le principe
du minimum nest pas une condition susante doptimalite.

1.5

Exemples et classes particuli`


eres

Nous allons voir que les resultats precedents permettent de donner une solution explicite au probl`eme de commande en temps optimal dans quelques cas particuliers importants.

1.5.1

Contraintes de bornes sur la commande

Nous reprenons dans cette section le probl`eme de temps minimal, dans le cas o`
u
lensemble U est la boule unite de IRm muni de la norme innie :
U = {u IRm ; |ui| 1, i = 1, . . . ,m}.

(1.37)

Cet ensemble est convexe et compact, dinterieur contenant 0. Il nest en revanche pas
strictement convexe si m > 1. Le principe du minimum implique
#
1 si (B
p(t))i > 0,
ui (t) =
(1.38)
1 si (B
p(t))i < 0.
Si (B
p(t))i = 0, le principe du minimum ne donne pas dinformations sur ui (t).
Puisque p est solution de lequation lineaire homog`ene (sans second membre) (1.22)
de dimension n, il est de la forme
1 (t)e1 t + + r (t)er t ,

(1.39)

o`
u 1 , . . . ,r sont les valeurs propres distinctes de A (donc r n) de multiplicite i , et
i (t) est un polynome de degre di , avec di i 1. Les fonctions (B
p(t))i sont egalement
de la forme (1.39). Elles sont donc, sur [0,T ], soit identiquement nulles, soit nulles en un
nombre ni de points, et dans ce dernier cas le principe du minimum determine ui (sauf
en ces points).
Lemme 1.26 Soit u une commande amenant x0 `a xd en un temps minimal T , et p un
etat adjoint associe. Soit i {1, . . . ,m}. Alors, soit (B
p(t))i est identiquement nul, soit
ui change de signe un nombre ni de fois. Dans ce dernier cas, toutes les commandes
transferant letat de x0 `a xd en temps minimal ont meme composante i, sauf peut-etre aux
instants de changement de signe.

150

CHAPITRE 1. TEMPS MINIMAL : SYSTEMES


LINEAIRES

Si les valeurs propres de A sont reelles, on peut donner une estimation du nombre des
points de changement de signe :
Lemme 1.27 Toute fonction (t) non nulle, de la forme (1.39), avec 1 , . . . ,r reels
ome reels de degre di , a au plus d1 + + dr + r 1 zeros.
distincts et i (t) polyn
D
emonstration. Procedons par recurrence sur r. Si r = 1, (t) = 1 (t)e1 t a les
memes zeros que 1 ; ce dernier etant un polynome de degre d1 , au au plus d1 = d1 + r 1
racines sur [0,T ]. Supposons maintenant le resultat vrai pour r 1. Alors (t) a les meme
zeros que la fonction
e1 t (t) = 1 (t) + 2 (t)e(2 1 )t + + r (t)e(r r )t .

(1.40)

La derivee dordre d1 + 1 de cette fonction est de la forme


d(d1 +1) (t)
=
2 (t)e(2 1 )t + +
r (t)e(r 1 )t ,
(d
+1)
1
dt

(1.41)

n (t) polynomes de degre di . Dapr`es notre construction par recurrence,


avec
2 (t), . . . ,
elle a au plus d2 + + dr + r 2 zeros. Or, entre deux zeros dune fonction se trouve au
moins un zero de sa derivee. Si la fonction avait plus de d1 + + dr + r 1 zeros, sa
derivee dordre d1 +1 aurait donc plus de d2 + +dr +r 2 zeros, do`
u une contradiction.

Proposition 1.28 Supposons les valeurs propres de A reelles. Soit u une commande
amenant x0 `a xd en un temps minimal T , et p un etat adjoint associe. Soit i {1, . . . ,m}.
Alors, soit (B
p(t))i est identiquement nul, soit ui change de signe au plus n 1 fois.
D
emonstration. Soient 1 , . . . ,r les valeurs propres distinctes de A de multiplicite
i . Alors (B
p(t))i est de la forme (1.39), avec di i 1, et a donc au plus d1 + +
dr + r 1 zeros. Mais
d1 + + dr + r 1 1 + + r 1 = n 1.

(1.42)


Discutons quelques exemples qui eclairciront les resultats ci-dessus.


Exemple 1.29 Considerons le probl`eme de transfert en temps minimal de x0 = (1,1)
`a
xd = 0, avec la dynamique
(1.43)
x 1 = u1 , x 2 = 2u2 ,
et les contraintes |ui (t)| 1, t [0,T ], i = 1,2. Il est clair que le temps minimal de transfert
est T = 1; toute commande optimale u est telle que u1 (t) = 1 sur [0,T ]; par contre on
na pas dunicite de u2 (t). Comment cela se traduit-il sur le syst`eme doptimalite ?
Lensemble accessible au temps T = 1 est R(T,x0 ) = [0,2][1,3]. Les formes lineaires
separant 0 de R(T,x0 ) sont de la forme q = (q1 ,0) avec q1 > 0. Les etats adjoints associes
sont p(t) = q = (q1 ,0). Le principe du minimum impose donc u1 (t) = 1 sur [0,1], mais
nimpose rien sur u2 , sinon detre a` valeurs dans [1,1], et tel que x2 (T ) = 0.

`
1.5. EXEMPLES ET CLASSES PARTICULIERES

151

Exemple 1.30 Soit, pour n 1, le syst`eme dynamique


dn
z(t) = u(t), t [0,T ].
d tn

(1.44)

Considerons le probl`eme de transfert en temps minimal vers la position de repos (z(t)


nulle ainsi que ses derivees jusqu`a lordre n 1) sous la contrainte |u(t)| 1. Traduisons
(1.44) en
d
xi (t) = xi+1 (t), i = 1, . . . ,n 1,
dt

d
xn (t) = u(t), t [0,T ].
dt

(1.45)

d
p1 (t) = 0, t [0,T ].
dt

(1.46)

La dynamique de letat adjoint est

d
pi (t) = pi1 (t), i = 2, . . . ,n,
dt

En particulier, dn pn (t)/d tn = 0, donc pn (t) est un polynome de degre au plus n 1.


Le syst`eme est commandable, et U est strictement convexe, donc (theor`eme 1.20)
B
p(t) = pn (t) nest pas identiquement nulle et la commande optimale est unique. La
dynamique a pour seule valeur propre 0. La proposition 1.28 implique que cette commande
optimale change de signe au plus n 1 fois.
On peut verier que la reciproque est vraie : toute commande amenant x0 `a 0 (en
un temps T a priori quelconque) et changeant de signe au plus n 1 fois est optimale.
En eet, soient t1 , . . . ,tr les instants de changement de signe, avec r n 1. Posons
p(t) = (t t1 ) (t tr ). Alors p est un polynome de degre r n 1, donc satisfait
lequation de letat adjoint, avec la condition nale q = p(T ), et (suivant le signe choisi
dans ) la commande satisfait le principe du minimum. Loptimalite de la commande est
alors consequence du theor`eme 1.23.
Remarque 1.31 La discussion precedente montre que les commandes construites dans
letude du probl`eme dalunissage (section 1.2) sont optimales. Le cas n = 3, nettement
plus complexe, est traite dans Lee et Markus [22, Chapitre 2].

1.5.2

Cas de loscillateur harmonique

Considerons maintenant le probl`eme de transfert en temps minimal de x0 `a xd = 0 de


loscillateur harmonique
z(t) + 2 z(t) = u(t), t [0,T ],

(1.47)

o`
u > 0, sous la contrainte |u(t)| 1. La dynamique avec une commande u(t) = u0
constante est periodique, de la forme
z(t) = 2 u0 + r cos(t + ), t [0,T ].

(1.48)

La trajectoire decrit, dans lespace detat (z,v = z)


un cercle de rayon ( 2 u0 ,0) et de
rayon r. Celui-ci, ainsi que la phase , sont determinees par les conditions initiales. Le
cercle est parcouru dans le sens des aiguilles dune montre.

CHAPITRE 1. TEMPS MINIMAL : SYSTEMES


LINEAIRES

152

-2

-4

-6

-8
-9

-7

-5

-3

-1

Fig. 1.2 Oscillateur harmonique : trajectoires en temps minimal


Lequation de letat adjoint p = (pz ,pv ) est
pz (t) = 2 pv (t);
et pv est de la forme

pv (t) = pz (t);

pv (t) = r  cos(t +  ).

t [0,T ],

(1.49)

(1.50)

Les instants de changement de signe de la commande sont espaces de /, et la trajectoire


de transfert en temps minimal est une sucession de demi-tours (sauf le dernier qui sarrete
quand la cible est atteinte) autour des points (1,0) et (1,0), sucessivement. Le lieu de
changement de signe est marque en traits pleins sur la gure 1.2; il est forme dune union de
demi-cercles de rayon 2 . On a represente en pointille une trajectoire en temps minimal
dans le cas = 1. La commande optimale est u = 1 en dessous du lieu de changement de
signe, et u = 1 au dessus.

1.5.3

Stabilisation dun pendule invers


e

La linearisation de lequation dun probl`eme de stabilisation du pendule inverse conduit


`a lequation
z(t) = z(t) u(t), t [0,T ].
(1.51)
On consid`ere le probl`eme datteinte du point de vitesse et position nulles en un temps
minimal. Le syst`eme non commande a pour valeurs propres 1 et nest donc pas stable.
Il faut determiner a` partir de quels points on peut atteindre la cible. Pour cela on peut
sappuyer sur les portraits de phase quand u est constant. Celui-ci est la translation de
celui obtenu quand u = 0. (voir la gure 1.3).
Dapr`es la proposition 1.28 une trajectoire optimale atteint la cible avec u(t) = 1 et
au plus un changement de signe.

`
1.5. EXEMPLES ET CLASSES PARTICULIERES

153

2.0
1.6
1.2
0.8
0.4
0
-0.4
-0.8
-1.2
-1.6
-2.0
-1.0

-0.6

-0.2

0.2

0.6

1.0

1.4

1.8

2.2

2.6

3.0

Fig. 1.3 Pendule inverse : portrait de phase, u = 1


Points pouvant atteindre la cible avec u = 1 constant Quand u est constant,
h(t) est de la forme
h(t) = et + et + u.
(1.52)
Atteindre la cible au temps T signie que
eT + eT = u;

eT eT = 0.

(1.53)

De l`a = 12 ueT et = 12 ueT . On en deduit lexpression du point initial :


h(0) = + + u = u u cosh T ;
w(0) =
= u sinh T.

(1.54)

Pour u = 1 on obtient le lieu trace en traits pleins sur la gure 1.4.


La courbe est tangente en 0 a` laxe vertical `a la cible, et a pour asymptotes les droite
h + w = 1. En eet, on a cosh2 T sinh2 T = 1, et donc cosh T sinh T = (cosh T +
sinh T )1 = o(1) pour T grand.
Points ne pouvant atteindre la cible Notons v = z et := h + v. Alors = u.
Donc si || 1, || ne peut diminuer au cours du temps. Ceci interdit datteindre la cible.
Points atteignant la cible avec un changement de signe de la commande On
a dej`a construit les trajectoires optimales sans changement de signe. Il sut dexaminer
quand les trajectoires obtenues avec u = 1 rencontrent celles-ci. Or ces courbes sont
obtenues par translation de (u,0) de celles pour u = 0 (cf les portraits de phase, questions
3). La gure 1.4 donne la representation des trajectoires optimales.
Remarque 1.32 Si |h + w| < 1, il est possible datteindre la cible mais il faut distinguer
trois cas. Quand |h w| < 1, le lieu des trajectoires en temps minimal sans changement

CHAPITRE 1. TEMPS MINIMAL : SYSTEMES


LINEAIRES

154

1.6

1.2

0.8

0.4

-0.4

-0.8

-1.2

-1.6
-1.3

-0.9

-0.5

-0.1

0.3

0.7

1.1

1.5

Fig. 1.4 Synth`ese des trajectoires en temps minimal


de signe de la commande est atteint par les trajectoires optimales en tournant dans le
sens des aiguilles dune montre. Au contraire, quand |hw| > 1, les trajectoires optimales
atteignent ce lieu en tournant dans le sens trigonometrique. Dans le cas limite |hw| = 1,
la premi`ere portion de la trajectoire optimale est rectiligne.

1.5.4

Cibles
epaisses

Soit xd letat nal dune trajectoire en temps minimal T. Dans les exemples precedents,
la cible etait reduite a` un point et la condition de separation (1.35) se reduisait donc a` la
separation de xd et R(T ,x0 ). Dans le cas dit de la cible epaisse, il faut prendre en compte
le fait que q est une normale exterieure `a C en xd .
Exemple 1.33 Soit C egal a` la boule unite fermee associee `a la norme euclidienne. On
sait (lemme 1.12) que xd C, soit xd  = 1. Toute normale exterieure `a C en xd est
de la forme xd , avec IR+ . Or q = 0, et seule la direction de q importe et non son
module. On peut donc supposer que q = x(T ). Le principe du minimum (1.32)-(1.35)
equivaut alors a`
#
#

x(t)

= Ax(t) + Bu(t), t 0,
x(0) = x0 , x(T ) = 1,

p(t)

= A
p(t), t [0,T ],
p(T ) = x(T ).
H(x(t),u(t),p(t)) = inf H(x(t),v,p(t)),
vU

(1.55)
(1.56)
p.p.

t [0,T ].

(1.57)

Exemple 1.34 Supposons encore C egal a` la boule unite fermee associee `a la norme
euclidienne, lequation detat etant z = u, avec U = [1,1].

`
1.5. EXEMPLES ET CLASSES PARTICULIERES

155

Notons v = z,
x(T ) = xd = (z d ,v d ), et donc q = (z d ,v d ). On a pz = 0, pv = pz et
donc
pz = z d ; pv = v d + (T t)z d .
(1.58)
La commande optimale vaut donc 1 et 1, respectivement, si (z d ,v d ) est dans le premier
(resp. troisi`eme) cadrant, et ne peut changer de signe que si v d et z d sont de signe dierents.
Integrant en temps retrograde, a` partir du temps T avec x(T ) quelconque de norme 1,
on obtient le lieu de changement de signe. McCausland [26, Section 6.6] donne une etude
detaillee de ce probl`eme.

156

CHAPITRE 1. TEMPS MINIMAL : SYSTEMES


LINEAIRES

157

Chapitre 2
Temps minimal : syst`
emes non
lin
eaires
Ce chapitre aborde le probl`emes de transfert en temps minimal en presence dune
dynamique non lineaire. Lensemble accessible nest plus convexe. Une linearisation non
standard de la dynamique, basee sur des perturbations en aiguilles, permettra cependant
une extension du principe du minimum.
Par ailleurs, dans le cas dune dynamique lineaire, la commande optimale est, si le
syst`eme est commandable, p.p. sur la fronti`ere des commandes admissibles. Il nen est
plus de meme quand la dynamique est non lineaire, meme si la commande entre lineairement dans lequation detat, comme le montre lexemple de la section 2.1.1. Ceci nous
am`enera a` introduire la theorie des arcs singuliers.

2.1
2.1.1

Pr
esentation du probl`
eme
Un exemple

Nous allons discuter le probl`eme du transfert en temps minimal vers une position
donnee dun avion dont la trajectoire est horizontale et rectiligne.
Les variables detat sont la position y, la vitesse v, et la masse m de lengin. Les forces
en jeu sont liees `a la gravite g, supposee constante, la tranee D, et la portance L (drag et
lift). La portance doit equilibrer la gravite, soit L = mg; la tranee est liee `a la portance
via lincidence, et cette relation a pour expression
D = Av 2 + B

L2
,
g2v2

(2.1)

o`
u A et B sont deux constantes positives. Eliminant la portance, il vient
m2
.
(2.2)
v2
La commande u est le debit dejection des gaz, et la poussee est c u avec c > 0 constant.
Lequation detat est donc
D = D(v,m) = Av 2 + B

y(t)
= v(t);

v(t)
=

cu D(v,m)
;
m(t)

m(t)

= u.

(2.3)

158

CHAPITRE 2. TEMPS MINIMAL : SYSTEMES


NON LINEAIRES

Nous m`enerons autant que possible les calculs avec une tranee D = D(v,m) sans utiliser
lexpression (2.2) qui varie dun avion a` lautre. Letat initial est note (y 0,v 0 ,m0 ) et la
cible est
(2.4)
C = {(y,v,m); y y d ; m md }.
On suppose que y d > y 0 , m0 > md et que v 0 > 0 (si v 0 < 0 le probl`eme na pas de
sens).
Cet exemple permet dillustrer un phenom`ene typique des syst`emes non lineaires. Il
nest pas necessairement optimal de rechercher des vitesses elevees en raison du terme
de tranee. Il peut donc y avoir une phase du vol o`
u la commande en temps minimal
se trouvera hors des bornes. Nous allons verier quil en est ainsi, et montrer comment
calculer la trajectoire optimale, en section 2.3.2.

2.1.2

Sp
ecication du probl`
eme

Nous considerons le syst`eme dynamique non lineaire


x(t)

= f (t,x(t),u(t)), t 0;

x(0) = x0 ,

(2.5)

avec x(t) IRn , u(t) IRm , et f : IR IRn IRm IRn . On supposera f lipschitzienne
et derivable, de derivee lipschitzienne. Comme dans le chapitre precedent, on prendra en
compte une contrainte sur la commande du type
u(t) U, t 0,

(2.6)

o`
u U est un ensemble convexe, compact et tel que 0 int U. Le probl`eme de transfert en
temps minimal de letat initial x0 `a un point de la cible C secrit
Inf

(x,u,T )

2.1.3

T;

x(T ) C;

(x,u)

satisfont (2.5)-(2.6).

(2.7)

Existence de solutions

Malheureusement, sous les hypoth`eses precedentes, il peut ne pas exister de solution


au probl`eme, comme le montre lexemple suivant.
Exemple 2.1 Soit le syst`eme dynamique
x = sin 2u, y = cos 2u, z = 2 (x2 + y 2 ) 1,

(2.8)

avec x0 = (0,0,1). On consid`ere le probl`eme du transfert en temps minimal a` la cible


z = 0, sous la contrainte u [0,1] (qui se ram`ene au cas 0 int U par translation).
Lexpression de la derivee de z implique que le temps minimal de transfert ne peut etre
inferieur a` 1, et que le transfert en temps T = 1 est impossible.
Soit k un entier positif. A la commande u(t) = kt (modulo 1) est associe letat
x(t) =
 t

et
z(t) = 1 +

1 cos 2kt
;
2k

y(t) =

sin 2kt
;
2k


1 cos 2kt
t
sin 2kt
1 dt = 1 t + 2
.
2
2k
2k
4k 3

(2.9)

(2.10)


2.2. CONDITIONS DOPTIMALITE

159

Cette expression permet de verier que z(tk ) = 0 pour un temps tk tendant vers 1 quand
k . Linmum des temps de transfert est donc 1 et nest jamais atteint.
Nous allons neanmoins donner un resultat dexistence pour la classe, importante dans
les applications, des probl`emes pour lesquels la dynamique est ane par rapport a` la
commande. Soient g1 , . . . ,gn des champs de vecteurs 1 . Supposant pour simplier lexpose
que la dynamique est autonome (independante du temps), on se place donc dans le cas
o`
u f est de la forme
n

ui gi (x).
(2.11)
f (x,u) = g0 (x) +
i=1

Th
eor`
eme 2.2 On suppose la dynamique ane en la commande, les champs de vecteurs
etant lipschitziens et bornes. Si le probl`eme (2.7) est realisable, il a au moins une solution.
D
emonstration.
1.3 permet (extrayant
u, telle que u(t) U
lipschitzienne, au sens

Soient uk une suite minimisante et xk les etats associes. Le lemme


une sous suite si necessaire) darmer que uk a une limite faible
p.p. Dapr`es les hypoth`eses sur g, la suite xk est uniformement
o`
u il existe L > 0 telle que

xk (t ) xk (t) L|t t|,

pour tout t, t [0,T ].

(2.12)

Extrayant une sous-suite si necessaire, on en deduit 2 que xk converge uniformement sur


[0,T ] vers une fonction x, lipschitzienne de constante L. De plus, f (xk (t),uk (t)) converge
uniformement vers f (
x(t),uk (t)). En consequence, pour tout t [0,T (x0 )],


f (xk (s),uk (s))ds = lim


f (
x(s),uk (s))ds
x(t) x0 = lim xk (t) x0 = lim
k
k
k
0
0

 t

n
t
t

g0 (
x(s))ds +
(uk )i (s)gi(
x(s))ds =
f (
x(s),
u(s))ds
=
0

i=1

(2.13)
o`
u la derni`ere egalite est consequence de la convergence faible. De plus x(T ) = limk xk (Tk )
appartient `a C puisque C est ferme. Donc u realise le transfert en temps minimal.


2.2
2.2.1

Conditions doptimalit
e
Un r
esultat g
en
eral

Introduisons le pseudo-hamiltonien H : IR IRn IRm IRn IR deni par


H(t,x,u,p) := p f (t,x,u).

(2.14)

Dans le cas autonome on notera f (x,u) la dynamique et H(x,u,p) le pseudo-hamiltonien.


On dit que la commande u L (0,T,U) satisfait le Principe du minimum pour le probl`eme
1. Un champ de vecteurs est une application de IRn dans lui meme.
2. Par exemple en appliquant le theor`eme dAscoli-Arzela, concernant les familles equicontinues de
fonctions.

CHAPITRE 2. TEMPS MINIMAL : SYSTEMES


NON LINEAIRES

160

(2.7) si elle satisfait les relations suivantes :


#
x(t)

= f (t,x(t),u(t)), t 0,
x(0) = x0 ,
#
u(t),p(t)), t [0,T ],
p(t)

= Hx (t,x(t),
p(T ) = q,
H(t,x(t),u(t),p(t)) = inf H(t,x(t),v,p(t)), u(t) U, p.p. t [0,T ],
vU

q y q x(T ),

pour tout y C;

x(T ) C;

q = 0.

(2.15)
(2.16)
(2.17)
(2.18)

Th
eor`
eme 2.3 Toute solution du probl`eme (2.7). satisfait le principe du minimum.
D
emonstration. La demonstration etant technique, nous la reportons en section
2.4 pour discuter sans attendre les consequences de ce resultat.

Remarque 2.4 Si la commande u satisfait le principe du minimum pour le probl`eme
(2.7), lapplication t H(t,x(t),u(t),p(t)) est essentiellement constante. On le verie
facilement en etendant la demonstration de la proposition 1.17.
Exemple 2.5 Dans le cas de syst`emes dynamiques autonomes anes en la commande,
donc de dynamique donnee par (2.11), une commande u satisfaisant le principe du minimum verie presque partout en t [0,T ]
n


ui (t)p(t) gi (x(t))

i=1

n


vi p(t) gi (x(t)),

pour tout v U.

(2.19)

i=1

En particulier, on a p.p. u(t) U quand p(t) gi (x(t)) = 0 pour au moins un i.


Remarque 2.6 Si la dynamique est lineaire et autonome on retrouve les resultats du chapitre precedent. Il en resulte que les conditions du theor`eme 2.3 ne sont pas des conditions
susantes doptimalite (remarque 1.25).

2.2.2

Arc singulier

Nous etudions dans cette section des syst`emes dynamiques autonomes anes en la
commande, dans le cas dune seule commande :
x = g0 (x(t)) + u(t)g1 (x(t)),

(2.20)

les champs de vecteurs g0 et g1 etant de classe C , et en supposant U = [1,1]. Le


hamiltonien est fonction ane de la commande, de pente p(t) g1 (x(t)). Une commande
satisfaisant le principe du minimum verie donc
#
1 si p(t) g1 (x(t)) > 0,
u(t) =
(2.21)
1 si p(t) g1 (x(t)) < 0.
Nous avons vu dans lexemple 2.1.1 que la commande en temps minimal peut se trouver hors des bornes sur un intervalle de temps ]1 ,2 [. Dans ce cas, lapplication v
H(x(t),v,p(t)) est constante, et donc
p(t) g1 (x(t)) = 0,

(2.22)


2.2. CONDITIONS DOPTIMALITE

161

de sorte que le principe du minimum ne semble donner aucune information sur la commande optimale. On appelle arc singulier la courbe (x(t),u(t),p(t)) sur ]1 ,2 [.
Dans la plupart des applications, on peut obtenir une expression de la commande en
fonction de letat et de letat adjoint en derivant autant de fois que necessaire lapplication
t p(t) g1 (x(t)).
Le calcul sera grandement simplie par lutilisation des crochets de Lie qui a` une paire
de champs de vecteurs (X,Y ) dierentiables associent un autre champ de vecteur
[X,Y ] := X  Y Y  X.

(2.23)

Autrement dit, [X,Y ] a pour composantes i, avec 1 i n, la quantite


[X,Y ]i (x) =

n


Xij (x)Yj (x) Yij (x)Xj (x).

(2.24)

j=1

On notera, pour k 1,
adX.Y := ad1 X.Y := [X,Y ];

adk+1X.Y = [X,adk X.Y ].

(2.25)

On notera aussi [g0 ,g1 ](t) = [g0 (x(t)),g1 (x(t))].


Th
eor`
eme 2.7 Soit une commande u veriant le principe du minimum. Alors, p.p. t
[0,T ] on a
d 
H (x(t),u(t),p(t)) = p(t) [g0 ,g1 ](t),
dt u
d2 
H (x(t),u(t),p(t)) = p(t) (ad2 g0 .g1 (t) u ad2g1 .g0 (t)).
dt2 u

(2.26)
(2.27)

De plus, soit un instant t faisant partie dun arc singulier, tel que
p(t) ad2 g1 .g0 (t) = 0.
Alors la commande est donne en fonction de letat et de letat adjoint par la formule
p(t) ad2 g0 .g1 (t)
.
u(t) =
p(t) ad2 g1 .g0 (t)

(2.28)

D
emonstration. Lequation de letat adjoint secrit ici
p(t)
= (g0 (x(t)) + u(t)g1 (x(t)))
p(t).

(2.29)

d 
d 1
Hu (y(t),u(t),p(t)) et 2 =
. Pour simplier les calculs, on
dt
dt
omettra largument x(t) des champs de vecteurs, et le temps en argument. Il vient
Notons 1 :=

d
p,g1  = p,g
1  + p,g1 x

dt
= (g0 + ug1 )t p,g1  + p,g1 (g0 + ug1 )
= p,g0 g1 + ug1 g1  + p,g1 g0 + ug1 g1 
= p,g0 g1 g1 g0  = p,[g0 ,g1 ],

1 =

162

CHAPITRE 2. TEMPS MINIMAL : SYSTEMES


NON LINEAIRES

do`
u (2.26), et
d
d
0 ,g1 ] p, [g0 ,g1 ]
p,[g0 ,g1 ] = p,[g
dt
dt
= p,(g0 + u g1 )[g0 ,g1 ] p,[g0 ,g1 ] (g0 + ug1)
= p,g0 [g0 ,g1 ] [g0 ,g1 ] g0 + u [g1 [g0 ,g1 ] [g0 ,g1 ] g1 ]
= p,[g0 ,[g0 ,g1 ]] + u [g1,[g0 ,g1 ]].

2 =

u (2.27). Si t fait partie dun


Mais [g0 ,g1 ] = [g1 ,g0 ], donc [g1 ,[g0 ,g1 ]] = [g1 ,[g1 ,g0 ]] do`
arc singulier, les membres de (2.27) sont nuls, do`
u (2.28).

Les formules (2.26)-(2.27) sont, dans certains exemples, contradictoires (quand p(t) =
0) ce qui permet alors dexclure la presence darcs singuliers.
Proposition 2.8 Supposons la dimension de lespace detat egale `a 2 et, pour tout x
IR2 , les champs g1 et [g0 ,g1 ] lineairement independants. Alors une trajectoire extremale
ne peut avoir darc singulier, et une commande en temps minimal change de signe un
nombre ni de fois.
D
emonstration. Soit t un instant tel que p(t) g1 (x(t)), et appelons T lensemble
de tels instants. On sait que p(t) = 0, sinon q serait nul, ce qui est impossible; comme
n = 2, lindependance lineaire de g1 et [g0 ,g1 ] implique p(t) [g0 ,g1 ](t) = 0. Dapr`es (2.27),
t est donc un point isole de T . Or ce dernier est ferme, ce qui entrane la conclusion. 
Remarque 2.9 En dautres termes, si n = 2, un arc singulier est contenu dans le lieu
singulier de lespace detat deni par lequation (on note le produit vectoriel)
G(x) := g1 (x) [g0 ,g1 ](x) = 0.

(2.30)

Sur un arc singulier, derivant G(x(t)), il vient


G (x(t))(g0 (x(t)) + u(t)g1 (x(t))) = 0.

(2.31)

Si G (x(t))g1 (x(t)) = 0, on en tire une expression de la commande en fonction de letat.


Remarque 2.10 Supposons n egal a` 3, et notons encore G(x) := g1 (x) [g0 ,g1 ](x). Si les
vecteurs g1 (x) et [g0 ,g1 ](x) sont lineairement independants pour tout x, et si t appartient
`a un arc singulier, les relations (2.26)-(2.27) impliquent que p(t) est colineaire `a G(x(t)).
Dapr`es le theor`eme 2.7, si
G(x(t)) ad2 g1 .g0 (t) = 0,
(2.32)
nous obtenons une expression de la commande en fonction de letat sur un arc singulier :
G(x(t)) ad2 g0 .g1 (t)
.
u(t) =
G(x(t)) ad2 g1 .g0 (t)

(2.33)

Remarque 2.11 On trouvera dautres aspects de la theorie des arcs singuliers dans Bryson et Ho [12], en particulier des conditions doptimalite dordre eleve et des conditions
dites de jonction, qui concernent les bords de larc singulier.

2.3. APPLICATIONS

2.3
2.3.1

163

Applications
Pendule

Considerons le probl`eme de commande du pendule


+ g sin = u,

(2.34)

avec g > 0 pesanteur, IR angle du pendule, et la contrainte u U = [1,1]. Introduisant la vitesse angulaire , on obtient la forme suivante :
= ;

= u g sin ,

(2.35)

do`
u lexpression du pseudo-hamiltonien
H(,,u,p ,p ) = p + p (u g sin )

(2.36)

et de la dynamique de letat adjoint


p = gp cos ,

p = p .

(2.37)

Sur un arc singulier, p = 0, donc p aussi, ce qui est impossible. Il nexiste donc pas darc
singulier.

1.0
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1.0
-0.2

-0.1

0.1

0.2

0.3

0.4

0.5

Fig. 2.1 Commande du pendule : quelques trajectoires en temps minimal


La commande optimale est
u(t) =

1
1

si
si

p (t) > 0,
p (t) < 0.

Le long dune trajectoire en temps minimal, on a donc



p
+ g sin =
,
|p |
p + gp cos =
0.

(2.38)

(2.39)

CHAPITRE 2. TEMPS MINIMAL : SYSTEMES


NON LINEAIRES

164

Si le temps minimal est assez petit, on obtient des trajectoires en temps minimal en
integrant lequation detat en temps retrograde a` partir de la cible, avec par exemple u = 1
sur un intervalle [0, ], puis avec u = 1. Le trace correspondant se trouve en gure 2.1.
Remarque 2.12 On trouvera dans Lee et Markus [22, Chapitre 7] une etude compl`ete
du probl`eme (assez complexe!) de determination de la commande optimale en des points
eloignes de la cible.
Dun point de vue pratique, une heuristique consiste a` prendre dabord une commande
reduisant le plus possible lenergie mecanique, soit u = /|
|
puis, quand on est assez
pr`es de la cible, prendre la commande optimale (calculee ci-dessus). Enn au voisinage
immediat de la cible on preferera un bouclage lineaire, pour eviter les oscillations rapides
entre 1 quengendreraient inevitablement les bruits et vibrations diverses.
On voit sur cet exemple linteret pratique de combiner dierentes approches.

2.3.2

Avion `
a trajectoire horizontale

Nous reprenons le probl`eme decrit dans la section 2.1 : transfert en temps minimal,
vers une position donnee, dun avion dont la trajectoire est horizontale et rectiligne. Nous
allons calculer, sur un arc singulier, lexpression de la commande optimale, en fonction de
letat.
La dynamique est lineaire par rapport a` la commande, et la theorie de larc singulier
developpee en section 2.2.2 sapplique donc. Cependant, plutot que de calculer les crochets
de Lie correspondants, il est beaucoup plus simple deectuer des derivations directes 3.
On note (py ,pv ,pm ) les coordonnees de letat adjoint. Il vient avec (2.3), omettant les
arguments quand on le peut :
H(y,v,m,u,p) = vpy + pv

cu D(v,m)
upm ,
m

(2.40)

et donc lequation de letat adjoint est


py = 0,

pv = py pv

Dv
,
m

pm = pv


D cu mDm
.
m2

(2.41)

Notons que py est constant, donc py (t) = qy . On a aussi


Hu = c
Posons
(v,m) =

pv
pm .
m


(v,m) D(v,m) cDv (v,m)
mDm
.
c

(2.42)

(2.43)

Lemme 2.13 Sur un arc singulier, la commande est solution de


( + cv mm ) u = ( Dv ) + Dv .

(2.44)

3. Limportant est de comprendre le principe des calculs qui suivent, plus que le detail qui est quelque
peu penible. Dans la pratique on realise les calculs avec des outils de calcul formel.

2.4. DEMONSTRATION
DU RESULTAT
PRINCIPAL

165

D
emonstration. Sur larc singulier, on a avec (2.42), en omettant le temps en argument :
pv
Hu = c pm = 0.
(2.45)
m
Derivant en temps cette relation, il vient
0 = cu


pv Dv
D cu mDm
pv
py
mpy pv
+
c

c
+
p
=c
.
v
2
2
2
m
m
m
m
m2

(2.46)

Cette relation, qui conformement `a la theorie ne depend pas de u, equivaut a`


mpy pv = 0.
Derivant cette relation par rapport au temps, il vient




Dv
 cu D

um = 0,
pv v
upy + py pv
m
m
soit






Dv
D
 c

+ pv v .
py + pv v m u = py pv
m
m
m

(2.47)

(2.48)

(2.49)

Les relations (2.45) et (2.47) sont lineairement independantes (par rapport a` p). Le long
dun arc singulier, p est donc proportionnel `a la base du noyau des relations (2.42)-(2.46),
dexpression
(2.50)
G(x) = (, m, c)
.
Combinant avec (2.49), on obtient (2.44).

Remarque 2.14 Pour fournir une approximation numerique de la solution, on peut


proceder comme suit. Lintuition physique sugg`ere une premi`ere phase `a debit maximum (si la vitesse initiale est faible) ou nul (si elle est elevee), suivie dun arc singulier se
terminant quand le reservoir est vide. Il sut donc (dans chacun des deux cas) dessayer
dierentes valeurs de linstant dentree dans larc singulier. Dans les calculs on prendra
garde aux bornes que doit respecter le debit de gaz dans larc singulier.
Remarque 2.15 On trouvera une analyse detaillee dun probl`eme similaire, mais un
peu plus simple (on maximise la portee au lieu du temps de transfert, ce qui reduit `a 2
la dimension de letat) avec le trace du lieu des trajectoires, dans Leitmann [23, Section
2.9].

2.4

D
emonstration du r
esultat principal

Cette section est consacree `a la demonstration du theor`eme 2.3, dont la cle reside dans
lestimation de lecart entre deux etats associes `a des commandes voisines, grace a` une
linearisation non standard de lequation detat.
On introduit la distance dEkeland sur lespace L (0,T,U) :
(u,v) := mes({v(t) = u(t)}).

(2.51)

CHAPITRE 2. TEMPS MINIMAL : SYSTEMES


NON LINEAIRES

166

Soient u, u1 et u2 dans L (0,T,U), x, x1 et x2 leurs etat associe. Posons w := x2 x1 .


On note z la solution de la linearisation non standard de lequation detat :

= fx (t,x(t),u(t))z(t) + f (t,x(t),u2 (t)) f (t,x(t),u1 (t)),


z(t)
p.p. t [0,T ],
(2.52)

z(0) = 0.
Lemme 2.16 Soient u, u1 , u2 , x, x1 , x2 , w et z comme ci-dessus. Si (ui,u) 0,
i = 1,2, alors
(i) wL (0,T,IRn ) = O((u2,u1 )),

(ii) w zL (0,T,IRn ) = o((u2,u1 )).

(2.53)

D
emonstration. Lapplication f est lipschitzienne, donc, p.p. t [0,T ] :
w(t)

f (t,x2 (t),u2 (t)) f (t,x2 (t),u1 (t))


+ f (t,x2 (t),u1 (t)) f (t,x1 (t),u1 (t))
O(u2(t) u1 (t)) + O(w(t)).
Comme U est compact, on a u2 u1 L1 (0,T,U ) = O((u2,u1 )) et linegalite de Gronwall
implique (2.53)(i).
Par ailleurs, on peut ecrire
w(t)

= f (t,x(t),u2 (t)) f (t,x(t),u1 (t)) + A2 (t) A1 (t),


o`
u pour i = 1,2, notant xi := xi x :

Ai (t) = f (t,xi (t),ui (t)) f (t,x(t),ui (t)) =

(2.54)

fx (t,x(t) +
xi (t),ui (t))
xi (t)d,
0

et donc

A2 (t) A1 (t) =

0 1

fx (t,x(t) +
x2 (t),u2 (t))w(t)d+
[fx (t,x(t) +
x2 (t),u2 (t)) fx (t,x(t) +
x1 (t),u1 (t))] d
x1 (t).

Soient A3 (t) et A4 (t) les membres de droite de chaque ligne. La convergence uniforme de
x1 et x2 vers x et lestimation wL (0,T,IRn ) = O((u2,u1 )) impliquent :
A3 (t) = fx (t,x(t),u(t))w(t) + o((u2,u1 )) + o(u2 (t) u1 (t)),
A4 (t) = o((u2 ,u1 )) + o(u2 (t) u1 (t)).

(2.55)
(2.56)

Au total, posant y := z w, il vient


y(t)
= fx (t,x(t),u(t))y(t) + o((u2 ,u1 )) + o(u2 (t) u1 (t))
do`
u (2.53)(ii) avec linegalite de Gronwall.

(2.57)


D
enition 2.17 Soient u L (0,T,U) et x letat associe. On dit que y IRn est une
variation nale associee `a u, sil existe une suite de commandes uk L (0,T,U), et une
suite numerique k 0 telles que, notant xk letat associe `a uk , on a (xk (T )x(T ))/k
y. On note CT (u) lensemble des variations nales.

2.4. DEMONSTRATION
DU RESULTAT
PRINCIPAL

167

Il est clair que CT (u) est un cone ferme. Construisons un type particulier de variation
admissible.
D
enition 2.18 (i) La perturbation en aiguille associee `a t0 ]0,T [ et w U, indicee par
> 0, est la famille de commandes admissibles v , detat associe x , denie par
v (t) = w si |t t0 | , u(t) sinon.
(ii) Soit z L1 (0,T,IRn ). On dit que t0 ]0,T [ est un point de Lebesgue de z si
 t0 +
1
z(t)dt.
z(t0 ) = lim
0 2 t
0

(2.58)

(2.59)

On sait que (2.59) est satisfaite presque partout, voir par exemple Rudin [30, theor`eme
7.7]. En particulier, presque tout t0 ]0,T [ est un point de Lebesgue de f (t,x(t),u(t)).
Lemme 2.19 Soient u L (0,T,U), x letat associe, et t0 ]0,T [ un point de Lebesgue
de f (t,x(t),u(t)). Alors la perturbation en aiguille associee a` t0 ]0,T [ et w U est telle
que la variation nale y = lim(x (T )x(T ))/(2) existe. On lappelle variation en aiguille
associee a` t0 ]0,T [ et w U. Si de plus p est solution de lequation adjointe (2.16) (avec
une condition terminale q quelconque), alors
q y = H(t,x(t0 ),w,p(t0 )) H(t,x(t0 ),u(t0 ),p(t0 )).

(2.60)

D
emonstration. On applique le lemme 2.16, avec u2 = v et u1 = u. Puisque
(v ,u) 2, on a x (T ) x(T ) = z (T ) + o(), o`
u z est solution de

z (t) = fx (t,x(t),u(t))z (t) + f (t,x(t),v (t)) f (t,x(t),u(t)),


p.p. t [0,T ],
(2.61)

z(0) = 0,
et donc pour q IRn quelconque et p solution de lequation adjointe (2.16),
 T
[p(t)
z (t) + p(t) z (t)] dt
q z (T ) = p(T ) z (T ) =
0
 T
p(t) (f (t,x(t),v (t)) f (t,x(t),u(t))) dt.
=

(2.62)

Revenant a` la denition de v et utilisant le fait que t0 ]0,T [ est point de Lebesgue de


f (t,x(t),u(t)), on obtient (2.60) par passage a` la limite, do`
u la conclusion.

On note CT (u) le cone convexe engendre par les combinaisons lineaires positives de
variations nales en aiguille. Autrement dit,

*

CT (u) :=
ai zi ; I ni, ai 0, zi CT (u), i I .
(2.63)
iI

Lemme 2.20 Les conditions suivantes sont equivalentes :


(i) La commande u satisfait le principe du minimum,
(ii) Il existe q = 0, normale exterieure `a C en x(T ), telle que q y 0, pour toute variation
nale en aiguille
y,


(iii) 0 int x(T ) + CT (u) C .

168

CHAPITRE 2. TEMPS MINIMAL : SYSTEMES


NON LINEAIRES

D
emonstration. Le principe du minimum fournit une normale exterieure q = 0
`a C en x(T ); si y est une variation nale en aiguille, alors q y 0 dapr`es le lemme
2.19 combine `a (2.17), donc (i) implique (ii). Si (ii) est satisfait, soit p solution de (2.16)
(cette equation dierentielle lineaire retrograde a une solution unique). Alors le lemme
2.19 implique le principe du minimum.
Lequivalence de (ii) et (iii) resulte du lemme
1.13, en notant
 que (ii) equivaut a` la


separation de {0} et de lensemble convexe x(T ) + CT (u) C .
Dans la suite on va prouver la necessite du principe du minimum en montrant que,
si u realise le transfert en temps minimal, la condition (iii) du lemme 2.20 est satisfaite.
Pour ceci il faut etudier lensemble CT (u).
Lemme 2.21 Soit u L (0,T,U). Alors CT (u) CT (u).

D
emonstration. Soient y = ki=1 ai yi , avec ai > 0 pour tout i, et yi variation nale
associee `a la perturbation en aiguille associee `a ti ]0,T [ et wi U. Supposons dabord
les instants ti distincts. On construit alors la perturbation de la commande de la mani`ere
suivante
v (t) = wi si |t ti | ai , i = 1, . . . ,k; u(t) sinon.
(2.64)
On conclut facilement avec le lemme 2.16, par des calculs similaires `a ceux de la demonstration
du lemme 2.19.
Donnons maintenant lidee de la preuve du cas general en traitant le cas de deux points
egaux t1 = t2 , avec k = 2. On pose dans ce cas

w1 si t [t1 2a1 ,t1 ],


w1 si t ]t1 ,t1 + 2a2 ],
(2.65)
v (t) =

u(t) sinon.
On conclut encore avec le lemme 2.16, par des calculs similaires a` ceux de la demonstration
du lemme 2.19.

On parlera encore de perturbation en aiguille associee `a une variation nale en aiguille
y C T (u). Ces variation nales en aiguille notees encore v , dont la demonstration
donne le principe de construction, sont telles que (v ,u) = O(), et leur etat associe x
verie x (T ) = x(T ) + 2y + o().
Demontrons dabord le theor`eme 2.3 dans le cas o`
u C est dinterieur non vide.
Lemme 2.22 Soit u solution
 du probl`eme (2.7). Si C est dinterieur non vide, alors
0 int x(T ) + CT (u) C , ce qui assure la conclusion du theor`eme 2.3 en raison du
lemme 2.20.
D
emonstration. Supposons au contraire que


0 int x(T ) + CT (u) C .

(2.66)

Ceci implique que les convexes x(T ) + CT (u) et int C ont une intersection non vide; sinon
il existerait une forme lineaire les separant, et separant donc C et x(T ) + CT (u), ce qui
contredirait (2.66).

2.4. DEMONSTRATION
DU RESULTAT
PRINCIPAL

169

Il existe donc y0 CT (u)(int C x(T )). La perturbation en aiguille v correspondante


est telle que son etat associee x verie x (T ) = x(T ) + 2y0 + o(), donc x (T ) int C
si > 0 est assez petit. Pour un tel > 0, quand t < T est proche de T , on a encore

x (t) int C, ce qui contredit loptimalite de u.
Etudions maintenant le cas o`
u la cible est reduite a` un point.
Lemme
2.23 Soit u solution
du probl`eme (2.7). Si C est reduit `a un point, alors 0


int x(T ) + CT (u) C , ce qui assure la conclusion du theor`eme 2.3 en raison du lemme
2.20.
D
emonstration. Notons a0 , a1 , . . . , diverses constantes positives. On peut supposer
que C = {0}. Si la conclusion nest pas satisfaite, de (2.66) on deduit quil existe r
variations nales en aiguille y 1 `a y r telles que
)
(
(2.67)
2B conv y 1, . . . ,y r .
n
Pour > 0,
et h IR+
, on note u,h la perturbation en aiguille associee `a la variation
r
nale yh := i=1 hi yi , bien denie pour < a0 et h a1 , et x,h letat associe. Notons
n
; h a1 }. On va montrer que, pour assez petit, si < T est
aussi S1 := {h IR+
proche de T , alors
(2.68)
0 {x,h ( ); h S1 }.

Bien entendu (2.68) contredit loptimalite de u do`


u la conclusion.
Montrons donc que (2.68) est satisfait. Pour i = 1, . . . ,r, notons yi( ) la variation au
temps associee `a la perturbation en aiguille associee `a yi (donc yi = yi (T )). Comme
yi ( ) est fonction continue de , (2.67) implique que pour proche de T on a
(
)
B conv y 1 ( ), . . . ,y r ( ) .
(2.69)
Etant donne > 0, essayons de resoudre en h S1 lequation x,h ( ) = 0 par
lalgorithme de linearisation suivant :
h0 = 0;

r


(hk+1
hki )y i( ) = x,hk ( ), k = 1, . . . .
i

(2.70)

i=1

Dapr`es (2.67) cette equation a une solution telle que


hk+1 hk  a2 x,hk ( ).

(2.71)

Notons uk et xk les commandes et etats associes formes par lalgorithme. Pour que celui-ci
soit bien deni pour tout k il faut, pour tout k, verier que hk  a1 ; cest le cas pour
k = 0.
Le lemme 2.16 montre que, etant donne 1 > 0, pour > 0 assez petit et reduisant a1
si necessaire, on a pour tout h et h dans S1 :
+
+
r
+
+

+
+
(hi hi )yi( )+ 1 h h.
(2.72)
+x,h ( ) x,h ( )
+
+
i=1

170

CHAPITRE 2. TEMPS MINIMAL : SYSTEMES


NON LINEAIRES

Donc tant que hk S1 , pour k 2, on a avec (2.71) et (2.72)


hk+1 hk  a2 x,hk ( ) 1 a2 hk hk1 ,

(2.73)

et donc prenant 1 = 12 a2 , tant que hk+1 S1 , pour k 2


hk+1

k


hi+1 hi  2h1 h0  2a2 x( ).

(2.74)

i=1

Si on prend tel que 2a2 x( ) < a1 , on obtient par recurrence que hk  a1 , donc
la suite est bien denie; de plus hk hk1  0, donc avec (2.73) x,hk ( ) 0.

Posant h := limk hk , on obtient x,h = 0 comme il fallait le montrer.
Traitons enn le cas general, en commencant par un lemme preliminaire.
Lemme 2.24 Si C est dinterieur vide, moyennant si necessaire un changement dorigine
et de la base de IRn on peut supposer quil est de la forme

C = {x IRn ; xi = 0, i = 1, . . . ,q; (xq+1 , . . . ,xn ) C},

(2.75)

avec C partie convexe de IRnq dinterieur non vide.


D
emonstration. Le resultat est vrai si C est dinterieur non vide. Sinon, comme C
est convexe, ceci implique quil est contenu dans un hyperplan que par changement dorigine et de base on peut supposer de la forme x1 = 0. Posons C1 := {x IRn1 ; (0,x )
C}. Procedant de meme pour C1 , on arrive par recurrence au resultat cherche.




Lemme 2.25 Soit u solution du probl`eme (2.7). Alors 0 int x(T ) + CT (u) C , ce
qui assure la conclusion du theor`eme 2.3 en raison du lemme 2.20.
D
emonstration. Procedons par labsurde : supposons donc (2.66) satisfait. On peut
supposer que x(T ) = 0 et que C est de la forme (2.75). Notons y le vecteur forme des
composantes q +1 a` n de y IRn . Nous allons montrer quil existe une variation y CT (u)
telle que

yi = 0, i = 1 a` q; y int C.

(2.76)

En eet (2.66) implique que, pour tout z B tel que z1 = = zq = 0, il existe


y CT (u) et c C tels que z = y c. Ceci assure que lensemble
{(yq+1, . . . ,yn ); y CT (u); y1 = = yq = 0} C
est un voisinage de lorigine. Procedant comme dans la demonstration du lemme 2.22, on
en deduit (2.76).
Soit v la perturbation en aiguille associee `a y et x letat correspondant. Alors
(x )i (T ) = o(), i = 1, . . . ,q, et (
x )i (T ) = 2y + o().
Il existe donc > 0 tel que, pour tout > 0, si > 0 est assez petit, on a |x,i (T )|
1
Pour < T assez proche de T , on aura donc
, i q, et x (T ) + 2B(0,1) C.
2
|x,i ( )| , i q;

x ( ) + Bnq (0,1) C.

(2.77)

2.5. NOTES

171

On proc`ede alors comme dans le cas C = {0} pour eectuer une correction assurant
xi ( ) = 0, i = 1 a` q. Comme cette correction modie letat a` linstant dune quantite
O(), ceci assure (pour > 0 assez petit) x( ) C et donc x( ) C ce qui donne la
contradiction recherchee.


2.5

Notes

On trouvera dautres approches du principe du maximum dans lecole russe : Alexeev,


V. Tikhomirov et Fomine [2], Ioe and Tihomirov [20].
Pour les extensions au cadre non dierentiable on consultera Clarke [13], Frankowska
[19].

172

CHAPITRE 2. TEMPS MINIMAL : SYSTEMES


NON LINEAIRES

173

Chapitre 3
Commande optimale : lapproche
HJB
3.1

Cadre

Dans ce chapitre nous etudions une classe de probl`emes de commande optimale generalisant les probl`emes de transfert en temps minimal. Cette classe est parametree par x, la
condition initiale sur letat. Nous montrerons que la valeur du probl`eme est solution, en
un sens generalise, dune equation aux derivees partielles en la variable x, dite equation de
Hamilton-Jacobi-Bellman (HJB). La commande optimale sobtient alors en minimisant
un hamiltonien faisant intervenir le gradient de la fonction valeur.
La classe de probl`emes de commande optimale est la suivante :

 T

Min V(x,u,T ) :=

(yx,u(t),u(t))et dt;

(Px )
yx,u (t) = f (yx,u (t),u(t)), t [0, + [, yx,u (0) = x;

yx,u (T ) C; u(t) U, p.p. t [0, + [.


Ici la cible C est une partie fermee (peut etre vide ou non convexe) de IRn , u est la
commande, et doit appartenir a` presque chaque instant a` lensemble U, compact (convexe
ou non) de IRm ; T est appele temps de transfert de letat initial x `a la cible avec la
commande u; il vaut par denition + si celle-ci nest jamais atteinte; yx,u est letat,
0 est un coecient dactualisation, f : IRn IRm IRn est la dynamique, et
 : IRn IRm IR est le co
ut distribue. Nous faisons les hypoth`eses suivantes sur f et
:
#
f est lipschitzienne,
(3.1)
 est lipschitzienne et bornee.
On notera Lf et L les constantes de Lipschitz. Ces hypoth`eses assurent que lequation
detat admet, pour une commande u L (0,T,U) donnee, une solution unique, et que le
crit`ere

T

V(x,u,T ) =
0

(yx,u(t),u(t))et dt

(3.2)

174

CHAPITRE 3. COMMANDE OPTIMALE : LAPPROCHE HJB

est bien denie si T est ni ou si > 0.


T
On dit que (u,T ) est admissible si u(t) U p.p. t, 0 (yx,u (t),u(t))et dt est bien
denie, et si de plus T est ni, alors yx,u (T ) C. On appelle valeur du probl`eme (Px ) la
quantite
V (x) := inf{V(x,u,T ); (u,T ) admissibles}.
(3.3)
Si une commande (u,T ) admissible atteint linmum, on lappelle commande optimale et
on dit quelle est solution du probl`eme (Px ).
Remarque 3.1 La fonction valeur est, si > 0, une fonction bornee, positive si  lest.
Dans ce dernier cas, V (x) = 0 si x C. Si de plus (x,u) est strictement positif pour tout
(x,u) IRn U, et si (u,T ) est solution de (Px ), alors T est le premier instant o`
u letat
atteint la cible.
Remarque 3.2 Nous retrouvons le cas particulier des probl`emes de transfert en temps
minimal dans le cas o`
u  vaut identiquement 1. En eet, le crit`ere `a minimiser vaut alors
# 1
 T
(1 eT ) si > 0,
t
V(x,u,T ) =
(3.4)
e dt =
T
si = 0.
0
Minimiser ce crit`ere equivaut bien `a minimiser le temps de transfert. En particulier, si
= 0, V (x) est egal au temps minimal de transfert T (x).
Un coecient dactualisation strictement positif permet de donner une valeur nie
(egale a` 1 dans le cas de probl`emes de transfert en temps minimal) au crit`ere si la
cible nest pas atteinte, ce qui facilite lanalyse mathematique ainsi que la discussion des
procedes dapproximation numerique. Pour cette raison, nous supposerons dans la suite
> 0.

3.2
3.2.1

Valeur fonction de l
etat
Principe de programmation dynamique

Notons lensemble des commandes par


U := {u : [0,[ IRm mesurable; u(t) U, p.p. t} .

(3.5)

On dira que (u,T ) U IR+ est admissible, relativement a` la condition initiale x IRn ,
si yx,u (T ) C.
Notons que, si x IRn \ C, le fait que f soit lipschitzienne et que U soit compact
assure que le temps minimal de transfert a` C verie T (x) > 0.
Le theor`eme ci-dessous enonce le principe de programmation dynamique sous une
forme un peu restrictive, mais qui sut pour linstant. Une forme plus compl`ete est
donnee dans le theor`eme 4.1.
Th
eor`
eme 3.3 (Principe de Programmation Dynamique I) Si x IRn \ C et
]0,T (x)[, alors la valeur V (x) du probl`eme (Px ) satisfait :
$
#
t

(yx,u(t),u(t))e dt + e V (yx,u( )) .
(3.6)
V (x) = inf
uU


3.2. VALEUR FONCTION DE LETAT

175

D
emonstration. Notons v (x) le membre de droite de legalite ci-dessus. Rappelons
que V(x,u,T ) est le co
ut associe `a letat initial x et `a une commande admissible (u,T ).
Alors < T (x) T , donc

 T
t
V(x,u,T ) =
(yx,u(t),u(t))e dt +
(yx,u (t),u(t))et dt,
0


 T
t

(yx,u(t),u(t))e dt + e
(yx,u(t + ),u(t + ))et dt,
=
0
0
=
(yx,u(t),u(t))et dt + e V(yx,u ( ),u( + ),T ),
0
(yx,u(t),u(t))et dt + e V (yx,u ( )).

Minimisant chaque membre par rapport a` u, il vient V (x) v (x). Pour montrer linegalite inverse, xons > 0 et soit u une solution -optimale du probl`eme de minimisation
dans (3.6) et y letat associe. On a donc


(
y (t),
u (t))et dt + V (
y ( ))e .
v (x)
0

Soit (
u ,T ) admissible et -optimal pour le probl`eme (Py ( ) ) et y letat associe. Alors
 T

+
(
y (t),
u (t))e(t+ ) dt
(3.7)
V (
y ( ))e
0
 +T
=
(
y (t ),
u (t ))et dt.
(3.8)

Denissons la commande u par


u (t) =

u(t)
u (t )

si
si

t [0, ],
t ],],

(3.9)

et soit y letat associe. Alors


 +T

v (x)
(y (t),u (t))et dt 2 = V(x,u , + T ) 2 V (x) 2.
0

u le theor`eme.
Puisque peut etre pris arbitrairement petit, ceci entrane v (x) V (x), do`

Remarque 3.4 Le choix du poids exponentiel se traduit par une invariance de la valeur
par rapport a` linstant initial : cest la cle de la demonstration ci-dessus.
Remarque 3.5 Le principe de programmation dynamique peut se formuler ainsi : sur un
horizon inferieur au temps minimal de transfert, la valeur optimale est egale a` linmum
de la somme du co
ut de transition entre les etats aux instants 0 et et de la valeur
actualisee en letat a` linstant .
Exemple 3.6 Pour un probl`eme de temps minimal de transfert, (x,u) = 1, et le principe
de programmation dynamique secrit donc :
]0,T (x)[, V (x) = 1 (1 e ) + e inf V (yx,u ( )).
uU

(3.10)

CHAPITRE 3. COMMANDE OPTIMALE : LAPPROCHE HJB

176

3.2.2

Equation de Hamilton-Jacobi-Bellman

En vue de la discretisation du principe de programmation dynamique, etudions le cas


o`
u 0 dans (3.6). Le lemme technique suivant sera utile a` plusieurs reprises.
Lemme 3.7 Soient x IRn \ C et ]0,T (x)[. Alors
#

(x,u(t))dt + V (yx,u ( )) V (x) + o( ).

V (x) = inf

uU

(3.11)

D
emonstration. Le principe de programmation dynamique peut secrire
#
$

( t)
(yx,u(t),u(t))e
dt + V (yx,u ( )) .
e V (x) = inf
uU

(3.12)

Puisque f est lipschitzienne, on a yx,u (t) = x + O( ) (uniformement par rapport a` la


commande). Plus precisement, il existe c > 0, tel que, si > 0 est assez petit, pour tout
t [0, ], on a
yx,u (t) x c, pour tout u U.
(3.13)
En consequence,


( t)

(yx,u (t),u(t))e


dt =

(x,u(t))dt + o( ),

(3.14)

l`a encore uniformement par rapport a` la commande. De plus,


e V (x) = (1 + )V (x) + o( ),

(3.15)

Combinant avec (3.12) et (3.14), on obtient


#

(x,u(t))dt + V (yx,u ( )) V (x) + o( ) + o( ).

V (x) = inf

uU

(3.16)

avec le premier o( ) uniforme par rapport a` la commande, et on conclut avec le lemme


1.16.

Introduisons le hamiltonien H :
H(x,p) := min{(x,u) + p f (x,u)}.
uU

(3.17)

Remarque 3.8 Dans le cas de probl`emes en temps optimal, on a introduit en (2.14) le


pseudo hamiltonien H(x,u,p) := p f (x,u) (dans le cas de donnees autonomes). Dans ce
cas (x,u) = 1, donc H(x,p) = 1 + minuU H(x,u,p).
Lemme 3.9 Si V est dierentiable en x IRn \ C, alors
V (x) = H(x,DV (x)).


3.2. VALEUR FONCTION DE LETAT

177

D
emonstration. Puisque f est lipschitzienne, utilisant (3.13), il vient


f (yx,u(t),u(t))dt = x +
f (x,u(t))dt + o( ),
yx,u ( ) = x +
0

(3.18)

avec o( )/ 0 quand 0, uniformement par rapport a` la commande. Comme V est


dierentiable en x, on a

DV (x) f (x,u(t))dt + o( ),
(3.19)
V (yx,u ( )) = V (x) +
0

avec encore un o( ) uniforme. Combinant avec les lemmes 1.16 et 3.7, il vient
#
$
[(x,u(t)) + DV (x)f (x,u(t))] dt + o( ).
V (x) = inf
uU

(3.20)

Linmum ci-dessus est atteint en maximisant separement pour chaque t; en consequence,


V (x) = H(x,DV (x)) + o( ),
do`
u la conclusion en divisant par 0.

(3.21)


On appellera equation de Hamilton-Jacobi-Bellman (HJB), pour la famille de probl`emes de commande optimale (Px ), lequation aux derivees partielles non lineaire du
premier ordre sur IRn \ C avec conditions aux limites
#
(i) v(x) = H(x,Dv(x)), x IRn \ C,
(3.22)
(ii) v(x) = 0,
x C,
dans laquelle linconnue est la fonction v : IRn IR.
Remarque 3.10 Letude de cette equation aux derivees partielles presente plusieurs difcultes :
(i) V (x) nest en general pas dierentiable sur IRn \ C. Il faut donc donner un sens `a
(3.22)(i) aux points o`
u V (x) nest pas dierentiable.
(ii) V (x) nest pas necessairement continue sur C (voir lexemple 3.11). L`a encore il faut
donner un sens a` la condition aux limites.
(iii) Il peut y avoir plusieurs solutions continues sur IRn , et dierentiable sur IRn \ C, de
(3.22) (exemple 3.12).
Exemple 3.11 Soit le probl`eme de transfert `a 0, en dimension 1, avec la dynamique
x = u, 0 u 1. Considerons la formulation actualisee avec = 1.
On sait que V (x) = 1 eT (x) . Or T (x) vaut x si x 0, et + sinon; donc
#
1 ex si x 0,
V (x) =
(3.23)
1
sinon.
La valeur est donc discontinue en 0.

CHAPITRE 3. COMMANDE OPTIMALE : LAPPROCHE HJB

178

Exemple 3.12 Soit le probl`eme de transfert `a 0, en dimension 1, avec la dynamique


x = u, 1 u 1. Considerons la formulation actualisee avec = 1. Alors T (x) = |x|,
et donc V (x) = 1 e|x| . La valeur est continue, et dierentiable en tout point dierent
de la cible 0. Le hamiltonien a pour expression
H(x,p) = min {1 + up} = 1 |p|,

(3.24)

u[1,1]

et lequation HJB secrit donc


#
v(x) = 1 |Dv(x)|, x = 0,
v(0) = 0.

(3.25)

La valeur est bien solution de cette equation. Mais les fonctions w1 (x) = 1 ex et w2 (x) =
1ex sont dautres solutions continues et dierentiables en tout point dierent de 0 (elles
sont meme dierentiables en 0). Notons cependant que ces solutions parasites sont non
bornees alors que V (x) lest.

3.2.3

Continuit
e uniforme de la valeur

Une fonction est dautant plus facile `a approcher numeriquement quelle est reguli`ere.
Montrons que, si la cible est vide, la fonction V est uniformement continue. On note alors
V(x,u) le crit`ere. Il vient donc
V (x) = inf V(x,u)
(3.26)
uU

o`
u U est deni en (3.5).
Lemme 3.13 Si C = , la fonction valeur V (x) est h
olderienne et bornee.
D
emonstration. Montrons que V est bornee. On a pour toute commande u

|V(x,u)|
|(yx,u (t),u(t))|et dt 1  ,
(3.27)
0
1

do`
u |V (x)|  .
Montrons que V est uniformement continue. Puisque f est lipschitzien, la quantite
0 := sup

uU
x =x

(f (x ,u) f (x,u)) (x x)


|x x|2

(3.28)

est nie. Montrons que deux trajectoires associees `a la meme commande u satisfont la
relation
(3.29)
|yx (t) yx,u (t)| |x x|e0 t .
En eet, posant z(t) := yx (t) yx,u (t), il vient
1
2

d
|z(t)|2 = z(t) z(t)
0 |z(t)|2 ,
dt

et donc |z(t)|2 e20 t |x x|2 , do`


u (3.29). Par ailleurs, (1.26) implique
$
#

t
|(yx (t),u(t)) (yx,u (t),u(t))|e dt .
|V (x ) V (x)| sup
uU

3.3. COMMANDE OPTIMALE

179

Soit T > 0. Notons



1 := sup
uU

T
0

2 := sup
uU

|(yx (t),u(t)) (yx,u (t),u(t))|et dt,


|(yx (t),u(t)) (yx,u (t),u(t))|et dt.

Alors |V (x ) V (x)| 1 + 2 . Supposant sans perte de generalite 0 > (il sut que
0 majore le membre de droite de (3.27)), nous obtenons avec (3.29)
 T
e(0 )T 1 
1 L
|x x|,
|x x|e(0 )t dt = L
0
0

2
2 2
 et dt = eT  .

T
1

Soit x tel que |x x| < 1. Choisissons T > 0 tel que eT = |x x| 0 (cest possible !).
Alors les quantites 1 et 2 se majorent ainsi :



L
L
1
|x x| |x x| 0 1
|x x| 0 ,
1
0
0

2
 |x x| 0 ,
2

et donc


|V (x ) V (x)|

L
2
+  |x x| 0 ,
0

do`
u la conclusion.

3.3

Commande optimale

Sous les hypoth`eses faites au debut du chapitre, il nexiste pas en general de commande
optimale (comme le montre lexemple 2.1). Nous allons cependant, sous des hypoth`eses
fortes, etablir dans cette section comment obtenir la commande optimale a` partir de la
connaissance de la fonction valeur V .
Th
eor`
eme 3.14 Supposons la fonction valeur contin
ument dierentiable sur IRn \ C, et
n
continue en tout point de C. Soit x IR \ C. Alors la commande u est optimale si et
seulement si, p.p. s [0,T ], o`
u T est le temps de transfert a` C (eventuellement inni)
avec la commande u, cette commande minimise le hamiltonien au sens suivant :
H(yx,u (s),DV (yx,u (s)) = (yx,u (s),u(s)) + f (yx,u (s),u(s)) DV (yx,u (s)).

(3.30)

D
emonstration. Soient (u,T ) une commande admissible, et s ]0,T [; yx,u (s) nappartient pas a` C, donc V est derivable en yx,u (s). Le lemme 3.9 et la denition du hamiltonien impliquent
V (yx,u (s)) f (yx,u (s),u(s)) DV (yx,u (s)) (yx,u (s),u(s)),

(3.31)

180

CHAPITRE 3. COMMANDE OPTIMALE : LAPPROCHE HJB

avec egalite ssi (3.30) est satisfait.


Soit ]0,T [. La regularite de V permet decrire, compte-tenu de (3.31) :

d , t

V (x) e V (yx,u ( )) =
e V (yx,u (t)) dt
0 dt

0

[V (yx,u (t)) f (yx,u (t),u(t)) DV (yx,u (t))] et dt


(yx,u (t),u(t))et dt,

(3.32)

avec egalite ssi (3.30) est satisfait.


Faisons maintenant tendre vers T . Si T est ni, de V (yx,u(T )) = 0 on deduit que u
est optimal ssi (3.30) est satisfait. Si T = +, on a e V (yx,u ( )) 0 puisque V est
bornee, do`
u la meme conclusion.

Remarque 3.15 Le resultat precedent a plusieurs extensions utiles, par exemple au cas
o`
u la fonction valeur V est seulement derivable en tout yx,u(s), s ]0,T [, sauf peut-etre
en un nombre ni dentre eux.
Le theor`eme precedent donne le moyen de verier si une commande fonction du temps
est optimale. Voyons maintenant le resultat principal de la section, qui montre comment
construire la commande optimale en fonction de letat (forme feedback) :
Th
eor`
eme 3.16 Supposons (i) la fonction valeur contin
ument dierentiable sur IRn \ C,
de derivee localement lipschitzienne, et continue en tout point de C, (ii) le minimum dans
la denition du hamiltonien (3.17) atteint en un point unique (x,p), la fonction etant
localement lipschitzienne.
Alors la commande ci-dessous, sous forme feedback, est optimale :
u(x) = (x,DV (x)).

(3.33)

D
emonstration. Lequation dierentielle
y x,u (t) = f (yx,u (t),(yx,u (t),DV (yx,u (t))))

(3.34)

a un second membre borne et localement lipschitzien, donc a une solution unique; loptimalite de la commande decoule du theor`eme 3.14.

Exemple 3.17 reprenons le probl`eme de lexemple 3.12. On a V (x) = 1e|x|, et V  (x) =
ex si x < 0, V  (x) = ex si x > 0. La commande realisant le maximum dans la denition
du hamiltonien est donc u(x) = 1 si x < 0, u(x) = 1 si x > 0. Chacun des deux
theor`emes precedents peut etre applique `a ce probl`eme.
Remarque 3.18 La verication de lhypoth`ese (ii) du theor`eme 3.16 se ram`ene `a une
analyse de stabilite de la solution dun probl`eme doptimisation en dimension nie, voir
[10, Section 4.4.1]. En pratique cette hypoth`ese se verie dans le cas (assez restrictif)
o`
u U est convexe ferme, f est ane par rapport a` la commande, et  est uniformement
fortement convexe par rapport a` la commande, pour tout x.


3.4. SOLUTION DE VISCOSITE

181

Remarque 3.19 La fonction valeur nest en general pas contin


ument dierentiable, meme sous les hypoth`eses fortes de la remarque 3.18. Les theor`emes 3.14 et 3.16 ne peuvent
donc etre appliques que dans un nombre limite de cas.
On retiendra neanmoins la r`egle heuristique suivante. Soit x IRn \C. Alors un candidat
serieux, pour etre commande optimale en x, est largument de la minimisation dans la
denition du hamiltonien, evaluant celui-ci en (x,DV (x)).

3.4

Solution de viscosit
e

Cett section presente une notion permettant de donner un sens a` lequation (3.22),
dite HJB :
#
(i) v(x) = H(x,Dv(x)), x IRn \ C,
(3.35)
(ii) v(x) = 0,
x C,
avec C partie fermee de IRn , meme quand la solution nest pas dierentiable. On pourra
passer les preuves en premi`ere lecture. Nous limiterons letude aux solutions continues sur
IRn . Le probl`eme principal est de donner un sens `a (3.35)(i), de mani`ere `a ce que la valeur
soit lunique solution de (3.35).

3.4.1

Notion de solutions de viscosit


e

Notons dans la suite


:= IRn \ C.

(3.36)

On peut denir une notion de solution generalisee de (3.35) grace a` lobservation


suivante.
Lemme 3.20 Soit une fonction dierentiable en x , telle que V a un maximum
(resp. minimum) local en x. Alors
V (x) H(x,D(x)) 0 (resp. 0).

(3.37)

D
emonstration. Il sut de donner la demonstration dans le cas o`
u V a un

maximum local en x. Alors, pour tout x dans un voisinage N de x, on a
V (x ) V (x) (x ) (x).

(3.38)

Pour assez petit, puisque f est bornee, yx,u ( ) N , quelle que soit la commande
appliquee. Combinant (3.38) et le lemme 3.7, il vient
$
#
V (x) inf
(x,u(t))dt + (yx,u ( )) (x) + o( ).
(3.39)
uU

On proc`ede alors comme dans la demonstration du lemme 3.9, en adaptant (3.19), (3.20)
et (3.21) (changements degalites en inegalites, remplacement de V par ).

Formalisons ce qui prec`ede en introduisant un vocabulaire adapte.

182

CHAPITRE 3. COMMANDE OPTIMALE : LAPPROCHE HJB

D
enition 3.21 Une fonction v : IRn IR est dite sous solution (resp. sur solution)
au sens de viscosite de (3.35)(i) si, pour tout x0 , et : IRn IR de classe C 1 , telle
que x0 est point de maximum (resp. minimum) local de v , alors
v(x0 ) H(x0 ,D(x0 )) 0 (resp. 0).

(3.40)

On dit que v est solution au sens de viscosite de (3.35)(i) si elle est `a la fois sur et sous
solution au sens de viscosite.
Th
eor`
eme 3.22 La fonction valeur V est solution au sens de viscosite de (3.35)(i).
Le theor`eme est consequence immediate du lemme 3.20. Ce dernier est apparemment
plus fort, car il suppose seulement la fonction derivable en x. Nous allons voir que les
deux enonces sont equivalents, en introduisant un concept important.
D
enition 3.23 Soit v une fonction IRn IR. On dit que p IRn est une sous derivee,
ou sous gradient (resp. sur derivee, ou sur gradient) de v en x, si
v(x ) v(x) p
(x x) o(x x)

(resp. o(x x)) .

(3.41)

On notera D v(x) (resp. D + v(x)) lensemble des sous gradients (resp. sur gradients) de
v en x.
Exemple 3.24 La fonction valeur absolue v : IR IR, v(x) := |x|, est telle que
D v(0) = [1,1] et D + v(0) = .
Remarque 3.25 (i) Si v est derivable en un point x, alors
D v(x) = D + v(x) = {Dv(x)}.

(3.42)

(ii) Si en un point x on a D v(x) = et D + v(x) = , alors v est derivable en x et (3.42)


est satisfait.
Soit p un sur gradient de v en x. Posons
(x ) = max(v(x ),v(x) + p
(x x)).
Alors v atteint un maximum local en x et, par denition du sur gradient, la fonction
a pour derivee p en x. Reciproquement, si une fonction derivable en x est telle que
v atteint un maximum local en x, il est clair que D(x) est un sur gradient de v en
x. Nous avons montre que
D + v(x) = {p; : IRn IR; p = D(x); v a un maximum local en x}.
On peut montrer (voir par exemple Barles [5, Section 2.2]) que D + v(x) est aussi lensemble
des gradients de fonctions contin
ument derivables, telles que v atteint un maximum
local en x. Bien entendu on a un resultat similaire pour les sous gradients. Les conditions
du lemme 3.20 et du theor`eme 3.22 concident donc. Ceci implique le resultat suivant :


3.4. SOLUTION DE VISCOSITE

183

Lemme 3.26 Soit x et v : IRn IR. Les enonces suivants sont equivalents :
(i) On a v(x) H(x,D(x)), pour toute fonction derivable en x telle que v atteint
un maximum local en x.
(ii) On a v(x) H(x,D(x)), pour toute fonction contin
ument derivable telle que
v atteint un maximum local en x.
(ii) On a v(x) H(x,p), pour tout p D + v(x).
Nous laissons le lecteur enoncer le resultat correspondant concernant les sous gradients.
Remarque 3.27 (i) Soit v une sous solution de 3.37(i) au sens de viscosite, et x
tel que v soit derivable en x. Combinant le lemme precedent et la remarque 3.25, il vient
v(x) H(x,Dv(x)). De meme pour les sur solutions.
(ii) Soit v derivable sur . Combinant le point (i) et le lemme precedent, on voit que v est
sous solution de 3.37(i) au sens classique ssi elle est sous solution de viscosite. De meme
pour les sur solutions.

3.4.2

Th
eor`
eme de comparaison

Nous avons note que la fonction valeur V nest pas toujours continue. Dans tous les
cas, cette solution est solution de lequation HJB au sens de viscosite.
Le resultat principal de cette section (theor`eme 3.31) implique, si la cible C est vide,
lunicite (autrement dit, lexistence dau plus une) dune solution holderienne et bornee
de lequation HJB. Si V est holderienne, on obtient donc lexistence et lunicite de la
solution, dans la classe des fonctions holderiennes et bornees.
Pour letude de convergence des schemas numeriques, nous avons besoin dun resultat
un peu plus fort que lunicite : des resultats de comparaison entre les sous-solutions semi
continues superieurement (s.c.s.) et les sur solutions semi continues inferieurement (s.c.i.).
D
enition 3.28 On dit que la fonction v : IRn IR est semi continue superieurement
(s.c.s.) (resp. semi continu inferieurement (s.c.i.)) si pour tout x IRn on a



resp. v(x) lim
inf
v(x
)
.
v(x) lim sup v(x ),

x x

x x

Remarque 3.29 On peut exprimer les proprietes precedentes `a laide de suites convergentes vers x. Ainsi, la fonction v : IRn IR est s.c.s. ssi, pour toute suite xk convergeant vers x, on a v(x) lim supk v(xk ); ou encore, si pour tout point dadherence
v IR {} de v(xk ), on a v(x) v . De meme pour la semi continuite inferieure.
D
enition 3.30 On appelle principe dunicite fort pour lequation (3.35) tout resultat
du type suivant : Soient v (resp. w) une sous solution (resp. sur solution) de (3.35) (assorti
eventuellement de conditions de regularite sur v et w satisfaites par la fonction valeur).
Alors sup v inf w.
Compte tenu de la diculte de ce type de resultat, nous limiterons lanalyse au cas
C = . Pour lextension aux probl`emes avec temps darret, il est utile de considerer une
equation aux derivees partielles generale du premier ordre, notee
H(x,v(x),Dv(x)) = 0,

pour tout x IRn .

(3.43)

184

CHAPITRE 3. COMMANDE OPTIMALE : LAPPROCHE HJB

On suppose que le hamiltonien abstrait H verie les relations


|H(x,v,p ) H(x,v,p)| c1 p p;
|H(x ,v,p) H(x,v,p)| c2 x x(1 + p);
H(x,v  ,p) H(x,v,p) c3 (v  v),

(3.44)
(3.45)
(3.46)

avec c3 > 0. Dans le cas de lequation HJB on a


H(x,v,p) := v inf {(x,u) + p f (x,u)},

(3.47)

uU

et si la dynamique est bornee, on verie (3.44)-(3.46), avec


c1 := sup{f (x,u); (x,u) U};

c2 := L + Lf ;

c3 := .

(3.48)

Une fonction v : IRn IR est dite sous solution (resp. sur solution) au sens de
viscosite de (3.43) si, pour tout : IRn IR de classe C 1 , telle que x0 est point de
maximum (resp. minimum) local de v , on a
H(x0 ,v(x0 ),D(x0 )) 0 (resp. 0).

(3.49)

On dit que v est solution au sens de viscosite de (3.43) si elle est a` la fois sur et sous
solution au sens de viscosite.
Th
eor`
eme 3.31 (Principe dunicit
e fort) Sous les hypoth`eses (3.44)-(3.46), si v est
une sous solution s.c.s. bornee superieurement de (3.43), et w est une sur solution s.c.i.
bornee inferieurement de (3.43), une de ces deux fonction etant h
olderienne, alors v(x)
w(x), pour tout x IRn .
Corollaire 3.32 Si la dynamique est bornee et C = , la fonction valeur V (x) du probl`eme (Px ) est lunique solution de viscosite continue et bornee sur IRn de lequation HJB
(3.35).
D
emonstration. Le lemme 3.13 dit que la fonction valeur V (x) est holderienne et
bornee. Dapr`es le theor`eme 3.22, V (x) est solution de viscosite dans IRn de (3.35)(i). Soit
v une autre solution de viscosite continue et bornee. Le theor`eme 3.31 implique v V et
V v, do`
u v =V.

Il reste `a demontrer le theor`eme 3.31. La demonstration est quelque peu technique
et le lecteur interesse principalement par les methodes numeriques peut la sauter en
premi`ere lecture. Donnons cependant un resultat de comparaison elementaire (mais sous
des hypoth`eses trop fortes) qui donnera une idee du principe de la demonstration.
Proposition 3.33 On suppose que C = . Soient v et w une sous et sur solution de
(3.49) respectivement. Supposons le maximum de v w atteint en un point x0 o`
u v et w
n
sont dierentiables. Alors v(x) w(x), pour tout x IR .
D
emonstration. Puisque vw atteint son maximum en x0 , on a Dv(x0 ) = Dw(x0).
Or v est sous solution, et w est sous solution. Par une remarque analogue a` 3.27(i), il vient
H(x0 ,v(x0 ),Dv(x0 )) 0 H(x0 ,w(x0 ),Dv(x0 ))

(3.50)


3.4. SOLUTION DE VISCOSITE

185


et on conclut avec (3.46).

D
emonstration. (D
emonstration du th
eor`
eme 3.31). Supposons v holderienne,
lautre cas se traitant dune mani`ere similaire. Lidee essentielle de la demonstration est
le dedoublement des variables : Pour tout > 0, posons
(x,y) := v(x) w(y) 12 2 x y2, pour tout (x,y) IRn IRn .

(3.51)

Le role du dernier terme est dobtenir des points x et y proches quand on consid`ere des
solutions approchees du probl`eme de maximisation de .
Soit ]0,1[. On a
sup sup v inf w < +,
(3.52)
donc il existe (x1 ,y1 ) in IR2n tel que
(x1 ,y1 ) > sup .

(3.53)

Il existe aussi une fonction , de classe C `a support compact, telle que


(x1 ,y1 ) = 1,

0 1,

sup D(x,y) 1.

(3.54)

pour tout (x,y) IR2n .

(3.55)

x,y

Posons
(x,y) = (x,y) + (x,y),
Si (x,y) nest pas dans le support de , on a
(x,y) = (x,y) sup < (x1 ,y1 ).

(3.56)

Une suite maximisante pour est donc, a` partir dun certain rang, incluse dans le support
de qui est compact; or est s.c.s., donc atteint son maximum en un point (xo ,yo).
Autrement dit,
(xo ,yo ) (x,y) pour tout (x,y) IR2n .
(3.57)
En particulier, la fonction x v(x) 12 2 x y0 2 + (x,y0 ) atteint un maximum
local en x0 . Par denition dune sous solution de viscosite, on a donc
H(x0 ,v(x0 ),2 (xo yo) Dx (xo ,yo )) 0.

(3.58)

De meme, y w(y) + 12 2 x0 y2 (x0 ,y) atteint un minimum local en x0 , donc
par denition dune sur solution de viscosite, on a
H(y0 ,w(y0),2 (xo yo) + Dy (xo ,yo )) 0.

(3.59)

Utilisant (3.54) et (3.58)-(3.59), il vient


H(x0 ,v(x0 ),2 (xo yo )) c1 ;

H(y0 ,w(y0),2 (xo yo )) c1 .

(3.60)

Soustrayant ces relations, nous obtenons avec (3.45) et (3.46),


c3 (v(x0 ) w(y0)) H(x0 ,v(x0 ),2 (xo yo)) H(x0 ,w(y0),2 (xo yo ))
H(y0 ,w(y0),2 (xo yo)) H(x0 ,w(y0 ),2 (xo yo )) + 2c1
c2 2 xo yo 2 + c2 xo yo  + 2c1 .
(3.61)

186

CHAPITRE 3. COMMANDE OPTIMALE : LAPPROCHE HJB

Estimons maintenant les membres de cette inegalite. On a, avec (3.57),


sup (xo ,yo ) = v(x0 ) w(y0 ) 12 2 xo yo 2 ,
et donc

1 2
xo
2

yo 2 sup v inf w + sup .

(3.62)
(3.63)

Ceci implique xo yo  0 quand 0. Notons cv la constante de Holder de v. Prenant


assez petit, comme v est holderienne, il vient v(x0 ) v(y0 ) cv x0 y0  . Choisissant
x = y = y0 dans (3.57), il vient apr`es simplication et usage de (3.54),
1 2
xo
2

yo2 v(x0 ) v(y0 ) + ((x0 ,y0 ) (y0,y0 ))


cv x0 y0  + x0 y0 .

(3.64)

On peut sans perte de generalite supposer dans ]0,1[, et donc


cv x0 y0  + x0 y0  12 K|xo yo |

(3.65)

pour une certaine constante K independante de et . Avec (3.64), nous obtenons 2 xo
2
yo 2 Kxo yo  soit xo yo  K 2 . Combinant avec (3.61), il vient
2

(v(x0 ) w(y0)) c2 K  2 + 2c1

(3.66)

pour un certain K  independant de et . Or


sup(v w) sup (x0 ,y0 ) + v(x0 ) w(y0) + .

(3.67)

Il vient donc sup(v w) O( 2 + ). Faisant tendre et vers 0, nous obtenons la


conclusion.

Remarque 3.34 La preuve ci-dessus a linteret detre tr`es proche de celle de lestimation
derreur du schema de discretisation : voir la section 4.3.2.

3.5

Temps darr
et et commande impulsionnelle

Les resultats principaux de cette section concernent les probl`emes de commande impulsionnelle. An de preparer les outils necessaires `a leur etude, nous etudions dabord
les probl`emes avec decision darret, qui ont leur propre interet.

3.5.1

Probl`
emes avec temps darr
et

Nous considerons un probl`eme de commande optimale dans lequel on peut sarreter `a


tout instant en payant un co
ut actualise :

Min V(x,u,) :=
(yx,u(t),u(t))et dt + e (yx,u ())

(Px )
y (t) = f (yx,u(t),u(t)), t [0,[, yx,u (0) = x;

x,u

u(t) U p.p. t [0,[,

ET COMMANDE IMPULSIONNELLE
3.5. TEMPS DARRET

187

avec 0 et fonction bornee et lipschitzienne.


On note a b := min(a,b), et s vaut 1 si s est vrai, et 0 sinon.
La demonstration du theor`eme ci-dessous ne presente pas de diculte.
Th
eor`
eme 3.35 (Principe de Programmation Dynamique)
La fonction valeur V (x) satisfait, pour tout > 0 :
V (x) = inf
(u,)



t

(y
(t),u(t))e
dt
+

e
V
(y
(
))
+

e
(y
(
))
,
x,u
<
x,u

x,u
0

(3.68)

o`
u le minimum sentend sous les contraintes u(t) U, p.p. t [0, ], et 0.
Lequation HJB de ce probl`eme est dite inequation variationnelle, par analogie avec
les probl`emes de contact en mecanique :
max[v H(x,Dv),v (x)] = 0,

pour tout x IRn .

(3.69)

Th
eor`
eme 3.36 La fonction valeur V est solution au sens de viscosite de (3.69), au sens
o`
u, pour tout x IRn :
max[V (x) H(x,p),V (x) (x)] 0

(resp. 0),

(3.70)

pour tout p D + v(x) (resp. p D v(x)).


D
emonstration. Il est clair que V (x) (x) pour tout x, puisquune impulsion a`
linstant initial est possible. Distinguons deux cas.
a) Si V (x) < (x), puisque V et sont continues, il existe > 0 tel que V (x ) + < (x ),
pour tout x appartenant a` un voisinage N de x. Puisque f est bornee, on deduit que pour
assez petit, toute strategie optimale `a pr`es ne comporte pas dimpulsion pour t [0, ].
Le principe de programmation dynamique (3.6) est donc valable pour assez petit. La
demonstration du lemme 3.20 sapplique donc; elle montre que (3.37) est satisfaite en x
si V a un maximum (resp. minimum) local en x. On en deduit (3.70) en combinant
avec le lemme 3.26.
b) V (x) = (x), le second cas de (3.70) est trivialement satisfait. Reste a` montrer que
si p D + v(x), alors V (x) H(x,p) 0. Puisque les strategies sans impulsions sont
possibles, on a
#
$
t

V (x) inf
(yx,u (t),u(t))e dt + V (yx,u ( ))e
.
(3.71)
uU

Il sut alors de reprendre les calculs des lemmes 3.7 et 3.20, en tenant compte de linegalite
dans (3.71), pour verier que (3.37) est satisfaite, si une fonction dierentiable en x,
telle que V a un maximum (resp. minimum) local en x. On conclut avec le lemme
3.26.

Th
eor`
eme 3.37 (Unicit
e forte) Soient v une sous solution s.c.s. de (3.69) bornee superieurement, w une sur solution s.c.i. de (3.69) bornee inferieurement. Si une de ces
deux fonctions est holderienne, alors v(x) w(x), pour tout x IRn .
D
emonstration. Il sut dappliquer le theor`eme 3.31; la verication des hypoth`eses
(3.44)-(3.46) se fait sans dicultes.


CHAPITRE 3. COMMANDE OPTIMALE : LAPPROCHE HJB

188

3.5.2

Commande impulsionnelle

Dans de nombreux probl`emes de commande optimale, on a la possibilite de faire


changer letat de mani`ere discontinue, en payant un prix associe. Un exemple typique
est celui de la gestion de stock, dans lequel une commande a un co
ut xe (deplacement
du camion) et un co
ut proportionnel a` la quantite livree (nexcedant pas la capacite du
camion). La modication de letat peut ne seectuer quapr`es un certain delai (temps de
livraison).
Nous allons nous limiter ici `a la discussion de probl`emes de commande optimale impusionnelle sans delai. La dynamique du syst`eme est regie par les relations suivantes :
yx,u (t)
= f (yx,u (t),u(t)),
+
yx,u (i ) = yx,u (i ) + i ,
yx,u (0) = x.

t ]i ,i+1 [,
i = 1, . . . ,N,

(3.72)

La dynamique f : IRn IRm IRn est supposee lipschitzienne et bornee, ainsi que
lensemble des commandes U IRm , suppose compact, et le coecient dactualisation
> 0. On convient de noter Lf la constante de Lipschitz de f , et de meme pour les autres
fonctions. La suite {i }, i = 1, . . . ,N, de temps darret positifs, est nie (on pose alors
N +1 = +) ou non (on a alors N = +), croissante et sans points daccumulation,
et 0 = 0. Les impulsions i appartiennent a` IRn . Les suites et font partie
de la commande. Ainsi letat yx,u (t) appartient `a IRn et la commande, ou controle, u(t)
appartient `a IRm . Le crit`ere `a minimiser se decompose en une integrale dun co
ut distribue
et une somme de co
uts de transition :

N

t
(yx,u (t),u(t))e dt +
(c0 + c(i ))ei .
(3.73)
V(x,u,,) :=
0

i=1

ut de
Le co
ut distribue  : IRn IRm IR est suppose lipschitzien et borne. Le co
transition est c0 + c(i ). La constante c0 > 0 represente un co
ut xe, et la fonction
continue c : IRn IR+ est telle que c(0) = 0 et
c(1 + 2 ) c(1 ) + c(2 ), 1 ,2 IRn .

(3.74)

La stricte positivite de c0 donne une borne sur le nombre dimpulsions dune strategie
sous optimale sur un intervalle de temps ni, et la relation precedente implique quil nest
pas restrictif dimposer que les instants i soient tous dierents. Le probl`eme `a resoudre
est
(Px )

Min V(x,u,,)

(u,,)

soumis a` (3.72);

u(t) U, p.p. t [0, + [.

La valeur de ce probl`eme (inmum du crit`ere sur les commandes admissibles) est notee
V (x).
Nous allons dans un premier temps etablir un resultat de regularite de la fonction valeur ainsi que le principe de programmation dynamique pour un probl`eme sans impulsion.
Rappelons la notation V(x,u,,) du co
ut associe `a une commande (voir (3.73)).
Proposition 3.38 La fonction V appartient a` BUC(IRn ).

ET COMMANDE IMPULSIONNELLE
3.5. TEMPS DARRET

189

D
emonstration. a) Montrons que V est bornee. Soit la commande constante u(t) =
u0 , o`
u u0 U, sans impulsion. Alors

(yx,u (t),u0 )et dt 1  .
V (x)
0

Dautre part, puisque le co


ut de transition est positif, on a pour tout commande (u,,)

(yx,u(t),u(t))et dt 1  ,
V (x)
0

et donc V  1  .
b) Montrons que V est uniformement continue. On a
V (x ) V (x) sup {V(x ,u,,) V(x,u,,)} ,
(u,,)

donc apr`es simplication des co


uts de transition,
$
#

t
[(yx (t),u(t)) (yx,u(t),u(t))]e dt .
V (x ) V (x) sup
(u,,)

Soient yx et yx,u deux trajectoires associees `a la meme commande (u,,). Comme dans
u 0 est deni par (3.27). On peut
le cas sans impulsion, on a |yx yx,u| |x x|e0 t , o`
alors nir la demonstration de mani`ere analogue a` celle du lemme 3.13.

Th
eor`
eme 3.39 (Principe de Programmation Dynamique)
La fonction valeur V (x) satisfait, pour tout > 0 :

N


V (x) = inf
(yx,u (t),u(t))dt +
(c0 + c(i ))ei + e V (yx,u ( )) ,
(u,,)

(3.75)

i=1

o`
u le minimum sentend sous les contrainte u(t) U, p.p. t [0, ], les i sont strictement
croissants, et N < .
D
emonstration. La demonstration est similaire a` celle du theor`eme 3.3.

Denissons loperateur qui a` une fonction w() associe la valeur optimale apr`es impulsion, note
(3.76)
Mw(x) := infn {w(x + ) + c0 + c()}.
IR

Lemme 3.40 Loperateur M est non expansif 1 pour la norme du max, et cest une application de BUC(IRn ) vers lui meme.
D
emonstration. Soient w et w  dans L (IRn ). Puisque c() 0 et c(0) = 0, on a
c0 w Mw(x) c0 + w(x) c0 + w.
1. Cest a` dire lipschitzien de constante 1.

CHAPITRE 3. COMMANDE OPTIMALE : LAPPROCHE HJB

190
De linegalite

Mw  Mw sup {w  (x + ) w(x + )} = w  w ,
IRn

il resulte que M est non expansif pour la norme du max. En particulier, soit w
BUC(IRn ). Quand y 0 dans IRn , la fonction translatee wy (x) := w(x + y) tend
uniformement vers w, donc Mwy Mw 0 uniformement. Or
Mwy (x) := infn {w(x + y + ) + c0 + c()} = Mw(x + y) = (Mw)y (x),
IR

donc (Mw)y Mw tend uniformement vers 0. Ceci signie que Mw est uniformement
continue, do`
u le lemme.

Th
eor`
eme 3.41 La fonction valeur V est solution au sens de viscosite de lequation
max[V (x) H(x,DV (x)),V (x) MV (x)] = 0,

(3.77)

au sens o`
u
max[V (x) H(x,p),V (x) MV (x)] 0

(resp. 0),

(3.78)

pour tout p D + v(x) (resp. p D v(x)).


D
emonstration. La demonstration se reduit `a celle du theor`eme 3.36, en identiant
la decision dimpulsion a` une decision darret de co
ut (x) := MV (x).

Pour le resultat dunicite on se reportera `a Barles [5, Section 3.2.2].

3.6

Notes

La reference classique sur la programmation dynamique est R. Bellman [7]. Une


presentation simple, avec de nombreux exemples est donnee dans D. Bertsekas [8].
Lapproche par solution de viscosite est d
ue `a Crandall et Lions [15]. Barles [5] fournit
une introduction a` ce sujet. Notons aussi louvrage de Bardi et Capuzzo-Dolcetta [4].

191

Chapitre 4
R
esolution num
erique de l
equation
HJB
Ce chapitre discute la resolution numerique du probl`eme (Px ) du chapitre 3, en
discretisant lequation HJB. Nous supposerons dans ce chapitre f et  lipschitziennes
et bornees, > 0, U compact non vide, et C ferme (suppose vide dans certains enonces).
Introduisons deux espaces de fonctions, lensemble B(IRn ) lensemble des fonctions
bornees IRn IRn , muni de la norme
v := sup |v(x)|
xIRn

(4.1)

qui en fait un espace de Banach, (`a ne pas confondre avec L (IRn ), lespace des fonction
denies presque partout, essentiellement bornees) et lespace
BUC(IRn ) := { Fonctions bornees, uniformement continues: IRn IR} .

(4.2)

On pose
a+ := max(a,0);

4.1

a := min(a,0).

(4.3)

Motivation : probl`
eme continu

Le but de cette section est danalyser une variante du principe de programmation dynamique qui se formule comme un operateur de point xe contractant, dit iteration sur
les valeurs. Lalgorithme convergent qui en decoule nest pas implementable sur ordinateur, puisquil sapplique au probl`eme continu. Cependant, on obtiendra des algorithmes
eectifs apr`es discretisation de lespace detat.
Rappelons lexpression du principe de programmation dynamique (theor`eme 3.3) : si
x IRn \ C, et ]0,T (x)[, alors
#
$
t

(yx,u (t),u(t))e dt + V (yx,u ( ))e


.
(4.4)
V (x) := inf
uU

Nous allons voir une variante de cette formulation qui permet de denir un operateur
dans tout lespace. On note t1 t2 := min(t1 ,t2 ) et

CHAPITRE 4. RESOLUTION
NUMERIQUE
DE LEQUATION
HJB

192

Th
eor`
eme 4.1 (Principe de Programmation Dynamique II) Pour tout x IRn et
> 0, on a V (x) = M V (x), o`
u
# T
$

(yx,u (t),u(t))e dt + <T v(yx,u ( ))e


M v(x) := inf
,
(4.5)
(u,T )

linmum portant sur les couples (u,T ) admissibles.


D
emonstration. La demonstration est similaire a` celle du theor`eme 3.3.

Proposition 4.2 Pour tout > 0, loperateur M est monotone croissant de B(IRn )
dans lui meme, et cest une contraction de rapport e .
D
emonstration. Sachant que  est borne, et donc

 T


t 
1

(y
(t),u(t))e
dt
x,u
  ,


(4.6)

il est clair que M applique B(IRn ) dans lui-meme. La monotonie de M est immediate.
Soient v et v  deux fonctions de B(IRn ). Par une majoration similaire a` (1.26), il vient
|(T v )(x) (T v)(x)| sup e <T |v  (yx,u ( )) v(yx,u( ))| e v  v ,
(u,T )

do`
u la conclusion.

On deduit du resultat precedent lalgorithme (en espace detat continu) diterations


sur les valeurs ci-dessous.
Corollaire 4.3 On peut calculer V par lalgorithme de point xe suivant : xer > 0, et
former la suite Vk+1 = M Vk , en partant de V0 B(IRn ) quelconque. Cette suite verie
Vk+1 V  ek Vk V  .

(4.7)

Nous allons maintenant formuler des schemas numeriques de discretisation de lequation


HJB. Ces schemas se reformulent comme des points xes doperateurs contractants qui
sinterpr`etent comme des discretisations de loperateur M .

4.2
4.2.1

Sch
emas d
ecentr
es et extensions
Dimension despace n = 1

Nous allons chercher `a discretiser lequation HJB en remplacant la derivee en espace


par une dierence nie. Soit x > 0 le pas despace. On note xj := jx. Lespace discret
est {xj ,j Z} = xZ.
On pose := IRn \ C, et on notera Cx et x les discretisations des ensembles C et
, respectivement; ces deux ensembles forment une partition de xZ. Nous supposerons
que
Cx converge vers C, au sens de la distance de Hausdor.
(4.8)

ET EXTENSIONS
4.2. SCHEMAS
DECENTR
ES

193

on rappelle que, si C1 et C2 sont deux parties de IRn , leur distance de Hausdor est


(4.9)
dist(C1 ,C2 ) := max sup dist(c1 ,C2 ), sup dist(c2 ,C1 ) .
c1 C1

c2 C2

On desire approcher V (xj ) par la quantite vj . Notons


D d vj =

vj+1 vj
,
x

D g vj =

vj vj1
,
x

D 0 vj =

vj+1 vj1
,
2x

(4.10)

les dierences divisees a` droite, a` gauche et centrees, respectivement. Laquelle faut-il


prendre pour discretiser lequation HJB?
Lidee essentielle est de sappuyer sur le principe de programmation dynamique, qui
relie les valeurs de V en x et en les points voisins dans la direction de f (x,u). Il convient
donc de decentrer a` droite si f (x,u) est positive, et `a gauche sinon 1 . On obtient ainsi le
schema decentre

$
#
vj+1 vj
vj1 vj

, j x ,
vj = inf (xj ,u) + f (xj ,u)+
+ |f (xj ,u) |
(4.11)
uU
x
x

vj = 0, j Cx .
Exemple 4.4 Soit le probl`eme de transfert en temps minimal a` 0, avec la dynamique
x = u, et la contrainte 1 u 1. Il est naturel de prendre Cx = {0}. La fonction a`
minimiser est lineaire par morceaux : elle atteint son minimum en 0, -1 ou 1. Le schema
decentre secrit donc, pour j = 0,
#
$
vj1 vj vj+1 vj
,
vj = 1 + min 0,
,
(4.12)
x
x
ou encore
(1 + x)vj = x + min {vj1 ,vj ,vj+1 } ,

(4.13)

formule a` partir de laquelle on peut expliciter la valeur de vj pour tout j Z.

4.2.2

Forme de point xe contractant

Nous allons reecrire le schema (4.11) sous une forme de point xe contractant, ce qui
permettra de verier quil a une solution unique. Cette reecriture fait apparatre un pas
de temps t > 0 ctif.
Multipliant (4.11) par t > 0, ajoutant vj `a chaque membre, et divisant par (1+t),
il vient


#
t
1
vj = (1 + t) inf t(xj ,u) + 1
|f (xj ,u)| vj
uU
x
$
(4.14)
t
t
|f (xj ,u) |vj1 +
f (xj ,u)+ vj+1 .
+
x
x
1. Ce qui traduit le fait que la prise de decision optimale necessite denvisager les consequences de ses
actes.

194

CHAPITRE 4. RESOLUTION
NUMERIQUE
DE LEQUATION
HJB

Nous allons verier que, pour t assez petit, (4.14) est une equation de point xe
monotone et contractant. Notons N(f ) la norme innie de f restreinte a` IRn U,
N(f ) := sup sup |f (x,u)|,
x

(4.15)

uU

et considerons la condition de stabilite


t
N(f ) 1.
(4.16)
x
Remarque 4.5 Si (4.16) est satisfait, la combinaison lineaire de vj1 , vj , et vj+1 apparaissant dans (4.14) est tout simplement une formule dinterpolation lineaire de la valeur
de v au point xj + tf (xj ,u). Ceci permet dinterpreter (4.14) comme une discretisation
du principe de programmation dynamique (4.5), le pas t correspondant a` .
Proposition 4.6 (i) Le schema (4.14) poss`ede une solution unique, telle que
v 1  .

(4.17)

(ii) Si t verie la condition de stabilite (4.16), alors (4.14) est une equation de point
xe contractant pour la norme uniforme
vj  := sup{|vj |,

j Z},

(4.18)

de rapport de contraction (1 + t)1 .


D
emonstration. Soit N t loperateur de point xe du membre de droite de (4.14).
Notons
t
f(xj ,u) :=
f (xj ,u)
x
qui represente une mise `a lechelle de la dynamique. Utilisant (1.26), et le fait que (4.16)
j ,u)| 0, il vient
implique 1 |f(x
.
|(N t v  )j (N t v)j | (1 + t)1 sup (1 |f(xj ,u)|)|vj vj |
uU
/
(4.19)
j ,u) ||v  vj1 | + f(xj ,u)+ |v  vj+1 | .
+|f(x
j1
j+1
Majorant |vi vi |, pour i = j 1,j,j + 1, par v  v on obtient
|(N t v  )j (N t v)j | (1 + t)1 v  v

(4.20)

do`
u (ii). Lexistence et lunicite sont consequence directe de (ii). Enn soit v la solution
de (4.14); utilisant (4.14), pour tout j Z, il vient
|vj | (1 + t)1 [ + v ] ,


do`
u (4.17).

Remarque 4.7 Rien nempeche de considerer loperateur obtenu en prenant dans (4.14)
un pas de temps tj dependant de lindice despace; cela peut etre avantageux dun point
de vue numerique. La condition de stabilite devient
tj
sup |f (xj ,u)| 1,
x uU

pour tout j Z,

et le rapport de contraction est (1 + inf j tj )1 .

(4.21)

ET EXTENSIONS
4.2. SCHEMAS
DECENTR
ES

195

t
N(f ). La
Remarque 4.8 (i) On appelle CFL (Courant-Friedrich-Levy) la quantite x
condition de stabilite (4.16) peut donc senoncer ainsi : le CFL ne doit pas depasser 1.
(ii) La condition de stabilite assure que, pendant le pas de temps t, le syst`eme dynamique
varie au plus de x. Autrement dit, linformation se propage au moins aussi vite dans le
schema numerique que dans le probl`eme dorigine.

Remarque 4.9 Les expressions (4.14) permettent, si la condition de stabilite (4.16) est
satisfaite, dinterpreter le schema decentre comme le principe de programmation dynamique pour le probl`eme de commande optimale dune chane de Markov : voir la remarque
5.19.
Remarque 4.10 Le coecient de contraction, assurant la convergence de lalgorithme,
est (1+t)1 . Compte-tenu de la condition de stabilite, on voit que la constante optimale,
obtenue pour CF L = 1, vaut (1 + x N(f )1 )1 . La convergence devient donc tr`es lente
quand x 0.
Dautres algorithmes sont possibles, en particulier literation sur les politiques (voir la
section 5.1).

4.2.3

Dimension despace quelconque

Le schema decentre monodimensionnel peut se generaliser de multiples mani`eres dans


le cas o`
u n > 1. Donnons seulement la plus nave.
Soient h1 , . . . ,hn les pas despace, strictement positifs. A j Zn , on associe le point
xj IRn de coordonnees ji hi . Notons e1 , . . . ,en la base naturelle de IRn . Le decentrage se
fait, pour chaque composante, suivant le signe de fi (xj ,u); on obtient le schema suivant :

*
n

vj+ei vj
vjei vj
+ |fi (xj ,u) |
fi (xj ,u)+
,
vj = inf (xj ,u) +
uU
hi
hi
i=1
(4.22)
j ;
vj = 0, i C .
Comme dans le cas monodimensionnel, il convient de multiplier (4.11) par un pas de
temps ctif quon notera h0 , et dajouter vj `a chaque membre, ce qui donne


n

h0
|fi (xj ,u)| vj
vj = (1 + h0 )1 inf h0 (xj ,u) + 1
uU
h
i
i=1
*
(4.23)
n
n


h0
h0
+
fi (xj ,u)+ vj+ei +
|fi (xj ,u) |vjei .
h
h
i
i
i=1
i=1
Proposition 4.11 (i) Le schema (4.22) poss`ede une solution unique, telle que
v 1  .

(4.24)

(ii) Si h0 verie la condition de stabilite


h0

n

i=1

sup sup
x

uU

|fi (x,u)|
1,
hi

(4.25)

196

CHAPITRE 4. RESOLUTION
NUMERIQUE
DE LEQUATION
HJB

alors (4.23) est une equation de point xe contractant pour la norme uniforme, de rapport
de contraction (1 + h0 )1 .
D
emonstration. La demonstration est similaire a` celle de la proposition 4.6.

Exemple 4.12 Soit le syst`eme dynamique x = u, avec U = [1,1]n . On a dans ce cas


supx supuU |fi (x,u)| = 1, pour i = 1, . . . ,n, et la condition de stabilite se reduit `a
 1
1

.
h0
h
i
i=1
n

(4.26)

Autrement dit, le pas de temps maximal est dans ce cas la moyenne harmonique des pas
despace.
Remarque 4.13 Le schema aux dierences nies (4.22) fait intervenir le point j et les
2n points voisins de la grille, obtenus en changeant une seule coordonnee de j de 1. Si
n = 2 on parle dun schema a` 5 points.
Remarque 4.14 On peut etendre la remarque 4.5 : le schema, sous la forme (4.23), est
tr`es proche du principe de programmation dynamique (4.5). Sous la condition de stabilite
(4.25), les poids des vjei sinterpr`etent comme les coordonnees barycentriques du point
xj + tf (xj ,u).
Remarque 4.15 Si |f (x,u)| peut prendre des valeurs elevees, la condition de stabilite
oblige a` prendre h0 tr`es petit. Pour eviter cela, on peut adopter des schemas faisant
intervenir des points plus eloignes. Nous en donnons un exemple dans la section suivante.

4.2.4

Discr
etisation par triangulation

Donnons maintenant un procede de discretisation spatiale qui constitue une alternative


interessante aux methodes de dierences nies. Un simplexe de IRn est un poly`edre forme
par lensemble des combinaisons convexes de k + 1 points (appeles sommets) non contenus
dans un hyperplan. Autrement dit, un simplexe est de la forme
 k+1
*
k+1


i xi ; 0,
i = 1 ,
i=1

i=1

o`
u x1 , . . . ,xk+1 , sont des points de IRn non contenus dans un hyperplan. On appelle face du
simplexe lensemble des combinaisons convexes de n des points; la fronti`ere du simplexe
est lunion de ses n + 1 faces.
Considerons une triangulation reguli`ere de IRn realisee par une famille de simplexes
SJ , J IN. Autrement dit, lunion de ces simplexes est egale a` IRn , et lintersection de
deux simplexes est egale a` une face de chacun des deux simplexes. On note S lensemble
des simplexes, et LS lespace des fonctions lineaires sur chaque simplexes. Les fonctions
de LS sont determinees par leur valeur aux sommets des simplexe. On a pour une telle
fonction v
k+1

i (u)v(xj ),
(4.27)
v(xi + h0 f (xi ,u)) =
j=1

4.3. CONVERGENCE DES SCHEMAS


ET ESSAIS NUMERIQUES

197

o`
u les i (u) sont les coecients de la combinaison convexe representant le point xi +
h0 f (xi ,u) dans un des simplexes auquel il appartient (coecients barycentriques), tels
que

xj + h0 f (xj ,u) = k+1
j=1 i (u)xj ;
k+1
(4.28)
0 i (u) 1;
j=1 i (u) = 1.
Le schema associe `a la triangulation est obtenu en ecrivant une sorte de principe de
programmation dynamique discret aux sommets de la triangulation :
#
vj = (1 + h0 )1 inf uU {h0 (xj ,u) + v(xj + h0 f (xj ,u))} , j S ,
(4.29)
j CS ,
vj = 0,
o`
u S et CS sont les ensembles de sommets consideres hors de et dans la cible.
On peut reecrire (4.29) sous la forme v = MS v, avec
#
MSj := (1 + h0 )1 inf uU {h0 (xj ,u) + v(xj + h0 f (xj ,u))} , j S ,
j CS .
MSj := 0,

(4.30)

Loperateur MS est une contraction de rapport (1 + h0 )1 pour la norme du max, ce qui


permet de verier que (4.29) a un point xe unique uniformement borne par 1  .
Remarque 4.16 Ce schema permet de raner la discretisation dans une region donnee,
ce qui nest pas facile avec les dierences nies. De plus il ne comporte pas de condition
restrictive sur le pas de temps ctif, de type CFL.
En revanche son implementation est plus complexe; un point delicat est de reconnatre
rapidement dans quel triangle se trouve le point xj + h0 f (xj ,u).
De plus, si un grand pas de temps permet une convergence rapide du point xe, il
suppose aussi un tr`es grand nombre de triangles.

4.3

Convergence des sch


emas et essais num
eriques

Nous donnons deux resultats de convergence des schemas de dierences nies. Celui
de la section 4.3.1 etablit la convergence uniforme sur les compacts. Celui de la section
4.3.2 fournit une estimation derreur dans le cas o`
u la cible est vide.
On suppose dans lensemble de la section que la cible est vide. On sait alors que la
valeur est uniformement continue (lemme 3.13).

4.3.1

Un argument
el
ementaire de convergence

Notons V la fonction valeur, et v x la solution obtenue pour un pas despace x. La


demonstration utilise de facon essentielle les limites inferieure et superieure
v(x) := lim sup vjx ,
jxx

x0

v := lim inf vjx .


jxx

(4.31)

x0

Lenonce ci-dessous se limite au cas n = 1, mais la preuve setend facilement au schema


aux dierences nies pour n quelconque, ainsi qu`a la discretisation par triangulation.

198

CHAPITRE 4. RESOLUTION
NUMERIQUE
DE LEQUATION
HJB

Th
eor`
eme 4.17 (Convergence du sch
ema d
ecentr
e) Si C = , alors :
(i) Les fonctions v et v sont egales a` la fonction valeur V du probl`eme standard de
commande optimale en horizon inni (Px ).
(ii) La convergence des valeurs discr`etes est uniforme sur tout compact.
D
emonstration. Nous savons que les solutions discr`etes sont uniformement bornees
1
par  . Les fonctions v et v sont donc bornees. Notons bien que ces fonctions sont
denies en chaque point, et non presque partout. De la denition de v et v, on deduit
aisement que v est semi continu superieurement (s.c.s.), et v est semi continu inferieurement (s.c.i.).
La denition de v et v implique v v. Il sut alors de montrer que v est sous
solution, et que v est sur solution. En eet, dapr`es le principe dunicite forte, ceci implique
u legalite de ces trois fonctions. La convergence des valeurs discr`etes
v V v, do`
uniforme sur tout compact se verie alors facilement avec une preuve par labsurde.
On se contentera de montrer que v est sous solution, le fait que v soit sur solution se
demontrant de mani`ere analogue.
Soit x0 un point de maximum local de v . Il existe donc r > 0 tel que v atteint
0 ,r) (la boule fermee de centre x0 et rayon r). Ajoutant
en x0 son maximum sur B(x
2
x x0  `a si necessaire, on peut supposer que
0 ,r).
v(x0 ) = (x0 ) et v(x) < (x) si x = x0 , x B(x

(4.32)

Par denition de v(x0 ), il existe des suites xk 0 et jk Z telles que


k
jk xk x0 et v(x0 ) = lim vjx
.
k

Soit ik Z tel que


k
k
0 ,r).
vjx
(xj  ) vix
(ik xk ), j  = j; xj  B(x

k

(4.33)

Extrayant si necessaire une sous suite, on peut supposer que ik x x, et necessairement |


x x0 | r. Par denition de v, on a :
k
k
(jk x) lim sup vix
(ik x) v(
x) (
x). (4.34)
v(x0 ) (x0 ) = lim vjx
k
k

k
Ceci, joint `a (4.32), montre que x = x0 et aussi v(x0 ) = limk vix
. Combinant (4.11) et
k
(4.33), il vient
#
((ik + 1)x) (ik x)
xk
vik inf
(xik ,u) + f (xik ,u)+
uU
x
$
((ik 1)x) (ik x)
+|f (xik ,u) |
.
x

Puisque ik x x = x0 , passant a` la limite quand x 0, on obtient :

v (x0 ) + H(x0 ,D(x0 )) 0,


ce qui prouve que v est sous solution.

(4.35)


4.3. CONVERGENCE DES SCHEMAS


ET ESSAIS NUMERIQUES

4.3.2

199

Estimation derreur

Dans cette section on suppose que la cible est vide, et on donne une estimation de
lerreur de discretisation. On note par v h la fonction telle que v h (xj ) = vj o`
u {vj ; j
n
Z } est la solution du schema avec les pas h1 , . . . ,hn . On remarquera le lien entre la
demonstration ci-dessous et celle du theor`eme 3.31 2 .
Th
eor`
eme 4.18 Soit ]0,1[ une constante de H
older de V . Alors il existe C > 0 tel
n
que, pour tout (h1 , . . . ,hn ) (IR+
) , on a

/2
h
.
(4.36)
sup |V (x) v (x)| C max hi
1in

xIRn

D
emonstration. Soit 0 < < 1; posons
(x) := 2 |x|2 , x IRn .

(4.37)

ainsi que
(x,y) := v h (x) V (y) + (x y), (x,y) IRhn IRn .
Soit (0,1), et notons IRhn = {(j1 h1 , . . . ,jn hn ); j Zn }.. Puisque V et v h sont bornees,
il existe (x1 ,y1 ) dans IRhn IRn tel que
(x1 ,y1 ) > sup .

(4.38)

Soit C0 (IR2n ) tel que


(x1 ,y1 ) = 1,

0 1, |D| 1,

(4.39)

et posons
(x,y) = (x,y) + (x,y), (x,y) IRhn IRn .

(4.40)

Alors atteint son maximum sur IRhn IRn en un point (xo ,yo ) du support de . Autrement
dit,
(4.41)
(xo ,yo ) (x,y), pour tout (x,y) IRhn IRn .
En particulier, y (xo ,y) atteint son minimum en yo . Par denition dune solution
de viscosite, il existe u U tel que
V (yo ) + f (yo,u ). (D (xo yo ) Dy (xo ,yo )) (yo ,u ) 0.
Puisque xo appartient `a IRhn , il existe j Zn tel que xo = xj . On a avec (4.22)


vj+ei vj

vj vjei
fi (xj ,u )+
.
vj (xj ,u ) +
+ |fi (xj ,u )|
hi
hi
i
Utilisant (4.41) avec x = x0 hi ei et y = yo , nous obtenons
vjei vj (x0 y0 ) + (x0 ,y0 )
(x0 hi ei y0 ) (x0 hi ei ,y0 )

(x0 y0 )(hi ei ) + 2h2i + hi .
2. La demonstration du theor`eme etant technique, on pourra ladmettre en premi`ere lecture.

(4.42)

(4.43)

200

CHAPITRE 4. RESOLUTION
NUMERIQUE
DE LEQUATION
HJB

Multiplions cette inegalite (dans laquelle = ) par fi (xj ,u )+ /hi ; et (avec = +)) par
|fi (xj ,u ) |/hi ; ajoutons ces inegalites `a (4.43); il vient
vj (xj ,u )  (x0 y0 )f (xj ,u ) + 2 O(max hi ) + O().
i

(4.44)

Soustrayant (4.42) de linegalite precedente, nous obtenons


(vj V (y0 )) ((x0 ,u ) (y0 ,u ))
+ (x0 y0 )(f (y0 ,u ) f (x0 ,u )) + 2 O(max hi ) + O().
i

Combinant avec les relations


(x0 ,u ) (y0 ,u ) = O(|x0 y0 |),
f (x0 ,u ) f (yo,u ) = O(|x0 y0 |),

(4.45)
(4.46)

et prenant = O(h), il vient





|xo yo |2 maxi hi
+
v (xo ) V (yo ) C |xo yo | +
.
2
2
h

(4.47)

De ab 12 (a2 + b2 ) on deduit que


|xo yo | =

|xo yo |
|xo yo |2
12 (2 +
).

Avec (4.47), nous obtenons





|xo yo |2 maxi hi
+
.
v (xo ) V (yo ) C +
2
2
h

Or
sup v(x0 ) w(y0)

(4.48)

|xo yo |2
,
2

donc

|xo yo |2
sup v inf w sup
2
ce qui prouve que |x0 y0 | 0. Prenant x = y = x0 dans (4.41), et utilisant le fait que
V est holderienne de constante , il vient
1
|xo yo |2 V (x0 ) V (y0 ) + |xo yo | K|xo yo | ,
2
pour un certain K independant de et h. De l`a
2

|xo yo| K 2 ,
Donc, avec (4.48),


v (xo ) V (yo ) K
h

2
2


maxi hi
+
.
2

(4.49)

4.3. CONVERGENCE DES SCHEMAS


ET ESSAIS NUMERIQUES

201

Prenant = (maxi hi )(2)/4 , on obtient


/2

.
v h (xo ) V (yo ) K max hi

(4.50)

Prenant = O(maxi hi ), il vient



/2
sup(v h V ) sup v h (x0 ) V (y0 ) + O(max hi ) O max hi
i

(4.51)

do`
u linegalite recherchee.
Linegalite inverse se prouve de mani`ere similaire, en maximisant la fonction
(x,y) := V (y) v h (x) + (x y), (x,y) IRhn IRn .
Pour (0,1), on a encore lexistence de (x1 ,y1 ) dans IRhn IRn satisfaisant (4.38).
Denissant et par (4.39) et (4.40) on obtient (4.41). Puisque xo appartient `a IRhn , il
existe j Zn tel que xo = xj . On poursuit de la meme mani`ere en faisant intervenir la

commande u U realisant le minimum dans lexpression (4.22) du schema.
Remarque 4.19 Si est assez grand, une variante de la demonstration du lemme 3.13
permet de montrer que V est lipschitzien. Dans ce cas on a une estimation derreur sur
V de lordre de O(t1/2 ).
Remarque 4.20 On trouvera la discussion dautres schemas numeriques dans lannexe
du livre [4], due a` M. Falcone.

4.3.3

Equation eikonale

0.920
0.736
0.552

0.056

0.056

0.368
0.042
0.042

0.184

0.028
0.014

0.000

0.028
0.014

0.014
0.028

-0.184

0.014
0.028
0.042

0.042
-0.368

0.056

0.056

-0.552
-0.736
-0.920
-0.920

-0.736

-0.552

-0.368

-0.184

0.000

0.184

0.368

0.552

0.736

0.920

Fig. 4.1 Equation eikonale : erreur sur le temps minimal

202

CHAPITRE 4. RESOLUTION
NUMERIQUE
DE LEQUATION
HJB

On consid`ere le syst`eme dynamique suivant :


x = F (x)u,

(4.52)

o`
u F : IRn IR+ represente la vitesse du milieu. La commande u doit rester dans la
boule unite pour la norme euclidienne. Pour = 0, lequation HJB associee, dite equation
eikonale, est de la forme
#
1 F (x)Dv(x) = 0 dans ,
(4.53)
V (x) = 0, x C.
Dans lexemple numerique, on a pris C = {0}, et F (x) = 1 pour tout x, de sorte que le
temps de transfert est la distance euclidienne `a 0.
Sur la gure 4.1, on a represente les lignes de niveau de la dierence entre solution
calculee et valeur exacte, en limitant le domaine a` [0,0.1] [0,0.1]. La grille est de taille
25 25, et on a eectue 100 iterations sur les valeurs avec = 0. Comme on peut sy
attendre, on observe que les erreurs sont plus importantes dans les coins, en raison de
laccumulation derreurs inherente `a lalgorithme.

4.3.4

Probl`
eme dalunissage

0.600
2.21
0.481

1.96
1.72

0.363

1.47

0.244
0.25

0.125

1.23

0.49

0.006
-0.112

0.74

1.23

0.98
-0.231
1.47
-0.350
1.72
-0.469

1.96
2.21

-0.588
-0.275

-0.215

-0.155

-0.095

-0.035

0.025

0.085

0.145

0.205

0.265

0.325

Fig. 4.2 Probl`eme dalunissage : isovaleurs du temps minimal


Nous reprenons le probl`eme dalunissage discute en section 1.2. Le probl`eme discret
est resolu sur le domaine (z,z)
[1,1] [2,2]. On prend 80 points de discretisation
pour z et on impose t = x. La condition de stabilite impose alors de prendre 320
points de discretisation pour la vitesse. On xe une condition aux limites articielle egale
`a 100 sur le bord.
Les isovaleurs du temps minimal sont representees en gure 4.2. La gure ne reprend
que la partie centrale du domaine, pour eviter les eets dus au caract`ere borne du domaine.

4.4. NOTES

203

0.600
0.483
0.365
0.248
0.130
1

0.013
-0.105
-0.223
-0.340
-0.458
-0.575
-0.275

-0.215

-0.155

-0.095

-0.035

0.025

0.085

0.145

0.205

0.265

0.325

Fig. 4.3 Probl`eme dalunissage : lieu de changement de signe


La gure 4.3 represente le lieu de changement de signe de lestimation numerique de
V / z,
qui en raison du theor`eme 3.14 determine la stategie de feedback. Elle se relie
bien aux isovaleurs de la gure 4.3. On la comparera a` la gure 1.1 qui donne le lieu de
changement de signe de la commande optimale.

4.4

Notes

La demonstration de convergence du theor`eme 4.17 reprend G. Barles and P. E. Souganidis [6]. Lestimation derreur du theor`eme 4.18 suit Capuzzo-Dolcetta et Ishii [16].
Une estimation analogue, dans le cas parabolique, se trouve dans M. G. Crandall and
P.-L. Lions [14].

204

CHAPITRE 4. RESOLUTION
NUMERIQUE
DE LEQUATION
HJB

205

Chapitre 5
Commande optimale stochastique
5.1
5.1.1

Chanes de Markov command


ees
Quelques exemples

Un exemple classique de commande de chanes de Markov est la gestion de stock : les


achats des clients arrivent de mani`ere aleatoire, et la commande consiste a` reapprovisionner,
avec paiement de penalites pour tout achat non honore. Autre exemple, la maintenance
dun parc doutils de production. Letat du syst`eme est lensemble des outils en etat de
fonctionnement, et la commande consiste a` eectuer les reparations des outils en panne.
Il sagit au fond de conception de syst`emes ables.
Enn les probl`emes de commande optimale (deterministes ou stochastiques) en espace
continu (et temps continu ou discret) resolus en discretisant lequation HJB reviennent,
comme on le verra, a` resoudre un probl`eme de commande dune chanes de Markov. En
particulier, les probl`emes devaluation doptions nanci`ere, didentication de volatilite
implicite, et de gestion de portefeuille sont de cette nature.

5.1.2

Chanes de Markov et valeurs associ


ees

Considerons un syst`eme dynamique dont letat peut prendre un nombre ni ou denombrable


de valeurs, soit 1, . . . ,m, avec m ni ou non. Il est utile de traiter le cas m = pour
discuter le probl`eme de discretisation de syst`emes continus.
On note xk la valeur de letat au temps k, o`
u k IN. On suppose connue la probabilite
k
Mij de transition de letat i au temps k, `a letat j au temps k + 1. Autrement dit, notant
P la loi de probabilite, on a
P(xk+1 = j|xk = i) = Mijk .

(5.1)

On supposera cette loi markovienne, cest `a dire


P(xk+1 = j|xk = i,xk1 = ik1 , . . . ,x0 = i0 ) = Mijk .

(5.2)

Ceci signie que si on connat la valeur de letat au temps k, la connaissance des etats
passes napporte rien pour la prediction du futur.

206

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

u i et j varient de 1 a` m, est le tableau (ni ou non) de


La matrice M k = {Mijk }, o`
k
valeur Mij en ligne i et colonne j. Tous ses elements sont positifs ou nuls, et la somme
des elements dune ligne vaut 1. Une telle matrice est dite stochastique.
Si m = , lextension naturelle du calcul matriciel : produit de deux matrices, produit
dune matrice avec un vecteur (vertical) `a droite ou (horizontal) a` gauche, et produit de
deux matrices, demande quelques precautions : il faut que les quantites en jeu soient sommables. Plus precisement, soient 1 et  , respectivement, lespace des suites sommables
et bornees, dont les elements sont indices de 1 `a m, et representes comme des vecteurs
horizontaux (pour 1 ) et verticaux (pour  ). Si x 1 et v  , et si M est une matrice
stochastique, on peut denir leur produit xM 1 et Mv  par
(xM)j :=

m


xi Mij ;

(Mv)i :=

i=1

m


Mij vj .

j=1

On a en eet xM1 x1 et Mv v . Si M 1 et M 2 sont deux matrices


stochastiques, on peut denir leur produit M 1 M 2 par
1

(M M )ij :=

m


1
2
Mik
Mkj
.

k=1

Il est facile de verier que le produit de deux matrices stochastiques est une matrice
stochastique. On interpr`etera
*

m

pi = 1
p 1 ; pi 0, i = 1, . . . ,m;
i=1

comme lespace des probabilites pour letat du syst`eme `a un temps donne, et  comme
un espace de valeurs. Cette derni`ere terminologie sera plus claire dans la suite.
Si letat xk du syst`eme `a linstant k est connu, la loi de probabilite de xk+1 est la
ligne de M k dindice xk . Si on dispose seulement dune loi de probabilite pour xk , notee
pk = (pk1 , . . . ,pkm ), et consideree comme un vecteur horizontal, alors la loi de probabilite
de xk+1 verie lequation de Kolmogorov avant

k
pk+1 := P(xk+1 |pk ) =
pki Mi,
= pk M k ,
(5.3)
i

do`
u on deduit par recurrence, si la probabilite initiale est p0 ,
P(xk+1 |p0 ) = p0 M 0 M 1 . . . M k .

(5.4)

Associons maintenant a` ce processus la fonction co


ut {cki }, i = 1, . . . ,m, k IN.
k
k

uts sont
On suppose que c := {ci }i=1,...,m appartient `a  , ce qui veut dire que les co
k
uniformement bornes en espace, et que c est represente comme un vecteur vertical. Soit
ut nal. Denissons la fonction valeur du
une application {1, . . . ,m}  , appelee co
probl`eme avec etat initial i et instant initial k comme
N 1

Vik := IE
cx + (xN ) | xk = i .
(5.5)
=k


5.1. CHAINES DE MARKOV COMMANDEES

207

Ici N > 0 est lhorizon, et IE represente lesperance mathematique.


Proposition 5.1 Pour tout k = 0, . . . ,N, la fonction valeur V k est bien denie et appartient `a  . De plus, la suite {V k } est solution de lequation de recurrence de Kolmogorov
arri`ere
# k
V = ck + M k V k+1 , k = 0, . . . ,N 1,
(5.6)
V N = .
D
emonstration. Si xk a la valeur i, alors dapr`es lequation de Kolmogorov avant
Vik = cki +

m


Mijk Vjk+1 ,

j=1

do`
u le resultat.

Considerons maintenant un probl`eme avec c = c  et M = M independants du


temps, horizon inni, et taux dactualisation ]0,1[. La valeur de ce probl`eme, cest `a
dire


Vi := IE
k+1cxk |x0 = i ,
(5.7)
k

k=0

est bien denie et appartient `a  . En raison de lequation de Kolmogorov avant, elle est
solution de lequation
V = (c + MV ).
(5.8)
Comme M est lipschitzienne de constante 1, cette equation est celle dun operateut de
point xe strictement contractant et a donc une solution unique.

5.1.3

Quelques lemmes

Commencons par le rappel du theor`eme de point xe de Banach-Picard.


Lemme 5.2 Soient X un espace de Banach et C une partie fermee de X. Soit T un
operateur contractant de C vers lui meme. Autrement dit, il existe c [0,1[ tel que, si
xi C, i = 1,2, alors T xi C, i = 1,2, et
T x2 T x1  cx2 x1 .

(5.9)

Alors T a un unique point xe x C (c.a.d. lequation T x = x a pour solution unique


x ). De plus, quel que soit x0 C, la suite {xk } telle que xk+1 = T xk converge vers x , et
xk x  ck x0 x .

(5.10)

Voici un autre lemme, qui sera utile a` plusieurs reprises.


Lemme 5.3 Soit M une matrice stochastique, ]0,1[, > 0 et w  tels que w
1 + Mw. Alors w (1 )11.
D
emonstration. On a Mw (sup w)1 puisque M est une matrice stochastique, et
donc w ( + sup w)1. En consequence, sup w + sup w, do`
u la conclusion.


CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

208

5.1.4

Principe de Programmation dynamique

Considerons maintenant une chane de Markov dont les probabilites de transition


Mij (u) dependent dune variable de commande u Ui , o`
u Ui est un ensemble quelconque
dependant de letat i (certains resultats supposeront Ui metrique compact). Donnons nous
des co
uts dependant de u et de letat, soit cki (u) : Ui IR, telle que
sup sup sup |cki (u)| < .
u

(5.11)

On consid`ere le probl`eme de minimisation du crit`ere sur horizon ni


N 1

Vik (u) := IE
cx (uk ) + (xN )|xk = i .

(5.12)

=k

Ici uk est la valeur de la commande au temps k; pour donner un sens `a ce probl`eme, il


faut specier linformation dont on dispose au temps k pour choisir la valeur de uk . Nous
allons nous limiter au cas de lobservation compl`ete, dans lequel letat xk est connu. Ceci
ur du temps k. Autrement dit, on
permet de choisir uk fonction de letat xk , et bien s
choisit une strategie de retour detat. Posons
U := i Ui .

(5.13)

On notera ui la commande adoptee (au temps k) par la strategie feedback u U si letat


est i, et M(u) la matrice de terme generique Mij (ui ). On consid`ere donc le probl`eme
de calcul dun retour detat optimal
Vik := inf Vik (u), i = 1, . . . ,m. k = 1, . . . ,N.
uU

(5.14)

Proposition 5.4 La fonction valeur V k , solution du probl`eme (5.14) avec observation


compl`ete, est solution du principe de programmation dynamique

*

V k = inf ck (u) +
Mijk (u)V k+1 , i = 1, . . . ,m, k = 0, . . . ,N 1,
i
i
uUi
(5.15)
j

N
V = .
De plus, lensemble Uik (eventuellement vide) des commandes optimales a` linstant k
lorsque xk = i est

*

Uik = argmin cki (u) +
Mijk (u)V k+1 .
(5.16)
uUi

D
emonstration. On raisonne par recurrence. Il est clair que V N = . Fixons k < N
et i {1, . . . ,m}. Si xk = i, dapr`es lequation deKolmogorov arri`ere, le choix de la
commande u `a linstant k donne la valeur cki (u) + j Mijk (u)V k+1 . On obtient donc Vik
en prenant linmum de cette quantite, et une commande est optimale si elle appartient
`a largument du minimum. De plus la quantite
V k  sup ck (u) + V k+1 
u

est bien bornee.


5.1. CHAINES DE MARKOV COMMANDEES

5.1.5

209

Probl`
emes `
a horizon inni

Dans cette section, nous supposons la fonction co


ut et la matrice de transition independantes du temps, notees c(u) et M(u), et le co
ut actualise avec un coecient ]0,1[.
Le theor`eme suivant caracterise les politiques optimales, et montre en particulier quon
peut se limiter aux politiques feedback stationnaires (la commande ne depend que de
letat mais pas du temps).
Th
eor`
eme 5.5 (i) Dans le cas de lobservation compl`ete, la fonction valeur denie par

*

Vi := inf IE
k+1cxk (uk )|x0 = i , i = 1, . . . ,m,
(5.17)
uU

k=0

o`
u ]0,1[, est solution unique de lequation de programmation dynamique : trouver v
IRm tel que

*

Mij (u)v , i = 1, . . . ,m.
(5.18)
vi = inf ci (u) +
uUi

(ii) Soit 0 et u U une politique telle que, pour tout i,




ci (ui ) +
Mij (ui )v vi + 1.

(5.19)

Posons  := (1 )1 . Alors la politique u est  sous optimale, dans le sens o`


u la valeur
associee V satisfait
(5.20)
V v +  1.
(iii) Supposons, pour tout i et j, Ui metrique compact et les fonctions ci (u) et Mij (u)
continues. Alors il existe (au moins) une politique optimale.
D
emonstration. a) Montrons dabord que (5.18) poss`ede une solution unique. Cette
equation est de la forme v = T v, avec
*


(T w)i := inf ci (u) +
Mij (u)w .
(5.21)
uUi

Montrons que T est un operateur contractant dans  . On a


T w (c + w),
ce qui montre que T est un operateur de  dans lui meme. Avec (1.26) et etant donnes
w et w  dans  , utilisant le fait que la somme des elements dune ligne de M(u) vaut 1,
il vient :
m


|(T w )i (T w)i | sup
|Mij (u)(w  w)j | w  w .
uUi j=1

En consequence, T est une contraction de rapport dans  . Il decoule alors du lemme


5.2 que lequation (5.18) a une solution unique v .

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

210

b) Soit u U une politique et V la valeur associee, solution de V = (c(u) + M(u)V ).


Montrons que v V . En eet, soit i {1, . . . ,m}. Utilisant

il vient

v (c(u) + M(u)v ),

(5.22)

v V M(u)(v V ).

(5.23)

Le lemme 5.3 assure que v V , comme il fallait le demontrer. Nous avons montre (i).
c) Soit 0. Si > 0, par denition de v , il existe une politique u telle que ui satisfait
(5.19) pour tout i. Revenons au cas general o`
u 0. Notons V la valeur associee `a la

politique u. Utilisant V = (c(


u) + M(
u)V ) et (5.19), il vient
V v 1 + M(
u)(V v ).

(5.24)

On en deduit (5.20) avec le lemme 5.3. Dautre part, on sait que v V pour toute valeur
V associee `a une politique.
(iii) Dapr`es le point (ii), lexistence dune politique optimale equivaut a` la possibilite
datteindre, pour tout etat i, linmum dans (5.18). Montrons que ceci est consequence
des hypoth`eses du point (iii).
Pour i xe, notons {uq } une suite minimisante. Puisque U est metrique compact,
extrayant une sous-suite si necessaire, on peut supposer que la suite converge vers u
U. A tout ]0,1[,on peut associer une partition (I,J) de {1, . . . ,m}, telle que I est
de cardinal ni et iI Mij (
u) 1 12 . Puisque I est ni, pour q assez grand, on a

q
q
a
iI Mij (u ) 1 , et donc
iJ Mij (u ) . De l`








q
q
Mij (ui )V cj (
ui )
Mij (
ui )V )
:= lim sup(ci (ui ) +

 q
j
j







(Mij (uq )Vj Mij (
u)Vj )
= lim sup

 q
jJ

lim sup
|Mij (uq ) Mij (
u)|V  2V  .
q

jJ

Ceci prouve que


(c(
u) + M(
u)V )i = inf (c(u) + M(u)V )i ,
uU

(5.25)

do`
u (iii).


5.1.6

Algorithmes num
eriques

Dans le cas de probl`emes avec horizon inni, on peut mettre en uvre un algorithme
iteratif de calcul de v `a partir du principe de programmation dynamique. La methode la
plus simple est literations sur les valeurs

*

q+1
q
vi = inf ci (u) +
Mij (u)vj , i = 1, . . . ,m, q IN.
(5.26)
uU


5.1. CHAINES DE MARKOV COMMANDEES

211

Ici v q (`a ne pas confondre avec la notation v k employee dans le cas de lhorizon ni)
represente la suite formee par lalgorithme.
Proposition 5.6 Lalgorithme diteration sur les valeurs converge vers la solution unique
v de (5.18), et on a
(5.27)
v q v  q v 0 v  .
D
emonstration. Soit T loperateur construit en (5.21). Nous avons montre (demonstration du theor`eme 5.5) que T est contractant de rapport dans la norme du max.
Lalgorithme diteration sur les valeurs secrit v q = T v q1 . On conclut avec le lemme 5.2.

Dans le cas assez frequent o`
u est proche de 1, lalgorithme diteration sur les valeurs peut etre tr`es lent. Une alternative interessante est lalgorithme diterations sur les
strategies, ou algorithme de Howard. On fera lhypoth`ese suivante :
#
U est metrique compact
(5.28)
Les fonctions ci (u) et Mij (u) sont continues pour tout i et j.
Chaque iteration de lalgorithme comporte deux etapes :
Etant donne une strategie uq U, calculer la valeur v q associee, solution de lequation
lineaire
v q = (c(uq ) + M(uq )v q ).
(5.29)
Calculer uq+1 solution de

arg min ci (u) +


uq+1
i
uUi

*
Mij (u)vjq

, i = 1, . . . ,m.

(5.30)

Proposition 5.7 On suppose (5.28). Alors lalgorithme diterations sur les politiques,
initialise avec une politique u0 U quelconque, a les proprietes suivantes :
(i) Il est bien deni,
(ii) La suite v q decrot,
u v est la fonction valeur, unique solution
(iii) Elle verie v q+1 v  v q v , o`
du principe de programmation dynamique (5.18).
D
emonstration. (i) Verions que lalgorithme est bien deni. Le syst`eme lineaire
(5.29) a une solution unique, car cest lequation de point xe dun operateur contractant
(lemme 5.2). Utilisant les arguments de la demonstration du theor`eme 5.5, on verie que
le minimum dans la seconde etape est atteint en raison de (5.28).
Par ailleurs, la suite v q est bornee dans  car la relation
v q  (c(uq ) + M(uq )v q  ) (c(uq ) + v q  )
donne lestimation

v q  (1 )1c .

(ii) Les relations (5.29) et (5.30) impliquent


1 (v q+1 v q ) = c(uq+1 ) + M(uq+1 )v q+1 c(uq ) M(uq )v q ,
c(uq+1 ) + M(uq+1 )v q+1 c(uq+1 ) M(uq+1 )v q ,
= M(uq+1 )(v q+1 v q ),

(5.31)

212

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

et donc v q+1 v q 0 dapr`es le lemme 5.3.


(iii) Notons vq+1 la valeur calculee `a partir de v q , par literation sur les valeurs. On
sait que 
v q+1 v  v q v . Puisque v v q+1 , il sut detablir que v q+1 vq+1 .
Or
1 (v q+1 vq+1 ) = c(uq+1) + M(uq+1 )v q+1 (c(uq+1) M(uq+1 )v q ),
= M(uq+1 )(v q+1 v q ).
Dapr`es le point (ii), v q+1 v q ; donc v q+1 vq+1 .

Remarque 5.8 La demonstration precedente montre que literation sur les politiques
converge au moins aussi vite que literation sur les valeurs.

5.1.7

Probl`
emes de temps de sortie

Soit une partie de {1, . . . ,m}, et considerons une chane de Markov (sans commande)
de matrice de transition M. Soit le premier instant de sortie de :
:= min{k IN; xk }.

(5.32)

Bien entendu, est une variable aleatoire. On consid`ere la fonction valeur, o`


u i
{1, . . . ,m} :
 1

k+1 cxk + x |x0 = i .
(5.33)
Vi := IE
k=0

Proposition 5.9 On suppose c et dans  . Alors lesperance ci-dessus est bien denie,
et La fonction valeur du probl`eme de temps de sortie appartient aussi a`  , et est solution
unique de lequation


v = c +  M v , i ,
i
i
ij j
(5.34)
j

vi = i ,
i .
D
emonstration. Elle est similaire `a celle des propositions precedentes.

Considerons maintenant le cas de la chane de Markov commandee de probabilite de


transition Mij (u), avec u Ui , ensemble metrique compact, et les fonctions ci (u) et Mij (u)
continues. On consid`ere le probl`eme de minimisation du crit`ere avec temps de sortie
 1
*

Vi := inf IE
k+1 c(u)xk + x |x0 = i ,
(5.35)
uU

k=0

dans le cas de lobservation compl`ete.


Remarque 5.10 Si c est le vecteur de coordonnees toutes egales a` 1, et si est nul, alors
le crit`ere sinterpr`ete comme une mesure du temps de sortie. Le probl`eme est alors dit `a
temps minimal.


5.1. CHAINES DE MARKOV COMMANDEES

213

Proposition 5.11 On suppose supuU |ci (u)| ni et borne. Alors la fonction valeur
du probl`eme avec temps de sortie est solution unique de lequation de la programmation
dynamique

*

v = inf c (u) +
Mij (u)vj , i ,
i
i
uUi
(5.36)
j

i .
vi = i ,
D
emonstration. Elle est similaire `a celle des propositions precedentes.

Lextension des algorithmes diterations sur les valeurs et sur les politiques `a la situation etudiee ici ne presente pas de diculte.

5.1.8

Probl`
emes avec d
ecision darr
et

Nous etudions un probl`eme de commande similaire a` celui de la sous-section precedente,


ajoutant la possibilite darret `a tout instant, avec un co
ut darret IRm .
Soit une partie de {1, . . . ,m}, et soient une chane de Markov commandee de matrice
de transition Mij (u), avec u U, ensemble metrique compact, et les fonctions c(u) et
Mij (u) continues. On note le premier instant de sortie de , et linstant de decision
darret. Posons
#
1 si < ,
< =
0 sinon ,
et adoptons une convention similaire pour . On consid`ere le probl`eme de minimisation
du crit`ere avec temps darret
 1
*

k+1 c(u)xk + < x + x |x0 = i ,
(5.37)
Vi := inf IE
uU

k=0

dans le cas de lobservation compl`ete.


Remarque 5.12 Le cadre de cette section recouvre plusieurs situations interessantes : (i)
ensemble egal a` lespace detat, (ii) Ui reduit `a un point pour tout i : la seule decision
est darreter ou non, (iii) strategie optimale pouvant etre de ne jamais arreter le jeu.
Th
eor`
eme 5.13 On suppose supuU |ci (u)| ni et et borne. Alors la fonction valeur
v du probl`eme de temps darret est solution unique du syst`eme

*


(i) v = min inf c (u) +


Mij (u)vj ,i , i ,
i
i
uUi
(5.38)
j

(ii) vi = i ,
i .
D
emonstration. La demonstration est similaire a` celle des sections precedentes;
contentons-nous de demontrer que lequation 5.38 a une solution unique v . Denissons
loperateur T de IRm dans lui meme par


*

(T v) = min inf c (u) +


Mij (u)vj ,i , i ,
i
i
uUi
(5.39)
j

i ,
(T v)i = i ,

214

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

alors pour la norme du max, T est une contraction stricte de rapport , et a donc un
unique point xe v . Ceci etablit lexistence et lunicite de la solution de (5.38).

Les arguments qui prec`edent assurent la convergence de lalgorithme diterations sur
les valeurs, qui secrit, en reprenant les notations de (5.39),
v q+1 = T (v q ),
ou encore

(5.40)



*

q+1
q
v
= min inf ci (u) +
Mij (u)vj ,i
i
uUi
j

q+1
vi = i ,

, i ,

(5.41)

i .

En ce qui concerne lalgorithme diterations sur les politiques, on peut ecrire un algorithme de principe sous la forme suivante :
1. Choisir arbitrairement la strategie initiale u0 U.
Poser q := 0.
2. Etant donne une strategie uq U, calculer v q solution de
 
*

v q = min c (uq ) +
Mij (uqi )vjq ,i , i ,
i i
i
(5.42)
j

q
i .
vi = i ,
3. Calculer uq+1 solution, pour tout i, de

uq+1
arg min ci (u) +
i
uUi

*
Mij (u)vjq

(5.43)

4. q := q + 1, aller en 1.
Nous admettons la proposition suivante, dont la demonstration, extension de celle de
la proposition 5.7, utilise (1.27).
Proposition 5.14 Lalgorithme ci-dessus, initialise avec une politique u0 U quelconque, est bien deni, et forme une suite de valeurs v q decroissante, et qui verie
u v est solution unique de (5.38).
v q+1 v  v q v , o`

5.1.9

Un algorithme impl
ementable

Lalgorithme diterations sur les politiques que nous venons de presenter necessite
`a chaque iteration la resolution de lequation non lineaire (5.42), ce qui peut etre tr`es
co
uteux. Nous allons formuler un autre algorithme, iterant sur les politiques, dans lequel
on ne resout quune equation lineaire `a chaque iteration. Lidee est de calculer v q solution
de lequation lineaire


q
q

Mij (uqi )vjq , i I q ,


vi = ci (ui ) +
j
(5.44)
q
q

v
=

,
i

\
I
,
i

iq
i .
vi = i ,


5.1. CHAINES DE MARKOV COMMANDEES

215

Lensemble I q , inclus dans , est une prediction des etats i pour lesquels la contrainte
vi i nest pas active a` loptimum. Il doit etre mis a` jour. Ceci conduit a` lalgorithme
suivant :
1. Choisir arbitrairement la strategie initiale u0 U.
Calculer v0 solution de lequation lineaire


v0 = c (u0 ) +  M (u0 )
v0

ij

, i ,

vi0

(5.45)

i .

= i ,

Calculer v 0 comme suit :


#

vi0 ,i ), i ,
vi0 = min(
0
vi = i ,
i
.

(5.46)

I 0 := {i ; vi0 < i }.

(5.47)

Poser q := 0 et
2. Faire q := q + 1. Calculer uq solution de

*

Mij (u)vjq1 , i = 1, . . . ,m.
uqi arg min ci (u) +
uUi

(5.48)

3. Poser

I q := I q1

i ;


ci (uqi )

*
Mij (uqi )vjq1

< i

(5.49)

4. Calculer v q , solution de lequation lineaire (5.44).


Aller en 2.
Proposition 5.15 Lalgorithme ci-dessus forme une suite de valeurs v q decroissant vers
la solution unique v de (5.38).
D
emonstration. a) Montrons la decroissance de v q . Sil nen est pas ainsi, soient
q IN et i tels que viq+1 viq > 0. Etant donne > 0, on peut supposer que
(v q+1 v q )i supj (v q+1 v q )j . Par ailleurs, i I q+1 (sinon viq+1 et viq sont egaux a`
i ). Donc


q+1
vi = ci (uq+1
)
+
Mij (uq+1
)vjq+1 .
(5.50)
i
i
j

Posons w := v q+1 v q , et distinguons deux cas. Si i I q , alors




q
Mij (uqi )vjq ,
vi = ci (uqi ) +
j

(5.51)

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

216
et donc avec (5.48)


ci (uq+1
)+
i

wi =


Mij (uq+1
)vjq+1 ci (uqi )
i

Mij (u

q+1

Mij (uqi )vjq

)wj

(5.52)

(wi + ),

ce qui donne la contradiction recherchee pour > 0 assez petit.


Si, au contraire, i I q , alors viq = i et, par denition de I q+1 , on a


)+
Mij (uq+1
)vjq < i = viq .
ci (uq+1
i
i

(5.53)

Donc


wi =

ci (uq+1
)+
i

Mij (uq+1
)vjq+1
i

i ,

i




q+1 q+1
q+1
q+1 q
ci (uq+1
)
+
M
(u
)v

c
(u
)

M
(u
)v
,
ij
i i
ij
i
i
j
i
j
j
j
j

(5.54)

ce qui permet de conclure de la meme mani`ere.


b) On peut montrer, par des arguments dej`a employes, que la suite v q est bornee. Puisquelle est decroissante, elle converge vers une valeur v. De meme, I q etant croissant,
converge vers un certain I . Enn par compacite on a la convergence de uq vers u U
pour une sous suite. Passant a` la limite dans (5.44) 1 , il vient





ui ) + j Mij (
ui )
vj , i I ,
vi = ci (
(5.55)
i \ I ,
vi = i ,

i .
vi = i ,
De plus la decroissance de v q implique
vi i , i I ,
et le passage a` la limite dans (5.49) donne


ui ) +
Mij (
ui )
vj
ci (

i , i \ I .

(5.56)

(5.57)

Les trois relations ci-dessus impliquent que v est solution de (5.38), donc est egale a` la
fonction valeur v.

Remarque 5.16 Lalgorithme presente dans cette section peut saverer lent si la mise
`a jour de lensemble I q nest pas assez ecace. On peut y remedier, soit en introduisant
quelques iterations sur les valeurs (peu co
uteuses, comparees `a la resolution du syst`eme
(5.45)), soit en sinspirant des algorithmes de resolution de probl`emes de complementarite
lineaire, par exemple ceux bases sur les points interieurs.
1. Par des arguments similaires a` ceux employes dans la demonstration du theor`eme 5.5(iii).

`
5.2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS

5.2
5.2.1

217

Probl`
emes en temps et espace continus
Position du probl`
eme

Etudions le probl`eme de commande optimale stochastique

Min IE
(y(t),u(t))et dt;

(Px )
dy(t) = f (y(t),u(t))dt + (y(t),u(t))dw, u(t) U, t [0,[,

y0 = x.
Dans ce probl`eme nous retrouvons les ingredients du probl`eme de commande optimale
deterministe : le taux dactualisation > 0, les fonctions  : IRn IRm IR et f :
IRn IRm IRn , tandis quapparaissent (,), application de IRn IRm vers lespace
des matrices de taille n r, et w, brownien standard de dimension r. On suppose dans la
suite , f et lipschitziens et bornes.
Rappelons quun mouvement brownien standard (scalaire) sur lintervalle de temps IR+
est une variable aleatoire IR+ IR telle que (i) ses accroissements sont independants,
(ii) w(0) est gaussien de moyenne nulle, et (iii) si 0 s t < , alors w(t) w(s) est
gaussien de moyenne nulle et variance t s. Un brownien standard de dimension r est un
vecteur aleatoire dont les composantes sont des mouvement brownien standard scalaires
independants.
Letude de ce probl`eme comporte deux phases : lanalyse mathematique, qui conduit a`
une equation HJB avec un operateur dierentiel du second ordre, et lanalyse numerique
de cette equation HJB. Nous allons commencer par presenter une version en temps discret
du probl`eme, qui permettra une derivation formelle de lequation HJB.

5.2.2

Probl`
eme discr
etis
e en temps

Soit h0 > 0 le pas de temps. Considerons le probl`eme de commande optimale stochastique en temps discret et espace continu :

*

k1

Min IE h0
(1 + h0 )
(yk ,uk ) ;

k=0

(Pxh0 )

y
=
y
+
h
f
(y
,u
)
+
h0 (yk ,uk ) wk , uk U, k IN;

k+1
k
0
k
k

y0 = x.
Ici w k IRr est un vecteur aleatoire dont les coordonnees sont des tirages independants

de 1 avec probabilites egales, donc de moyenne nulle et variance unite. Le terme h0 fait
que, pour h0 assez petit, si la i`eme ligne de (yk ,uk ) nest pas nulle, alors lessentiel de la
variation de la i`eme composante
k1 1de letat est due au bruit. Par ailleurs si 0 s t < ,
s = k0 h0 et t = k1 h0 , alors k=k0 w k est une variable asymptotiquement gaussienne, de
moyenne nulle et variance t s, ce qui est coherent avec le probl`eme continu.

218

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

A la dierence du cas deterministe, il faut preciser quelle information est disponible


quand on prend la decision uk `a linstant k. Par exemple, si les tirages sont connus
davance, on se retrouve dans une situation deterministe. En general le tirage wk nest
pas determine jusqu`a linstant k + 1; linformation sur ce tirage et sur letat yk peut etre
totale, partielle ou nulle. Il y a donc une variete de situations possibles.
Dans la suite nous supposerons que la decision uk se fait en connaissant letat yk , mais
pas les tirages wi , pour i k : cest le cas dit de lobservation compl`ete. Compte tenu de
linvariance en temps du probl`eme, ceci conduit `a chercher une commande sous forme de
retour detat (feedback). Autrement dit lensemble U des commandes admissibles est celui
des applications u = u(y) de IRn vers U. A u U est associe un co
ut V h0 (x,u) veriant la
relation suivante (noter que lesperance ci-dessous se reduit `a la somme de deux termes)




V h0 (x,u) = (1 + h0 )1 h0 (x,u) + IE V (x + h0 f (x,u) + h0 (x,u)w0 ) . (5.58)
On pose
V h0 (x) := inf V h0 (x,u).
uU

(5.59)

Le principe de programmation dynamique secrit


.

/

h0
1
V (x) = (1 + h0 ) inf h0 (x,u) + IE V (x + h0 f (x,u) + h0 (x,u)w0 ) . (5.60)
uU

Supposons V h0 de classe C 2 , et de derivee seconde uniformement bornees sur IRn , uniformement par rapport a` h0 assez petit. Alors

:= V h0 (x + h0 f (x,u) + h0 (x,u)w
0 ),
= V h0 (x) + h0 DV h0 (x)f (x,u) + h0 DV h0 (x)(x,u)w0
(5.61)
1
2 h0
+ 2 h0 D V (x)((x,u)w0 ,(x,u)w0 ) + o(h0 ).
Si A est une matrice n n et z IRn , on a z T Az = traceAzz T . Utilisant cette relation,
il vient


(5.62)
D 2 V h0 (x)((x,u)w0 ,(x,u)w0 ) = trace D 2 V h0 (x)(x,u)w0 w0T (x,u)T .
Posons
a(x,u) := 12 (x,u)(x,u)T .

(5.63)

La matrice n n a(x,u) est symetrique et semi denie positive. Puisque w est de moyenne
nulle et variance unite, on a, avec la relation precedente :


(5.64)
IE() = V h0 (x) + h0 DV h0 (x)f (x,u) + h0 trace D 2 V h0 (x)a(x,u) + o(h0 ).
Noter que

n
 
 2 h0
aij (x,u)Dx2i xj V h0 (x).
trace D V (x)a(x,u) =

(5.65)

i,j=1

Introduisons le hamiltonien H :
H (x,p,Q) := inf {(x,u) + p f (x,u) + trace(a(x,u)Q)}.
uU

(5.66)

`
5.2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS

219

Ici p IRn et Q est une matrice symetrique n n. Lexposant fait reference au terme
du deuxi`eme ordre qui fait la dierence avec le cas deterministe, voir (3.17).
Combinant avec le principe de programmation dynamique (5.60), il vient :
V h0 (x) = H (x,DV h0 (x),D 2 V h0 (x)) + o(1).

(5.67)

Passant a` la limite quand h0 0, on obtient formellement lequation HJB du probl`eme en


temps continu :
V (x) = H (x,DV (x),D 2 V (x)),
(5.68)
ou encore
(
)
V (x) = inf (x,u) + f (x,u) DV (x) + trace(a(x,u)D 2 V (x)) .
uU

(5.69)

Lorsque (x,u) est identiquement nul, on retrouve bien lequation HJB (3.22) du cas
deterministe (avec ici C = ).
Dans le cas dun probl`eme avec horizon ni T et sans terme dactualisation, une discussion analogue a` celle de lhorizon inni permet dobtenir une equation de Hamilton-JacobiBellman du probl`eme continu, dont est solution la fonction valeur en temps retrograde
W (x,s) := V (x,T s).
Cette equation secrit :
#
2
Dt W (x,t) = H (x,Dx W (x,t),Dxx
W (x,t)), (x,t) IRn ]0,T [,
W (x,0) = (x),
x IRn ,

(5.70)

ou encore
Dt W (x,t) = inf uU {(x,u) + f (x,u) DW (x,t) + trace(a(x,u)D 2 W (x,t))} ,
(x,t) IRn ]0,T [,
W (x,0) =
(x), x IRn .

(5.71)

Nous allons etudier la resolution numerique de cette equation par des schemas aux
differences nies, en commencant par le cas dun etat scalaire.

5.2.3

Sch
emas monotones : dimension 1

On note h0 , h1 , etc les pas de discretisation en temps et suivants les variables despace
x1 , etc. Nous discutons les schemas de resolution de probl`emes `a horizon inni.
Presentons une extension de lalgorithme decentre, dans lequel on approxime la derivee
seconde en espace (suivant la direction de xi ) par (D d wjk D g wjk )/hi , soit la dierence
divisee centree
1 k
k
2wjk + wj1
).
D 2,0 wjk := 2 (wj+1
hi
Le schema decentre secrit alors
#
vj1 vj
vj+1 vj
+ |f (xj ,u) |
vj = inf (xj ,u) + f (xj ,u)+
uU
h1
h1 $
vj+1 2vj + vj1
+a(xj ,u)
.
h21

(5.72)

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

220

Introduisons un pas de temps ctif h0 > 0, par lequel on multiplie lequation ci-dessus.
Ajoutant vj `a chaque membre, et ordonnant les expressions suivant vj1 , vj+1 et vj+1 , on
obtient lexpression equivalente


#
h0
h0
vj := inf h0 (xj ,u) + 1 |f (xj ,u)| 2 2 a(xj ,u) vj
h1
uU
h1


$
(5.73)
h0
h0
h0
h0
+
|f (xj ,u) | + 2 a(xj ,u) vj1 +
f (xj ,u)+ + 2 a(xj ,u) vj+1 .
h1
h1
h1
h1
On pose
f  :=

|f (x,u)|;

sup

a :=

(x,u)IRU

sup

|a(x,u)|.

(5.74)

(x,u)IRU

Proposition 5.17 (i) Le schema (5.72) poss`ede une solution unique, telle que
v 1  .

(5.75)

(ii) Si h0 verie la condition de stabilite


h0
2h0
f  + 2 a2 1,
h1
h1

(5.76)

alors (5.73) est une equation de point xe contractant pour la norme uniforme, de rapport
de contraction (1 + h0 )1 .
D
emonstration. La demonstration est semblable a` celle de la proposition 4.6. La
condition de stabilite assure que, dans la formule (5.73), les poids de vj et vj1 sont
positif, ce qui permet detablir que cest une equation de point xe contractant et dobtenir
lestimation (5.75).

Remarque 5.18 Le terme dominant dans la condition de stabilite est lie `a f si h1 est
grand par rapport a` 2a /f  (discretisation spatiale grossi`ere), et au terme de diffusion si h1 est grand par rapport a` 2a /f  (discretisation spatiale ne). Dans ce
dernier cas, le pas de temps maximum respectant la condition de stabilite est de lordre de
1 2
h /a , donc beaucoup plus petit que dans le cas deterministe (o`
u il vaut h1 /f  ).
2 1
Remarque 5.19 La condition de stabilite assure la positivite des poids de vj et vj1 dans
(5.73), ce qui permet de reconnatre dans cette expression le principe de programmation
dynamique du probl`eme de commande dune chane de Markov dont les probabilites de
transition sont precisement les poids de vj et vj1 .
Remarque 5.20 Letude de la convergence de ce schema est trop complexe pour etre
traitee ici. On se reportera aux notes de n de chapitre.
Dans le cas de dimension despace superieure `a 1, on sait seulement donner des reponses
partielles au probl`eme de discretisation par dierence nie de lequation HJB. Nous allons
poser le probl`eme et etablir quelques resultats.

`
5.2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS

5.2.4

221

Di
erences nies classiques

Nous abordons letudes des schemas de discretisation pour le cas de la dimension


despace n > 1 par des schemas de dierences nies. Notons Di les derivees par rapport
`a xi , et on adopte le meme type de convention pour les derivees dordre superieur. Pour
approximer Dii on utilise encore la formule centree
Dii2 vj

vj+ei 2vj + vjei


.
h2i

Pour alleger les formules il convient de noter i , ,ik , etc les operateurs de translation
de une coordonnee dans la direction i, k, etc; ainsi
i vj = vj+ei , i,k vj = vj+ei ek .
Avec cette notation lapproximation de Dii est
Dii2

i 20 + i
.
h2i

Pour le calcul des derivees croisees (i = j), plusieurs choix sont possibles. Par exemple,
utilisant le developpement, pour regulier,
(x + hi ei + hk ek ) = (x) + D(x)(hi ei + hk ek )+
1 2
D (x)((hi ei + hk ek ),(hi ei + hk ek )) + o(h2i + h2k ),
2

(5.77)

et procedant de meme pour (x + hi ei ) et (x + hk ek ), on deduit le choix


2

Dik

i,k + 0 i k
,
hi hk

qui fait intervenir les quatre points du rectangle en haut a` droite. On peut ecrire une
formule similaire faisant intervenir les points du rectangle oppose :
2
Dik

i,k + 0 i k
.
hi hk

Il est classique de centrer lestimation en prenant la moyenne des deux, ce qui donne
2

Dik

i,k + i,k + 20 i k i k
.
2hi hk

(5.78)

Mais on peut aussi bien faire intervenir les estimations basees sur les deux autres rectangles :
i + k + i + k i,k i,k 20
2

.
(5.79)
Dik
2hi hk
Le point important est que ces deux formules font apparatre les points i,k avec des
x,u la matrice n n
poids positifs dans le premier cas, et negatifs dans le second. Soit D
doperateurs aux dierences denie par

i 20 + i

si i = k,

h2i

i,k + i,k + 20 i k i k
x,u =
D
si aik (x,u) 0,
ik

2hi hk

+ k + i + k i,k i,k 20

i
sinon.
2hi hk

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

222

Fig. 5.1 Poids de lapproximation de Dij2 : cas o`


u aij > 0
Pour les termes du premier ordre, on reprend le principe du decentrage expose dans le
cas de la commande optimale deterministe : `a (x,u), associons D (xj ,u) IRn deni par

v
vj

j+ei
si fi (x,u) 0,
hi
D i (x,u) =
(5.80)
v vjei

j
sinon.
hi
Considerons le schema discret

vj = min (xj ,u) + f (xj ,u) D (xj ,u) vj +
uU

n


*
x,uvj
aik (xj ,u)D
ik

(5.81)

i,k=1

Multipliant lequation par un pas de temps ctif h0 , ajoutant vj `a chaque membre, et


reordonnant les expressions, il vient
vj = min {h0 (xj ,u)

 uUn
n
 h0
 h0
 h0
+ 1
|fi (xj ,u)| 2
|a
(x
,u)|
+
|aik (xj ,u)| vj
ii
j
hi
h2i
hi hk
i=1
i=1
i
=
k

n

 h0
h0
h0
+
|fi (xj ,u) | + 2 aii (xj ,u)
|aik (xj ,u)| vjei
h
h
h
h
i
i
k
i
i=1 
k =i
n


h0
h0
h0
+
fi (xj ,u)+ + 2 aii (xj ,u)
|aik (xj ,u)| vj+ei
hi
hi
hi hk
i=1
k =i

*
 h0
+
[aik (xj ,u)+ (vj+ei+ek + vjei ek ) + |aik (xj ,u) |(vj+eiek + vjei+ek )] .
hi hk
i>k
(5.82)

`
5.2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS

223

On peut introduire une mise a` lechelle de f et a :


fih (x,u) :=

fi (x,u)
;
hi

ahij (x,u) :=

aij (x,u)
;
hi hj

(5.83)

do`
u lexpression equivalente
(1 + h0 )vj = min{h0 (xj ,u)
uU

n
n



h
|fi (xj ,u)| 2h0
|ahii (xj ,u)| + h0
|ahik (xj ,u)| vj
+ 1 h0
i=1
i =k
 i=1
n


|fih (xj ,u) | + ahii (xj ,u)
+h0
|ahik (xj ,u)| vjei
i=1 
k =i
n


fih (xj ,u)+ + ahii (xj ,u)
+h0
|ahik (xj ,u)| vj+ei

(5.84)

i=1
k =i
*
,
+h0
ahik (xj ,u)+ (vj+ei+ek + vjei ek ) + |ahik (xj ,u) |(vj+eiek + vjei +ek ) .
i>k

Proposition 5.21 On suppose que les pas despace h1 , . . . ,hn sont tels que, pour tout
(x,u) IR U, la matrice de terme general ahik (x,u) est diagonale dominante. Alors
(i) Le schema (5.81) poss`ede une solution unique v, telle que
v 1  .
(ii) Si h0 verie la condition de stabilite
0 n

1
n
 |fi (xj ,u)| 
|aii (xj ,u)|  |aik (xj ,u)|
2
1,
+

h0
hi
h2i
hi hk
i=1
i=1
k =i

(5.85)

(5.86)

alors (5.73) est une equation de point xe contractant pour la norme uniforme, de rapport
de contraction (1 + h0 )1 .
D
emonstration. La demonstration est une extension simple de celle de cas monodimensionnel (proposition 5.17).

Si la matrice ah (x,u) nest pas diagonale dominante, le schema presente ci-dessus ne
convient pas. Une solution possible est de faire intervenir davantage de points dans le
schema.
Quand h tend vers 0 de mani`ere `a respecter la condition de diagonale dominante de
ah , on obtient la convergence des valeurs discr`etes vers la valeur du probl`eme continu :
voir [21].

5.2.5

Di
erences nies g
en
eralis
ees

Dans cette approche, qui generalise la methode usuelle de dierences nies presentee
dans la section precedente, le point de depart est lapproximation de la derivee seconde
de la fonction valeur suivant une direction quelconque.

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

224

Soit : IRn IR de classe C 2 . La derivee seconde de en x IRn dans la direction


d IRn est par denition la quantite
n


D (x)(d,d) =

Dx2i xk (x)di dk .

i,k=1

Il vient avec la formule de Taylor


D 2 (x)(d,d) = lim
t0

(x + td) 2(x) + (x td)


.
t2

En particulier, etant donne Zn , notons


:= (xj+ ) 2(xj ) + (xj ).
Il vient, pour tout j Zn ,
n


(xj ) =

hi hk i k Dx2i xk (xj ) + o(h2 ).

(5.87)

i,k=1

Ainsi on peut approcher la courbure de , suivant une direction egale a` la dierence entre
deux points de la grille discr`ete, par une combinaison des valeurs de en trois points de
la grille. On peut alors se poser le probl`eme dapprocher la partie principale (du second
ordre) de loperateur dierentiel de lequation HJB par une combinaison de tels termes.
u
tels que :
Il sagit de trouver des coecients j,


u
j,
(xj ) =

n


aik (xj ,u)xi xk (xj ) + o(1).

(5.88)

i,k=1

Ici S est une partie nie de Zn , qui represente (`a la translation j pr`es) les coordonnees
des points entrant dans le schema. Nous verrons quil convient de prendre les coecients
u
j,
positifs pour obtenir la monotonie du schema.
Utilisant (5.87), on voit que ceci sera satisfait pour toute fonction si
u
= O((inf hi )2 ),
j,

(5.89)

et

u
j,
hi hk i k = ahik (xj ,u) + o(1),

pour tout i,k,

(5.90)

ou encore

u
j,
T = ah (xj ,u) + o(1).

(5.91)

Le schema correspondant (de discretisation de lequation HJB) est



*

u
j,
vj , j Zn .
vj = inf (xj ,u) + f (xj ,u) D (xj ,u) vj +
uU

(5.92)

D
enition 5.22 On dira que le schema (5.92) est consistant si (5.91) est satisfait, et
fortement consistant si

u
j,
T = ah (xj ,u).
(5.93)
S

`
5.2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS

225

La verication de la condition de consistance (qui ne va pas de soi) fait lobjet de la


section suivante.
Remarque 5.23 La relation ci-dessus donne une estimation de la taille des coecients,
qui implique (5.89). En eet, puisque a des coordonnees enti`eres, la matrice T a des
elements diagonaux superieurs ou egaux a` un. Un schema fortement consistant satisfait
donc

u
j,
trace ah (xj ,u) = O((inf hi )2 ).
(5.94)
i

La forme de point xe correspondante est (comme toujours) obtenue en multipliant


la relation (5.92) par un pas de temps ctif h0 , puis en ajoutant vj `a chaque membre,
et enn en divisant par 1 + h0 . Reprenant la notation f h denie en (5.83), on obtient
lexpression suivante, a` comparer a` (4.23) dans le cas deterministe:


n


1
u
vj = (1 + h0 ) inf h0 (xj ,u) + 1 h0
|fih (xj ,u)| 2h0
j,
vj
uU
i=1
S
*
n
n



u
+h0
fih (xj ,u)+ vj+ei + h0
|fih (xj ,u) |vjei + h0
j,
(vj + vj+ ) .
i=1

i=1

(5.95)
Comme dans le cas deterministe, il apparat que le membre de droite represente une
application contractante, de constante (1 + h0 )1 , si le coecient de vj est positif, ce qui
est assure si la condition de stabilite suivante est satisfaite :
 n


 fi 
u
+ 2 sup
j,
h0
1.
(5.96)
hi
jZn ,uU
i=1
S

On peut combiner cette relation avec (5.94) pour en deduire une estimation du pas de
temps : h0 = O((inf i hi )2 ).

5.2.6

Analyse de la condition de consistance forte

u
La condition de consistance forte (5.93) revient, puisque les coecients j,
doivent etre
h
positifs, a` verier que a (xj ,u) appartient au cone engendre par lensemble { T ; S}.
Nous allons caracteriser ce cone dans quelques situations simples. Pour cela, quelques
denitions simposent.

D
enition 5.24 Soit q IN, q > 0. (i) On dit que C IRq est un cone si, pour tout
t > 0 et c C, on a tc C. (ii) Soient c1 , . . . ,cr dans IRq . On appelle cone convexe
C engendre par c1 , . . . ,cr lensemble des combinaisons lineaires positives de c1 , . . . ,cr . On
dit que c1 , . . . ,cr est un generateur de C. (iii) On appelle generateur minimal de C un
generateur de C ne contenant pas strictement un generateur de C.
D
enition 5.25 Soit C un cone convexe ferme de IRq . On appelle cone polaire de C
lensemble
C + := {y IRq ; y x 0, pour tout x C}.
(5.97)
Cest un cone convexe ferme.

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

226

Voici un resultat important danalyse convexe, que nous admettrons (voir par exemple
[27].
Proposition 5.26 Soit C un cone convexe ferme. Alors (i) il concide avec son c
one
+ +
+
bipolaire (C ) , (ii) Si C a un generateur ni, il en est de meme pour C .
Il resulte de cette proposition que, si C est un cone convexe ferme de generateur ni,
et il existe donc un generateur ni c1 , . . . ,cr du cone polaire, alors C est caracterise par
les inegalites lineaires en nombre ni
C = {x IRq ; c1 x 0, i = 1, . . . ,r  }.

(5.98)

On notera C(S) le cone engendre par les { T , S}. Considerons le cas o`


u S est de la
n
forme Sp , avec

*
n

n
n
|i | p .
(5.99)
Sp := {1,0,1} ;
i=1

Autrement dit, on consid`ere les transitions vers les points dont les coordonnees di`erent
dau plus 1 (les voisins immediats), avec au plus p coordonnees dierentes.
Proposition 5.27 On a les caracterisations suivantes :
(i) Pour tout n > 0, C(S1n ) est lensemble des matrices diagonales semi denies positives.
(ii) Pour tout n > 0, C(S2n ) est lensemble des matrices `a diagonale dominante :

*

|Aij | .
(5.100)
C(S2n ) = A Mnn ; A = AT ; Aii
j =i

(iii) A C(S33 ) si et seulement si, pour tout i,j dans 1, . . . ,n et p, q dans {0,1} :
#
Aii
|Aij |,
(5.101)
Aii + Ajj (1)p Aik + (1)q Ajk + 2(1)p+q+1Aij .
D
emonstration. Le point (i) est immediat, et les points (ii) et (iii) resultent de
lanalyse de [9].

Remarque 5.28 Les resultats de cette section sont lies aux travaux recents de [9]. Une
u
, en particulier pour les
des questions ouvertes est le calcul rapide des coecients j,
dimensions 2 et 3.

5.3

Notes

La commande optimale de chanes de Markov est discutee dans J. P. Quadrat [28].


E. Altman [3] etudie les probl`emes avec contraintes en esperance. Le cas ergodique fait
lobjet dun chapitre de H.J. Kushner et P.G. Dupuis [21].
W. H. Fleming et R. Rishel [17] donnent une introduction generale a` la theorie de la
commande optimale deterministe et stochastique. Lapproche par solutions de viscosite
est introduite dans P.L. Lions [25]; on en trouvera une synth`ese dans W.H. Fleming et

5.3. NOTES

227

H.M. Soner [18]. J.L. Lions et A. Bensoussan [24] presentent lapproche de la commande
stochastique par les techniques variationnelles dequations aux derives partielles.
Les methodes numeriques pour la commande stochastique sont exposees dans H.J.
Kushner et P.G. Dupuis [21]. On y trouvera en particulier une discussion dune methode
dapproximation par chane de Markov qui inclut les dierences nies generalisees. Pour
les probl`emes de tr`es grande taille il peut etre utile demployer des methodes multigrille,
voir M. Akian [1]. De nombreuses methodes numeriques, dans un cadre de probl`emes de
nance, sont exposees dans L.C.G. Rogers et D. Talay [29].

228

CHAPITRE 5. COMMANDE OPTIMALE STOCHASTIQUE

BIBLIOGRAPHIE

229

Bibliographie
[1] M. Akian. Analyse de lalgorithme multigrille FMGH de resolution dequations
dHamilton-Jacobi-Bellman. In A. Bensoussan and J.-L. Lions, editors, Analysis
and optimization of systems (Antibes, 1990), volume 144 of Lecture Notes in Control
and Information Sciences, pages 113122. Springer Verlag, Berlin, 1990.
[2] V. Alexeev, V. Tikhomirov, and S. Fomine. Commande optimale. Mir, Moscow,
1982. Edition originale : Mir, Moscou, 1979.
[3] E. Altman. Constrained Markov decision processes. Chapman and Hall, Boca Raton,
1999.
[4] M. Bardi and I. Capuzzo-Dolcetta. Optimal control and viscosity solutions of
Hamilton-Jacobi-Bellman equations. Systems and Control: Foundations and Applications. Birkhauser, Boston, 1997.
[5] G. Barles. Solutions de viscosite des equations de Hamilton-Jacobi, volume 17 of
Mathematiques et Applications. Springer, Paris, 1994.
[6] G. Barles and P. E. Souganidis. Convergence of approximation schemes for fully
nonlinear second order equations. Asymptotic Analysis, 4:271283, 1991.
[7] R. Bellman. Dynamic programming. Princeton University Press, Princeton, 1961.
[8] D. Bertsekas. Dynamic programming and optimal control (2 volumes). Athena Scientic, Belmont, Massachusetts, 1995.
[9] J. F. Bonnans and H. Zidani. Consistency of generalized nite dierence schemes for
the stochastic HJB equation. SIAM J. Numerical Analysis, 41:10081021, 2003.
[10] J.F. Bonnans and A. Shapiro. Perturbation analysis of optimization problems.
Springer-Verlag, New York, 2000.
[11] H. Brezis. Analyse fonctionnelle. Masson, Paris, 1983.
[12] A. E. Bryson and Y.-C. Ho. Applied optimal control. Hemisphere Publishing, NewYork, 1975.
[13] F.H. Clarke. Optimization and nonsmooth analysis. Wiley, New York, 1983.
[14] M. G. Crandall and P.-L. Lions. Two approximations of solutions of Hamilton-Jacobi
equations. Mathematics of Computation, 43(167):119, 1984.
[15] M.G. Crandall and P.-L. Lions. Viscosity solutions of Hamilton Jacobi equations.
Bull. American Mathematical Society, 277:142, 1983.
[16] I. Capuzzo Dolcetta and H. Ishii. Approximate solutions of the Bellman equation of
deterministic control theory. Appl. Math. Optim., 11:161181, 1984.
[17] W. H. Fleming and R. Rishel. Deterministic and stochastic optimal control, volume 1
of Applications of mathematics. Springer, New York, 1975.

230

BIBLIOGRAPHIE

[18] W. H. Fleming and H.M. Soner. Controlled Markov processes and viscosity solutions.
Springer, New York, 1992.
[19] H. Frankowska. Value function in optimal control, 2001. Lecture notes, Summer
School on Mathematical Control Theory, Trieste.
[20] A.D. Ioe and V.M. Tihomirov. Theory of Extremal Problems. North-Holland Publishing Company, Amsterdam, 1979. Russian Edition: Nauka, Moscow, 1974.
[21] H. J. Kushner and P. G. Dupuis. Numerical methods for stochastic control problems
in continuous time, volume 24 of Applications of mathematics. Springer, New York,
2001. Second edition.
[22] E.B. Lee and L. Markus. Foundations of optimal control theory. John Wiley, New
York, 1967.
[23] G. Leitmann. An introduction to optimal control. Mc Graw Hill, New York, 1966.
[24] J.-L. Lions and A. Bensoussan. Application des inequations variationnelles en
contr
ole stochastique, volume 6 of Methodes mathematiques de linformatique. Dunod,
Paris, 1978.
[25] P.-L. Lions. Optimal control of diusion processes and Hamilton-Jacobi-Bellman
equations. Part 2: viscosity solutions and uniqueness. Communications in partial
dierential equations, 8:12201276, 1983.
[26] I. McCausland. Introduction to optimal control. J. Wiley, New York, 1969.
[27] G.L. Nemhauser, A.H.G. Rinnoy Kan, and M.J. Todd, editors. Optimization, volume 1 of Handbooks in Operations Research and Management Science. NorthHolland, Amsterdam, 1989.
[28] J.P. Quadrat. Decision et commande en presence dincertitude. Ecole Polytechnique,
Palaiseau, 1994. Polycopie de cours.
[29] L. C. G. Rogers and D. Talay, editors. Numerical methods in nance. Cambridge
University Press, 1997.
[30] W. Rudin. Real and complex analysis. Mc Graw-Hill, New York, 1987.