Vous êtes sur la page 1sur 61

riques de

Quelques Aspects Nume


la Commande Optimale
Stochastique
Frederic Bonnans

24 juillet 2009

Projet Commands, INRIA-Saclay et Ecole Polytechnique, France. Frederic.Bonnans@inria.fr

Ce polycopie est une version actualisee et completee des cours dintroduction `a la


commande optimale stochastique donnes dans le cadre du mast`ere de mathematiques appliquees de lEcole Nationale dIngenieurs de Tunis, du 19 au 23 janvier 2004, `a linvitation
de Henda El Fekih, directrice du LAMSIN, et de lEcole CIMPA Analyse, Optimisation et
Commande Optimale, Lima, Perou, du 9 au 27 fevrier 2004, organisee par Marc Lassonde,
professeur `
a lUniversite Antilles-Guyane.
Apr`es une br`eve presentation des probl`emes de commande optimale de chanes de
Markov, et une derivation formelle de lequation de Hamilton-Jacobi-Bellman, on presente
quelques schemas de resolution numerique de type differences finies.
Le principe de comparaison des sur et sous solutions est expose en detail, et le cours
se termine par une discussion des estimations derreur des schemas numeriques.
Lactualisation fin 2008 consiste principalement en lamelioration de la minoration de
la solution du schema de differences finies dans le chapitre 3 (qui fait passer lestimation de
h1/3 `a h1/2 ), et la discussion de lestimation inverse et des questions ouvertes. Il faut noter
quen dehors des points techniques, la grande question ouverte est lobtention destimations
derreur pour des hamiltoniens non convexes (cas des jeux par exemple).
Lactualisation de juillet 2009 detaille certains points des estimations derreur, analyse
les algorithmes semi lagrangiens, et a beneficie dune relecture dIm`ene Ben Latifa, de
lENIT.
Lauteur remercie les organisateurs de ces cours pour leurs invitations, ainsi que les
el`eves et coll`egues pour leurs remarques et questions qui ont contribue `a lamelioration du
texte.

Table des mati`


eres
1 Chanes de Markov command
ees 22 07 09
1.1 Probl`emes `
a horizon fini . . . . . . . . . . . . .
1.1.1 Quelques exemples . . . . . . . . . . . .
1.1.2 Chanes de Markov et valeurs associees
1.1.3 Quelques lemmes . . . . . . . . . . . . .
1.1.4 Principe de Programmation dynamique
1.2 Probl`emes `
a horizon infini . . . . . . . . . . . .
1.2.1 Caracterisation des solutions . . . . . .
1.2.2 Analyse de sensibilite . . . . . . . . . .
1.2.3 Algorithmes numeriques . . . . . . . . .
1.3 Extensions . . . . . . . . . . . . . . . . . . . . .
1.3.1 Probl`emes de temps de sortie . . . . . .
1.3.2 Probl`emes avec decision darret . . . . .
1.3.3 Un algorithme implementable . . . . . .
1.4 Notes . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

5
5
5
5
7
8
9
9
11
12
14
14
15
16
19

2 Probl`
emes en temps et espace continus 22 07 09
2.1 Approche informelle de lequation HJB . . . . . . .
2.1.1 Position du probl`eme . . . . . . . . . . . . .
2.1.2 Probl`eme discretise en temps . . . . . . . .
2.2 Schemas de differences finies . . . . . . . . . . . . .
2.2.1 Schemas monotones : dimension 1 . . . . .
2.2.2 Differences finies classiques . . . . . . . . .
2.2.3 Differences finies generalisees . . . . . . . .
2.2.4 Analyse de la condition de consistance forte
2.3 Notes . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

21
21
21
22
23
23
25
28
30
32

3 Estimations derreur 24 07 09
3.1 Principe de comparaison . . . .
3.1.1 Solutions de viscosite . .
3.1.2 Lemme dIshii . . . . . .
3.1.3 Separation des variables
3.1.4 Principe de comparaison

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

33
33
33
36
39
41

. . . . .
. . . . .
. . . . .
. . . . .
abstrait
3

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

`
TABLE DES MATIERES

3.2

3.3

3.1.5 Unicite forte en commande optimale stochastique


Estimations derreur . . . . . . . . . . . . . . . . . . . .
3.2.1 Immersion du schema dans IRn . . . . . . . . . .
3.2.2 Cas de solutions lisses . . . . . . . . . . . . . . .
3.2.3 Un procede general . . . . . . . . . . . . . . . . .
3.2.4 Minoration . . . . . . . . . . . . . . . . . . . . .
3.2.5 Majoration de la solution du schema . . . . . . .
Algorithme semi lagrangien . . . . . . . . . . . . . . . .
3.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Stabilite de la solution du schema . . . . . . . .
3.3.3 Erreur de consistance . . . . . . . . . . . . . . .
3.3.4 Estimation derreur . . . . . . . . . . . . . . . .
3.3.5 Discretisation spatiale . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

43
44
44
45
47
48
51
52
52
52
55
56
56

Chapitre 1

Chanes de Markov command


ees
22 07 09
1.1
1.1.1

Probl`
emes `
a horizon fini
Quelques exemples

Un exemple classique de commande de chanes de Markov est la gestion de stock : les


achats des clients arrivent de mani`ere aleatoire, et la commande consiste `a reapprovisionner, avec paiement de penalites pour tout achat non honore. Autre exemple, la maintenance
dun parc doutils de production. Letat du syst`eme est lensemble des outils en etat de
fonctionnement, et la commande consiste `a effectuer les reparations des outils en panne.
Il sagit au fond de conception de syst`emes fiables.
Enfin les probl`emes de commande optimale (deterministes ou stochastiques) en espace
continu (et temps continu ou discret) resolus en discretisant lequation HJB reviennent,
comme on le verra, `
a resoudre un probl`eme de commande dune chane de Markov. En
particulier, les probl`emes devaluation doptions financi`ere, didentification de volatilite
implicite, et de gestion de portefeuille sont de cette nature.

1.1.2

Chanes de Markov et valeurs associ


ees

Considerons un syst`eme dynamique dont letat peut prendre un nombre fini ou denombrable de valeurs, soit 1, . . . , m, avec m fini ou non. Il est utile de traiter le cas m =
pour discuter le probl`eme de discretisation de syst`emes continus.
On note xk la valeur de letat au temps k, o`
u k IN . On suppose connue la probabilite
k
Mij de transition de letat i au temps k, `a letat j au temps k + 1. Autrement dit, notant
P la loi de probabilite, on a
P(xk+1 = j|xk = i) = Mijk .

(1.1)

On supposera cette loi markovienne, cest `a dire


P(xk+1 = j|xk = i, xk1 = ik1 , . . . , x0 = i0 ) = Mijk .
5

(1.2)

CHAPITRE 1. CHAINES DE MARKOV COMMANDEES


22 07 09

Ceci signifie que si on connat la valeur de letat au temps k, la connaissance des etats
passes napporte rien pour la prediction du futur.
La matrice M k = {Mijk }, o`
u i et j varient de 1 `a m, est le tableau (fini ou non) de
k
valeur Mij en ligne i et colonne j. Tous ses elements sont positifs ou nuls, et la somme des
elements dune ligne vaut 1. Une telle matrice est dite stochastique.
Si m = , lextension naturelle du calcul matriciel : produit de deux matrices, produit
dune matrice avec un vecteur (vertical) `a droite ou (horizontal) `a gauche, et produit de
deux matrices, demande quelques precautions : il faut que les quantites en jeu soient sommables. Plus precisement, soient 1 et , respectivement, lespace des suites sommables
et bornees, dont les elements sont indices de 1 `a m, et representes comme des vecteurs
horizontaux (pour 1 ) et verticaux (pour ). Si x 1 et v , et si M est une matrice
stochastique, on peut definir leur produit xM 1 et M v par
(xM )j :=

m
X

xi Mij ;

(M v)i :=

m
X

Mij vj .

j=1

i=1

On a en effet kxM k1 kxk1 et kM vk kvk . Autrement dit, une matrice stochastique


est non expansive `
a droite et `
a gauche. Si M 1 et M 2 sont deux matrices stochastiques, on
peut definir leur produit M 1 M 2 par
1

(M M )ij :=

m
X

1
2
Mik
Mkj
.

k=1

Il est facile de verifier que le produit de deux matrices stochastiques est une matrice
stochastique. On interpr`etera
)
(
m
X
pi = 1
p 1 ; pi 0, i = 1, . . . , m;
i=1

comme lespace de probabilites pour letat du syst`eme `a un temps donne, et comme un


espace de valeurs. Notons que si p est une probabilite, et M est stochastique, alors pM est
une probabilite.
Si letat xk du syst`eme `
a linstant k est connu, la loi de probabilite de xk+1 est la
ligne de M k dindice xk . Si on dispose seulement dune loi de probabilite pour xk , notee
pk = (pk1 , . . . , pkm ), et consideree comme un vecteur horizontal, alors la loi de probabilite
de xk+1 verifie lequation de Kolmogorov avant
X
k
pk+1 := P(xk+1 |pk ) =
pki Mi,
= pk M k ,
(1.3)
i

do`
u on deduit par recurrence, si la probabilite initiale est p0 ,
P(xk+1 |p0 ) = p0 M 0 M 1 . . . M k .

(1.4)

Associons maintenant `
a ce processus la fonction co
ut {cki }, i = 1, . . . , m, k IN .
k
k

On suppose que c := {ci }i=1,...,m appartient `a , ce qui veut dire que les co
uts sont

`
` HORIZON FINI
1.1. PROBLEMES
A

uniformement bornes en espace, et que ck est represente comme un vecteur vertical. Soit
une application {1, . . . , m} , appelee co
ut final. Definissons la fonction valeur du
probl`eme avec etat initial i et instant initial k comme
!
N
1
X

N
k
k
cx + (x ) | x = i .
(1.5)
Vi := IE
=k

Ici N > 0 est lhorizon, et IE represente lesperance mathematique.


Proposition 1.1 Pour tout k = 0, . . . , N , la fonction valeur V k est bien definie et appartient a
` . De plus, la suite {V k } est solution de lequation de recurrence de Kolmogorov
arri`ere
 k
V = ck + M k V k+1 , k = 0, . . . , N 1,
(1.6)
V N = .
Proof. La condition finale est triviale. De plus, si xk a la valeur i, alors dapr`es lequation
de Kolmogorov avant
m
X
Mijk Vjk+1 ,
Vik = cki +
j=1

do`
u le resultat.

ck

Mk

Considerons maintenant un probl`eme avec


=c
et
= M independants du
temps, horizon infini, et taux dactualisation ]0, 1[. La valeur de ce probl`eme, cest `a
dire
!

X
Vi := IE
k+1 cxk |x0 = i ,
(1.7)
k=0

est bien definie et appartient `


a
solution de lequation

En raison de lequation de Kolmogorov avant, elle est


V = (c + M V ).

(1.8)

Comme M est non expansive, cette equation est celle dun operateur de point fixe strictement contractant et a donc une solution unique.

1.1.3

Quelques lemmes

Commencons par le rappel du theor`eme de point fixe de Banach-Picard.


Lemme 1.2 Soient X un espace de Banach et C une partie fermee de X. Soit T un
operateur contractant de C vers lui meme. Autrement dit, il existe c [0, 1[ tel que, si
xi C, i = 1, 2, alors T xi C, i = 1, 2, et
kT x2 T x1 k ckx2 x1 k.

(1.9)

Alors T a un unique point fixe x C (c.a.d. lequation T x = x a pour solution unique


x ). De plus, quel que soit x0 C, la suite {xk } telle que xk+1 = T xk converge vers x , et
kxk x k ck kx0 x k.

(1.10)


CHAPITRE 1. CHAINES DE MARKOV COMMANDEES
22 07 09

Voici un autre lemme, qui sera utile `a plusieurs reprises.


Lemme 1.3 Soit M une matrice stochastique, ]0, 1[, > 0 et w tels que w
1 + M w. Alors w (1 )1 1.
Proof. On a M w (sup w)1 puisque M est une matrice stochastique, et donc w
( + sup w)1. En consequence, sup w + sup w, do`
u la conclusion.


1.1.4

Principe de Programmation dynamique

Considerons maintenant une chane de Markov dont les probabilites de transition


Mij (u) dependent dune variable de commande u Ui , o`
u Ui est un ensemble quelconque
dependant de letat i (certains resultats supposeront Ui metrique compact). Donnons nous
des co
uts dependant de la commande, de letat, et du temps, soit cki (u) : Ui IR, bornee,
cest `a dire telle que
n
o
kck := sup |cki (u)|; 1 i m; u Ui ; 0 k N 1 < .
(1.11)
On consid`ere le probl`eme de minimisation du crit`ere sur horizon fini
Vik (u) := IE

N
1
X
=k

cx (u ) + (xN )|xk = i .

(1.12)

Ici u est la valeur de la commande au temps ; pour donner un sens `a ce probl`eme, il


faut specifier linformation dont on dispose au temps k pour choisir la valeur de uk . Nous
allons nous limiter au cas de lobservation compl`ete, dans lequel letat xk est connu. Ceci
permet de choisir la commande en fonction de letat x, et bien s
ur du temps k. Autrement
dit, on choisit une strategie de retour detat, cest `a dire un element de lensemble
U := ensemble des applications (, i) 7 ui , avec IN , i {1, . . . ; m}, et ui Ui .
(1.13)
On consid`ere donc le probl`eme de calcul dun retour detat optimal minimisant simultanement les differentes fonctions Vik :
(
Vik := inf Vik (u); uki Ui i = 1, . . . , m, k = 1, . . . , N 1,
u
(1.14)
ViN := (i), i = 1, . . . , m.
Proposition 1.4 La fonction valeur V k , solution du probl`eme (1.14) avec observation
compl`ete, est solution du principe de programmation dynamique

k
Vi = inf
cki (ui ) +
Mijk (ui )Vjk+1 , i = 1, . . . , m, k = 0, . . . , N 1,
(1.15)

ui Ui
j

N
V = .

`
` HORIZON INFINI
1.2. PROBLEMES
A

k (eventuellement vide) des commandes optimales a


De plus, lensemble U
` linstant k
i
k
lorsque x = i est

X
k+1
k
k = argmin ck (ui ) +
U
.
(1.16)
M
(u
)V
i
i
ij
i
j

ui Ui
j

Proof. On raisonne par recurrence. Il est clair que V N = . Fixons k < N et i


{1, . . . , m}. Si xk = i, dapr`es lequation P
de Kolmogorov arri`ere, le choix de la commande
ui `a linstant k donne la valeur cki (ui ) + j Mijk (ui )Vjk+1 . On obtient donc Vik en prenant
linfimum de cette quantite, et une commande est optimale si elle appartient `a largument
du minimum. De plus la quantite
kV k k sup kck (u)k + kV k+1 k
u

est bien bornee.

1.2
1.2.1

Probl`
emes `
a horizon infini
Caract
erisation des solutions

Dans cette section, nous supposons la fonction co


ut et la matrice de transition independantes du temps, notees c(u) et M (u), et le co
ut actualise avec un coefficient ]0, 1[.
Le theor`eme suivant caracterise les strategies optimales.
Th
eor`
eme 1.5 (i) Dans le cas de lobservation compl`ete, la fonction valeur definie par
)
(
X
k
0
k+1
(1.17)

cxk (uxk )|x = i , i = 1, . . . , m,


Vi := inf IE
uU

k=0

o`
u ]0, 1[, satisfait
kV k

kck .
1

(1.18)

De plus, cest la solution unique de lequation de programmation dynamique suivante :


trouver v IRm tel que

X
vi = inf
ci (ui ) +
Mij (ui )vj , i = 1, . . . , m.
(1.19)

ui Ui
j

(ii) Soit 0 et u U une strategie telle que, pour tout 1 i m :

X
Mij (ui )Vj Vi + , 1 i m.
ci (ui ) +
j

(1.20)

10

CHAPITRE 1. CHAINES DE MARKOV COMMANDEES


22 07 09

Posons := (1 )1 . Alors la strategie u est sous optimale, dans le sens o`


u la valeur
associee V (u) satisfait
Vi (u) Vi + ,

pour tout i {1, . . . , m}.

(iii) Lexistence dune strategie optimale est assuree si



Ui est metrique compact pour tout i,
Les fonctions ci (u) et Mij (u) sont continues pour tout i et j.

(1.21)

(1.22)

Proof. a) Montrons dabord que (1.19) poss`ede une solution unique. Cette equation est
de la forme v = T v, avec

X
(T w)i := inf
ci (ui ) +
Mij (ui )wj .
(1.23)

ui Ui
j

Montrons que T est un operateur contractant dans . On a


kT wk (kck + kwk ),

(1.24)

ce qui montre que T est un operateur de dans lui meme. Utilisant la r`egle
inf a(u) inf b(u) sup(a(u) b(u))
u

(1.25)

et etant donnes w et w dans , utilisant le fait que la somme des elements dune ligne
de M (u) vaut 1, il vient :
m
X




(T w )i (T w)i sup
Mij (ui )(w w)j kw wk .
ui Ui j=1

En consequence, T est une contraction de rapport dans . Il decoule alors du lemme


1.2 que lequation (1.19) a une solution unique v , et (1.18) est consequence de (1.24).
b) Soit u U une strategie et V (u) la valeur associee, solution de
V (u) = (c(u) + M (u)V (u)).

(1.26)

Montrons que v V (u). En effet, soit i {1, . . . , m}. Utilisant


v (c(u) + M (u)v ),

(1.27)

v V (u) M (u)(v V (u)).

(1.28)

V v 1 + M (
u)(V v ).

(1.29)

il vient
Le lemme 1.3 assure que v V (u), comme il fallait le demontrer.
c) Etant donne 0, soit u
une strategie satisfaisant (1.20) (une telle strategie existe si
> 0), et V la valeur associee. Utilisant V = (c(
u) + M (
u)V ) et (1.20), il vient

`
` HORIZON INFINI
1.2. PROBLEMES
A

11

On en deduit (1.21) avec le lemme 1.3. Dautre part, on sait que v V pour toute valeur
V associee `
a une strategie. Il en resulte que v est egal `a la valeur V , do`
u (i) et (ii).
(d) Dapr`es le point (ii), lexistence dune strategie optimale equivaut `a la possibilite
datteindre, pour tout etat i, linfimum dans (1.19). Montrons que ceci est consequence
des hypoth`eses du point (iii). Pour i fixe, notons
{uqi } une suite minimisante de linfimum
P
dans (1.19) ; autrement dit uqi Ui , et ci (uqi )+ j Mij (uqi )Vj Vi . Puisque Ui est metrique
compact, extrayant une sous-suite si necessaire, on peut supposer que la suite converge
vers u
i Ui . A tout ]0,
P1[, on peut associer1 une partition (I, J) de {1, . . . , m}, telle que
IP
est de cardinal fini et jI MijP
(
ui ) 1 2 . Puisque I est fini, pour q assez grand, on
a jI Mij (uqi ) 1 , et donc jJ Mij (uqi ) . De l`a




X
X


q
q

:= lim sup(ci (ui ) +
Mij (ui )V ci (
ui )
Mij (
ui )V )
q

j
j




X


q

= lim sup
(Mij (ui ) Mij (
ui ))Vj )
q

jJ
X
|Mij (uqi ) Mij (
ui )|kV k 2kV k .
lim sup
q

jJ

Ceci etant vrai pour tout > 0, on en deduit (iii).

1.2.2

Analyse de sensibilit
e

On aura besoin, dans la discussion de la discretisation des probl`emes `a espace detat


continu, de resultats de sensibilite de la valeur par rapport aux donnees c et M . Soient
(c, M ) et (c , M ) co
uts et matrice de transition de chane de Markov commandees avec les
memes ensembles de commandes admissibles U et coefficient dactualisation . On notera
V et V les valeur associees, W := V V , ainsi que la pseudonorme
X
|Mij |
(1.30)
kM k := sup
i

j6=i

(norme de la partie non diagonale de M , induite de la norme uniforme) qui est en quelque
sorte la mesure des transitions dun point `a un point different. Dans lexpression ci-dessous,
le coefficient de la pseudonorme de M M peut sinterpreter comme la norme uniforme
du gradient de V associe aux transitions permises par M et M .
Lemme 1.6 On a
( 1 1) sup W sup(c c) + kM M k sup{|Vj Vi |; |Mij | + |Mij | > 0}.

(1.31)

i,j

Proof.

Puisque M est une matrice stochastique, on a


X
(M V )i = Vi +
Mij (Vj Vi ).
j6=i

(1.32)

12

CHAPITRE 1. CHAINES DE MARKOV COMMANDEES


22 07 09

Combinant avec (1.25), il vient




P
P
1 Wi supu ci (u) ci (u) + j Mij Wj + j (Mij Mij )Vj
P
sup(c c) + sup W + j6=i (Mij Mij )(Vj Vi ).

Prenant le supremum en i `
a droite puis `a gauche, on obtient le resultat.

(1.33)


Exemple 1.7 Soit LV := supi {|Vi+1 Vi |} la constante de Lipschitz de V . Si Mij =


Mij = 0 quand |j i| > q, alors (1.31) implique
( 1 1) sup W sup(c c) + qLV kM M k .
En particulier, si lespace detat est Z, notons
X
|Mi+1,j+1 Mij |
LM := sup
i

(1.34)

(1.35)

j6=i

la constante de Lipschitz de la partie non diagonale de M pour la norme uniforme). Pour


tous i et j, prenons ci = ci+1 et Mij := Mi+1,j+1 . Alors Vi = Vi+1 pour tout i, donc (1.34)
implique
( 1 1) sup(Vi+1 Vi ) sup(ci+1 ci ) + qLV LM .
(1.36)
i

Avec lestimation symetrique obtenue en decalant de 1 au lieu de +1, et utilisant


kW k = LV , il vient ( 1 1 qLM )LV Lc . Si 1 > qLM + 1, ceci fournit une
estimation de la constante de Lipschitz de V :
LV

Lc
.
1 qLM

(1.37)

On appliquera ce resultat `
a lanalyse des methodes de differences finies dans la proposition
2.5.

1.2.3

Algorithmes num
eriques

Dans le cas de probl`emes avec horizon infini, on peut mettre en uvre un algorithme
iteratif de calcul de v `
a partir du principe de programmation dynamique. La methode la
plus simple est literations sur les valeurs

X
viq+1 = inf
ci (ui ) +
Mij (ui )vjq , i = 1, . . . , m, q IN.
(1.38)

ui Ui
j

Ici (v q )qIN (`
a ne pas confondre avec la notation v k employee dans le cas de lhorizon
fini) represente la suite formee par lalgorithme.

Proposition 1.8 Lalgorithme diteration sur les valeurs converge vers la solution unique
v de (1.19), et on a
kv q v k q kv 0 v k .
(1.39)

`
` HORIZON INFINI
1.2. PROBLEMES
A

13

Proof. Soit T loperateur construit en (1.23). Nous avons montre (demonstration du


theor`eme 1.5) que T est contractant de rapport dans la norme du max. Lalgorithme
diteration sur les valeurs secrit v q = T v q1 . On conclut avec le lemme 1.2.

Dans le cas assez frequent o`
u est proche de 1, lalgorithme diteration sur les valeurs peut etre tr`es lent. Une alternative interessante est lalgorithme diterations sur les
strategies, ou algorithme de Howard. On supposera (1.22) satisfait. Chaque iteration de
lalgorithme comporte deux etapes :
Etant donne une strategie uq U, calculer la valeur v q associee, solution de lequation
lineaire
v q = (c(uq ) + M (uq )v q ).
(1.40)
Calculer uq+1 solution de
uq+1
arg min
i

uUi

ci (u) +

Mij (u)vjq

i = 1, . . . , m.

(1.41)

Proposition 1.9 On suppose (1.22) satisfait. Alors lalgorithme diterations sur les strategies, initialise avec une strategie u0 U quelconque, a les proprietes suivantes :
(i) Il est bien defini,
(ii) La suite v q decrot,
(iii) Elle verifie kv q+1 v k kv q v k, o`
u v est la fonction valeur, unique solution du
principe de programmation dynamique (1.19).
Proof. (i) Verifions que lalgorithme est bien defini. Le syst`eme lineaire (1.40) a une
solution unique, car cest lequation de point fixe dun operateur contractant (lemme 1.2).
Utilisant les arguments de la demonstration du theor`eme 1.5, on verifie que le minimum
dans la seconde etape est atteint en raison de (1.22).
Par ailleurs, la suite v q est bornee dans car la relation
kv q k (kc(uq )k + kM (uq )v q k ) (kc(uq )k + kv q k )

donne lestimation kv q k (1 )1 kck .


(ii) Les relations (1.40) et (1.41) impliquent

1 (v q+1 v q ) = c(uq+1 ) + M (uq+1 )v q+1 c(uq ) M (uq )v q ,

c(uq+1 ) + M (uq+1 )v q+1 c(uq+1 ) M (uq+1 )v q ,


= M (uq+1 )(v q+1 v q ),

et donc v q+1 v q 0 dapr`es le lemme 1.3.


(iii) Notons vq+1 la valeur calculee `a partir de v q , par literation sur les valeurs. On
sait que k
v q+1 v k kv q v k. Puisque v v q+1 , il suffit detablir que v q+1 vq+1 .
Or
1 (v q+1 vq+1 ) = c(uq+1 ) + M (uq+1 )v q+1 (c(uq+1 ) M (uq+1 )v q ),
= M (uq+1 )(v q+1 v q ).

Dapr`es le point (ii), v q+1 v q ; donc v q+1 vq+1 .

14

CHAPITRE 1. CHAINES DE MARKOV COMMANDEES


22 07 09

Remarque 1.10 La demonstration precedente montre que literation sur les strategies
converge au moins aussi vite que literation sur les valeurs.

1.3
1.3.1

Extensions
Probl`
emes de temps de sortie

Soit une partie de {1, . . . , m}, et considerons une chane de Markov (sans commande)
de matrice de transition M . Soit le premier instant de sortie (aleatoire) de :
:= min{k IN ; xk 6 }.

(1.42)

On consid`ere la fonction valeur, o`


u i {1, . . . , m} :
Vi := IE

1
X
k=0

k+1

cxk + x |x = i .

(1.43)

Proposition 1.11 On suppose c et dans . Alors lesperance ci-dessus est bien definie,
la fonction valeur du probl`eme de temps de sortie appartient aussi a
` , et est solution
unique de lequation

vi = ci +
Mij vj , i ,
(1.44)
j

vi = i ,
i 6 .

Proof.

Elle est similaire `


a celle des propositions precedentes.

Considerons maintenant le cas de la chane de Markov commandee de probabilite de


transition Mij (u), avec u Ui , ensemble metrique compact, et les fonctions ci (u) et Mij (u)
continues. On consid`ere le probl`eme de minimisation du crit`ere avec temps de sortie
( 1
)
X

0
k+1
Vi := inf IE
(1.45)

c(u)xk + x |x = i ,
uU

k=0

dans le cas de lobservation compl`ete.


Remarque 1.12 Si c est le vecteur de coordonnees toutes egales `a 1, et si est nul, alors
le crit`ere sinterpr`ete comme lesperance du temps de sortie (actualise). Le probl`eme est
alors dit `a temps minimal.
Proposition 1.13 On suppose c et dans . Alors la fonction valeur du probl`eme avec
temps de sortie est solution unique de lequation de la programmation dynamique

vi = inf ci (u) +
Mij (u)vj , i ,
(1.46)

uUi
j

vi = i ,
i 6 .

1.3. EXTENSIONS

15

Proof.

Elle est similaire `


a celle des propositions precedentes.

Lextension des algorithmes diterations sur les valeurs et sur les strategies `a la situation
etudiee ici ne presente pas de difficulte.

1.3.2

Probl`
emes avec d
ecision darr
et

Nous etudions un probl`eme de commande similaire `a celui de la section precedente,


ajoutant la possibilite darret `
a tout instant, avec un co
ut darret IRm .
Soit une partie de {1, . . . , m}, et soient une chane de Markov commandee de matrice
de transition Mij (u), avec u Ui , ensemble metrique compact, et les fonctions c(u) et
Mij (u) continues. On note le premier instant de sortie de , et linstant de decision
darret. Posons

1 si < ,
< =
0 sinon ,
et adoptons une convention similaire pour . On consid`ere le probl`eme de minimisation
du crit`ere avec temps darret
( 1
)
X
Vi := inf IE
(1.47)
k+1 c(u)xk + < x + x |x0 = i ,
uU

k=0

dans le cas de lobservation compl`ete.


Remarque 1.14 Le cadre de cette section recouvre plusieurs situations interessantes : (i)
ensemble egal `
a lespace detat, (ii) Ui reduit `a un point pour tout i : la seule decision
est darreter ou non, (iii) strategie optimale pouvant etre de ne jamais arreter le jeu.
Th
eor`
eme 1.15 On suppose supuU |ci (u)| fini et et borne. Alors la fonction valeur
v du probl`eme de temps darret est solution unique du syst`eme

(i) vi = min inf ci (u) +


Mij (u)vj , i , i ,
(1.48)

uUi
j

(ii) vi = i ,
i 6 .

Proof. La demonstration est similaire `a celle des sections precedentes ; contentons-nous


de demontrer que lequation (1.48) a une solution unique v . Definissons loperateur T de
IRm dans lui meme par

(T v)i = min inf ci (u) +


Mij (u)vj , i , i ,
(1.49)

uUi
j

(T v)i = i ,
i 6 .

Avec (1.25) on verifie facilement que T est une contraction stricte pour la norme infinie,
de rapport , et a donc un unique point fixe v . Ceci etablit lexistence et lunicite de la
solution de (1.48).



CHAPITRE 1. CHAINES DE MARKOV COMMANDEES
22 07 09

16

Les arguments qui prec`edent assurent la convergence de lalgorithme diterations sur


les valeurs, qui secrit, en reprenant les notations de (1.49),
v q+1 = T (v q ),

(1.50)

ou encore

viq+1

X
= min inf ci (u) +
Mij (u)vjq , i , i ,

uUi

viq+1 = i ,

(1.51)

i 6 .

En ce qui concerne lalgorithme diterations sur les strategies, on peut ecrire un algorithme de principe sous la forme suivante :
1. Choisir arbitrairement la strategie initiale u0 U.
Poser q := 0.
2. Etant donne une strategie uq U, calculer v q solution de

q
vi = min ci (uqi ) +
Mij (uqi )vjq , i , i ,
(1.52)

q
i 6 .
vi = i ,
3. Calculer uq+1 solution, pour tout i, de

X
q+1
q
ui arg min ci (u) +
Mij (u)vj .

uUi

(1.53)

4. q := q + 1, aller en 2.
Nous admettons la proposition suivante, dont la demonstration, extension de celle de
la proposition 1.9, utilise (1.25).
Proposition 1.16 Lalgorithme ci-dessus, initialise avec une strategie u0 U quelconque,
est bien defini, et forme une suite de valeurs v q decroissante, et qui verifie kv q+1 v k
kv q v k, o`
u v est solution unique de (1.48).

1.3.3

Un algorithme impl
ementable

Lalgorithme diterations sur les strategies que nous venons de presenter necessite `a chaque iteration la resolution de lequation non lineaire (1.52), ce qui peut etre tr`es co
uteux.
Nous allons formuler un autre algorithme, iterant sur les strategies, dans lequel on ne
resout quune equation lineaire `
a chaque iteration. Lidee est de calculer v q solution de
lequation lineaire

q
q

Mij (uqi )vjq , i I q ,


vi = ci (ui ) +
j
(1.54)

q
q,

v
=

,
i

\
I

iq
vi = i ,
i 6 .

17

1.3. EXTENSIONS

Lensemble I q , inclus dans , est une prediction des etats i pour lesquels linegalite vi i
nest pas active `
a loptimum. Ceci conduit `a lalgorithme suivant :
1. Initialisation Choisir arbitrairement la strategie initiale u0 U.
Calculer v0 solution de lequation lineaire

0
vi = ci (u0i ) +
Mij (u0i )
vj0 , i ,
j

0
vi = i ,
i 6 .

(1.55)

Calculer v 0 comme suit :

vi0 = min(
vi0 , i ), i ,
0
vi = i ,
i
6 .

(1.56)

I 0 := {i ; vi0 < i }.

(1.57)

Poser q := 0 et
2. Boucle Faire q := q + 1. Calculer uq solution de

X
uqi arg min ci (u) +
Mij (u)vjq1 ,

uUi
j

i .

(1.58)

Poser

I q := I q1

i ; ci (uqi ) +

X
j

Mij (uqi )vjq1 < i

Calculer v q , solution de lequation lineaire (1.54).


Fin de Boucle (retour en 2).

(1.59)

Proposition 1.17 Lalgorithme ci-dessus forme une suite de valeurs v q decroissant vers
la solution unique v de (1.48).
Proof. a) Montrons la decroissance de v q . Sil nen est pas ainsi, soient q IN et i
tels que viq+1 viq > 0. Etant donne > 0, on peut supposer que (v q+1 v q )i supj (v q+1
v q )j . Par ailleurs, i I q+1 (sinon viq+1 et viq seraient egaux `a i ). Donc

X
)+
Mij (uq+1
)vjq+1 .
viq+1 = ci (uq+1
(1.60)
i
i
j

Posons w := v q+1 v q , et distinguons deux cas. Si i I q , alors

X
Mij (uqi )vjq ,
viq = ci (uqi ) +
j

(1.61)


CHAPITRE 1. CHAINES DE MARKOV COMMANDEES
22 07 09

18
et donc avec (1.58)

)+
wi = ci (uq+1
i

X
j

X
j

Mij (uq+1
)vjq+1 ci (uqi )
i

Mij (uq+1
)wj
i

X
j

Mij (uqi )vjq ,

(1.62)

(wi + ),

ce qui donne la contradiction recherchee pour > 0 assez petit.


Si, au contraire, i 6 I q , alors viq = i et, par definition de I q+1 , on a

X
ci (uq+1
)+
Mij (uq+1
)vjq < i = viq .
i
i

(1.63)

Donc

)+
wi = ci (uq+1
i


ci (uq+1
)+
i

X
j

Mij (uq+1
)vjq+1 i ,
i

(1.64)

Mij (uq+1
)vjq+1 ci (uq+1
)
i
i

Mij (uq+1
)vjq ,
i

ce qui permet de conclure de la meme mani`ere.


b) On peut montrer, par des arguments dej`a employes, que la suite v q est bornee. Puisquelle est decroissante, elle converge vers une valeur v. De meme, I q etant croissant,
converge vers un certain I . Enfin par compacite on a la convergence de uq vers u
U
1
pour une sous suite. Passant `
a la limite dans (1.54) , il vient



P

ui ) + j Mij (
ui )
vj , i I ,
vi = ci (
(1.65)
vi = i ,
i \ I ,

vi = i ,
i 6 .
De plus la decroissance de v q implique

vi i ,

i I ,

et le passage `
a la limite dans (1.59) donne

X
ci (
Mij (
ui )
vj i ,
ui ) +
j

(1.66)

i \ I .

(1.67)

Les trois relations ci-dessus impliquent que v est solution de (1.48), donc est egale a` la
fonction valeur v.

Notons que lalgorithme presente dans cette section peut saverer lent si la mise `a jour
de lensemble I q nest pas assez efficace. On peut y remedier, soit en introduisant quelques
iterations sur les valeurs (peu co
uteuses, comparees `a la resolution du syst`eme (1.55)), soit
en sinspirant des algorithmes de resolution de probl`emes de complementarite lineaire, par
exemple ceux bases sur les points interieurs.
1

Par des arguments similaires `


a ceux employes dans la demonstration du theor`eme 1.5(iii).

1.4. NOTES

1.4

19

Notes

La reference historique est Bellman [6]. Bertsekas [7] est une bonne premi`ere lecture
sur le sujet.
On trouvera de nombreuses extensions (controle ergodique, agregation, decomposition)
dans Kushner et Dupuis [28], Quadrat et Viot [33]. Le cas de probl`emes avec contraintes
en esperance est traite dans Tidball et al. [35], Altman [2] et Feinberg et Shwartz [21]. On
consultera aussi Hern
andez-Lerma et Lasserre [24].
Si la seule decision est le temps darret, le principe de programmation dynamique est un
probl`eme de complementarite lineaire, sujet sur lequel nous renvoyons `a Cottle et al. [17].
Ceci sugg`ere de sinspirer des algorithmes de resolution de probl`emes de complementarite
lineaire pour resoudre des probl`emes de commande optimale de chanes de Markov.

20

CHAPITRE 1. CHAINES DE MARKOV COMMANDEES


22 07 09

Chapitre 2

Probl`
emes en temps et espace
continus 22 07 09
2.1
2.1.1

Approche informelle de l
equation HJB
Position du probl`
eme

Etudions le probl`eme de commande optimale stochastique

(Px )

Min IE

(y(t), u(t))et dt;

dy(t) = f (y(t), u(t))dt + (y(t), u(t))dw(t),

y0 = x.

u(t) U,

t [0, [,

Les donees de ce probl`eme sont le taux dactualisation > 0, les fonctions co


ut :
IRn IRm IR, tendance f : IRn IRm IRn , et volatilite (, ), application de IRn IRm
vers lespace des matrices de taille nr, et lensemble des commandes admissibles U , partie
compacte de IRm . On a note w(t) un brownien standard de dimension r. On suppose dans
la suite , f et lipschitziens et bornes.
Rappelons quun mouvement brownien standard (scalaire) sur lintervalle de temps IR+
est une variable aleatoire IR+ IR dont les trajectoires sont presque s
urement continues,
et telle que (i) ses accroissements sont independants, (ii) w(0) est nul, et (iii) si 0 s
t < , alors w(t) w(s) est gaussien de moyenne nulle et variance t s. Un brownien
standard de dimension r est un vecteur aleatoire dont les composantes sont des mouvement
brownien standard scalaires independants.
Letude de ce probl`eme comporte deux phases : lanalyse mathematique, qui conduit `a
une equation HJB avec un operateur differentiel du second ordre, et lanalyse numerique
de cette equation HJB. Nous allons commencer par presenter une version en temps discret
du probl`eme, qui permettra une derivation formelle de lequation HJB.
21

22

`
CHAPITRE 2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS 22 07 09

2.1.2

Probl`
eme discr
etis
e en temps

Soit h0 > 0 le pas de temps. Considerons le probl`eme de commande optimale stochastique en temps discret et espace continu :
(
)

k1

(1 + h0 )
(yk , uk ) ;
Min IE h0
h
0
k=0
(Px )

yk+1 = yk + h0 f (yk , uk ) + h0 (yk , uk ) w k , uk U, k IN ;

y0 = x.

Ici w k IRr est un vecteur aleatoire dont les coordonnees sont des tirages independants

de 1 avec probabilites egales, donc de moyenne nulle et variance unite. Le terme h0 fait
que, pour h0 assez petit, si la i`eme ligne de (yk , uk ) nest pas nulle, alors lessentiel de la
variation de la i`eme composante
P 1 1de letat est due au bruit. Par ailleurs si 0 s t < ,
s = k0 h0 et t = k1 h0 , alors kk=k
w k est une variable asymptotiquement gaussienne, de
0
moyenne nulle et variance t s, ce qui est coherent avec le probl`eme continu.
A la difference du cas deterministe, il faut preciser quelle information est disponible quand on prend la decision uk a` linstant k. Par exemple, si les tirages sont connus
davance, on se retrouve dans une situation deterministe. En general le tirage w k nest
pas determine jusqu`a linstant k + 1 ; linformation sur ce tirage et sur letat yk peut etre
totale, partielle ou nulle. Il y a donc une variete de situations possibles.
Dans la suite nous supposerons que la decision uk se fait en connaissant letat yk , mais
pas les tirages w i , pour i k : cest le cas dit de lobservation compl`ete. Compte tenu de
linvariance en temps du probl`eme, ceci conduit `a chercher une commande sous forme de
retour detat (feedback). Autrement dit lensemble U des commandes admissibles est celui
des applications u = u(y) de IRn vers U . A u U est associe un co
ut V h0 (x, u) verifiant
la relation suivante (noter que lesperance ci-dessous se reduit `a la somme de 2r termes)



p
V h0 (x, u) = (1 + h0 )1 h0 (x, u) + IE V h0 (x + h0 f (x, u) + h0 (x, u)w0 , u) .
(2.1)
On pose V h0 (x) := inf uU V h0 (x, u). Le principe de programmation dynamique secrit
o
n

p
V h0 (x) = (1 + h0 )1 inf h0 (x, u) + IE V h0 (x + h0 f (x, u) + h0 (x, u)w0 ) .
uU

(2.2)
Supposons V h0 de classe C 2 , et de derivee seconde uniformement bornee sur IRn , uniformement par rapport `
a h0 assez petit. Alors

:= V h0 (x + h0 f (x, u) + h0 (x, u)w


0 ), h
h
h
0
0
= V (x) + h0 DV (x)f (x, u) + h0 DV 0 (x)(x, u)w0
(2.3)
+ 12 h0 D2 V h0 (x)((x, u)w0 , (x, u)w0 ) + o(h0 ).
Si A est une matrice n n et z IRn , on a z T Az = trace Azz T . Utilisant cette relation,
il vient


D 2 V h0 (x)((x, u)w0 , (x, u)w0 ) = trace D 2 V h0 (x)(x, u)w0 w0T (x, u)T . (2.4)

2.2. SCHEMAS
DE DIFFERENCES
FINIES

23

Notons
a(x, u) := 12 (x, u)(x, u)T .

(2.5)

La matrice n n a(x, u) est symetrique et semi definie positive ; elle est proportionnelle
`a la covariances des bruits sur la dynamique et nous lapellerons matrice de covariance.
Puisque w est de moyenne nulle et variance unite, on a, avec les relations precedentes :


IE() = V h0 (x) + h0 DV h0 (x)f (x, u) + h0 trace D 2 V h0 (x)a(x, u) + o(h0 ).
(2.6)

D
efinition 2.1 On definit lop
erateur rond note , applique `a deux matrices A et B
P
de meme taille, par A B := i,j Aij Bij = trace(AB ). Cette operation est le produit
P
scalaire associe `
a la norme de Frobenius kAkF := ( i,j A2ij )1/2 . Si A est carree de taille n
et x IRn , on a A (xx ) = x Ax.
Passant `
a la limite quand h0 0, on obtient formellement lequation HJB du probl`eme
en temps continu :


V (x) = inf (x, u) + f (x, u) DV (x) + a(x, u) D 2 V (x) , pour tout x IRn . (2.7)
uU

Lorsque (x, u) est identiquement nul, on obtient lequation HJB de la commande optimale
deterministe, qui est du premier ordre.
On obtient un resultat similaire dans le cas dun probl`eme avec horizon fini T et co
ut
final :


Z T

(t, y(t), u(t))dt + (y(T )) ;


Min IE

(Pt,x )
dy(t) = f (t, y(t), u(t))dt + (t, y(t), u(t))dw, u(t) U, t [0, T ],

y0 = x.

de valeur notee V (t, x). Une discussion analogue `a celle de lhorizon infini permet dobtenir
une equation de Hamilton-Jacobi-Bellman du probl`eme continu :


Dt V (t, x) = inf (t, x, u) + f (t, x, u) DV (t, x) + a(t, x, u) D 2 V (t, x) ,
uU
(2.8)
(t, x) ]0, T [IRn ,
n
V (T, x) = (x), x IR .
Nous allons etudier la resolution numerique de lequation HJB (2.7) par des schemas
aux differences finies, en commencant par le cas dun etat scalaire.

2.2

Sch
emas de diff
erences finies

2.2.1

Sch
emas monotones : dimension 1

On note h0 , h1 , etc les pas de discretisation en temps et suivants les variables despace
x1 , etc. Nous discutons les schemas de resolution numerique de lequation HJB (2.7) du

24

`
CHAPITRE 2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS 22 07 09

probl`eme de commande optimale stochastique `a horizon infini, en dimension un, avec


centrage du terme du second ordre, et decentrage pour le terme du premier ordre. On
decentre `a droite si la tendance f est positive, et `a gauche sinon, ce qui revient `a utiliser
dans le schema le point vers lequel pointe la tendance. Le schema decentre secrit alors

vj1 vj
vj+1 vj
+ |f (xj , u) |
vj = inf (xj , u) + f (xj , u)+
uU
h1
h1

(2.9)
vj+1 2vj + vj1
+a(xj , u)
.
h21
Introduisons un pas de temps fictif h0 > 0, par lequel on multiplie lequation ci-dessus.
Ajoutant vj `
a chaque membre, et ordonnant les expressions suivant vj1 , vj+1 et vj+1 , on
obtient lexpression equivalente



h0
h0
1
vj := (1 + h0 ) inf h0 (xj , u) + 1 |f (xj , u)| 2 2 a(xj , u) vj
uU
h1


 h1


(2.10)
h0
h0
h0
h0
|f (xj , u) | + 2 a(xj , u) vj1 +
f (xj , u)+ + 2 a(xj , u) vj+1 .
+
h1
h1
h1
h1
On pose
kf k :=

sup
(x,u)IRU

|f (x, u)|;

kak :=

sup
(x,u)IRU

|a(x, u)|.

(2.11)

Proposition 2.2 (i) Le schema (2.9) poss`ede une solution unique, telle que
kvk 1 kk .

(2.12)

(ii) Si h0 verifie la condition de stabilite


2h0
h0
kf k + 2 kak2 1,
h1
h1

(2.13)

alors (2.10) est une equation de point fixe contractant pour la norme uniforme, de rapport
de contraction (1 + h0 )1 .
Proof. La condition de stabilite assure que, dans la formule (2.10), les poids de vj
et vj1 sont positif. De plus la somme de ces poids vaut 1. On peut donc interpreter
cette equation comme le principe de programmation dynamique (1.19) de la commande
optimale dune chane de Markov, avec ici = (1 + h0 )1 , et kck h0 kk , donc
(1 )1 kck 1 kk . On conclut avec le theor`eme 1.5.

Remarque 2.3 Le terme dominant dans la condition de stabilite est lie `a f si h1 est grand
par rapport `
a 2kak /kf k (discretisation spatiale grossi`ere), et au terme de diffusion si
h1 est petit par rapport `
a 2kak /kf k (discretisation spatiale fine). Dans ce dernier cas,
le pas de temps maximum respectant la condition de stabilite est de lordre de 21 h21 /kak ,
donc beaucoup plus petit que dans le cas deterministe (o`
u il vaut h1 /kf k ).
Remarque 2.4 On trouvera une analyse derreur du schema centre en section 3.2.2.

2.2. SCHEMAS
DE DIFFERENCES
FINIES

25

En vue de lanalyse de convergence il est utile de disposer, quand cest possible, dune
estimation de type Lipschitz. On dira que la solution v du schema est lipschitienne de
constante L, si L := (h1 )1 supj |vj+1 vj | est finie.
Proposition 2.5 Si > Lf +2La /h1 , la solution du schema est lipschitienne de constante
Lh1 ( Lf 2La /h1 )1 L .

(2.14)

En particulier, quand ne depend pas de x, si > Lf , la solution du schema est uniformement lipschitienne, de constante ( Lf )1 L .
Proof. On applique le resultat (1.37) de lexemple 1.7, avec ici = (1 + h0 )1 , donc
1 1 = h0 , et Lc = h0 L . De plus, utilisant
|+ + | + | | | |,

(2.15)

il vient
P

j6=i |Mij

h0
sup (|f (xi+1 , u)+ f (xi , u)+ |
h1 u

+|f (xi+1 , u) f (xi , u) | + 2h1
1 |a(xi+1 , u) a(xi , u)|
h0 (Lf + 2La /h1 ),

Mij |

do`
u le resultat.

(2.16)

Letude de la convergence de ce schema etant complexe, elle est reportee au chapitre


suivant.
Dans le cas de dimension despace superieure `a 1, on sait seulement donner des reponses
partielles au probl`eme de formulation dun schema de difference finie consistant et monotone pour lequation HJB. Nous allons poser le probl`eme et etablir quelques resultats.

2.2.2

Diff
erences finies classiques

Abordons letude de discretisation de lequation HJB, pour le cas de la dimension


despace n > 1, par des schemas de differences finies. Notons Di les derivees par rapport
`a xi , et on adopte le meme type de convention pour les derivees dordre superieur. Pour
approximer Dii on utilise encore la formule centree
Dii2 vj

vj+ei 2vj + vjei


.
h2i

Pour alleger les formules il convient de noter i , ,ik , etc les operateurs de translation
de une coordonnee dans la direction i, k, etc ; ainsi
i vj = vj+ei ,

i,k vj = vj+ei ek .

Avec cette notation lapproximation de Dii est


Dii2

i 20 + i
.
h2i

26

`
CHAPITRE 2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS 22 07 09

1=2

1=2

1=2

1
1=2

1=2

1=2

2 : cas o`
Fig. 2.1 Poids de lapproximation de Dij
u aij > 0

Pour le calcul des derivees croisees (i 6= j), plusieurs choix sont possibles. Par exemple,
utilisant le developpement, pour regulier,
(x + hi ei + hk ek ) = (x) + D(x)(hi ei + hk ek )+
1 2
2
2
2 D (x)((hi ei + hk ek ), (hi ei + hk ek )) + o(hi + hk ),

(2.17)

et procedant de meme pour (x + hi ei ) et (x + hk ek ), on deduit le choix


2
Dik

i,k + 0 i k
,
hi hk

qui fait intervenir les quatre points du rectangle en haut a` droite. On peut ecrire une
formule similaire faisant intervenir les points du rectangle oppose :
2

Dik

i,k + 0 i k
.
hi hk

Il est utile de centrer lestimation en prenant 1la moyenne des deux, ce qui donne
2

Dik

i,k + i,k + 20 i k i k
.
2hi hk

(2.18)

Mais on peut aussi bien faire intervenir les estimations basees sur les deux autres rectangles :
i + k + i + k i,k i,k 20
2
.
(2.19)

Dik
2hi hk

2.2. SCHEMAS
DE DIFFERENCES
FINIES

27

Le point important est que ces deux formules font apparatre les points i,k avec des
x,u la matrice n n
poids positifs dans le premier cas, et negatifs dans le second. Soit D
doperateurs aux differences definie par

x,u
D
ik

i 20 + i

h2i

i,k + i,k + 20 i k i k
=

2hi hk

i + k + i + k i,k i,k 20

2hi hk

si i = k,
si aik (x, u) 0,
sinon.

Pour les termes du premier ordre, on reprend le principe du decentrage suivant le signe de
la tendance, mais pour chaque composante ; `a (x, u), associons D (xj ,u) IRn defini par
(xj ,u)

Di

Considerons le schema discret

v
vj

j+ei
hi
=
vj vjei

hi

si fi (x, u) 0,

(2.20)

sinon.

n
o
n
X
(xj ,u)
x,u vj .
aik (xj , u)D
vj = min (xj , u) + f (xj , u) D
vj +
ik
uU

(2.21)

i,k=1

Multipliant lequation par un pas de temps fictif h0 , ajoutant vj `a chaque membre, et


reordonnant les expressions, il vient
n
vj = min h0 (xj , u)
uU
n
n


X
X h0
X
h0
h0
|fi (xj , u)| 2
|a
(x
,
u)|
vj
|a
(x
,
u)|
+
+ 1
j
ii
j
ik
h
hi hk
h2
i=1 i
i=1 i
i6=k
n 

X
X h0
h0
h0
+
|fi (xj , u) | + 2 aii (xj , u)
|aik (xj , u)| vjei
hi
hi hk
hi
i=1
k6=i
n

X  h0
X h0
h0
|aik (xj , u)| vj+ei
+
fi (xj , u)+ + 2 aii (xj , u)
hi
hi hk
hi
i=1
k6=i
io
X h0 h
+
aik (xj , u)+ (vj+ei +ek + vjei ek ) + |aik (xj , u) |(vj+ei ek + vjei +ek ) .
hi hk
i>k

(2.22)

On peut introduire une mise `


a lechelle de f et a :
fih (x, u) :=

fi (x, u)
;
hi

ahij (x, u) :=

aij (x, u)
;
hi hj

(2.23)

`
CHAPITRE 2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS 22 07 09

28

do`
u lexpression equivalente
n
vj = (1 + h0 )1 min h0 (xj , u)
uU
n
n


X
X
X
h
|ahik (xj , u)| vj
|ahii (xj , u)| + h0
|fi (xj , u)| 2h0
+ 1 h0
i=1

i=1

i6=k

n 

X
X
|fih (xj , u) | + ahii (xj , u)
+h0
|ahik (xj , u)| vjei
i=1

k6=i

n 

X
X
+h0
|ahik (xj , u)| vj+ei
fih (xj , u)+ + ahii (xj , u)

+h0

i=1 h
X

k6=i

ahik (xj , u)+ (vj+ei +ek

i>k

io
+ vjei ek ) + |ahik (xj , u) |(vj+ei ek + vjei +ek ) .

(2.24)

Proposition 2.6 On suppose que les pas despace h1 , . . . , hn sont tels que, pour tout
(x, u) IR U , la matrice de terme general ahik (x, u) est diagonale dominante. Alors
(i) Le schema (2.21) poss`ede une solution unique v, telle que
kvk 1 kk .

(2.25)

(ii) Si h0 verifie la condition de stabilite

h0

n
X
|fi (xj , u)|
i=1

hi

X
|a
(x
,
u)|
|a
(x
,
u)|
ik j
1,
2 ii j

+
2
h
h
h
i
k
i
i=1
n
X

(2.26)

k6=i

alors (2.24) est une equation de point fixe contractant pour la norme uniforme, de rapport
de contraction (1 + h0 )1 .
Proof. La demonstration est une extension simple de celle de cas monodimensionnel
(proposition 2.2). Il faut verifier la positivite des poids des vi . Les poids de vjei ek
soont toujours positifs. La condition de diagonale dominante est necessaire pour assurer la
positivite des poids de soit vjei , soit vj+ei . Enfin la condition sur le pas de temps assure
la positivite du poids de vj .

Si la matrice ah (x, u) nest pas diagonale dominante, le schema presente ci-dessus nest
pas monotone et on peut construire des exemples pour lesquels il ne converge pas. Une
solution possible est de faire intervenir davantage de points dans le schema.

2.2.3

Diff
erences finies g
en
eralis
ees

Dans cette approche, qui generalise la methode usuelle de differences finies presentee
dans la section precedente, le point de depart est lapproximation de la derivee seconde de
la fonction valeur suivant une direction quelconque.

2.2. SCHEMAS
DE DIFFERENCES
FINIES

29

Soit : IRn IR de classe C 2 . La derivee seconde de en x IRn dans la direction


d IRn est par definition la quantite
2

D (x)(d, d) =

n
X

Dx2i xk (x)di dk .

i,k=1

Il vient avec la formule de Taylor


D 2 (x)(d, d) = lim
t0

(x + td) 2(x) + (x td)


.
t2

En particulier, etant donne Zn , notons


(xj ) := (xj+ ) 2(xj ) + (xj ).
Il vient, pour tout j Zn ,
(xj ) =

n
X

hi hk i k Dx2i xk (xj ) + o(khk2 ).

(2.27)

i,k=1

Ainsi on peut approcher la courbure de , suivant une direction egale `a la difference entre
deux points de la grille discr`ete, par une combinaison des valeurs de en trois points de
la grille. On peut alors se poser le probl`eme dapprocher la partie principale (du second
ordre) de loperateur differentiel de lequation HJB par une combinaison de tels termes. Il
sagit de trouver des coefficients uj, tels que :
X

uj, (xj )

n
X

aik (xj , u)xi xk (xj ) + o(1).

(2.28)

i,k=1

Ici S est une partie finie de Zn , appelee le stencil, qui represente (`a la translation j pr`es)
les coordonnees des points entrant dans le schema. Nous verrons quil convient de prendre
les coefficients uj, positifs pour obtenir la monotonie du schema.
Utilisant (2.27), on voit que (2.28) sera satisfait pour toute fonction si
uj, = O((inf hi )2 ),

(2.29)

et

uj, i k = ahik (xj , u) + o(1),

pour tout i, k,

(2.30)

ou encore

uj, T = ah (xj , u) + o(1).

(2.31)

Le schema correspondant (de discretisation de lequation HJB) est

X
vj = inf (xj , u) + f (xj , u) D (xj ,u) vj +
uj, vj ,

uU
S

j Zn .

(2.32)

30

`
CHAPITRE 2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS 22 07 09

D
efinition 2.7 On dira que le schema (2.32) est consistant si (2.31) est satisfait, et fortement consistant si
X
(2.33)
uj, T = ah (xj , u).
S

La verification de la condition de consistance (qui ne va pas de soi) fait lobjet de la


section suivante.
Remarque 2.8 La relation ci-dessus donne une estimation de la taille des coefficients,
qui implique (2.29). En effet, puisque a des coordonnees enti`eres, la matrice T a des
elements diagonaux superieurs ou egaux `a un. Un schema fortement consistant satisfait
donc
X
(2.34)
uj, trace ah (xj , u) = O((inf hi )2 ).
i

La forme de point fixe correspondante est (comme toujours) obtenue en multipliant la


relation (2.32) par un pas de temps fictif h0 , puis en ajoutant vj `a chaque membre, et enfin
en divisant par 1 + h0 . Reprenant la notation f h definie en (2.23), on obtient lexpression
suivante

X
X
vj = (1 + h0 )1 inf h0 (xj , u) + 1 h0
|fih (xj , u)| 2h0
uj, vj
uU
i=1
S

n
n

X
X
X
|fih (xj , u) |vjei + h0
fih (xj , u)+ vj+ei + h0
uj, (vj + vj+ ) .
+h0

i=1

i=1

(2.35)
Cette relation sinterpr`ete comme le principe de programmation dynamique dune chane
de Markov si tous les coefficients des vk sont positifs. Cest le cas pour tout k 6= j, et le
coefficient de vj est positif si la condition de stabilite suivante est satisfaite :

n
X
X
kfi k
+ 2 sup
uj, 1.
(2.36)
h0
hi
jZn ,uU
i=1

On peut combiner cette relation avec (2.34) pour en deduire une estimation du pas de
temps : h0 = O((inf i hi )2 ).

2.2.4

Analyse de la condition de consistance forte

La condition de consistance forte (2.33) revient, puisque les coefficients uj, doivent etre
positifs, `a verifier que ah (xj , u) appartient au cone engendre par lensemble { T ; S}.
Nous allons caracteriser ce c
one dans quelques situations simples. Pour cela, quelques
definitions simposent.
D
efinition 2.9 Soit q IN , q > 0. (i) On dit que C IRq est un c
one si, pour tout
t > 0 et c C, on a tc C. (ii) Soient c1 , . . . , cr dans IRq . On appelle c
one convexe C

2.2. SCHEMAS
DE DIFFERENCES
FINIES

31

engendre par c1 , . . . , cr lensemble des combinaisons lineaires positives de c1 , . . . , cr . On


dit que c1 , . . . , cr est un generateur de C. (iii) On appelle generateur minimal de C un
generateur de C ne contenant pas strictement un generateur de C.
D
efinition 2.10 Soit C un c
one convexe ferme de IRq . On appelle c
one polaire (positif)
de C lensemble
C + := {y IRq ; y x 0, pour tout x C}.
(2.37)
Cest un c
one convexe ferme.
Voici un resultat important danalyse convexe, que nous admettrons (voir par exemple
[32].
Proposition 2.11 Soit C un c
one convexe ferme de IRq . Alors (i) il concide avec son
+
+
c
one bipolaire (C ) , (ii) Si C a un generateur fini, il en est de meme pour C + .
Il resulte de cette proposition que, si C est un cone convexe ferme de generateur fini,
il existe donc un generateur fini c1 , . . . , cr du cone polaire. Alors C est caracterise par les
inegalites lineaires en nombre fini
C = {x IRq ; c1 x 0, i = 1, . . . , r }.

(2.38)

On notera C(S) le c
one engendre par les { T , S}. Considerons le cas o`
u S est de la
n
forme Sp , avec
)
(
n
X
|i | p .
(2.39)
Spn := {1, 0, 1}n ;
i=1

Autrement dit, on consid`ere les transitions vers les points dont les coordonnees diff`erent
dau plus 1 (les voisins immediats), avec au plus p coordonnees differentes.
Proposition 2.12 On a les caracterisations suivantes :
(i) Pour tout n > 0, C(S1n ) est lensemble des matrices diagonales semi definies positives.
` diagonale dominante :
(ii) Pour tout n > 0, C(S2n ) est lensemble des matrices a

X
C(S2n ) = A Mnn ; A = AT ; Aii
|Aij | .
(2.40)

j6=i

(iii) A C(S33 ) si et seulement si, pour tout i, j dans 1, . . . , n et p, q dans {0, 1} :




Aii
|Aij |,
Aii + Ajj (1)p Aik + (1)q Ajk + 2(1)p+q+1 Aij .

(2.41)

Proof. Le point (i) est immediat. Montrons (ii). Comme les generateurs du cone sont `a
diagonale dominante, C(S2n ) est contenu dans le cone des matrices `a diagonale dominante.

32

`
CHAPITRE 2. PROBLEMES
EN TEMPS ET ESPACE CONTINUS 22 07 09

Reciproquement, soit A diagonale dominante. Posons bi := aii


vecteur de base, et notons eij := ei ej . Alors la formule
A=

n
X
i=1

bi ei (ei ) +

Xh
i6=j

j6=i |aij |,

soit ei le i`eme

i
(aij )+ eij (eij ) + |(aij ) |eij (eij ) .

(2.42)

montre que A appartient `


a C(S2n ). Nous admettons le point (iii), qui resulte de lanalyse
de [13].

Remarque 2.13 Les resultats de cette section sont lies aux travaux recents de [13]. Une
question importante est le calcul rapide des coefficients uj, . Dans le cas de la dimension 2,
on trouvera un algorithme rapide et facile `a implementer dans [11]. Le cas de la dimension
3 est ouvert.

2.3

Notes

W. H. Fleming et R. Rishel [22] donnent une introduction generale `a la theorie de la


commande optimale deterministe et stochastique. Lapproche par solutions de viscosite
est introduite dans P.L. Lions [31] ; on en trouvera une synth`ese dans W.H. Fleming et
H.M. Soner [23]. J.L. Lions et A. Bensoussan [29] presentent lapproche de la commande
stochastique par les techniques variationnelles dequations aux derives partielles.
Les methodes numeriques pour la commande stochastique sont exposees dans H.J.
Kushner et P.G. Dupuis [28]. On y trouvera en particulier une discussion dune methode
dapproximation par chane de Markov qui inclut les differences finies generalisees. Pour
les probl`emes de tr`es grande taille il peut etre utile demployer des methodes multigrille,
voir M. Akian [1]. De nombreuses methodes numeriques, dans un cadre de probl`emes de
finance, sont exposees dans L.C.G. Rogers et D. Talay [34].

Chapitre 3

Estimations derreur 24 07 09
3.1
3.1.1

Principe de comparaison
Solutions de viscosit
e

Considerons une equation aux derivees partielles du second ordre sur IRn :
F (x, v(x), Dv(x), D 2 v(x)) = 0,

pour tout

x IRn ,

(3.1)

o`
u F : IRn IR IRn S n IR avec S n , espace des matrices symetriques de taille n.
Cet espace est muni de la relation dordre A  B si A B est semi defini positif. Si
v : IRn IR est deux fois differentiable et satisfait (3.1), on dit que v est une solution
classique de (3.1). On dira aussi que w : IRn IR deux fois differentiable est sous solution
(resp.sur solution) classique de (3.1) si elle verifie
F (x, w(x), Dw(x), D 2 w(x)) 0,

(resp. 0)

pour tout

x IRn .

(3.2)

Dans la suite du chapitre on supposera F faiblement elliptique, (ou encore elliptique


degeneree), au sens o`
u
F (x, v, p, A) F (x, v, p, B)

si A  B.

(3.3)

Le probl`eme standard de la commande optimale stochastique rentre dans ce cadre en


posant
F (x, v, p, Q) = v + sup{(x, u) p f (x, u) a(x, u) Q}
(3.4)
uU

o`
u loperateur , a ete introduit dans la definition 2.1. En effet, si Q et Q sont deux
matrices symetriques, on a
F (x, v, p, Q ) F (x, v, p, Q) sup{a(x, u) (Q Q)}.

(3.5)

uU

Posons Q := Q Q. Utilisant le fait que a(x, u) = (aij (x, u)) est semi definie positive, on
est semi d
verifie facilement que a(x, u)Q est positive
efinie
P positive. En effet, sii A eti
P si Q
i
B sont deux matrices symetriques, A = i i x (xi ) , et B = i j y j (y j ) , o`
u les x et y
33

34

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

P
sont une base orthogonale de vecteurs propres de A et B, on a AB = i,j i j ((xi ) y j )2 .
Si A et B sont semi definies positives, leurs valeurs propres i et j sont positives, donc
A  0 et B  0

A B 0.

(3.6)

Le hamiltonien du probl`eme standard de la commande optimale stochastique, dexpression


H(x, u, r, p, Q) := r (x, u) p f (x, u) a(x, u) Q

(3.7)

est donc bien faiblement elliptique, et il en est de meme de lequation HJB quon peut
ecrire sous la forme
sup H(x, u, v(x), Dv(x), D 2 v(x)) = 0,
uU

x IRn .

(3.8)

.
Le caract`ere faiblement elliptique de (3.1) permet de definir une notion de solution
generalisee dite solution de viscosite.
On dira que (p, X) IRn S n est un surjet (du second ordre) au point x
si
v(x) v(
x) + p (x x
) + 12 (x x
) X(x x
) + o(|x x
|2 ).

(3.9)

Lensemble des surjets de v en x


est note J 2,+ v(
x). De la meme mani`ere on note J 2, v(
x)
lensemble des sousjets de v en x
, couples (p, X) tels que :
) X(x x
) + o(|x x
|2 ).
v(x) v(
x) + p (x x
) + 12 (x x

(3.10)

Les ensembles J 2, v(
x) sont convexes ; si lintersection
J 2 v(
x) := J 2, v(
x) J 2,+ v(
x)

(3.11)

est non vide, cest un singleton qui donne un developpement de Taylor au second ordre de
v en x
.
Soit (p, X) J 2,+ v(
x). Si v a une derivee seconde en x
, alors Dv(
x) = p et D 2 v(
x)  X.
Si v est une sous solution classique de (3.1), en raison de lellipticite faible de F , on
a F (
x, v(
x), p, X) 0. De meme, si w est sur solution classique de (3.1), et (p, X)
J 2, w(
x), alors F (
x, w(
x), p, X) 0. Ceci fournit un moyen de definir une notion de semi
solution generalisee de (3.1).
D
efinition 3.1 Soit un ouvert de IRn . Une fonction v : IR est dite sous solution
(resp. sur solution) au sens de viscosite de (3.1) sur si, pour tout x
, et (p, X)
J 2,+ v(
x) (resp. (p, X) J 2, v(
x)) alors
F (
x, v(
x), p, X) 0 (resp. 0).

(3.12)

On dit que v est solution au sens de viscosite de (3.1) sur si elle est `a la fois sur et
sous solution au sens de viscosite sur .

35

3.1. PRINCIPE DE COMPARAISON

Remarque 3.2 Si v : IRn IR est deux fois contin


ument derivable, en raison de lellipticite de F , v est sous (sur) solution de viscosite ssi elle est sous (sur) solution classique.
Remarque 3.3 Si F est elliptique et continue, on verifie que v : IRn IR est sous (sur)
solutions de viscosite ssi, pour toute fonction : IRn IR de classe C 2 , si v a un
maximum (minimum) local en x, alors F (x, v(x), D(x), D 2 (x)) 0 ( 0). Pour une
demonstration dans le cas dequations du premier ordre, voir Barles [3].
Remarque 3.4 Si F est elliptique et continue, on verifie facilement avec la remarque
precedente quune limite localement uniforme de sous (sur) solutions de viscosite est sous
(sur) solution de viscosite.
Quand dans la suite on parlera de (semi) solution, il faudra comprendre (semi) solution
au sens de viscosite.
Terminons cette section par quelques complements concernant les jets du second ordre.
On definit la fermeture du surjet comme
J2,+ v(
x) :=

(p, X) IRn S n ; xk x
; v(xk ) v(
x);
2,+
J v(xk ) (pk , Xk ) (p, X)

(3.13)

La terminologie est quelque peu abusive ; il sagit, si v est continue, de la fermeture de


lapplication x 7 (v(x), J 2,+ v(x)). Les ensembles J2, v(
x) et J2 v(
x) sont definis dune
2,+
mani`ere similaire, en remplacant respectivement J v(xn ) par J 2, v(xn ) et J 2 v(xn ) dans
la definition.
Il est clair que, si F est continu, et si v est sous (resp. sur) solution de (3.1), alors
(3.12) est satisfait pour tout (p, X) J2,+ v(x) (resp. J2, v(x)).
Une fonction v : IRq IR est decomposable si on peut lecrire sous la forme
v(x) = v1 (x1 , . . . , xr ) + v2 (xr+1 , . . . , xq ),

(3.14)

avec 1 < r < q. Dans ce cas on dit que (p, X) J 2, v(xn ) ou J2, v(
x) est decomposable
si X est bloc diagonal, les blocs etant de taille r et q r. On note x1 = (x1 , . . . , xr ),
x2 = (xr+1 , . . . , xq ), et de meme pour x
et p.
Lemme 3.5 Soit v : IRq IR decomposable. Alors tout (p, X) J2 v(
x) est decomposable,
et ses deux blocs X1 et X2 sont tels que (pi , Xi ) J2 vi (
xi ), pour i = 1, 2.
Proof. Soient les suites xk et (pk , Xk ) donnes par la definition de J2 w(
x). Par definition,
(pk , Xk ) donne un developpement de Taylor `a lordre deux de v en xk , donc de vi en xin ,
pour i = 1, 2. Comme le developpement de Taylor est unique, celui de v est la somme de
ceux de v1 et v2 . Ceci implique que Xk est formee de deux blocs diagonaux de taille r et
q r. On conclut en passant `
a la limite.


36

3.1.2

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

Lemme dIshii

Letude de lunicite forte des semi solutions de lequation (3.1) necessite une serie de
lemmes, aboutissant au lemme dIshii 3.12. Les trois premiers sont des resultats classiques.
On trouvera les demonstrations des lemmes 3.6 et 3.8 dans [18] (et ses references) et du
lemme 3.7 dans par exemple [12, Section 2.4].
Lemme 3.6 (Rademacher) Une fonction localement lipschitzienne IRn IR est Frechet derivable presque partout.
Lemme 3.7 Une fonction convexe IRn IR est localement lipschitzienne (donc presque
partout Frechet derivable en raison du lemme de Rademacher).
Lemme 3.8 (Aleksandrov) Une fonction convexe IRn IR est deux fois Frechet derivable presque partout.
La conclusion des deux lemmes precedents setend immediatement aux differences de
fonctions convexes, et en particulier aux fonctions semiconvexes, cest `a dire les fonctions
v telles que v(x) + 12 |x|2 est convexe pour > 0 assez grand.
Lemme 3.9 (Jensen) Soit x
un maximum local strict dune fonction semiconvexe :
n
n
IR IR. Pour p IR , posons p (x) := (x) + p x. Alors pour r > 0 et > 0 assez
petits, lensemble suivant est de mesure strictement positive :
; p a un maximum local en x}.
K := {x B(
x, r); p B

(3.15)

Proof. a) Puisque est semiconvexe, elle est continue. Pour r > 0 assez petit, x
est

maximum local strict de sur B(


x, r). Quand p B et 0, les maxima de p sur
x, r) convergent uniformement vers x
B(
; donc, pour assez petit (dependant de r), on a
x, r)},
B(
x, 21 r) argmax{p (x); x B(

.
pour tout p B

(3.16)

Comme la mesure de K crot avec , il suffit dobtenir la conclusion quand (3.16) est
satisfait.
b) On traite dabord le cas o`
u est de classe C 2 . Si x K realise le maximum de p ,
. Soit 0 tel que (x) + 1 |x|2 soit convexe ;
alors D(x) + p = 0, donc D(K) = B
2
sur K, on a donc I  D 2 (x) ; dautre part, puisque p atteint son maximum en x, on
a aussi D 2 (x)  0, do`
u | det D 2 (x)| n , et de l`a
Z
Z

| det D 2 (x)|dx n meas(K), (3.17)


dy =
meas(B ) = meas(D(K)) =
K

D(K)

qui donne une estimation inferieure de meas(K) ne dependant que de .


c) Si nest pas de classe C 2 , on lapproche par , convolution de avec un noyau
regularisant :
Z
n
(x y)(y/)dy,
(3.18)
(x) :=
IRn

37

3.1. PRINCIPE DE COMPARAISON


o`
u : IRn IR verifie les hypoth`eses suivantes :

1), et de masse unite.


est positive, de classe C , a` support dans B(0,
(3.19)
R
Dire que est de masse unite signifie que IRn (x)dx = 1. Enfin on pose (x) :=
n (x/), de sorte que (x) := (x) o`
u represente le produit de convolution.
On sait que est de classe C , et converge uniformement vers sur B(
x, r). Montrons
2
que est semiconvexe avec la meme constante . Notons r(x) := |x| . On sait que
(x) + 12 r(x) est convexe. Regularisant les deux membres de linegalite de convexite on
deduit que (x) + 21 r (x) est convexe. Mais
Z
Z
Z
|y|2 (y)dy.
(3.20)
y (y)dy +
|x y|2 (y)dy = |x|2 2x
r (x) =
IRn

IRn

IRn

Retranchant le terme affine (les deux derni`eres integrales) on deduit le resultat cherche.
En raison de (3.16), pour > 0 assez petit, la fonction x (x) + p x poss`ede, pour
, un maximum sur B(
tout p B
x, r). Notons K lensemble K associe `a la fonction .
). Montrons que
Procedant comme dans (3.17), on obtient meas(K ) n meas(B

K
q=1 m=q K1/m .

(3.21)

En effet, soit x
dans le membre de droite ; cest un elements dune sous suite constante (`a
telle que
partir dun certain rang) des ensembles K1/m . Il existe donc une suite pk dans B
1/k
un point dadherence de pk .
x, r) un maximum en x
. Soit p B
pk (x) admette sur B(

Alors p atteint en x
son maximum sur B(
x, r) ; en raison de (3.16), x
B(
x, 21 r), donc
x
K, ce qui etablit (3.21).
). Puisque la suite
n := K1/m est de mesure au moins n meas(B
Dautre part K
m=n
n est decroissante, on a meas n=1 K
n = limn meas(K
n ) do`
K
u la conclusion.

Lemme 3.10 Soient w : IRn IR, > 0 tels que x w(x) + 21 |x|2 est convexe, et
B S n tels que w(0) = maxx {w(x) 21 x Bx}. Alors il existe (0, X) J2 w(0) tel que
Id  X  B.
Proof. La fonction w(x) 12 x Bx|x|4 a un maximum strict en 0. Combinant les lemmes
dAleksandrov et de Jensen, on obtient lexistence, pour tout > 0, de p et x dans IRn
tels que |p | , |x | , w est deux fois differentiable en x , et w(x)+p x 21 x Bx|x|4
a un maximum en x .
Ceci implique |Dw(x )| = O() et D 2 w(x )  B + o(1). De plus la semiconvexite de w
implique Id  D 2 w(x ), donc D 2 w(x ) est borne. Passant `a la limite, dans une suite
extraite, dans la relation (Dw(x ), D2 w(x )) J 2 w(x ), on obtient le resultat.

On definit la sup convolution1 de v : IRn [, +[ comme la famille de fonctions
parametrees par > 0 :
v (x) := sup {v(y) 21 |y x|2 }.

(3.22)

yIRn

Sous entendu avec le noyau y 7 12 |y|2 . Ce nest rien dautre que lapproximee Yosida, voir par
exemple [8, 14], operant par maximisation plut
ot que minimisation.
1

38

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

Ceci secrit
v (x) = 12 |x|2 + sup {v(y) 21 |y|2 y x}.

(3.23)

yIRn

Un supremum de fonctions affines etant convexe, on en deduit que v (x) + 21 |x|2 est
convexe.
Lemme 3.11 (Propri
et
es magiques de la sup convolution) Soient v : IRn IR
s.c.s. et majoree, et > 0. Si (p, X) J 2,+ v (x), alors
(p, X) J 2,+ v(x + p/) et v (x) +

1 2
|p| = v(x + p/).
2

(3.24)

En particulier, si (0, X) J2,+ v (0), alors (0, X) J2,+ v(0).


Proof. Comme v est s.c.s. majoree, il existe y tel que v (x) = v(y) 21 |y x|2 . Pour
tout et dans IRn , utilisant la definition de v et le fait que (p, X) J 2,+ v (x), il vient
v() 21 | |2 v ()
v (x) + p ( x)
+ 21 ( x) X( x) + o(| x|2 )
= v(y) 21 |y x|2 + p ( x)
+ 21 ( x) X( x) + o(| x|2 ).
Choisissant = y + x, il vient
v() v(y) + p ( y) + 12 ( y) X( y) + o(| y|2 ),
cest `a dire (p, X) J 2,+ v(y). Par ailleurs, le choix = y et = x + q, avec q IRn , donne
apr`es simplification
q ((y x) p) O(|q|2 ).

Prenant q = ((y x) p), avec 0, on obtient |(y x) p|2 = O( 2 ), do`


u
p = (y x), ou encore y = x + p/ qui implique (3.24). Le dernier enonce du lemme sen
deduit facilement.

Si A S n , on note |A|2 la norme de A associee `a la norme euclidienne de IRn ; cest le
maximum des valeurs absolues des valeurs propres de A.
Lemme 3.12 (Ishii) Soient v une fonction s.c.s. de IRn [, +[, et de classe
C 2 : IRn IR. Si v a un maximum local en x
, posons A := D 2 (
x). Alors pour tout
n
2,+
0 > 0, il existe X S tel que (D(
x), X) J v(
x) ainsi que :


1
+ |A|2 Id  X  A + 0 A2 .
(3.25)

0
Si de plus v est decomposable (relation (3.14)), on peut imposer les relations suivantes : la
matrice X est bloc diagonale et, notant X1 et X2 ses blocs diagonaux, et D1 (
x), D2 (
x)
2,+
i

la partition correspondante de D(
x), on a (Di (
x), Xi ) J vi (
x ), pour i = 1, 2 o`
u
x1 = (x1 , . . . , xr ) et x2 = (xr+1 , . . . , xq ).

39

3.1. PRINCIPE DE COMPARAISON

Proof. a) Reduction. Par translation on se ram`ene au cas o`


u v(0) = (0) = 0 et x
= 0.
Retirant D(0)x `
a v et , on peut supposer D(0) = 0. Enfin on se ram`ene au cas o`
u
1
1
est quadratique, soit (x) = 2 x Ax. En effet, pour > 0, v(x) 2 x (A + Id )x a un
maximum local strict en 0. Si la conclusion du lemme vaut dans ce cas, passant `a la limite
grace aux estimations (3.25) (qui donnent une borne sur la norme de X) on en deduit le
resultat cherche (pour = 0). On supposera donc dans la suite que
v(x) 21 x Ax 0 = v(0).

(3.26)

b) On introduit la sup convolution. Pour tout > 0, x et y dans IRn , linegalite de Cauchy
Schwarz implique
1
2y A(x y) 2|Ay| |x y| y A2 y + |x y|2

(3.27)

et donc

x Ax = (y + x y) A(y + x y) y (A + A )y +


1
+ kAk2 |x y|2 .

(3.28)

Posant := 1/ + kAk2 , il vient avec (3.26)


v(x) 21 |x y|2 21 y (A + A2 )y, pour tout y IRn ,

(3.29)

v (y) 12 y (A + A2 )y,

(3.30)

qui equivaut `
a
pour tout y IRn . En particulier v (0) 0, or on a toujours v(0) v (0), donc v (0) = 0.
Ainsi (3.30) equivaut `
a v (0) = maxy {v (y) 21 y (A + A2 )y}.
c) Combinant la derni`ere relation avec le lemme 3.10 on obtient lexistence de X S n
verifiant (3.25) et tel que (0, X) J2 v (0). Le lemme 3.11 implique que (0, X) J2,+ v(0).
Enfin, si v est decomposable, on conclut avec le lemme 3.5.

Remarque 3.13 Le choix trivial X = A satisfait (3.25) ainsi que (D(
x), X) J2,+ v(
x).
La force du lemme reside donc dans la possibilite de choisir X decomposable si v lest.

3.1.3

S
eparation des variables

Dans cette section on etablit un outil qui servira `a la comparaison des sous et sur
solutions dequations faiblement elliptiques. Soient deux fonctions v et w de IRn vers IR,
v s.c.s. et majoree, et w s.c.i. et minoree. On etudie les majorations de v w. La quantite
sup(v w) est finie. On aimerait ecrire des conditions verifiees en un point de IRn o`
u vw
atteint son supremum, mais un tel point nexiste pas necessairement.
Ceci am`ene `
a considerer la fonction , : IRn IRn IR, o`
u > 0 et > 0, definie
par
(3.31)
, (x, y) := v(x) w(y) 21 |x y|2 21 (|x|2 + |y|2 ).
Nous allons verifier que le maximum de , est atteint, et appliquer le lemme dIshii.

40

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

Lemme 3.14 On suppose v ou w h


olderienne de constantes C0 > 0, 0 ]0, 1]. Alors
pour tout > 0, quand > 0 est assez petit, il existe (x, y) argmax , tels que, posant
px := (x y) + x,

py := (x y) y,

(3.32)

on a
|x y| (4C0 /)1/(20 ) ,

(3.33)

v(x) w(y) = sup(v w) + o(1),

(3.34)

(px , X) J2,+ v(x); (py , Y ) J2, w(y),








I 0
I I
X
0
.
+ 2

0 I
I I
0 Y

(3.35)
(3.36)

Proof. La demonstration comporte quatre etapes. On supposera v holderienne, lautre


cas se traitant dune mani`ere similaire.
a) La quantite sup , sup v inf w est finie. Soit (xk , yk ) une suite maximisante de
, . De , (xk , yk ) sup , + o(1) on deduit
2
1
2 (|xk |

+ |yk |2 ) sup v inf w sup , + o(1);

(3.37)

la suite est donc bornee. Comme v et (w) sont s.c.s., on en deduit que , atteint son
maximum en (au moins) un point (
x, y).
b) Donnons une estimation de |
x y|. Puisque v est holderienne, on deduit de , (
x, y)
, (
y , y) la relation
1
x
2 |

y|2 v(
x) v(
y ) + 21 (|
y |2 |
x|2 ) C0 |
x y|0 + 21 |
y |2 .

(3.38)

On verifie facilement que (pour > 0 fixe) sup , sup ,0 quand 0, et donc
1
y |2 0 quand 0 (passage `
a la limite de la valeur penalisee et limite nulle de la
2 |
contribution `
a la valeur du terme penalise). Donc soit lim inf 0 |
x y| = 0, soit il existe
x y|2 2C0 |
x y|0 . Dans tous les cas on peut choisir tel
> 0 assez petit tel que 12 |
que (3.33) est satisfait.
c) Montrons (3.34). Prenant x = y dans lexpression de , , il vient
v(
x) w(
y ) sup , sup{v(z) w(z) |z|2 }
z

(3.39)

et on conclut avec largument de limite nulle de la contribution `a la valeur du terme


penalise.
d) Appliquons le lemme dIshii 3.12. Soit (x, y) := 21 |x y|2 + 21 (|x|2 + |y|2 ), et A :=
D 2 (
x, y). Puisque v(x) w(y) (x, y) atteint son maximum en (
x, y), ce lemme assure
n
lexistence pour tout 0 > 0 de X et Y dans S tels que



(Dx (
x, y), X) J2,+ v(
x);
X
0
 A + 0 A2 .
(3.40)
(Dy (
x, y), Y ) J2,+ (w(
y ));
0 Y

3.1. PRINCIPE DE COMPARAISON

41

On a D(
x, y) = (px , py ). Utilisant J2,+ (w(
y )) = J2, w(
y ), on obtient (3.35).
Comme




I I
I 0
A=
+
,
(3.41)
I I
0 I
choisissant 0 > 0 assez petit on deduit (3.36).

Remarque 3.15 La relation (3.36) equivaut `a


a Xa b Y b |b a|2 + 2(|a|2 + |b|2 ), pour tout a et b dans IRn .

(3.42)

Plus generalement, si 1 et 2 sont deux matrices n q, prenant le produit scalaire de


Frobenius des deux membres de la derni`ere relation de (3.36) par la matrice semidefinie

    
1 1 1 2
1
1
=
de taille 2n 2n, combinant `a la relation (3.6),
positive
2 1 2 2
2
2
il vient2
1 1 X 2 2 Y (1 2 ) (1 2 ) + 2(1 1 + 2 2 ).

3.1.4

(3.43)

Principe de comparaison abstrait

Soit F : IRn IR IRn S n IR et C1 , C2 deux classes de fonctions IRn IR. On


dira que F verifie un principe dunicite forte pour les classes C1 , C2 si toute sous solution
v de (3.1) dans C1 et toute sur solution w de (3.1) dans C2 sont telles que sup v inf w.
On verra plus loin des exemples de classes de fonctions Ci .
Dans la suite (en particulier pour les estimations derreur des solutions de schemas de
discretisation) on aura plus generalement besoin de comparer les semi solutions associees
`a deux equations differentes.
On dira que F est uniformement croissant en v sil existe cF > 0 tel que, pour tout x
et p dans IRn , X S n , v et v dans IR, on a
F (x, v , p, A) F (x, v, p, A) cF (v v).

(3.44)

Nous aurons aussi besoin dune autre hypoth`ese plus technique, liee `a la demonstration du
theor`eme 3.17 ci-dessous (on applique ensuite ces resultats au controle stochastique dans
le lemme 3.19). On a defini (px , py ) en (3.32) :

Il existe K1 > 0, K2 > 0, ]0, 1], 1 IR, 2 > 0, tels que, pour tous,

> 1, ]0, 1[, r IR, x, y dans IRn , et X, Y dans S n satisfaisant (3.36),


on a

F (y, r, py , Y ) F (x, r, px , X) 1 + 22 +

K1 |x y| + |x y|2 + K2 (1 + |x|2 + |y|2 ).


2

Utilisant I = trace = .

(3.45)

42

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

Remarque 3.16 Relions (3.45) `


a la condition dellipticite faible. Il suffit de traiter le cas
o`
u Y X est defini positif. Alors pour tout > 0, (3.36) est toujours satisfait. Fixons r
dans IR et x et p dans IRn , et prenons y tel que p = (x y), (et donc y x). On
deduit de(3.45), quand 0, que, pour tout x, r, p, si 2 = 0 :
F (x, r, p, Y ) F (x, r, p, X) 1 .

(3.46)

En particulier, si F = F et 1 = 2 = 0, la condition (3.45) implique lellipticite faible de


F.
On note a b la quantite min(a, b).
Th
eor`
eme 3.17 (Principe dunicit
e fort) Soient F et F uniformement croissant en
v, satisfaisant (3.45). Soient v une sous solution de (3.1) pour F = F , s.c.s. et majoree,
et w une sur solution de (3.1), s.c.i. et minoree. On suppose une de ces deux fonctions
h
olderienne de constantes C0 > 0 et 0 ]0, 1]. Alors il existe C = C(K1 , , 0 , C0 ) telle
que (cF assurant (3.44) pour F ) :


0

+
C
, o`
u
0 :=
sup(v w) c1
.
(3.47)
1

2
1
F
1 2 (0 )+
Proof. Le lemme 3.14 assure lexistence, pour tout > 0, de > 0 et (x, y) IRn IRn
satisfaisant (3.32)-(3.36). Comme v et w sont sous et sur solution de viscosite de (3.1)
pour F et F respectivement, il vient avec (3.35)
F (x, v(x), px , X) 0 F (y, w(y), py , Y ).

(3.48)

Combinant cette inegalite avec la croissance uniforme de F , on obtient


cF (v(x) w(y)) F (x, v(x), px , X) F (x, w(y), px , X),
F (y, w(y), py , Y ) F (x, w(y), px , X).

(3.49)

On deduit alors de (3.45) que



cF (v(x) w(y)) 1 + 22 + K1 |x y| + |x y|2 + K2 (1 + |x|2 + |y|2 ).

(3.50)

On verifie facilement que lim0 sup , = sup ,0 , donc (1+|x|2 +|y|2 ) 0 quand 0.
Majorant |xy| grace `
a (3.33), et utilisant (3.34), on deduit lexistence de C1 = C1 (K1 , C0 )
telle que
cF sup(v w) 1 + 22 + C1
Posons b := 0 /(20 ). Le minimum de
soit = (bC1 /22 )

1
b+1

2b
b+1

, vaut C2 2

22 +C1 b ,

(0 )
20

obtenu quand

= 0,

, avec C2 = C2 (K1 , , 0 , C0 ). Or

2b
2( 0 )
0
,
=
=
b+1
2 0 + 0
1 12 (0 )+
do`
u (3.47).

(3.51)
22 bC1 b1

(3.52)


43

3.1. PRINCIPE DE COMPARAISON

Remarque 3.18 On a suivi [25, Thm 2.1] avec deux differences mineures : on ne suppose
pas les deux semi solutions holderiennes mais seulement lune dentre elles, et on ne suppose
pas 2 < 1 (ce qui est fait dans la preuve de [25, Thm 2.1]). Si 2 < 1 on deduit de (3.47)
que sup(v w) C(1 + 20 ) ce qui est le resultat du theor`eme cite.

3.1.5

Unicit
e forte en commande optimale stochastique

Dans cette section nous appliquons le principe de comparaison au cas du probl`eme de


controle stochastique. Dans le cas o`
u F = F , on en deduit que toute sous solution est
majoree par toute sur solution, dans des classes de fonctions convenables.
On suppose ici F de la forme (3.4), et F dune forme identique en remplacant , f , a
f, a
par ,
.
f, a
Lemme 3.19 On suppose les fonctions (, f, a) et (,
) lipschitziennes et bornees. Alors
(3.44)-(3.45) est satisfait avec = 1, K1 = K1 (L , Lf , L ) et
1 := sup( ),

2 := kf fk + k
k.

(3.53)

En consequence, soit v sous solution de (3.1) pour F = F , s.c.s. et majoree, et w sur solution de (3.1), s.c.i. et minoree, une de ces deux fonction etant h
olderienne de constantes
C0 > 0, 0 ]0, 1]. Alors il existe C > 0 dependant de C0 > 0, 0 et des constantes de
f, a
Lipschitz de (, f, a, ,
) tel que
sup(v w) sup( ) + C(kf fk + k
k)0 .

(3.54)

Proof. La verification de (3.44) est immediate. Posons p0 := (x y). Il vient, utilisant


(3.43) pour le terme 3 ,
:= F (y, r, p0 y, Y ) F (x, r, p0 + x, X) 1 + 2 + 3 ,

(3.55)

avec


u) (y, u) L |x y| + sup ,
1 := sup (x,
u

2 := sup (p0 + x) f(x, u) (p0 y) f (y, u)
u

sup p0 (f(x, u) f (y, u) + (|x| + |y|)(kf k + kfk)
u

Lf |x y|2 + |x y|kf fk + (|x| + |y|)(kf k + kfk),


(Lf + 1 )|x y|2 + kf fk2 + (|x| + |y|)(kf k + kfk),
2

3 := sup (
a(x, u) X a(y, u) Y )
u

1
(x, u)
2 sup(
u

(y, u)) (
(x, u) (y, u))

+2(kak + k
ak)
(L2 |x

(3.56)
(3.57)
(3.58)
(3.59)
(3.60)
(3.61)
(3.62)
(3.63)

y| + k
k ) + 2(kak + k
ak).

(3.64)

On verifie (3.45) en combinant les estimations ci-dessus. Lestimation (3.54) est alors
consequence immediate du principe dunicite fort (theor`eme 3.17).


44

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

3.2

Estimations derreur

Les principales difficultes dans lanalyse des estimations derreur sont presentes en
dimension 1. Nous nous restreindrons donc dans la suite `a ce cas.

Immersion du sch
ema dans IRn

3.2.1

Rappelons lequation HJB du controle stochastique en dimension 1 :




V (x) = inf (x, u) + f (x, u)DV (x) + a(x, u)D 2 V (x) .
uU

(3.65)

On notera dans cette section h > 0 le pas despace. Le schema utilisant (quand cela est
possible) les differences finies centrees a pour expression :


vj+1 2vj + vj1
vj+1 vj1
+ a(xj , u)
, j Z.
vj = inf (xj , u) + f (xj , u)
uU
2h
h2
(3.66)
On peut plonger ce schema dans le probl`eme suivant :

v(x + h) v(x h)
v(x) = inf (x, u) + f (x, u)
uU
2h

(3.67)
v(x + h) 2v(x) + v(x h)
,
x

I
R.
+a(x, u)
h2
On note que (3.67) se decompose en probl`emes independants sur les grilles + hZ, avec
[0, h[ ; en particulier si j Z, on a v(jh) = vj . On va ecrire (3.66) sous une forme plus
compacte en notant les operateurs de difference finies par
v(x + h) v(x)
v(x) v(x h)
h v(x) :=
h
h

h v(x) := 21 h+ v(x) + h v(x) ,
+ v(x) h v(x)
v(x + h) 2v(x) + v(x h)
=
h v(x) := h
h
h2
On peut alors reecrire (3.67) comme
h+ v(x)

:=

v(x) =

inf {(x, u) + f (x, u)h v(x) + a(x, u)h v(x)} .

uU

(3.68)

(3.69)

Multipliant les deux membres par un pas de temps fictif h0 , ajoutant vj `a chaque membre,
et posant
:= (1 + h0 )1 ; fh (x, u) := 21 h0 f (x, u)/h; ah (x, u) := h0 a(x, u)/h2 ,
il vient
v(x) = inf {h0 (x, u) + (ah (x, u) fh (x, u)) v(x h)
uU

+ (1 2ah (x, u)) v(x) + (ah (x, u) + fh (x, u)) v(x + h)} .

(3.70)

Ceci sinterpr`ete comme le principe de programmation dynamique dune chane de Markov


si les coefficients des vi sont positifs, ce qui est le cas si
(i) h0 kak 12 h2 ;

(ii) a(x, u) 12 h|f (x, u)|, pour tout x, u.

(3.71)

45

3.2. ESTIMATIONS DERREUR

Remarque 3.20 La condition de monotonie (3.71)(ii) est satisfaite, dans le cas fortement
elliptique, autrement dit si
a(x, u)  , pour tout (x, u) IRn U,

> 0;

(3.72)

d`es que h 2/kf k.


De la meme mani`ere, on peut plonger le schema decentre dans le probl`eme


v(x) = inf (x, u) + f (x, u)+ h+ v(x) + f (x, u) h v(x) + a(x, u)h v(x) ,
uU

(3.73)

et la forme de point fixe associee est

v(x) = inf {h0 (x, u) + (ah (x, u) fh (x, u) ) v(x h)


uU

+ (1 2ah (x, u)) v(x) + (ah (x, u) + fh (x, u)+ ) v(x + h)} .

(3.74)

Ceci sinterpr`ete comme le principe de programmation dynamique dune chane de Markov


si les coefficients des vi sont positifs, ce qui est le cas si (3.71)(i) est satisfait.

3.2.2

Cas de solutions lisses

Dans le cas de solutions lisses de lequation HJB on obtient facilement des estimations
derreur basees sur la consistance et la monotonie du schema. Pour ceci, interpretons la
solution de lequation HJB (3.65) comme la solution dune perturbation de lequation du
schema centre (3.67) ou decentre (3.73) pour obtenir une estimation derreur. En effet,
notons r1 (x) et r2 (x) les erreurs dapproximation des derivees par le schema (en bref
erreurs de schema ; elles seront evaluees de mani`ere plus precise ulterieurement) :
h V (x) = D 2 V (x) + r2 (x).

(3.75)

Alors la fonction V est solution du schema centre perturbe


n
o
u) + f (x, u)h v(x) + a(x, u)h v(x) ,

v (x) = inf (x,

(3.76)

h V (x) = DV (x) + r1 (x);

uU

avec

u) := (x, u) r1 (x)f (x, u) r2 (x)a(x, u).


(x,

(3.77)

Combinant avec le lemme 1.6 (dans le cas M = M ) on obtient lestimation derreur avec
la solution du schema centre
|V (x) v h (x)| k k kr1 k kf k + kr2 k kak ,

pour tout x IR.

(3.78)

De la meme mani`ere, definissant les erreurs dapproximation decentrees


h+ V (x) = DV (x) + r1+ (x),

h V (x) = DV (x) + r1 (x);

(3.79)

on obtient lestimation derreur avec la solution du schema decentre


kV v h k

kr1+ k kf+ k + kr1 k kf k + kr2 k kak .

(3.80)

46

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

On obtient des estimations plus explicites suivant la regularite de V . On rappelle la


formule du developpement de Taylor avec reste integral, valable si V est de classe C k :
Z 1
1
(1 t)k1 (k)
(k1)
k1
V (x + e) = V (x) + +
V
(x)e
+
V (x + te)ek dt. (3.81)
(k 1)!
(k

1)!
0
Notons (Ci , i ) des constantes de Holder pour V (i) , i k. Utilisant (3.81) pour k = 1 puis
2, il vient
Z

(DV (x + th) DV (x)) dt


Z 1

= 21 h
(1 t) D 2 V (x + th) D 2 V (x th) dt

r1+ (x) =

r1 (x)

(3.82)

donc (nous ne cherchons pas les constantes optimales)


|r1+ (x)| C1 h1 ;

|r1 (x)| C1 h1 ;

|r1 (x)| C2 h1+2 .

(3.83)

Utilisant (3.81) pour k = 3, on obtient


r2 (x) = h

1
0

i
(1 t)2 h (3)
V (x + th) V (3) (x th) dt
2!

et donc
|r2 (x)|

1
C3 23 h1+3 C3 h1+3 .
3!

(3.84)

(3.85)

On aboutit au resultat suivant :


Lemme 3.21 Soient V et v h les solutions de (3.65) et (3.66) respectivement. On suppose
V assez reguli`ere pour que les estimations ci-dessous aient un sens. Alors (i) si la condition
de monotonie (3.71) est satisfaite, on a
kV v h k C2 kf k h1+2 + C3 kak h1+3 .

(3.86)

(ii) Pour le schema decentre, on a lestimation suivante :


kV v h k C1 kf k h1 + C3 kak h1+3 .

(3.87)

En particulier, si V est assez reguli`ere, lerreur est dordre h pour le schema decentre, et
dordre h2 pour le schema centre.
Remarque 3.22 Pour lestimation de r2 (x) on aurait pu aussi se baser sur le developpement
de Taylor `
a lordre 4, qui donne |r2 (x)| h2 kV (4) k , do`
u les estimations derreur pour
les schemas centre et decentre, respectivement :
kV v h k C2 kf k h1+2 + kak kV (4) k h2 ,
kV v h k C1 kf k h1 + kak kV (4) k h2 .

(3.88)

47

3.2. ESTIMATIONS DERREUR

3.2.3

Un proc
ed
e g
en
eral

Les estimations precedentes sont en general inutilisables, car elles necessitent une forte
regularite (derivee troisi`eme holderienne) de la solution V de lequation HJB, alors que
celle-ci est typiquement seulement lipschitzienne ou meme holderienne.
Elles sugg`erent neanmoins le procede suivant. Supposons possible la construction, pour
tout > 0, dune sous solution reguli`ere V , qui verifie V V sous les hypoth`eses du
lemme 3.19. Notant c() := kV V k , il vient
V (x) c() V (x) V (x),

pour tout x IR.

(3.89)

Utilisant les arguments de la section precedente, on verifie que V (x) est sous-solution du
schema perturbe, obtenu en changeant en
(x, u) := (x, u) r1 (x)f (x, u) r2 (x)a(x, u).

(3.90)

o`
u r1 et r2 (x) sont les erreurs de schema pour la fonction V (x), de constantes de Holder
(Ck , k ) `
a lordre k, soit (comparer `a (3.83)-(3.83)) :
|r1+ (x)| C1 h1 ;

|r1 (x)| C1 h1 ;

|r2 (x)|

|r1 (x)| C2 h1+2 .

1
C3 (2h)1+3 C3 h1+3 .
3!

(3.91)

(3.92)

On en deduit le
Lemme 3.23 On a pour le schema centre, si la condition de monotonie (3.71) est satisfaite :
sup(V v h ) c() + C2 kf k h1+2 + C3 kak h1+3 ,
(3.93)
et pour le schema decentre
sup(V v h ) c() + C1 kf k h1 + C3 kak h1+3 .

(3.94)

Proof. On donne largument dans le cas du schema centre. Notons vh la solution du


schema avec la fonction de co
ut (x, u). Comme le schema est monotone, on a
V (x) c() V (x) vh vh +
la derni`ere inegalite resultant du lemme 1.6.

1
k k ,

(3.95)


Le meme argument permettrait dobtenir des majorations de la solution du schema si


on savait construire des majorants reguliers de V . De plus, il est symetrique dans le sens
o`
u, si on sait construire des minorants ou majorants reguliers de la solution du schema,
on en deduit de mani`ere similaire des majorants ou minorants de la solution de lequation
HJB. Toute la question est maintenant de construire ces minorants ou majorants.

48

3.2.4

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

Minoration

Nos allons donner une minoration de la solution v h du schema discret (decentre ou


non). Pour cela nous allons construire une sous solution reguli`ere de lequation HJB, puis
appliquer les resultats de la section precedente. On pose
Lu [v](x) := (x, u) + f (x, u) Dv(x) + a(x, u) D 2 v(x).

(3.96)

Lequation (HJB) secrit v(x) = inf uU Lu [v](x), pour tout x IRn . Introduisons le
procede de Krylov [27], qui consiste `a perturber cette equation de la mani`ere suivante :
v (x) =

inf

uU,|e|1

Lu [v](x e),

pour tout x IRn ,

(3.97)

avec 0 et e IRn . On peut voir (3.97) comme lequation HJB dun probl`eme de controle
1). Il a donc une solution
stochastique dans lequel la commande est (u, e) U B(0,

0
unique V , qui verifie V = V . En raison du theor`eme 3.17 combine au lemme 3.19, si V
est holderienne de constante 0 ]0, 1], et si , f , a sont uniformement lipschitziennes par
rapport `a x, il existe C > 0 independant de tel que
kV V k C0 .

(3.98)

Reprenons le procede de regularisation par convolution avec un noyau regularisant defini


) et de masse
en (3.18)-(3.19). La fonction (x) = n (x/), est `a support dans B(0,
unite. Si w est holderienne de constantes (Cw , 0w ) IR+ ]0, 1], on verifie facilement que
sa regularisee w (x) := w (x) est aussi holderienne avec les memes constantes (Cw , 0w ).
De plus w est de classe C et verifie
Z
w(y)D k (x y)dy.
(3.99)
kw wk Cw 0w ; D k w (x) =
IRn

Comme kD k k kk nk , ceci implique, pour certaines constantes ck > 0 independant


de w :
kD k w k ck Cw k ;

|D k w (x ) D k w (x)| ck Cw |x x|0w k .

(3.100)

On pose V := V (x). Dapr`es la discussion precedente, notant (C, 0 ) les constantes


de Holder de V , on a
kV V k C0 ;
(3.101)
On va montrer que la fonction V est sous solution de (3.97) (lemme 3.25). Pour cela une
resultat qui a son propre interet est le
Lemme 3.24 Lensemble des sous solutions continues du probl`eme standard de contr
ole
stochastique (2.7) est convexe.
Proof. a) Soient v1 et v2 sous solution continues de (2.7), ]0, 1[, et posons := 1,
v := v1 + v2 . Il sagit de montrer que v est sous solution.

49

3.2. ESTIMATIONS DERREUR

b) Pour motiver ce qui suit, traitons dabord le cas o`


u v1 et v2 sont sous solution classiques.
Utilisant la convexite de F (x, , , ) par rapport `a (r, p, Q), on obtient
F (x, v(x), Dv(x), D 2 v(x)) F (x, v1 (x), Dv1 (x), D2 v1 (x))
+ F (x, v2 (x), Dv2 (x), D2 v2 (x)) 0.

(3.102)

On conclut avec la remarque 3.2.


c) Dans le cas general, soit de classe C 2 : IRn IR, tel que v a un maximum local
en un point x
. Changeant (x) en K (x) := (x) + K|x x
|4 , si necessaire, avec K assez
x, 1).
grand, on peut supposer que v a un maximum local strict en x
sur la boule B(
Comme et K ont meme derivees premi`ere et seconde en x
, cette transformation ne
change pas la condition de sous solution.
Notons (x, y) := v1 (x)+ v2 (y)(x) (y) 21 |xy|2 , avec > 0. On verifie
x, 1) B(
x, 1)
facilement que, quand , la fonction atteint son maximum sur B(
en (au moins) un point (x , y ) tel que
x x
,

y x
,

|x y |2 0.

(3.103)

Donc pour assez grand, (x , y ) B(


x, 1) B(
x, 1). Appliquons le lemme dIshii 3.12.
n
Pour tout > 0, il existe X et Y dans S tels que, posant p = (x y ),

(p + D(x ), X)
J2,+ [v1 (x )],
(3.104)

(p + D(y ), Y )) J2,+ [ v2 (y )],


et


X 0
0 Y

 A + A ,

I I
o`
u A :=
I I


D2 (x )
0
+
.
0
D2 (y )


(3.105)

Effectuant le produit
des deux membres
par par la matrice se scalaire (de Frobenius)

(x , u)(x , u) (x , u)(y , u)
midefinie positive
, et prenant = 1/3 , il vient
(y , u)(x , u) (y , u)(y , u)
(utilisant (3.103) pour la derni`ere inegalite)
a(x , u) X + a(y , u) Y ((x , u) (y , u)) ((x , u) (y , u))
+a(x , u) D 2 (x ) + a(y , u) D 2 (y )
+o(1)
C|x y |2 + a(
x, u) D 2 (
x) + o(1)
2
= a(
x, u) D (
x) + o(1).

(3.106)

Utilisons maintenant le fait que v1 et v2 sont sous solutions. Comme J2,+ [w()] =
J2,+ w(), (3.104) implique

( 1 p + D(x ), 1 X) J2,+ v1 (x ),
(3.107)

(( )1 p + D(y ), ( )1 Y ) J2,+ v2 (y ).
Pour tout u U , on a donc (multipliant par et les relations correspondantes)

v1 (x ) (x , u) + (p + D(x )) f (x , u) + a(x , u) X,
(3.108)
v2 (y ) (y , u) + (p + D(y )) f (y , u) + a(y , u) Y.

50

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

Additionnant ces inegalites, et utilisant (3.103) et (3.106), il vient


v(
x) (
x, u) + D(
x) f (
x, u) + a(
x, u) D 2 (
x) + o(1).

(3.109)

Passant `a la limite (ce qui supprime le terme o(1)) et minimisant par rapport `a u U on
obtient la relation caracterisant v comme sous solution.

Lemme 3.25 La fonction V est sous solution de (3.97).
Proof. Dapr`es le lemme 3.24, lensemble des sous solutions continues de lequation
(3.97) est convexe (puisque (3.97) sinterpr`ete comme lequation HJB dun probl`eme standard de controle stochastique).

On peut discretiser lint


R egrale V (x) de laPmani`ere suivante. Soient > 0, Q :=
1 n
1
(e, ). Alors V (x) :=
e+[ 2 , 2 ] , (e, ) := Q (y)dy, et I (x) := eZn V (xe)

V (x) est limite uniforme sur les compacts de I (x). Dapr`es le point (b), V est donc
limite uniforme sur les compacts de sous solutions de 2.7. On conclut avec la remarque
3.4.

On note
0 := sup
x6=y

1 k(x, u)
2
|x

On a bien evidemment 0
holderiennes de constante .

(y, u)k2
(f (x, u) f (y, u)) (x y)
+
y|2
|x y|2
1
2
2 (L )

(3.110)

+ Lf . On note C 0, lespace des fonctions bornees

Th
eor`
eme 3.26 Lequation HJB du probl`eme de commande optimale stochastique a une
solution unique V C 0,0 (IRn ), avec 0 = /0 si < 0 , 0 arbitraire dans ]0, 1[ si
= 0 , et 0 = 1 si > 0 . De plus la constante C0 est uniformement bornee si , f ,
le sont dans C 0,1 (IRn ).
Proof. Nous admettons ce resultat ; voir Barles et Jakobsen [4, Thm 2.2], P.-L. Lions
[30, Thm 2.3]. Une extension `
a des equations plus generales se trouve dans Jakobsen et
Karlsen [25, Appendix].

Th
eor`
eme 3.27 Soit V h
olderienne de constante 0 , (avec 0 fourni par exemple par
le theor`eme 3.26. Soit v h la solution du schema decentre (3.73), ce dernier verifiant la
condition de stabilite (3.71)(ii). Alors on a la minoration de v h suivante :


(3.111)
sup V v h Ch , avec = 20 /(1 + 0 ).

En particulier, si 0 = 1, alors sup V v h O(h1/2 ).

Proof. On applique le lemme 3.23 avec la sous-solution V construite dans la section


precedente. La relation (3.98) donne c() = C0 , et avec (3.100) on obtient k = 0

51

3.2. ESTIMATIONS DERREUR

et Ck = Ck , pour tout k IN . Le lemme lemme 3.23 implique donc pour le schema


decentre





h0
h1+0
h0
h
h
0
0
sup(V v ) C +
+
=C +
.
(3.112)
1+ 2

Or la fonction 7 0 + h0 / atteint son minimum en h = h0 /(1+0 ) ; comme h/2h


O(1), lordre de grandeur du minimum du membre de droite de (3.112) est atteint pour
h . Alors (3.111) decoule de
2

h0 = h0 /(1+0 ) ;

h0
2
= h0 /(1+0 ) ;
h

(3.113)


Remarque 3.28 Si > 0 on a 0 = 1, donc une majoration de V v h en O(h1/2 ). Ce


resultat est a priori le meilleur possible, dans la mesure o`
u dans le cas de la commande
optimale deterministe lordre derreur (des deux cotes) est O(h1/2 ) ; voir Capuzzo Dolcetta
et Ishii [20].

3.2.5

Majoration de la solution du sch


ema

Dans cette approche on applique le procede de Krylov au schema numerique de mani`ere


`a produire une sous solution du schema sur un voisinage. Regularisant par convolution et
utilisant la condition de consistance on obtient une sous solution approchee de lequation
HJB, ce qui donne une majoration de V v h . Les arguments sont identiques `a ceux de la
minoration et il est donc inutile de les repeter. Il suffit dexpliciter le procede de Krylov
:= U B(0,
1) (boule fermee euclidienne de IRn ) delement
applique au schema. On pose U
u
= (u, e), et, pour > 0
u
(x,
) := (x + e, u);

f(x, u) := f (x + e, u);

a
(x, u) := a(x + e, u).

Le schema perturbe secrit



v(x) v(x h)
v(x + h) v(x)
u
+ f(x, u)
v(x) = inf (x,
) + f(x, u)+

h
h
u
U

v(x + h) 2v(x) + v(x h)
+
a(x, u)
.
h2

(3.114)

(3.115)

On obtient donc le resultat symetrique de celui du theor`eme 3.27 :


Th
eor`
eme 3.29 On suppose la solution v h du schema decentre h
olderienne de constante

0 . Alors on a la majoration de v h suivante :




sup v h V Ch , avec = (0 )2 /(1 + 0 ).
(3.116)

En particulier, si 0 = 1, alors sup v h V O(h1/2 ).

52

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

Remarque 3.30 Le point delicat reste lobtention de resultats de regularite sur la solutuion du schema permettant lapplication du theor`eme 3.29. La reference cle est Krylov
[26] dans lequel, pour > 0 assez grand, on prouve (moyennant des calculs assez techniques) que la solution du schema est lipschitzienne (uniformement en h). Les estimations
de type Holder pour petit restent ouvertes.

3.3
3.3.1

Algorithme semi lagrangien


Principe

On note s (x, u) la colonne dindice s de la matrice (x, u). On consid`ere lalgorithme


dit semi lagrangien suivant, qui peut sinterpreter comme une discretisation du principe
de programmation dynamique, posant := (1 + h0 )1 :
r


1 X  h0
h
0
v (x) := inf h0 (x, u) +
v (x + h0 f (x, u) + h0 s (x, u))
uU
2r s=1
(3.117)



+ v h0 (x + h0 f (x, u) h0 s (x, u)) .


Ce schema sinterpr`ete comme un principe de programmation dynamique et correspond `a
un operateur de point fixe contractant pour la norme uniforme, dans lespace des fonctions
continues et bornees. Il a donc une solution unique, continues et bornee, qui satisfait

kk
.
(3.118)

Notons la forme equivalente, plus proche de lequation HJB, obtenue en reecrivons le


schema sous la forme (on multiplie (3.117) par , on retranche v h0 (x) `a chaque membre
et on simplifie par h0 ) :
r


1 X  h0
h
0
v (x) := inf (x, u) +
v (x + h0 f (x, u) + h0 s (x, u)) 2v h0 (x)
uU
2h0 r
s=1


+ v h0 (x + h0 f (x, u) h0 s (x, u)) .


(3.119)
Nous allons donner une estimation derreur basee encore sur lidee de perturbation des
coefficients de Krylov, permettant de construire des sous-solutions reguli`eres de lequation
HJB et du schema numerique. Pour cela il faut assurer la regularite de la solution du
schema. Cest lobjet de la section suivante. Les calculs etant similaires `a ceux menes pour
lestimation derreur de la methode de differences finies, nous ne donnerons pas tous les
details.
kv h0 k

3.3.2

Stabilit
e de la solution du sch
ema

f,
On consid`ere un probl`eme perturbe de donnees ,
, lipschitiennes et bornees. On
h
0
note v la solution du schema semi lagrangien associe. On note
(f (x, u) f (y, u), x y)
;
|x y|2
u,x,y

00 := sup

0 := L2 + 00 .

(3.120)

53

3.3. ALGORITHME SEMI LAGRANGIEN

Proposition 3.31 Si > 0 , alors il existe C > 0 dependant des constantes de Lipschitz
de , , 0 tel que, pour h0 assez petit, on a

+ kf fk + k
(3.121)
kv h0 (x) vh0 (y)k C |x y| + k k
k .

Proof.

On omet la notation pour les normes. Etant donnes > 0 et > 0, posons
(x, y) := |x y|2 + (|x|2 + |y|2 ).

(3.122)

La fonction (x, y) := v h0 (x) vh0 (y) (x, y) est continue, majoree et ses suites maximisantes sont bornees. Elle atteint donc son maximum en un point (
x, y). Pour tout (x , y ),
on a
v h0 (x ) vh0 (y ) = (x , y ) + (x , y ) (x , y ) + (
x, y)
(3.123)
avec egalite si (x , y ) = (
x, y), et donc

A := v h0 (
x + b + a) 2v h0 (
x) + v h0 (
x + b a) 
h
0

v (
y+b+a
) 2
v h0 (
y ) + vh0 (
y + b a
)
(
x + b + a, y + b + a
) 2(
x, y) + (
x + b a, y + b a
)
2
2

= 2 |a a
| + |b b| + 2(
x y) (b b) + o(1).

(3.124)

Soit u
U atteignant le minimum dans la definition de vh0 (
y ). Faisant la difference entre
h
0
(3.117) ecrit en x
et la relation correspondante pour v (
y ), il vient apr`es division par
et notant v := v h0 (
x) vh0 (
y) :
1
y, u
v h0 (
x, u
) h0 (
)

r
p
p

1 X h0
x, u
)) vh0 (
y + h0 f(
y, u
) h0
s (
y, u
)) .
+
v (
x + h0 f (
x, u
) h0 s (
2r
s=1
(3.125)
Retranchant v h0 (
x) vh0 (
y) `
a chaque membre et utilisant 1 = h0 , il vient
y, u
h0 v h0 (
x, u
) h0 (
)
r
X
p
1
+
x, u
) 2v h0 (
x)
v h0 (
x + h0 f (
x, u
) h0 s (
2r s=1
p

+2
v h0 (
y ) vh0 (
y + h0 f(
y, u
) h0
s (
y, u
)) .

Appliquons (3.124) au membre de droite, avec


p
x, u); b := h0 f(
y, u
);
b := h0 f (
x, u
); a := h0 s (
Nous obtenons apr`es simplification3 par h0 :

a
:=

h0
s (
y , u).

y , u) + 2|s (
v (
x, u) (
x, u
)
s (
y , u)|2

+2 h0 |f (
x, u) f(
y, u
)|2 + (f (
x, u
) f(
y, u
) (
x y)) + o(1).

Avec |(x, u)|2 :=

|s (x, u)|2 .

(3.126)

(3.127)

(3.128)

54

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

Utilisant pour > 0 petit


(a + b)2 = a2 + b2 + 2(a)(b/) (1 + 2 )a2 + (1 + 2 )b2

(3.129)

il vient, posant := |
x y| :

|s (
x, u
)
s (
y, u
)|2 (L + k
k)2 (1 + 2 )L2 2 + (1 + 2 )k
k2 . (3.130)

Procedant de meme pour le terme |f (


x, u
) f(
y, u
)|2 , et utilisant

(f (
x, u
) f(
y, u
) (
x y)) kf fk + 00 2 .

(3.131)

En consequence,

+ (1 + 2 ) L2 + h0 L2 2 + 00 2
v L + k k

f
+(1 + 2 ) k
k2 + h0 kf fk2 + 2kf fk + o(1)

(3.132)

Pour h0 et assez petits, on a


avec 1 := (1 + 2 ) L2 + h0 L2f + 00 .

1 < 12 ( + 0 ),

(3.133)

Il vient donc, ordonnant suivant les puissances decroissantes de :



(
x, y) ( 0 )2 + L + kf fk

+ (1 + 2 ) k
+k k
k2 + h0 kf fk2 + o(1).

(3.134)

Combinant avec (3.123) ecrit au point (x, y), il vient



2
1
v h0 (x) vh0 (y) |x y|2 +
L + kf fk
4( 1 )

+ (1 + 2 ) k
k k
k2 + h0 kf fk2 + o(1).

(3.136)


Maximisant par rapport a
` IR, donc prenant = 21 1 L + kf fk /( 1 ), il
vient
2
1
L + kf fk
(
x, y)
(3.135)
4( 1 )

+ (1 + 2 ) k
k k
k2 + h0 kf fk2 + o(1).

Cette inegalite est de la forme




v h0 (x) vh0 (y) 1 1 + 0 + 1 .

(3.137)

Minimisant par rapport `


a , il vient




v h0 (x) vh0 (y) inf 1 1 + 0 + 1 = 0 + 2 1 1 .

(3.138)

On a ici

1 =
1

L2
;
4( 1 )

1 L kf f k
2 ( ) +
1
fk2
2

0 =

kf
+ (1 +
= |x y| +
1
2

+ o(1);
k k

) k
k + h0 kf fk2
2

(3.139)


Majorant 1 avec linegalite (a2 + b2 + c2 + d2 )1/2 a + b + c + d (avec a, b, c, d positifs)


on obtient la conclusion desiree.


55

3.3. ALGORITHME SEMI LAGRANGIEN

Remarque 3.32 Dans P.-L. Lions [30, Thm 2.3], on montre que la valeur du probl`eme
de controle stochastique est lipschitzienne si
> 12 L2 + 00 .

(3.140)

Ici nous obtenons une valeur critique superieure, mais du meme ordre de grandeur.
Corollaire 3.33 Sous les hypoth`eses de la proposition 3.31, la solution de lalgorithme
semilagrangien est lipschitzienne.
Proof. On applique la proposition 3.31 `a la translation du probl`eme dun vecteur z
IRn , donc avec les donnees
u) := (x + z, u);
(x,

f(x, u) := f (x + z, u)

(x, u) := (x + z, u),

(3.141)

dont la solution est vh0 (x) := v h0 (x + z).

3.3.3

Erreur de consistance

On etablit dabord lerreur de consistance pour une fonction reguli`ere. Utilisant le


developpement (3.81) `
a lordre 4, il vient notant e := h0 f (x, u) h0 s (x, u) :
:= 12 (x + h
0 f (x, u) +

r1s (x, u)

r2s (x, u)

h0 s (x, u)) + 21 (x +h0 f (x, u)

h0 s (x, u))
1
= (x) + h0 (x)f (x, u) + 2 (x)(s (x, u))2 + r1s (x, u) + r2s (x, u)

1
= 21 h20 (x)(f (x, u))2 + 3!
(3) (e+ )3 + (3) (e )3
Z 1

(1 t)3  (4)
:=
(x + te+ )(e+ )4 + (4) (x + te )(e )4 dt
3!
0

(3.142)
On note que seuls les puissances paires de s (x, u) ont des contributions non nulles. On
peut donc estimer lerreur de consistance
r(x, u) :=

r
X
s=1

|r1s (x, u) + r2s (x, u)|

(3.143)

par (majorant differentes constantes par 1)



r(x, u) h20 k (x)kkf (x, u)k2 + k (3) k h30 kf (x, u)k3 + h20 kf (x, u)kk(x,u)k
+k (4) k h40 kf (x, u)k4 + h30 kf (x, u)k2 k(x, u)k2 + h20 k(x, u)k4 .
(3.144)
Utilisant (3.119), on voit que ce schema peut secrire pour une fonction reguli`ere


(r
(x,
u)+r
(x,
u))
. (3.145)
(x) := inf (x, u)+ (x)f (x, u)+ 12 (x)a(x, u)+h1
1s
2s
0
uU

Lerreur de consistance avec lequation HJB est donc de lordre de h1


0 |r(x, u)|.

56

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

3.3.4

Estimation derreur

On a etabli en (3.100) les estimations des tailles des derivees des sous solutions obtenues par le procede de Krylov (pertubation des coefficients puis regularisation par convolution). Si la solution V de lequation HJB est lipschitienne, la sous solution w satisfait
kD k w k = O(k ). On a donc avec (3.144)
V (x) v h0 (x) O() + h0 O(1 + 2 + 3 ),

(3.146)

o`
u le premier terme estime kV w k et le second tient compte de lerreur de consistance.
Le choix optimal de est de lordre de h1/4 . Par symetrie on obtient la meme estimation
dans lautre sens. Le resultat final est donc
Th
eor`
eme 3.34 Sous les hypoth`eses de la proposition 3.31, on a
1/4

kV v h0 k = O(h0 ).

3.3.5

(3.147)

Discr
etisation spatiale

Lalgorithme semi lagrangien, pour etre implementable, doit saccompagner dune description de la dependance spatiale permettant une implementation effective. Une possibilite est de partitionner lespace detat par un ensemble S des simplexes reguliers. La
partition doit etre reguli`ere au sens o`
u, si S1 et S2 sont deux simplexes de S, leur intersection est soit vide, soit une face commune `a S1 et S2 . Alors lespace HS des fonctions
continues, affines sur chaque simplexe, sobtient par combinaison lineaire des fonctions
de bases, obtenues en fixant la valeur 1 sur un sommet dun simplexe, et 0 sur touts les
sommets autres que celui-ci. On impose alors la relation (3.117), en chaque sommet de triangle. Lalgorithme secrit donc, notant s(S) lensemble des sommets : calculer v h0 ,S HS
tel que
v h0 ,S (x) := inf

uU

h0 (x, u) +

pour tout x s(S).

1 X  h0 ,S
v
(x + h0 f (x, u) + h0 s (x, u))
2r
s=1


+ v h0 ,S (x + h0 f (x, u) h0 s (x, u)) ,

(3.148)

Avec les arguments habituels de point fixe contractant on verifie que cette equatioon admet
dans HS une solution unique v h0 ,S , telle que kv h0 ,S k kk/.
Lemme 3.35 Si > 0 , il existe c > 0 tel que, si h est la taille maximale dun simplexe :
kv h0 ,S v h0 k c

h
.
h0

(3.149)

Proof. Soit x IRn , element du simplexe S, donc de la forme, notant s(S) lensemble
des sommets du simplexe S et y les coefficients barycentriques (positifs et de somme 1) :

57

3.3. ALGORITHME SEMI LAGRANGIEN


x=

ys(S) y y.

On a, puisque v h0 ,S est affine sur S :


X
X


y |v h0 ,S (y) v h0 (x)|
y (v h0 ,S (y) v h0 (x))
|v h0 ,S (x) v h0 (x)| =
ys(S)
ys(S)
X

h0 ,S
h0
(y) v (y)| + |v h0 (y) v h0 (x)|

y |v
ys(S)

(3.150)
En raison du corollaire 3.33, v h0 (x) est uniformement lipschitzienne de constante notee
L0 , et donc
X
y |v h0 (y) v h0 (x)| L0 h.
(3.151)
ys(S)

Faisant la difference entre les equations de v h0 ,S et v h0 , et majorant la differece des infimum


par le supremum des differences, il vient pour tout y s(S)
|v h0 ,S (y) v h0 (y)| kv h0 ,S v h0 k

(3.152)

Combinant avec (3.150)-(3.151), il vient


|v h0 ,S (x) v h0 (x)| kv h0 ,S v h0 k + L0 h.

(3.153)

Prenant le supremum du membre de gauche il vient


(1 )kv h0 ,S v h0 k L0 h
do`
u la conclusion decoule.

(3.154)


Remarque 3.36 Apr`es discretisation spatiale, lestimation derreur est du type


1/4

c1 h0

+ c2

h
,
h0

(3.155)

avec c1 > 0 et c2 > 0 independants de h et h0 . Pour h fixe le choix optimal de h0 est en


O(h4/5 ) pour une erreur totale en O(h1/5 ).
Notons que dans la methode de differences finies generalisees, on a une erreur en
O(h1/2 ) et on prend un pas de temps en O(h2 ), avec de plus un pas de temps en O(h1/2 ),
donc beaucoup plus grand, ce qui ameliore la performance de lalgorithme, puisque le taux
de convergence des algorithmes de point fixe est dans tous les cas = (1 + h0 )1 .
On peut se demander si lestimation du theor`eme 3.34 nest pas pessimiste. Mais meme
1/2
si on arrivait `
a prouver que kV v h0 k = O(h0 ), pour h fixe, le choix optimal de h0 serait
O(h2/3 ), avec une erreur totale en O(h1/3 ). Il faudrait prouver que kV v h0 k = O(h0 ),
pour retrouver les memes estimations derreur que dans la methode de differences finies
generalisees.

58

CHAPITRE 3. ESTIMATIONS DERREUR 24 07 09

Indications bibliographiques
Unicit
e forte La discussion du principe dunicite forte suit le users guide [18] en explicitant toutes les etapes ; lintroduction de la notion de fonction decomposable simplifie un
peu lexpose. On renvoie `
a [18] pour les extensions aux equations dans des ouverts avec
conditions au bord. Voir aussi [23].
Nous avons mentionne que le principe dunicite fort (theor`eme 3.17) est repris de [25,
Thm 2.1]. Lobtention de la minoration de V v h suit [4] ; lidee cle est le procede de
Krylov. Pour la majoration on se reportera `a [5, 27, 26].
Diff
erences finies Pour les methodes de type differences finies, il y a peu de resultats
destimations derreur en dehors du cas des hamiltoniens convexes. En particulier le cas
des jeux est ouvert. Voir cependant les travaux sur la commande impulsionnelle et sur le
cas du jeu dans lequel ladversaire a pour decision larret du jeu [9, 10].
Algorithme semi lagrangien Lalgorithme, d
u `a [15], etend au cas stochastique lapproche de [19]. Nous analyse reprend les outils de Camilli et Jakobsen [16], dans lequel on
trouvera aussi lanalyse de syst`emes comportant des sauts.

Bibliographie
[1] M. Akian. Analyse de lalgorithme multigrille FMGH de resolution dequations
dHamilton-Jacobi-Bellman. In A. Bensoussan and J.-L. Lions, editors, Analysis and
optimization of systems (Antibes, 1990), volume 144 of Lecture Notes in Control and
Information Sciences, pages 113122. Springer Verlag, Berlin, 1990.
[2] E. Altman. Constrained Markov decision processes. Chapman and Hall, Boca Raton,
1999.
[3] G. Barles. Solutions de viscosite des equations de Hamilton-Jacobi, volume 17 of
Mathematiques et Applications. Springer, Paris, 1994.
[4] G. Barles and E.R. Jakobsen. On the convergence rate of approximation schemes for
Hamilton-Jacobi-Bellman equations. M2AN. Mathematical Modelling and Numerical
Analysis, 36 :3354, 2002.
[5] G. Barles and E.R. Jakobsen. Error bounds for monotone approximation schemes for
Hamilton-Jacobi-Bellman equations. SIAM J. Numerical Analysis, 43(2) :540558
(electronic), 2005.
[6] R. Bellman. Dynamic programming. Princeton University Press, Princeton, 1961.
[7] D. Bertsekas. Dynamic programming and optimal control (2 volumes). Athena Scientific, Belmont, Massachusetts, 1995.
[8] J.F. Bonnans. Optimisation Continue. Dunod, Paris, 2006.
[9] J.F. Bonnans, S. Maroso, and H. Zidani. Error estimates for stochastic differential
games : the adverse stopping case. IMA, J. Numerical Analysis, 26 :188212, 2006.
[10] J.F. Bonnans, S. Maroso, and H. Zidani. Error estimates for a stochastic impulse
control problem. Appl. Math. and Optim., 55(3) :327357, 2007.
[11] J.F. Bonnans, E. Ottenwaelter, and H. Zidani. Numerical schemes for the two dimensional second-order HJB equation. ESAIM : M2AN, 38 :723735, 2004.
[12] J.F. Bonnans and A. Shapiro. Perturbation analysis of optimization problems.
Springer-Verlag, New York, 2000.
[13] J.F. Bonnans and H. Zidani. Consistency of generalized finite difference schemes for
the stochastic HJB equation. SIAM J. Numerical Analysis, 41 :10081021, 2003.
[14] H. Brezis. Operateurs maximaux monotones et semigroupes de contraction dans les
espaces de Hilbert. North Holland, Amsterdam, 1973.
59

60

BIBLIOGRAPHIE

[15] F. Camilli and M. Falcone. An approximation scheme for the optimal control of diffusion processes. RAIRO Modelisation Mathematique et Analyse Numerique, 29 :97
122, 1995.
[16] F. Camilli and E. Jakobsen. A finite element like scheme for integro-partial differential
Hamilton-Jacobi-Bellman equations. SIAM J. Numer. Anal., 47(4) :24072431, 2009.
[17] R.W. Cottle, J.-S. Pang, and R.E. Stone. The Linear Complementarity Problem.
Academic Press, New York, 1992.
[18] M.G. Crandall, H. Ishii, and P.-L. Lions. Users guide to viscosity solutions of second order partial differential equations. Bull. American Mathematical Society (New
Series), 27 :167, 1992.
[19] I. Capuzzo Dolcetta. On a discrete approximation of the Hamilton-Jacobi equation of
dynamic programming. Applied Mathematics and Optimization, 10 :367377, 1983.
[20] I. Capuzzo Dolcetta and H. Ishii. Approximate solutions of the Bellman equation of
deterministic control theory. Appl. Math. Optim., 11 :161181, 1984.
[21] E.A. Feinberg and A. Shwartz. Constrained discounted dynamic programming. Mathematics of Operations Research, 21 :922945, 1996.
[22] W.H. Fleming and R. Rishel. Deterministic and stochastic optimal control, volume 1
of Applications of mathematics. Springer, New York, 1975.
[23] W.H. Fleming and H.M. Soner. Controlled Markov processes and viscosity solutions.
Springer, New York, 1993.
[24] O. Hern
andez-Lerma and J.B. Lasserre. Further topics on discrete-time Markov
control processes. Springer-Verlag, New York, 1999.
[25] E.R. Jakobsen and K.H. Karlsen. Continuous dependence estimates for viscosity
solutions of fully nonlinear degenerate elliptic equations. Electronic J. Differential
Equations, pages 110, 2002.
[26] Nicolai V. Krylov. The rate of convergence of finite-difference approximations for
Bellman equations with Lipschitz coefficients. Appl. Math. Optim., 52(3) :365399,
2005.
[27] N.V. Krylov. On the rate of convergence of finite-difference approximations for Bellmans equations with variable coefficients. Probability Theory and Related Fields,
117 :116, 2000.
[28] H.J. Kushner and P.G. Dupuis. Numerical methods for stochastic control problems
in continuous time, volume 24 of Applications of mathematics. Springer, New York,
2001. Second edition.
[29] J.-L. Lions and A. Bensoussan. Application des inequations variationnelles en contr
ole
stochastique, volume 6 of Methodes mathematiques de linformatique. Dunod, Paris,
1978.
[30] P.-L. Lions. Optimal control of diffusion processes and Hamilton-Jacobi-Bellman
equations. I. The dynamic programming principle and applications. Comm. Partial
Differential Equations, 8(10) :11011174, 1983.

BIBLIOGRAPHIE

61

[31] P.-L. Lions. Optimal control of diffusion processes and Hamilton-Jacobi-Bellman


equations. Part 2 : viscosity solutions and uniqueness. Communications in partial
differential equations, 8 :12291276, 1983.
[32] G.L. Nemhauser, A.H.G. Rinnoy Kan, and M.J. Todd, editors. Optimization, volume 1
of Handbooks in Operations Research and Management Science. North-Holland, Amsterdam, 1989.
[33] J.P. Quadrat. Decision et commande en presence dincertitude. Cours polycopie,
Ecole Polytechnique, 1994.
[34] L.C.G. Rogers and D. Talay, editors. Numerical methods in finance. Cambridge
University Press, 1997.
[35] M.M. Tidball, A. Lombardi, O. Pourtallier, and E. Altman. Continuity of optimal
values and solutions for control of Markov chains with constraints. SIAM Journal on
Control and Optimization, 38 :12041222 (electronic), 2000.