Vous êtes sur la page 1sur 80

cole Normale Suprieure de Cachan

Centre des Mathmatiques et de leurs Applications


Mmoire de stage
Directeur de stage : Filippo SANTAMBROGIO

Thorie gnrale du transport et applications


Ccile CARRRE, Didier LESESVRE, Paul PEGON

Table des matires


1

Introduction la thorie du transport


1.1 Introduction la problmatique du transport optimal . . . . . . . . . .
1.1.1 Le problme de Gaspard MONGE (1781) . . . . . . . . . . . . . .
1.1.2 Premires difficults du problme de MONGE . . . . . . . . . . .
1.1.3 Un exemple un peu plus labor . . . . . . . . . . . . . . . . . .
1.1.4 La gnralisation du problme par Leonid KANTOROVICH (1940)
1.1.5 Minimisation et calcul variationnel . . . . . . . . . . . . . . . .
1.2 Relaxation du problme de MONGE . . . . . . . . . . . . . . . . . . . .
1.3 Dualit de MONGEKANTOROVICH . . . . . . . . . . . . . . . . . . . .
1.3.1 Maximum au problme dual . . . . . . . . . . . . . . . . . . . .
1.3.2 Potentiels de KANTOROVICH . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

9
9
9
10
11
11
13
14
15
16
17

Quelques cots particuliers


2.1 Le cas du transport discret . . . . . . . . . . . . . . . . . . . .
2.1.1 Un exemple discret . . . . . . . . . . . . . . . . . . . .
2.1.2 Le problme du transport dans le cas discret . . . . . .
2.2 Cas dun cot dcoupl c(x, y) = f (x) + g(y) . . . . . . . . .
2.3 Cas dun cot c(x, y) = h(x y) o h est strictement convexe .
2.3.1 Existence de transports optimaux . . . . . . . . . . . .
2.3.2 Unicit du transport optimal . . . . . . . . . . . . . . .
2.3.3 Le thorme de BRENIER pour h(x) = 12 x2 . . . . . . .
2.4 Reformulation laide de la c-concavit . . . . . . . . . . . . .
2.4.1 Cas o c est continue . . . . . . . . . . . . . . . . . . .
2.4.2 Cas o c est semi-continue infrieurement . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

18
18
18
18
19
20
20
20
21
21
21
23

Cas de la distance c(x, y) = d(x, y)


3.1 Premires observations . . . . . . . . . . . . . . . . . . . .
3.1.1 Cas c(x, y) = h(x y) et h convexe valeurs relles
3.2 Retour sur le problme de MONGE . . . . . . . . . . . . .
3.3 Rayons de transport . . . . . . . . . . . . . . . . . . . . .
3.3.1 La dualit de MONGE KANTOROVICH . . . . . . .
3.3.2 Les rayons de transport . . . . . . . . . . . . . . .
3.3.3 De la diffrentiabilit sur les rayons de transport . .
3.3.4 Des rayons partitionnant le support . . . . . . . . .
3.4 Transports optimaux pour la distance . . . . . . . . . . . .
3.4.1 La perte de lunicit de loptimum . . . . . . . . . .
3.4.2 Le choix dun transport optimal . . . . . . . . . . .
3.4.3 Une caractrisation de O(, ) . . . . . . . . . . . .
3.4.4 Notions de -convexit . . . . . . . . . . . . . . . .
3.4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . .
3.5 Le cas du cot c(x, y) = c (x, y) = maxSupp() |x y| . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

25
25
25
26
26
26
26
27
27
27
27
27
28
29
30
30

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

3.5.1
4

Retour sur les cas des transports impossibles . . . . . . . . . . . . . . . . . . . . . . . . .

Le problme de Beckmann
4.1 Le problme de BECKMANN . . . . . . . . . . . . . . . . . . .
4.1.1 Le problme physique de BECKMANN . . . . . . . . . .
4.1.2 Reformulation du problme de minimisation . . . . . .
4.2 Lintervention des mesures vectorielles . . . . . . . . . . . . . .
4.3 Dans lintimit du problme dual . . . . . . . . . . . . . . . .
4.3.1 Retour sur le problme de BECKMANN . . . . . . . . .
4.3.2 Liens avec les critres de MONGE et de KANTOROVICH
4.3.3 Lintervention de v et de . . . . . . . . . . . . . . .
4.4 Gnralisation du problme de BECKMANN . . . . . . . . . . .
4.5 Analyse de . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6 estimations Lp . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7 Le problme de BECKMANN en dimension 1 . . . . . . . . . . .

30

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

31
31
31
32
33
33
33
34
34
35
35
39
40

Cadre topologique et mtrique


5.1 Distances de WASSERSTEIN . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 tude de la topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Lien avec lquation de conservation de la charge . . . . . . . . . . . . .
5.4 Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Chemins et longueurs en espace mtrique . . . . . . . . . . . . .
5.4.2 Godsiques . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.3 Espaces de longueurs . . . . . . . . . . . . . . . . . . . . . . . .
5.4.4 Une caractrisation des godsiques vitesse constante . . . . . .
5.5 Godsiques et transport optimal . . . . . . . . . . . . . . . . . . . . .
5.5.1 Godsiques et plans de transferts optimaux . . . . . . . . . . .
5.5.2 Godsiques vitesses constantes et plans de transferts optimaux
5.6 Convexit godsique et fonctionnelles . . . . . . . . . . . . . . . . . .
5.6.1 Gnralisation de la notion de convexit . . . . . . . . . . . . .
5.6.2 Quelques fonctionnelles centrales . . . . . . . . . . . . . . . . .
5.6.3 De la convexit des fonctionnelles . . . . . . . . . . . . . . . . .
5.6.4 Ingalit de BRUNN MINKOWSKI . . . . . . . . . . . . . . . . .
5.6.5 Autre application . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

41
41
43
45
50
50
50
50
51
51
52
52
54
54
54
54
56
57

Application des problmes dquations aux drives partielles


6.1 BNAMOU BRENIER . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Le problme de la minimisation de la longueur . . . . . .
6.1.2 La formulation de BNAMOU BRENIER du problme . .
6.2 Un peu de dualit... . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Reformulations du problme et simplification des critres
6.2.2 Lalgorithme de BRENIER . . . . . . . . . . . . . . . . . .
6.3 Cours 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4 Introduction aux flots gradients . . . . . . . . . . . . . . . . . .
6.4.1 Formulation du problme . . . . . . . . . . . . . . . . .
6.4.2 Discrtisation temporelle . . . . . . . . . . . . . . . . . .
6.5 Retour sur les flots gradient . . . . . . . . . . . . . . . . . . . .
6.6 Un cas prcis : lquation de la chaleur . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

58
58
58
58
59
59
60
62
62
62
62
63
64

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

Annexes
7.1 Thorie de la mesure . . . . . . . . . . . . . . .
7.1.1 Convergence faible . . . . . . . . . . . .
7.1.2 Lemme dULAM . . . . . . . . . . . . .
7.1.3 Suites tendues . . . . . . . . . . . . . . .
7.2 Analyse fonctionnelle . . . . . . . . . . . . . . .
7.2.1 Semi-continuit infrieure . . . . . . . .
7.2.2 Thorme dASCOLI . . . . . . . . . . .
7.2.3 Transformation de LEGENDRE . . . . . .
7.2.4 Fonctions convexes . . . . . . . . . . . .
7.2.5 Fonctions c-concaves . . . . . . . . . . .
7.2.6 Thorme de HAHNBANACH . . . . .
7.2.7 Relaxation dune fonction . . . . . . . .
7.2.8 Espaces de SOBOLEV . . . . . . . . . . .
7.2.9 Thorme de FENCHEL ROCKAFELLAR
7.2.10 Thorme de RADEMACHER . . . . . . .
7.3 Le transport dans le cas discret . . . . . . . . . .
7.3.1 Thorme de CHOQUET . . . . . . . . .
7.3.2 Thorme de BIRKHOFF . . . . . . . . .
7.4 Quelques mots sur la thorie des distributions .
Rfrences

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

69
69
69
69
69
70
70
70
70
71
72
74
74
75
75
76
76
76
77
78
80

Introduction
Bla bla usuel...
La premire partie est consacre une prsentation gnrale de la thorie du transport. Le sujet est introduit
travers le problme de la recherche dun transport optimal historiquement pos par Gaspard MONGE qui semble,
mme dans des cas relativement simples, difficile traiter voire mme vou lchec. Puis nous prsentons le
point de vue de la thorie de la mesure, introduit deux sicles plus tard par Lonid KANTOROVICH, qui permet de
traiter le problme avec beaucoup plus daisance en recherchant des mesures optimales plutt que des applications. Il
convient alors de se demander si la gnralisation propose par KANTOROVICH nest pas trop loigne du problme
initial, et quels sont les liens entre les deux problmes : nous verrons que le problme de KANTOROVICH est la
relaxation de celui de MONGE, autrement dit quil est, dans un certain sens, le meilleur problme gnralisant
lnonc initial. Notamment, les cots optimaux sont identiques. Suivra alors un rsultat central en thorie du
transport et dune redoutable efficacit dans les applications qui suivront est la dualit de MONGE KANTOROVICH,
qui est la reformulation du problme de minimisation considr en un problme de maximisation dun critre bien
plus simple utiliser.
Une seconde partie est consacre quelques cas particuliers relativement aiss en comparaison des cas que
nous traiterons par la suite traiter. Ainsi le cas du transport dans le cas despaces discrets finis est totalement
trait et les rsultats obtenus sont conformes ce que lintuition et la tendance naturelle suggrerait. Le cas des cots
dcoupls ne dpendant pas du trajet mais seulement des points de dpart et darriv se rvlera trs amical et nous
verrons que nimporte quelle solution est optimale, nous permettant ainsi dignorer les composantes dcouples
du cot par la suite, celles-ci ninfluant pas sur la recherche puisque najoutant aucune contrainte. Pour finir, le
cas de cots strcitement convexes en la distance sera entirement trait, avec une fin heureuse puisque il existe
alors un unique transport optimal, dont nous connaissons la forme. Le cas particulier du carr de la distance se
comporte trs bien et lapplication des rsultats prcdents constitue le thorme de BRENIER. Quelques exemples
plus concrets, ayant ou non des solutions, seront galement tudis.
Le troisime partie est ddie un cas nettement moins vident, savoir celui de la distance. Dans ce cas, les
rsultats prcdents sur les cots strictement convexes ne sappliquent plus, et il faut faire un priple trs diffrent
de ceux qui ont prcd pour arriver nos fins. On introduit pour cela la notion de c-monotonie cyclique, qui
nous permettra dobtenir quelques rsultats dans le cas de cots convexes en la distance. Le cas de la distance est
trs riche, et nous construisons par approximation des transports optimaux qui sont galement optimaux pour les
cots c2 et c . Ce dernier cot sera loccasion de la dernire tude de cette partie.
Le problme du MONGE KANTOROVICH est fortement li un problme de minimisation de flot et de
conservation de la masse, propos par BECKMANN. On travaillera, dans la quatrime partie, le lien existant entre
ces deux problmes a priori peu lis, de manire avancer dans le problme de BECKMANN laide des outils et des
rsultats dvelopps dans ltude prcdente. On prouvera notamment que ces deux problmes sont essentiellement
les mmes laide de la dualit de MONGE KANTOROVICH.
La cinquime partie est loccasion dintroduire naturellement les distances de WASSERSTEIN sur lespace des
mesures de probabilit, qui sont les cots minimum de transport entre deux mesures. Aprs avoir prouv quil
sagit bien de distances, l convient alors dtudier les proprits de la topologie induite par chacune delles. Les
problmes de godsiques interviennent ici naturellement, et nous dtaillons leurs liens avec les problmes de transport optimal : nous verrons que les trasports optimaux et les godsiques vitesses constantes sont trs fortement

lis. Enfin, nous prsenterons le problme de BNAMOU BRENIER, qui nest que la reformulation dun problme
de minimisation de longueur dun chemin, autrement dit un problme de recherche de godsiques. La thorie du
transport permet, une fois encore, de simplifier grandement les critres tudis et on arrive finalement approcher
une solution optimale grce lalgorithme de BRENIER.
La dernire partie est ddie ltude de problmes faisant intervenir de nombreux rsultats, outils et points
de vue dj dvelopps. Ainsi certains problmes de type flot-gradient seront prsents et traits par des mthodes
de type shma dEULER. Notamment, le cas particulier de lquation de la chaleur est tudi en dtails. Un second
problme, celui de ltude de lquation de conservation de la charge, est galement prsent et tudi dans le cadre
des espaces de WASSERSTEIN.
Compte tenu de la grande richesse de la thorie et de la large base thorique sur laquelle elle sappuie, qui est
tout aussi spcialise que varie, des annexes dtailles regroupent tous les ingrdients utiles pour que cette tude
puisse tre dguste avec passion et sans encombres. Ainsi des rsultats centraux danalyse fonctionnelle, de thorie
de la mesure, danalyse convexe ou de thorie de lintgration y sont consigns.

Chapitre 1

Introduction la thorie du transport


1.1
1.1.1

Introduction la problmatique du transport optimal


Le problme de Gaspard Monge (1781)

Le problme du transport optimal est introduit par Gaspard MONGE en 1781, alors professeur lcole du gnie
militaire de Mzires, dans son Mmoire sur la thorie des dblais et de remblais, alliant ainsi comme son habitude
un sens aigu du concret et des problmes pratiques avec une grande capacit dabstraction dans la formulation et
ltude de ces problmes.

Le problme est de minimiser le cot dun transport de sable dune dune pour combler un foss, ou encore dun
transport de pierres dune excavation pour construire une fortification. On peut modliser la distribution de sable
sur la dune par une mesure et la distribution que le sable doit pouser dans le foss par une mesure , qui ont
ventuellement des densits respectives f et g. Le transport est modlis par une application T qui dcrit la position
finale T (x) du sable qui se trouvait originalement en x, et un transport optimal correspond la minimisation du
cot de ce transport, i.e. de la fonctionnelle intgrale dfinie par :

FIGURE 1.1 Modlisation du problme de transport de MONGE


Z
I : (T : ) 7

Z
|T (x) x|d o T #f = g

|T (x) x|f (x)dx =


X

Un transport implique la conservation de la masse, donc les masses totales des mesures et doivent ncessairement tre gales : on se limite donc, quitte normaliser, ne considrer que des mesures de probabilits. Le
problme de MONGE se gnralise en un problme de minimisation plus gnral, avec un cot de transport pouvant
tre diffrent de la simple distance. Le problme revient alors minimiser le critre
Z
(M) T 7
c(x, T (x))d

o la fonction T est une application de transport : T # = .

1.1.2

Premires difficults du problme de Monge

Le premier problme rencontr est celui de lexistence du minimum, i.e. dun transport effectivement optimal.
Considrons un exemple simple pour constater le comportement peu amical du problme : on suppose T injective
et suffisamment rgulire, et on suppose que et ont des densits respectives f et g :
Z
Z
Z
Z
n
: Y R ,
(y)g(y)dy = d = d(T #) = ( T )d
Z
Z
(y)f (T 1 (y)
dy
= (T (x))f (x)dx =
dt(J T (T 1 (y)))
y=T (x)
f
Ce qui donne alors det(J T ) = gT
. On considre alors une suite (Tn )n minimisant le critre intgral, i.e.
tel que I(Tn ) converge vers linfimum, et on aimerait russir en extraire une sous-suite convergente dans une
topologie pour laquelle I est continue, de manire conclure lexistence dun minimum. Le problme vient du
fait que la condition obtenue sur T nest pas linaire, et ne prsente donc pas les bonnes proprits que lon aurait
pu esprer. En effet, la fonctionnelle intressante tudier est
Z
I (Tn ) = ( Tn )d

Or rien ne nous permet de passer ici la limite, donc de conclure. On aimerait que (Tn ) converge : il ny
a en gnral pas de convergence forte, on peut donc penser se limiter des fonctions continues, auquel cas
le thorme de convergence domine sappliquerait, ce qui revient travailler sur la topologie engendre par les
fonctions continues. Or cette topologie est trop fine, et on perdrait alors les proprits de compacit que lon dsire
pour conclure et avancer par la suite : la topologie intressante est la topologie faible, engendre par les formes
linaires continues.
On constate lors de ltude de ce cas dcole que deux problmes viennent entraver nos espoirs de rsolution.
Tout dabord, la condition obtenue sur T nest aucunement linaire, le comportement des solutions nest donc pas
aussi simple.

10

Mais surtout le problme du transport peut ne pas avoir de solution : outre le cas trivial o les masses totales
des deux mesures sont diffrentes et auquel cas la proprit, tant physique que mathmatique, de conservation de la
masse nest pas vrifie, lexistence datomes pour la masse entrane lexistence datomes pour la masse , car en
effet :
a X, T #a = T (a)
Si la mesure ne possde pas datome, le problme est donc sans solution. Le problme de MONGE, aprs son
nonc et les quelques rflexions menes par ce dernier, est rest prs de deux sicles sous la poussire, plus par
manque doutils et de modlisation fiable que dutilit et dapplications...

1.1.3

Un exemple un peu plus labor

On sait que lensemble des transports est dense dans lespace des mesures de (, ) (dire quon le voit aprs,
ou le faire avant...), donc que lon peut approcher tout plan de transfert par des transports, et donc mme sil ny a
pas de transport on a :
Z
Z
inf |x T (x)|d = min |x y|d

Considrons par exemple


= HS1 0 et =

1
1 1
H
+ H1
2 S1 2 S1

R
Dans ce cas, on a pour tout x et y dans les supports respectifs de et |x y| 1 et min |x y| 1. Le
plan de transfert partageant chaque unit de masse entre les deux segments de manire gale convient et prouve que
le minimum vaut bien 1.
Cependant on ne peut pas trouver de transport optimal dans ce cas. En effet, on aurait ncessairement
=

1
1
(id f+ )# + (id f )#
2
2

o f+ = id + e et f = id e avec e = (1, 0) sont les densits respectives de et . Si T tait un transport


optimal, on aurait ncessairement |x y| = 1 sur le support de car |x y| est continue et toujours suprieure
1 et son intgrale vaut 1. Donc pour y = T (x) dans le support de , y vaut ncessairement x + e ou x e. On
considre alors les ensembles A = {x | T (x) = x + e} et Ac = {x | T (x) = x e}, et on a alors
1
1
T # = H|A+e
+ H|A
c e 6=

Malgr tout, on peut approcher un transport optimal :


r
1 |Tn (x) x|

1+

1
1
n2 n

(+ solution du problme par APPELL au dbut du sicle ? cf. mmoire acadmie des sciences)

1.1.4

La gnralisation du problme par Leonid Kantorovich (1940)

Ce nest que dans les annes 1940 que le mathmaticien et conomiste russe Leonid KANTOROVICH donnera la
thorie du transport un nouveau souffle de vie, en largissant le trs contraignant problme de MONGE : au lieu de
rechercher minimiser le cot du transport selon lapplication de transport T , cest vers les mesures que se tourne
le regard de KANTOROVICH, ce qui lui vaudra dailleurs quelques annes plus tard le prix NOBEL dconomie,
rcompensant ses contributions la thorie de lallocation des ressources . Le transport optimal est en effet bien
adapt aux problmatiques conomiques et financires, reprsentant par exemple une rpartition de producteurs
et une rpartition de consommateurs.

11

FIGURE 1.2 Lonid KANTOROVICH (1912 1986)


Intuitivement, la masse prsente initialement en x doit correspondre la somme des masses partant de x
lors du transfert, de mme que la masse finale en y doit correspondre la somme des masses arrivant en y, ce
qui scrit :
Z
Z
(x) =
d(x, y), (y) =
d(x, y)
Y

Ce qui correspond une condition sur les marginales : 1 # = , 2 # = . On se limite donc dsormais
travailler sur des mesures dont les marginales sont les distributions de masses au dpart et larrive :
(, ) := { P( )|1 # = , 2 # = }
On impose donc plus prcisment que pour tout sous-ensembles A et B de :
(A ) = (A) et ( B) = (B)
Le lien entre fonction de transport et plan de transfert fait lobjet de la proposition suivante.
Proposition Un transport T : X Y = X borlien induit un plan de transfert T = (Id T )# concentr sur
le graphe de T qui est T -mesurable (i.e. est dans la tribu borlienne T -complte). Et rciproquement un plan de
transfert concentr sur un graphe -mesurable est induit par un transport borlien.
Preuve Dans le cas o T est un transport rpondant au problme, avec T # = , T concentre bien toute
la masse sur le graphe de T , et les conditions sur les marginales sont vrifies :
T = (id T )# qui convient bien car 1 #T = , 2 #T = T # =
On suppose dans un premier temps que X est compact. Le thorme de LUSIN permet de trouver une suite
1
croissante Kn de compacts
de X tels que GT = Id
S
ST est continu sur Kn et
S(X\Kn < n ). Alors les GT (Kn )
sont compacts donc GT (Kn ) est mesurable et \ GT (Kn ) (X X) GT (Kn ) borlien de mesure nulle.
Donc est T -mesurable. Si X nest pas compact mais -compact (par exemple si cest une partie de Rn ), on
applique le rsultat aux graphes sur les compacts, la runion tant encore T -mesurable.
Si est un graphe -mesurable, il existe une fonction : 1 () X telle que
= {(x, (x))|x 1 ()}
tant finie, par rgularit il existe une suite croissante de compacts Kn tels que (\Kn ) 0. On a
(1 (Kn )) = (11 (1 (Kn ))) (Kn ) 1

12

S
S
Or n 1 (Kn ) 1 () X avec n 1 (Kn ) borlien donc 1 () est -mesurable de masse 1 (i.e. est le
graphe dune fonction dfinie sur -presque tout X). En dsintgrant par rapport 1 , cest--dire = x o
x est une mesure sur Y (= X).
En admettant que x = (x) pour presque tout x (WHY ? Ambrosio fait appel une intgrale extrieure,
quest-ce ?), on identifie un prolongement sur tout X (on la prolonge sur un -ngligeable) et on a :
Z
(A B) =

Z
1(x)B d(x) = ({x : (x, (x)) A B}) = (Id )# (A B)

x (B)d(x) =
A

Ce qui conclut = (Id )# .


Lensemble (, ) dans lequel on recherche les solutions du problme est bien plus agrable que celui des fonctions T sur lequel on travaillait avec le problme de MONGE. Il en est une gnralisation, ou plutt une relaxation :
on diminue les contraintes imposes pour avoir plus de libert de mouvement. Ici, le transfert de la masse est relativement souple et soumis a la seule condition davoir pour marginales et . Le problme de MONGE impose de
plus quil ny ait pas de sparation dune unit de masse en plusieurs morceaux pour le transfert (mass spliting), ce
qui revient dire que chaque masse en x est envoye sur une unique position y.
Le plan (, ) nest jamais vide car le produit tensoriel des deux mesures convient toujours, ce qui
correspondant intuitivement un transport idiot o chaque unit de masse dplace est rpartie sur tout lespace
darrive quitablement (i.e. on en met un peu plus l o il reste un peu plus combler, et un peu moins l o il a
peu faire). Il est galement convexe, ce qui donne une proprit de stabilit bien apprciable et permet dutiliser
les raisonnements et outils usuels en analyse convexe.
Nous arrivons ainsi lnonc du problme central de la thorie du transport, baptis juste titre problme
de MONGE-KANTOROVICH, qui modlise de manire trs gnrale tous les problmes doptimisation du cot dun
dplacement. En introduisons la fonctionnelle intgrale :
Z
MK (, ) 3 7
c(x, y)d

surgissent les deux questions centrales qui sont notre raison dtre :
Existe-t-il un minimum ?
Est-ce un transport, i.e. existe-t-il une fonction de transport telle que = T ?

1.1.5

Minimisation et calcul variationnel

On cherche appliquer la mthode usuelle en calcul variationnel : lorsque J : X R est une fonctionnelle,
on cherche dcider de lexistence dun minimum. Par dfinition, la limite infrieure de J(X) existe toujours,
notons-la l, et il existe une suite (xn )n de X dont les images par J convergent vers l. Si cette suite admet une
valheur dadhrence, par exemple dans le cas dun espace compact pour une certaine topologie, on peut supposer,
quitte extraire, que cette suite converge, disons vers x. Si les J(xn ) convergent vers J(x), par exemple dans le cas
o J est continue ou semi-continue infrieurement pour la topologie considre, J(x) vaut ncessairement l, et le
minimum existe bien.
1er cas : est compact et c est continue sur
On considre dans notre cas une suite minimisante (n )n de (, ). Ce sont des mesures de probabilit, elles
sont donc uniformment bornes par 1, et de plus est compact, comme . La proprit de compacit faible
pour les fonctions continues prouve
R que lon peut extraire une sous-suite faiblement convergente, vers une certaine
mesure . Puisque J : 7 c(x, y)d est continue pour la topologie faible (par dfinition mme), J(n )
converge vers J() qui ralise donc le minimum.
2e cas : est compact et c est semi-continue infrieurement et borne infrieurement

13

Dans ce cas, on ne peut plus affirmer la continuit de J comme prcdemment, compte tenu du fait que c nest
pas suppose continue et que nous travaillons avec la topologie faible dfinie par les fonctions continues. La semicontinuit infrieure permet dcrire c(x, y) comme limite croissante de fonctions continues cn (x, y) sur . On
pose alors Jn () comme tant lintgrale de cn sur , qui crot par rapport n par croissance de la suite de cots cn .
La borne suprieure J des Jn , qui sont continues, est alors semi-continue infrieurement et borne infrieurement
par la caractrisation des telles fonctions donne en annexe. Cela suffit donc appliquer le raisonnement prcdent,
et donc prouver lexistence dun minimum.
3e cas : est un espace polonais (i.e. mtrique sparable et complet) et c est semi-continue infrieurement,
borne infrieurement, valeurs dans R {+}
Ne supposant plus compact, le rsultat de compacit sur les mesures de probabilits ne sapplique plus. On
prend une suite (n )n minimisante dans (, ), et on cherche une extraction qui converge faiblement. Malheureusement, il ny a plus de rsultat de compacit permettant de conclure aisment ; pour cela, on cherche montrer
que la suite (n )n est tendue. La rgularit des masures de RADON prouve que pour > 0, et tant finies, il
existe deux compacts K et K 0 tels que :
(K c )

, (K 0c )
2
2

Pour toute mesure de (, ), on constate que :


((K K 0 )c ) (K c ) + ( K 0c )
= (K c ) + (K 0c )
La suite (n )n est tendue, donc on peut en extraire une sous-suite faiblement convergente et la dmarche variationnelle prcdente sapplique pour obtenir lexistence dun minimum.
Ainsi, dans de nombreux cas usuels et relativement gnraux, linfimum du critre (MK) est un minimum.

1.2

Relaxation du problme de Monge

Il reste se poser la question de savoir si KANTOROVICH a trop largi le problme en cherchant minimiser
sur les mesures plutt que sur les transports T comme MONGE lavait fait. En effet, on sait que le minimum du
problme de KANTOROVICH est infrieur linfimum du problme de MONGE (qui a linconvnient de pouvoir ne
pas tre un minimum).
On rappelle les fonctionnelles intgrales sur lesquelles porte le travail :
Z
J() =
cd
Z

c(x, T (x))d si = T
J 0 () =
+ sinon
Le problme de MONGE correspond la minimisation de J 0 :
inf{J 0 () | (, )}
Le problme de KANTOROVICH correspond la minimisation de J :
inf{J() | (, )}
J est un problme plus gnral, et on aimerait en faire une extension (une relaxation ) de J 0 qui soit semicontinue infrieurement, mais qui reste proche de J. La relaxe H de J permet de rgulariser un peu le problme,
la question est alors de savoir si lon a H = J, ce qui serait lidal.

14

Pour nous en rendre compte, notons H : (, ) R {+} la relaxe en question. Cest une extension
du problme de MONGE J 0 , ce qui signifie que H et J 0 sont confondues sur lensemble des mesures de transport
T . Puisque H est suppose semi-continue infrieurement, si la suite de mesures (n )n converge vers , alors on
a H() lim inf J 0 (n ). Si les n sont ce plus supposes tre des transports, i.e. des Tn , alors J 0 (n ) = J(n ).
Dans ce cas, la continuit de J assure que les J 0 (n ) convergent vers J().
H tant dfinie comme la plus grande fonction infrieure J 0 et semi-continuit infrieurement, H() J()
do H = J.
Finalement, le problme de MONGE-KANTOROVITCH est la relaxation semi-continue infrieurement du problme initial de MONGE. Il permet dlargir le problme dans un cadre bien plus gnral, celui des mesures de
probabilit quelconques, tout en conservant la proprit intressante
Si n = lim inf H(n ) = J()
n

1.3

Dualit de MongeKantorovich

La contrainte (, ) nest pas trs simple manier, et nous ne savons pas caractriser de telles mesures de
manire simplifier lcriture du problme. On cherche naturellement se ramener un problme de minimisation
sur des mesures quelconques, ou vrifiant une conditions plus agrable manipuler. Puisquil sagit dun problme
de minimisation, une technique classique est de trouver une quantit () qui naltre pas le problme (i.e. qui valle
0 sur (, )) et qui permette dabsorber les lments ne vrifiant pas la condition dappartenance (, ) (i.e.
valant une valeur suffisamment grande sur ces lments pour que ce ne puisse tre le minimum).
Lappartenance de (, ) se traduit par lgalit :
Z

Z
Z
= () = sup A(, ) = sup
d + d ((x) + (y))d = 0
,

De plus, ds que A prend une valeur non nulle (i.e. ds que nappartient pas (, )), on peut concentrer
toute la masse possible en une masse de DIRAC en ce point et laccrotre dautant que lon veut, ce qui prouve que
est infini. Nous avons obtenu notre lment absorbant qui permet de gnraliser la recherche des mesures
quelconques :

0
si (, )
=
+ sinon
En permutant les bornes suprieures et infrieures, nous obtenons le problme dual du premier :
Z

Z
Z

Z
min
cd +
dual de sup
d + d + inf
(c(x, y) (x) (y))d

La question qui se pose est dsormais de trouver un lien entre les problmes primal et dual. Dans lidal, les
deux problmes seraient quivalents sous certaines conditions.
Si pour tous x et y on a c(x, y) (x) (y) qui est positif, alors inf = 0, atteint en prenant la mesure nulle
sur lespace. Sil existe x et y tels que c(x, y) (x) (y) soit strictement ngative, alors on peut concentrer une
masse arbitrairement grande en (x, y), et inf = . Cela dit, le maximum recherch scrit alors :

 Z

Z

Z
Z
0
si (, )
sup
+ d + d =
sup
d + d
sinon
,
,|c
Nous introduisons alors un nouveau problme avec la minimisation par rapport du critre intgral
Z

Z
Z
Z
c(x, y)d + sup
d + d ((x) + (y))d
,

15

On tombe ainsi sur un problme dual du premier, changeant un problme de minimisation par rapport
avec un problme de maximisation par rapport aux (, ) vrifiant x, y, (x)+(y) c(x, y). On note dailleurs
que lon a toujours
min

sup
,|c

Un thorme de FENCHEL ROCKAFELLAR affirme que


min =

sup
,|c

Autrement dit, le cot


R minimal
R correspond la rentabilit maximale. En effet, on peut interprter
le cot du transport et d + d comme la rentabilit... (expliciter).

1.3.1

cd comme

Maximum au problme dual

Le problme dual ainsi obtenu possde galement de trs bonnes proprits, notamment si est compact et c
est continue sur , alors il existe un couple (, ) optimal, i.e. maximisant .
On commence par constater que si (, ) est un couple admissible, i.e. vrifiant c, alors
x, y, (y) c(x, y) + (x) donc y, (y) inf (c(x, y) + (x)) = c (y)
x

et le couple (, c ) est admissible, o c est la c-transforme de .


vrifiant en particulier x, x0 , y, y 0 , |c(x, y) c(x0 , y 0 )| (|x0 x| + |y 0 y|). Il vient alors ici :
x, y , c (y 0 ) c(x, y 0 ) (x) c(x, y) + (|y 0 y|) (x) = c (y) + (|y 0 y|)
Ainsi, le module de continuit de c est galement , ce qui quantifie la continuit de c partir dune quantification de celle de c. En itrant le procd, (c , cc ) est un autre couple admissible du problme. On peut toujours
remplacer un couple admissible par un autre couple dont les fonctions sont continues, de mme module de continuit que c, et meilleures que le couple initial.
On prend alors une suite maximisante (n , n )n de couples de fonctions continues de modules de continuits
tous gaux . Quitte translater les n , on peut supposer quelles sont nulles en un mme x0 . On peut se limiter
au cas n = cn car n cn , donc conserver n napporte rien pour le calcul de la borne suprieure. Il vient alors
n N, x, y ,

|n (x)| |n (x0 )| + (|x x0 |) (|x x0 |) 2kck


|n (y)| = |cn (y)| 2kck

Ainsi, (n , n )n est uniformment borne, donc le thorme dASCOLI sapplique, la translation des fonctions
nayant pas chang leur proprit dquicontinuit, et on peut extraire deux suites (n) et (n) convergeant
uniformment respectivement vers et . Le thorme de convergence sous le symbole dintgration sapplique
par convergence uniforme, et par passage la limite :
x, y , (x) + (y) c(x, y) et (, ) maximise donc
Conclusion : Le sup est un max.

16

1.3.2

Potentiels de Kantorovich

On a dj vu que


Z
min

h(x y)d

Z
= max
,

Z
d +


d | (x) + (y) c(x, y)

On considre alors un triplet (, , ) dlments optimaux pour des critres, appels potentiels de KANTOROIl vient alors par lgalit qui prcde :
Z
Z
Z
Z
Z
cd = h(x y)d = ((x) + (y))d = d + d

VICH.

On rappelle que le support dune mesure est le plus petit ferm contenant de la masse pour cette mesure, i.e.
le plus petit ferm F de X tel que (X\F ) = 0, i.e. lensemble des x tels que pour tout rayon r > 0, la boule de
centre x et de rayon r est de masse non nulle, i.e. lensemble des points concentrsemi continuit suite croissanteant
de la masse sur tout voisinage.
Or on a toujours c(x, y) (x) + (y) et lgalit des intgrales, donc ncessairement c = -presque
partout, et cette galit est en particulier valide sur tout le support de puisque c, , sont continus. Soit (x0 , y0 )
dans le support de , donc vrifiant lgalit. On a :
x ,

(x) + (y0 ) c(x, y0 )


(x0 ) + (y0 ) = c(x0 , y0 )

Ainsi, c(x, y0 ) (x) minimale en x = x0 .

17

Chapitre 2

Quelques cots particuliers


2.1
2.1.1

Le cas du transport discret


Un exemple discret

Une approche discrte du problme est galement possible : n usines viennent de produire une caisse de matriel
chacune, et il faut les rpartir entre n destinations. On recherche une permutation des caisses minimisant le cot
total du transport dfini par
X
c : Sn 7
c(i, (i))
i

La fonction de cot a une grande importance et peut faire varier le rsultat du tout au tout. On le voit par
exemple en considrant une tagre sur laquelle sont rangs n livres de mme paisseur, et en tudiant le problme
du dcalage du bloc des n livres dune paisseur vers la droite. Deux solutions immdiates peuvent tre envisages :
Mettre le livre le plus gauche tout droite ;
Dcaler chaque livre dune paisseur vers la droite, en commenant par la droite.
Si le cot est proportionnel la distance, les deux solutions sont optimales. Sil est proportionnel au carr de la
distance, seule la seconde est optimale : le cot du transport croissant trs rapidement, les dplacements de grande
ampleur sont viter. Sil est proportionnel la racine carre de la distance, seule la premire est optimale : le
cot est principalement d laction du transport et non la distance parcourue, donc quitte transporter un
livre, autant le transporter le plus loin possible. Les dplacements privilgier dpendent donc fortement du cot
envisag, i.e. de ce que lon considre comme coteux.

2.1.2

Le problme du transport dans le cas discret

On reprsente le cas discret du transport par des rpartitions ponctuelles de masses :


n

1X
1X
xi et =
y
n i=1
n j=1 j

On peut reprsenter un plan de transfert par une matrice prcisant la rpartition de la masse initialement
prsente en xi entre les yj :
X
=
ij (xi ,yj )
i,j

La matrice (ij )i,j que lon identifie doit bien videmment tre bistochastique

18

X
1
= ({xi }) =
ij
n
j

et

X
1
= ({yj }) =
ij
n
i

Et rciproquement toute matrice bistochastique est un plan de transfert admissible. Le problme de la minimisation du cot se ramne donc un problme de minimisation de
X
c() =
i,j c(xi , yj )
i,j

Les rsultats de CHOQUET et de BIRKHOFF permettent de prouver que les minimiseurs sont exactement les
matrices de permutation. Autrement dit, nous sommes en prsence dun cas o les plans de transfert optimaux sont
tous des transports.
Cette tude permet dobtenir les plans de transfert dans le cas du transport discret avec des masses rationnelles,
ce qui modlise bien toutes les situations rencontres en pratique. En effet, quitte rduire tous les rationnels au
mme dnominateur et normaliser, on peut supposer que les masses en chaque point sont toutes entires. Ceci dit,
on se ramne au cas de masses uniformes en scindant un point de masse m en m points de masse 1 situs au mme
endroit. Le rsultat prcdent affirme que tous les plans de transfert optimaux sont optenus par des permutations.
Cependant, puisque nous avons scind les masses avant de faire cela, nous ne pouvons plus esprer obtenir des
transports, sauf dans des cas trs particuliers : chaque masse de la distribution initiale est susceptible dtre partage
entre plusieurs destinations.

2.2

Cas dun cot dcoupl c(x, y) = f (x) + g(y)

Ce cas correspond intuitivement une situation o les efforts fournir pour le transport se concentrent au
dpart et larrive. Comme vu prcdemment, le problme de minimisation revient au problme de maximisation
de
Z
Z
d + d
o (x) + (y) c(x, y). On peut se limiter la recherche sur les couples (c , cc ), comme signal prcdemment. Les expressions sobtiennent alors facilement compte tenu du dcouplage des variables :
x ,

c (x) = inf (f (x) + g(y) (y)) = f (x) + inf (g(y) (y))

y ,

cc (x) = inf (f (x) + g(y) c (y)) = inf (g(y) inf (g(y) (y)))

Les solutions sont donc de la forme




: x 7 f (x) + c
: y 7 g(y) c
R
R
o c est une constante. Or, avec ces notations, la quantit d + d ne dpend pas de la constante c, les
mesures et tant des probabilits. Ainsi, tous les couples optimaux sont donc de cette forme. Nous connaissons
ainsi la valeur du minimum du transport, et mme si nous navons pas rsolu le problme initial, savoir trouver des
mesures optimales, la connaissance de ce minimum permet desprer lapproximation (algorithmique par exemple)
de loptimum par des transports, mme sil ny a pas de transport optimal dans ce cas 1 !
Dans le cas de variables dcouples, toutes les solutions conviennent donc, et le problme se ramne la seule
recherche dune mesure qui est une mesure de transport sur lespace. Ce rsultat justifie les raisonnements ultrieurs,
par exemple dans le cas (xy)2 , de ne travailler que sur les termes coupls en x et y. Les termes dcoupls ninfluent
donc pas sur le problme doptimisation, ils ne font que modifier la valeur des optima, et ce de manire entirement
dtermine par et .
1. Nous montrons plus loin que les mesures de transport sont denses dans lespace des mesures, sous la seule condition que nait pas
datome, ce qui justifie la possibilit dune approximation algorithmique

19

2.3

Cas dun cot c(x, y) = h(x y) o h est strictement convexe

Le problme de MONGE est un problme limite de ce cas-ci, la distance utilise comme cot tant convexe mais
non strictement convexe.

2.3.1

Existence de transports optimaux

On se place dans le cas o h est diffrentiable, et donc o le gradient h est injectif puisque h est strictement convexe. Le gradient de la fonction sannule donc en y0 , et on a h(x0 y0 ) = (x0 ), soit x0 y0 =
(h)1 ((x0 )), et on pose alors :
y0 = T (x0 ) = x0 (h)1 ((x0 )) = (id (h)1 )(x0 )
Le rsultat fondamental est que pour un espace dont le bord est de mesure nulle, pour et deux mesures
absolument continues par rapport la mesure de Lebesgue sur Rn , et pour un cot c(x, y) = h(x y) o h
est strictement convexe, il existe une unique mesure optimale, et cest une mesure de transport : = T o
T : x 7 x h ((x)), dfinie presque partout.
Le choix dun bord de mesure nulle permet de ngliger la frontire de , donc de sassurer de pouvoir prendre
un point intrieur en lequel la diffrentielle de T existe et sur lequel on peut affirmer que la minimisation de la
fonction implique lannulation de sa diffrentielle.
On prend optimal et (x0 , y0 ) dans le support de , avec de plus x0
/ . Les rsultats prcdents prouvent
que :
y0 = x0 h ((x0 ))
et existe presque partout car (x) = inf y h(x y) (y) et h est localement lipschitzienne car strictement
convexe, et puisque a le mme module de continuit de h, elle est localement lipschitzienne et, par le thorme
de RADEMACHER, est diffrentiable presque partout. Donc est concentr sur le graphe de T (puisque le bord
de est - et -ngligeable, donc le bord de est -ngligeable) o T : x 7 x h ((x)). Donc il est
induit par le transport T daprs une proposition vue prcdemment.

2.3.2

Unicit du transport optimal

Pour lunicit, cela rsulte de la convexit des contraintes, tant unique comme mesure et T tant unique
presque-partout par ce qui prcde. Si = T et 0 = T 0 sont deux mesures optimales, alors par convexit de
(, ), 00 = 21 ( + 0 ) est galement solution et, puisque (x0 , T (x0 )) et (x0 , T 0 (x0 )) sont dans le support de 00 ,
on a T (x0 ) = T 0 (x0 ) -presque partout. En effet, le support tant la runion des supports, si T (x0 ) 6= T 0 (x0 ) sur
un ensemble non ngligeable, le support de 00 ne serait pas un graphe (la fibre de x0 contiendrait les deux points
distincts T (x0 ) et T 0 (x0 )), alors quon a prouv que cen est ncessairement un.
Nous pouvons galement noncer une rciproque du thorme : si et sont deux fonctions mesurables telles
que = c : x 7 inf y (h(x y) (y)), si T est dfinie par T : x 7 x h ((x)), et si est absolument
continue par rapport la mesure de LEBESGUE sur Rn , alors T est un transport optimal pour (, T #).
R
R Pour Rle prouver, on commence par construire = T comme usuellement. Il suffit de dire que cdT =
d + d, donc que h(x y) = (x) + (y) T -presque partout, et que h(x T (x)) = (x) + (T (x))
-presque partout, car T concentre toute la masse sur le graphe de T .
On introduit alors (x0 ) = inf y (h(x0 y) (y)), et lgalit est vrifie pour un y optimal. Pour tout x,
on a lingalit (x) + (y) h(x y), et lgalit est vrifie en x0 , do y = x h ((x0 )) = T (x0 ), do
(x0 ) + (T (x0 )) = h(x0 T (x0 )). Ce sont donc des potentiels de KANTOROVICH, do loptimalit de = T .

20

2.3.3

Le thorme de Brenier pour h(x) = 21 x2

On considre la fonction h : x 7 12 x2 , de diffrentielle h = id = (h)1 . Dans ce cas des rsultats rcents


permettent de donner un transport optimal :

 2
id

T : x 7 x (x) =
2
o (x) = inf y 12 |x y|2 (x). La fonction
sont convexes :

id2
2

est convexe comme supremum de minorantes affines, qui

id2
= ... = inf ()
2
Puisque la transformation de LEGENDRE est une involution sur les fonctions convexes, on tire que si on peut
dfinir, pour une certaines fonction convexe :
x ,

1 2
x (x)
2
1

(y) = (y) + |y|2


2
(x) =

On a alors un transport optimal pour (, T #) :


T : x 7 x h ((x)) = (x)
Donc dans le cas du cot quadratique, on a un transport optimal et on a sa forme explicite.
R
On aurait pu crire le minimum de 12 |x y|2 d puis dvelopper et remarquer que seule lintgrale croise fait
intervenir rellement la mesure , donc est ramene minimiser cette seule intgrale (les autres ne dpendant que
de et ). En fait, pour la fonction distance au carr, il nest pas ncessaire davoir labsolue continuit, qui impose
de ne pas mettre de masse sur les ngligeables, mais il suffit de ne pas mettre de masse aux points o il ny a pas de
diffrentiabilit.
, si est absolument continue par rapport la mesure de lebesque sur Rn , il existe une unique fonction
convexe telle que # = , donc une unique fonction telle que T = .

2.4

Reformulation laide de la c-concavit

On introduit les notions de c-concavit et c-monotonie cyclique en annexe laide desquelles on va pouvoir
revisiter de manire naturelle la formule de dualit et les rsultats sur les cots convexes.

2.4.1

Cas o c est continue

Thorme Soit c : R continue, optimisant le critre de KANTOROVICH


support de est c-cycliquement monotone.

cd| (, ). Alors le

Dmonstration Prsentons les choses intuitivement dans le cas discret dun espace comprenant un nombre
fini de points, au dpart comme larrive. On suppose que ce sont tous des atomes, i.e. quils ont tous une
contribution significative au cot total du transport, que lon peut crire
n
X

c(xi , yi )

i=1

21

en supposant que le transport se fait du point xi au point yi . Supposer ce plan de transfert optimal signifie
quon ne peut amliorer le cot total du transport en rorganisant les points darrive, i.e. quon ne peut trouver de
permutation S telle que
n
X

c(xi , y(i) ) <

i=1

n
X

c(xi , yi )

i=1

Mais ici nous ne sommes pas dans un cas discret, cette ingalit sur quelques points nimpliquant a priori en rien
un transport non optimal. Pour cela, il faut prouver que cette ingalit se transmet un ensemble plus grand ,
qui soit de mesure strictement positive, de manire ce que lingalit puisse avoir un impact sur le cot total et
prouver de ce fait la non-optimalit du transport. Dans le cas o c est continue et o les points sont dans le support,
ce prolongement est naturel : lingalit est stricte et se prolonge donc aux voisinages des points, qui sont de mesures
strictement positives puisque les points sont dans le support. En modifiant sur ces seuls voisinages, on obtient un
meilleur plan de transfert, ce qui ne peut tre si est optimal.
Explicitions cela : on veut montrer que pour tout ensemble fini de points (xi , yi )iJ1,KK dans le support de
PK
PK
et toute permutation S, on a i=1 c(xi , yi ) i=1 c(xi , y(i) ).
PK
PK
Par labsurde, suppons quil existe de tels (xi , yi )i tels que i=1 c(xi , yi ) > i=1 c(xi , y(i) ). Par continuit
de c, il existerait un r tel que :
K
X

x0i B(xi , r), yi0 B(yi , r),

c(x0i , yi0 ) >

i=1

K
X

0
c(x0i , y(i)

i=1

On note Vi = B(xi , r) B(yi , r) et Wi = B(xi , r) B(y(i) , r) des voisinages des points considrs.
Sachant que, pour tout i, (Vi ) > 0 par dfinition du support, on cherche construire une meilleure mesure
en changeant de la masse entre les Vi et les Wi , ce que lon fait en raisonnant en termes de variables alatoires.
|Vi
i.e. gi est
On sait en effet quil existe un espace mesur Z par une mesure et gi : Z Vi telles que gi # = (V
i)
de loi normalise sur Vi .
|VK
|V1
Par exemple Z = V1 . . . VK , = (V
. . . (V
et gi les projections canoniques.
1)
K)

y
On note gi = (gix , giy ), = min (Vi )iJ1,KK et hi = (gix , g(i)
), puis on pose
=

K
X

gi # +

i=1

K
X

hi #

i=1

.
Il reste vrifier que (i) est admissible et (ii)

cd <

cd.

. Or (Vi ), ce qui garantit


(i) est positive car on enlve de la masse sur les Vi , sur lesquels = (V
i)
la positivit lorsque les Vi sont disjoints. Si les (xi , yi ) sont distincts, cest possible en prenant r assez petit. Si ce
nest pas le cas, pour garantir la positivit de la mesure, il faut viter denlever trop de masse , il suffit pour cela

de changer en K
.

Reste vrifier les marginales : TODO.


(ii) Il suffit de montrer
K Z
X
i=1

cdhi # <

K Z
X

cdgi #

i=1

K Z
X

y
cd(gix , g(i)
)d <

i=1

K Z
X

K Z
X

cd(gix , giy )d

i=1

y
c gix , g(i)
c (gix , giy ) d > 0

i=1


y
Ceci est vrai car gix B (xi , r)), giy B (yi , r)) et g(i)
B y(i) , r) sont construits pour quon ait justement
cette ingalit sur les cots.

22

Corollaire Si est optimal pour un cot c continu, il existe une fonction c-concave et continue telle que
Supp Gc = {(x, y)|(x) + c (y) = c(x, y)}
Consquence

On vient donc de trouver , = c vrifiant c (par dfinition de c ) tels que


Z
Z
Z
Z
c(x, y)d = [(x) + c (y)] d = d + d

.
Comme

c(x, y)d

R
d + d pour un optimal, on vient en fait de (re)montrer la formule de dualit

Z
Z
Z
d + d
sup
min c(x, y)d =

,C 0 |c

De plus, le supremum est un maximum puisque (, c ) est minimal.

2.4.2

Cas o c est semi-continue infrieurement

Thorme Si c est semi-continue infrieurement sur compact, la formule de dualit reste vraie :
Z

Z
Z
min c(x, y)d =
sup
d + d

,C 0 |c

Dmonstration Puisque c est semi-continue infrieurement, on sait quil existe une suite croissante (ck )k de
cots continus convergeant vers c. On a dj
Z

Z

Z
Z
Z
d + d sup
d + d
min ck d = max

ck

R
R
R
k+
Commenons par montrer un lemme :mk = min ck d min cd = m, ce qui donne min cd

R

R
sup
d + d , lautre ingalit tant claire.
c

Dmonstration du lemme On procde par double ingalit, un premier sens tait clair : ck c donc
lim mk m.
Dautre part, prenons k minimal pour ck , et quitte extraire ( tant compacte, on a vu que (, ) est
R
R
C 0 ()
compact pour * ), k * . Pour k j, ck dk cj dk , puis en faisant tendre k + :
Z
lim mk cj d
Enfin en faisant tendre j + on obtient le rsultat :
Z
lim mk

cd m

Thorme Soient compact, c semi-continue infrieurement, optimal. Il existe c-cycliquement


monotone tel que () = 1.

23

Dmonstration

On par comme dhabitude de la dualit de MONGE KANTOROVICH


Z
Z
Z
min cd = sup d + d

Soient alors (k )k et (k )k minimisantes, puis posons fn (x, y) = c(x, y) n (x) n (y) qui est positive et
n+
f nd 0 en dcroissant, i.e. fn tend vers 0 dans L1 ( ; ). Quitte extraire une sous-suite, on peut
supposer que fn converge vers 0 -presque partout.
R

On pose ensuite
n
o
n+
= (x, y) |fn (x, y) 0
Par dfinition, () = 1. Il reste voir que est c-cycliquement monotone. Pour Sk et (xi , yi )i=1...K
,on a
X
X
X

c(xi , yi ) = lim
(n (xi ) + n (yi )) = lim
n (xi ) + n (y(i) )
Or n (xi ) + n (y(i) ) c(xi , y(i) ), ce qui conclut la dmonstration.

24

Chapitre 3

Cas de la distance c(x, y) = d(x, y)


3.1

Premires observations

Thorme est c concave si et seulement est 1 lipschitzienne.


Dmonstration Le sens direct est vident en remarquant que est un infimum de fonctions 1lipschitziennes
(ingalit triangulaire renverse). Pour lautre sens, on montre que (x) = inf (d(x, y) + (y)). En effet dune part
y

y, (x) (y) + d(x, y), ce qui donne (x) inf (d(x, y) + (y)), et y = x donne lautre ingalit.
y

Thorme Si est 1 lipschitzienne, c = .


Dmonstration
do le rsultat.

tant 1 lipschitzienne, la dmonstration prcdente montre que (())c = ,

Daprs la formule de dualit, on a


Z

Z
Z
Z
d + d = max d( )
min c(x, y)d = max

1-lip

1-lip

TODO : Traiter dans un cas simple ?

3.1.1

Cas c(x, y) = h(x y) et h convexe valeurs relles

???
et sont deux mesures de probabilit, ne possde pas datomes et c(x, y) = h(x y) o h est convexe.
Thorme Sous ces hypothses, ilRexiste un unique transport T croissant tel que T # = . La mesure T associe
ce transport est un minimiseur de h(xy)d sur (, ), et il est unique si T est strictement convexe. En terme
de fonctions de rpartition, T vrifie F (x) = G(T (x)).
Dmonstration On traite le cas o h est strictement convexe dabord. Soit optimal, alors un thorme
prcdent dit que le support de est c-cycliquement monotone. Si (x0 , y0 ), (x1 , y1 ) Support , on veut
montrer que x1 > x0 y1 y0 et lon procde par labsurde en supposant y1 < y0 .
TODO

25

3.2

Retour sur le problme de Monge

On traite dsormais le cas de la distance euclidienne : c(x, y) = d(x, y) = |x y|, autrement dit la distance
associe au problme de MONGE. Il sagit dun cot convexe mais non strictement convexe, et les rsultats obtenus
prcdemment avec le thorme de BRENIER ne sappliquent plus a priori. En effet, dans ce cas, la diffrentielle
obtenue en crivant la minimisation de (x) = |x y0 | (y0 ) scrit :
(x0 ) =

x0 y0
|x0 y0 |

et ce nest clairement pas une diffrentielle injective, comme ctait le cas avec lhypothse de stricte convexit.
On ne peut donc pas en extraire y0 en fonction de x0 , ce qui donnait lexpression explicite du transport.

3.3
3.3.1

Rayons de transport
La dualit de MONGE KANTOROVICH

On rappelle que la dualit de MONGE-KANTOROVICH permet dcrire, dans le cas dun cot qui est une distance,
cas dans lequel la c-concavit quivaut la 1-lipschitzianit, ou encore une c-transformation qui nest que la
multiplication par 1 :
Z
Z
Z
Z
min
cd = d + c d = max d( )
(,)

Gardons galement lesprit quun ensemble c-cycliquement monotone est un ensemble de correspondances
que lon ne peut amliorer par permutations. Si le cot est continu, on est srs que le support dune mesure optimale
est un ensemble c-cycliquement monotone. Sil est seulement semi-continu infrieurement, le support dune mesure
optimale est contenu dans un ensemble concentrant toute la masse et qui est c-cycliquement monotone, mais on ne
peut plus garantir sa fermeture.

3.3.2

Les rayons de transport

Si est optimal et si u est un potentiel de KANTOROVICH, on a par dfinition


Z
Z
|x y|d = (ux uy)d
Or on sait que le potentiel u est 1-lipschitzien, ce qui fait que ux uy |x y| pour tous x, y. Lgalit des
intgrales et la continuit impose alors lgalit ux uy = |x y| au moins sur le support de . Observons alors ce
quil se passe sur un segment [x, y] o les points x et y vrifient ux uy = |x y|. On considre z = (1 t)x + ty.
ux uz
uz uy

|x z| = t|x y|
|z y| = (1 t)|x y|

Or on a alors
|x y| = ux uy = (ux uz) + (uz uy)
t|x y| + (1 t)|x y| = |x y|
donc les deux ingalits sont ncessairement des galits, et on obtient finalement que u est linaire de pente 1
sur tout le segment. On travaille donc dsormais sur les rayons de transport, qui sont les segments ouverts maximaux
sur lesquels u est linaire de pente 1.

26

3.3.3

De la diffrentiabilit sur les rayons de transport

Prouvons tout dabord que ces segments sont disjoints, en prouvant que u est diffrentiable sur ces segments et
que sa diffrentielle u est constante et de valeur la pente entre x et y.
En effet, prenons x0 lintrieur du rayon de transport. Soit e de norme 1 port par le rayon, et h perpendiculaire au rayon. On a
p
u(x0 + h) u(x0 + te) = u(x0 + h) u(x0 ) t |x0 + h x0 te| = p
t2 + h2
u(x0 + h) u(x0 te) = u(x0 + h) u(x0 ) + t |x0 + h x0 + te| = t2 + h2
q
2
2
do |u(x0 + h) u(x0 )| t(1 + 1 + ht2 ) h2t = O(h2 ) = o(h). On peut toujours prendre un t assez
petit pour que les x0 + te et x0 te soient dans le rayon compte tenu que lon considre les rayons ouverts, il vient
alors
u(x0 + te + h) u(x0 ) he|te + hi = o(h)
ce qui prouve que le gradient de u en x0 est e.

3.3.4

Des rayons partitionnant le support

Les rayons ne peuvent donc se croiser car la diffrentielle est unique et donne la direction du rayon, on ne peut
donc avoir deux directions distinctes la portant. De la mme manire, ils ne peuvent se couper entre lextrmit
de lun et lintrieur de lautre, car ce dernier aurait une diffrentielle porte par deux directions. Par contre, rien
nempche lintersection au niveau des extrmit, aucun des deux rayons ne portant de diffrentielle en ces points.
Considrons dsormais une famille de segments s S contenant le support de . Certains peuvent tre des
singletons, et ils sont dintrieurs disjoints. Ils peuvent se croiser aux points o la diffrentielle de u nexiste pas, qui
constituent un ensemble ngligeable par le thorme de RADEMACHER, on peut donc se restreindre lensemble
\N des points o u admet une diffrentielle.
On a ainsi partitionn le support en rayons de transport, ce qui justifie ltude spare sur chaque rayon et rend
possible un recollement final.

3.4
3.4.1

Transports optimaux pour la distance


La perte de lunicit de loptimum

Dans le cas de la dimension 1, nous avons dj vu que pour une mesure sans atome et pour un cot strictement
convexe, on avait lexistence et lunicit dun transport optimal, qui est ncessairement monotone. Si le cot est
seulement convexe, il ny a plus ncessairement unicit, mais on est galement srs que le transport monotone est
un transport optimal.

3.4.2

Le choix dun transport optimal

Cette absence dunicit va nous contraindre choisir un transport parmi tous ceux optimisant le critre de
MONGE, par exemple en imposant une contrainte supplmentaire. On va choisir optimisant c2 , dans le cas o
est compact. Puisque O P et que est alors compact pour la convergence faible, on est assurs de lexistence
dune solution.
Choisissons lunique qui optimise le critre de transport pour le cot c1 +c2 , qui est cette fois-ci strictement
convexe. Quitte extraire, on peut supposer que * .
Thorme. minimise c2 et est dans O(, ).
Preuve. Tout dabord, par minimalit de pour le cot c1 + c2 :

27

Z
(, ),

Z
c1 d

Z
(c1 + c2 )d

(c1 + c2 )d

R
R
R
Or, (c1 + c2 )d c1 d et le membre de droite converge vers c1 d lorsque devient arbitrairement
petit. Donc est minimal pour c1 , et est donc dans O(, ).
On raisonne de la mme manire pour montrer que optimise le cot c2 . On crit
Z
Z
Z
O(, ),
c1 d + c2 d = (c1 + c2 )d
Z
(c1 + c2 )d par minimalit de pour c1 + c2
Z
Z
= c1 d + c2 d
Z
Z
c1 d + c2 d par minimalit de pour c1
Ce qui donne
Z

Z
c2 d

c2 d

Il vient alors par passage la limite :


Z

Z
c2 d

c2 d

Ainsi, est optimal pour c2 dans O. Nous prouverons plus tard que ce transport est unique et quil drive dun
transport absolument continu par rapport la mesure de LEBESGUE . 
On a ainsi prouv lexistence dun transport optimal pour c1 et c2 .

3.4.3

Une caractrisation de O(, )

Thorme. est dans O(, ) si, et seulement si, est concentr sur {(x, y) | uxuy = |xy|} si u est un potentiel
de KANTOROVICH associ au cot c. Autrement dit, la partition en rayons de transport caractrise les plans de transfert
optimaux pour la distance.
Preuve. Nous avons dj prouv que la condition est ncessaire, par dfinition du potentiel u et des marginales
de . Rciproquement, si est concentr sur un tel ensemble, on a
Z
Z
Z
Z
ud ud = (ux uy)d = |x y|d et ux uy |x y|
On absorbe la condition ainsi obtenue en modifiant quelque peu le cot. Le nouveau problme est loptimisation du critre intgral

Z
|x y|2 si ux uy = |x y|
c(x, y)d o c(x, y) =
+ sinon
o appartient (, ).
Si c est semi-continue infrieurement et (xn , yn ) converge vers (x, y), alors uxn uyn = |xn yn | converge
vers ux uy = |x y| et |xn yn |2 converge vers |x y|2 . Puisque les rayons de transport concentrent la masse et
est ferm, il contient le support de qui est le plus petit ferm concentrant la masse (WHY ? ? ? : c-cycliquement
monotone, et contenu dans le ferm {(x, y)|ux uy = |x y|} ? ? ?). Ainsi la masse est essentiellement concentre
sur les rayons de transport. On note aussi que la condition de c-monotonie cyclique nest pas utile si les points
permuts ne sont pas dans un rayon de transport.

28

On exclut dsormais les bords des rayons de transport, en travaillant sur Eh = {x|x S et d(x, S)
x est dans Eh , on a :

1
h }.

Si

ux = inf (|x y| + uy)


y

car u est lipschitzienne donc ux uy |x y|, et il y a galit pour y = x. Sur un rayon de transport, il y a
galit partout par linarit, donc on peut supprimer un voisinage de la singularit y = x de la distance euclidienne :
ux =

min (|x y| + uy)

1
xB(x,
/
h)

Soit ch une fraction rationnelle C valant |z| hors de la boule et suprieure |z| lintrieur. On a alors
ux = inf (|x y| + uy) uh = min(ch (x y) + uy)
y

min (|x y| + uy) = ux

1
xB(x,
/
h)

PARTIE SUR uh +

3.4.4

Notions de -convexit

On dfinit les fonctions -convexes comme un largissement de la classe des fonctions convexes. Intuitivement,
lide est de ne plus imposer une drive seconde positive, mais seulement suprieure . Plus prcisment, f est
2
-convexe si f (x) + x2 est convexe. Ici, ch tant suffisamment rgulire, nous pouvons trouver une borne de
convexit . La fonction ch est h1 -convexe. Or uh est h1 -concave.
Il convient alors naturellement de se demander quelles sont les proprits des fonctions qui sont la fois concaves et -convexes.
Thorme. Les fonctions la fois -convexes et -concaves sont les fonctions qui sont de classe C 1 et dont le gradient
est -lipschitzien.
Preuve ? La dmonstration de ce rsultat est relativement simple. Une fonction -concave et -convexe est une
fonction vrifiant
h|x y|2 f (x) f (y)|x yi |x y|2
Si f est de classe C 2 , alors cela quivaut kD2 f k , i.e. la -lipschitzianit de f . Si f est moins rgulire,
on peut la rendre de classe C 2 en la convolant avec un noyau de convolution rgulier. Les proprits considres
tant des critres continus, le passage la limite conserve la -lipschitzianit du gradient, et donne le rsultat pour
des fonctions f quelconques. 
Si la contrainte est satisfaire, et si tous les (xi , yj ) sont dans le mme rayon de transport, on obtient une proprit
de croissante :
hx2 x1 |y2 y1 i 0
DESINTEGRATION DE MESURES

Notons Eh+ lensemble des x pour lesquels u et u+


h sont confondus, et Eh celui des x pour lesquels u et uh sont
confondus. Si on ne veut pas se limiter aux Eh , on utilise le thorme suivant : chaque Eh+ est runion dnombrable
densembles Ahk sur lesquels u est lipschitzienne.

Sur ces ensembles, la fonction f (t, y) = y + u(y) est lipschitzinne car les deux termes de la somme le sont.
PAS DATOMES POUR MU S

29

3.4.5

Conclusion

Nous avons dsormais de quoi prouver quil nexiste quun unique optimisant dans O(, ) qui optimise le
cot c2 . On dcompose une mesure optimale sur les rayons de transport, qui la caractrisent presque partout.
Notons ces restrictions S . Le cas du cot c en dimension 1 affirme que les S sont des transports, autrement dit des
TS . Il suffit alors de dfinir T sur la partition dfinie par la partition en rayons de transport. S na pas datomes
car u est lipschitzienne. Lunicit vient, comme toujours, de la convexit de lensemble des mesures optimales.


3.5

Le cas du cot c(x, y) = c (x, y) = maxSupp() |x y|

Les cas c1 et cp pour p > 1 ont donc t traits. Il reste regarder le cas c , qui revient trouver des transports
qui minimisent les dplacements longs. Notons dj que les normes p tendent en croissant vers la norme k k .
Ainsi, c est semi-continue infrieurement pour la convergence faible comme limite suprieure de fonctions continues.
Thorme. Il existe un minimiseurs qui optimise le cot c sur (, ).
Notons quil y a peu despoir desprer une quelconque unicit, compte tenu de la contrainte extrmement
faible et tenant trs peu en compte la totalit du transport.
R
Preuve. En notant O (, ) lensemble des mesures optimisant le critre c d, et en notant L la valeur de
ce minimum, on a
O (, ) max |x y| = L Supp() {(x, y) | |x y| L}
Supp()

Comme prcdemment avec le cot c1 , on va imposer une contrainte supplmentaire pour trouver un transport
optimal.
Thorme. Il existe une unique mesure de O (, ) qui optimise le cot quadratique c2 , et que cette mesure
optimale drive dun transport.
R
Preuve. On recherche un minimiseur pour le critre c2 d sur O (, ) = c1
(] , L]) qui est ferm car
c est une fonction continue. O (, ) est donc compact comme ferm dans P()2 , et le minimum existe donc
bien.
PREUVE A FINIR

3.5.1

Retour sur les cas des transports impossibles

Si = x et si = 21 (y + z ), il ny a aucun transport possible, donc srement pas de transport optimal pour


un critre fix...

30

Chapitre 4

Le problme de Beckmann
Nous avons prcdemment trait le problme du transport optimal de MONGE-KANTOROVICH dans le cas
c(x, y) = |x y|, dans le cas des distances cp pour p > 1, ainsi que dans le cas c . Nous considrons dornavant des
problmes ayant leur source dans la physique ou dans lconomie, et qui se ramnent simplement et naturellement
un problme de transport, que nous pouvons traiter avec les outils, les mthodes et les rsultats dvelopps
prcdemment.

4.1

Le problme de Beckmann

Date ?
4.1.1

Le problme physique de BECKMANN

On considre un champ de vecteurs v : Rd de classe C 1 , et deux mesures et quelconques. Le problme


de BECKMANN est celui de la minimisation du critre intgral suivant :
Z
|v(x)|dx o v =

Le thorme de STOKES permet alors dcrire :


Z
Z
Z
v =
d( ) =

vn

o n dsigne le vecteur normal au bord de , orient vers lextrieur. Le second membre de cette expression
est la composante normale de v sur le bord et dsigne, physiquement, la quantit de masse sortante de lenceinte
. Le champ de vecteurs v peut donc tre interprt comme un flux de matire. La quantit de matire sortant est
globalement () (). La mesure modlise ainsi la distribution de matire de la source, et celle de la cible.
On est ici en prsence dun choix de mthode dobservation des mouvements continus et fluides. On peut
choisir une description lagrangienne, en suivant lvolution dune particule fixe et en reprsentant par une mesure
P( ) le nombre de particules se trouvent en x linstant initial et en y linstant final. On peut galement
opter pour un point de vue eulrien, en observant uniquement une rgion de lespace, ce quil sy passe, le nombre
de particules y circulant, le comportements quelles manifestent, etc.

31

4.1.2

Reformulation du problme de minimisation

On cherche dsormais valuer la quantit totale du mouvement, que lon cherche naturellement minimiser.
Modifions la contrainte pour en conserver une interprtation au sens des distributions :
Z
Z
(H) C 1 (),
v =
d( )

Pour un champ de vecteurs v suffisamment rgulier, cette condition est quivalente v = et n = 0


sur le bord. Cette nouvelle condition correspond labsence de masse traversant , autrement dit on se place en
rgime permanent.
Introduisons une quantit caractrisant cette condition dans le problme de minimisation :
Z


Z
0 si (H)
sup
d( ) +
v
=
+ sinon
C 1 ()

Le problme de minimisation de BECKMANN se rcrit alors :


"Z
#
Z
Z
Z
d( ) +
v
inf
|v(x)|dx = inf
|v(x)|dx + sup
v|(H)

v|(H)

C 1 ()

En permutant sans justification la borne suprieure de la borne infrieure, on se ramnerait au problme dual de
(B) :
Z

Z
sup
d( ) + inf
(|v(x)| + v(x) )dx
C 1 ()

v|(H)

Z
=

d( ) + inf

sup
C 1 ()


v(x)
)dx
|v(x)|(1 +
|v(x)|

Z
v|(H)

Notons que cette permutation, bien qua priori illicite, a pour proprit dtre toujours au moins une ingalit :
A(v, ), inf supA(v, ) sup inf A(v, )
v

La quantit

v(x)
|v(x)|

est une vecteur unitaire, donc est entirement caractris par sa direction et son sens. On fixe

v(x)
), qui est celle oppose , ce qui permet
donc une direction ncessaire pour minimiser |v(x)|(1 + |v(x)|
dvaluer la borne infrieure

Z
0 si || 1
inf
|v(x)|(1 ||)dx =
sinon
v|(H)

Puisquun gradient born par 1 est quivalent une fonction diffrentiable et 1-lipschitzienne, le problme dual
est ramen :
Z

Z
sup
d( ) + inf
(|v(x)| + v(x) )dx
v|(H)
C 1 () Z
= sup
d( )
||1 Z
= sup
d( )
1Lip Z

= min
|x y|d
(,)

32

On rduit alors le problme de BECKMANN une sous-classe beaucoup plus restreinte de champs de vecteurs :
Z

Z
Z
1
1
inf
|v(x)dx | v L (), C (),
= d( )
Mais lespace L1 est peu conciliant, en particulier il ne prsente pas de proprit de compacit faible...

4.2

Lintervention des mesures vectorielles

Le manque de gnralit des mesures scalaires nous amne naturellement introduire la notion de mesure
vectorielle. Une application : 7 Rd est une mesure si elle vrifie les proprits usuelles suivantes :
()
S= 0
P
( i Ai ) = i (Ai ) pour une union disjointe
Ce sont bien videmment des mesures moins faciles manipuler que les mesures positives. On aimerait associer
une mesure vectorielle quelconque une mesure scalaire positive ||. On ne peut pas dfinit ||(A) = |(A)| car
ce ne serait plus une mesure. On la dfinit comme
X
A B(), ||(A) = sup
|(Ai )|
i Ai A

Lapplication | | ainsi dfinie est une norme sur lespace M(, Rd ) des mesures vectorielles sur . Comme
nous lavons dj signal pour justifier lutilisation de la convergence faible telle que nous lavons dfinie, lespace
M(, Rd ) est le dual de lespace des fonctions continues sur si celui-ci est compact, ou sur lensemble des
fonctions continues sur et nulle linfini de manire plus gnrale.
La norme duale serait alors :
kkC()0

= sup{h,
Z i|kk 1}

d| C(, Rd ), || 1}

= sup{

= ||()

Do lintrt de la norme ainsi introduite. On dira que || est la valeur absolue de la mesure .

4.3

Dans lintimit du problme dual

4.3.1

Retour sur le problme de BECKMANN

Maintenant, on regarde le problme de la minimisation de |v|() o v est une mesure vectorielle et vrifie la
condition
Z
Z
=
d( )

On va prouver que ce problme a toujours une solution. En effet, soit (vn )n une suite minimisante du critre.
Quitte extraire 1 , on peut supposer quelle converge faiblement vers un certain champ vectoriel v. On a alors
|v|() lim inf |vn |()
n

par semi-continuit infrieure de la norme (duale. VRAI ?).


1. Une suite minimisante est toujours borne partir dun certain rang, moins que le critre soit toujours infini, cas peu intressant
traiter...

33

4.3.2

Liens avec les critres de Monge et de Kantorovich

Rappelons quen vertu de lingalit rappele lors de la permutation des bornes infrieures et suprieures pour
obtenir le problme dual, on obtient la chane dingalits suivante si le champ v est admissible, i.e. vrifie :
(M) = (D) (B) |v|() (M)
en rappelant les diffrents critres optimaux rencontrs jusque alors :
Z
(M) =
|x y|d pour la problme de MONGE KANTOROVICH
Z
Z
(D)
=
d d pour la problme dual de MONGE KANTOROVICH
Z
(B)
=
v(x)dx pour le problme de BECKMANN
Il y a donc galit tout au long de la chane dingalits.

4.3.3

Lintervention de v et de

Soit optimal pour le critre (M). On dfinit v par la mesure donnant lintgration des fonctions sur tous les
segments de lespace :
1

C (), hv , i =

dv =

d(x, y)

(x,y (t))x,y (t)dt

Z
d(x, y)

[x,y]

o x,y : t 7 (1 t)x + ty est une paramtrisation affine du segment [x, y]. Pour justifier que v est bien
une mesure, il suffit de dire que hv , i est born par Ckk . En fait prendre pour C le minimum du critre de
MONGE convient.
On est rassurs de savoir que v est une mesure, mais il reste vrifier quelle vrifie bien la contrainte du
problme de BECKMANN. Pennons C 1 (). On a :
Z

Z
v

Z
=

(x,y )x,y

d(x, y)

[ x,y ]10 d(x, y)

d( ) car (, )

Par lgalit entre tous les critres intgraux tablie prcdemment, on a (M) = |v |() = kv kC()0 =
sup{hv , i| C(), || 1}, do :
Z
hv , i |x y|d = (M) = |v|()
On peut galement dfinir :
1

C (), h , i =

Z
d(x, y)





(x,y (t)) x,y (t) dt

Il sagit en fait de |v |. On a en tous cas immdiatement que |v | est infrieure , et () qui est gale au
minimum du critre de MONGE (M). Ainsi, on a comme prcdemment la chane dingalits :
|v |()(M) = (D) = (B) () (M)

34

4.4

Gnralisation du problme de Beckmann

Si on prend une application continue K :


Omega R+ , on peut chercher minimiser un critre intgral un peu plus gnral que celui initialement
propos par BECKMANN :
Z
Z
K(x)|v(x)|dx =
Kd|v| o v =

Par exemple dans le cas de la modlisation dun problme de trafic urbain, K na pas de raison dtre, comme
dans le problme initial, constante : le transport nest a priori pas aussi coteux partout, ce que lon comprend bien
dans le cas de goulots dtranglement. Notamment dans les applications, cette pondration sera souvent concave.
Le mme raisonnement que prcdemment permet de travailler sur le problme dual, en se restreignant aux
fonctions qui ont un gradient born par K. On pose
Z
dK (x, y) = inf

( ) o (0) = x, (1) = y

d
0

On cherche trouver un candidat intressant pour un v optimal. Soit optimal pour


la minimisation de
Z
hv , i =

dK (x, y)d. On a alors

( )

d
0

pour x,y qui est une godsique pour dK . La question qui se pose est alors celle de lunicit : il y a-t-il plusieurs
godsiques, ou plusieurs optimaux ? Le plus souvent, v nest pas unique.
La pondration K pourrait galement tre une fonction de v. Par exemple dans des problmes dtude de
congestion de trafic routier, on tudie
Z
min H(|v(x)|)dx
Loptimisation pour la norme L2 est galement courante, et est beaucoup plus aise que le cas de la norme L1 ,
dont le comportement est bien moins amical.

4.5

Analyse de

Ce problme est li au systme elliptique

(u) =
|u| 1 sur

|u| = 1 - p.p.
appel systme de MONGE KANTOROVICH. On observe que pour un v optimal suffisamment rgulier et pour
un potentiel de KANTOROVICH u, on peut crire :
Z
Z
Z
|v| = ud( ) = u v
Pour minimiser le critre, v doit tre positivement colinaire au gradient de u. Cependant, on ne peut pas crire
cette condition pour des fonctions seulement lipschitziennes. On rsout ce problme en rgularisant la fonction
par convolution : on considre uh = u ? h o h est un noyau de convolution rgulier convergeant vers lidentit,
et on a

35

uh u
CVU

uh u
p.p.

Le critre intgral de MONGE pour uh converge donc vers le minimum du problme de MONGE, qui est aussi le
minimum des problmes duaux de MONGE KANTOROVICH et bidual de BECKMANN. Les uh sont donc presque
optimaux.
R
On a de plus uh v |v|() car |uh | 1 car |u| 1 et uh = u h .
On a alors
Z
d(1 + uh w) 0
n

o w est la direction de v : v = w et |w| = 1. Cela implique donc, puisque 1 + uh w est toujours positif car
uh est de norme infrieure 1, que 1 + uh w tend vers 0 avec h, donc que uh w tende vers 1 -presque
partout, quitte extraire. Les deux termes du produit scalaire tant de norme infrieure 1, cette convergence ne
laisse quune solution envisageable :
uh w
h0

Autrement dit le gradient de uh tend sorienter dans la direction oppose w, donc dans la direction oppose
v. On introduit alors E = {x | lim uh (x) = , || = 1} sur lequel est concentre, et telle que v = ,
h0

comme voulu.
On vrifie ainsi le systme elliptique de MONGE KANTOROVICH pour les uh , donc il en va de mme pour
la limite.
Observons nanmoins quil nest pas vident que tout v optimal soit de la forme v . De plus, il nest pas dit que
v , si tant est quil existe, soit unique, il pourrait en effet varier en fonction du optimal choisi.
Dans le cas o est convexe et compact, on a absolument continue par rapport la mesure de LEBESGUE
si, et seulement si, il existe v optimal de la forme v et est absolument continue par rapport .
Pour le prouver, fixons une mesure optimale pour le critre (M). On a alors
Z
Z

=
=
t #(|x y|) o t (x, y) = (1 t)x + ty

Z
Z 1
do h , i = d(x, y)
(x,y )|x,y |dt
Z
Z 1 0
= d
(t (x, y))|x y|dt
Z 1 Z0
=
dt
(t (x, y))|x y|d
Z0 1 Z
=
dt
d[t (|x y|)]
0

Puisque est compact, |x y| est borne par son diamtre et donc


Z
v diam()

[t #]dt
0

On cherche donc tudier plus prcisment t = t #. Montrons que pour presque tout t, on a t qui est
absolument continue par rapport la mesure de LEBESGUE .

36

Cas o v est atomique


On peut alors crire v sous la forme
v =

m
X

ai yi

i=1

Prenons optimal pour le critre (M). On a pour un transport optimal T , vrifiant T # = v, et donc T (x)
est lun des yi presque partout. On se limite donc considrer les rgions envoyes sur chacun des yi , notons
Ri = T 1 ({yi }).
Sur Ri , T est constante de valeur yi , et (1 t)x + ty = (1 t)x + tyi , donc on a une expression simplifie de
t :
t =

[Tit = (1 t)id + tyi ]#Ri

Et

Tit

est un transport de Ri yi . On dveloppe alors :


X
X
(id yi )#Ri
(id T )#Ri =
= T = (id T )# =
i

Les Tit sont des diffomorphismes comme applications affines. Si lun des Ri possdait une densit f , autrement
dit sil ntait pas atomique, la densit de (t )|Tit (Ri ) devrait tre :
x 7

f ((Tit )1 (x))
(1 t)d

Et on aurait (t )|Tit (Ri ) qui serait absolument continue par rapport .


Les Tit (Ri ) sont presque partout disjoints au cours du temps. En effet, posons xi un point de Ri , xj un point
de Rj , z un point de Tit (Ri ) Tjt (Rj ) scrivant sous la forme z = (1 t)xi + tyi = (1 t)xj + tyj . Alors deux
rayons de transport de croiseraient en leur intrieur, ce qui signifie quils sont confondus par ltude dj prsente
de ces rayons de transport. Le point z est donc sur la droite (yi , yj ) : si lon retire toutes ces droites, qui forme
une quantit ngligeable de points, toutes les rgions se retrouvent disjointes. Bien videmment, on se place en
dimension suprieure deux pour pouvoir retirer les droites sans tat dme, le cas de la dimension 1 ayant dj t
trait auparavant.
Par dfinition de t , on a :
1

C (),

Z
dt,Ri

Ri dt

Z
Ri d(((1 t)id + tT )#)

=
Z

Ri d(((1 t)id + tyi )#)

=
Z
=
Z
=

Ri d(Tit #)
(Tit (x))Ri (Tit (x))d

(Tit (x))(Tit )1 (x)f (x)dx


Z
f ((Tit )1 (y))
=t
(y)(Tit )1 (y)
dy
(1 t)d
y=Ti (x)
Z
= (y)(Tit )1 (y)g(y)dy

37

Cas gnral
Rappelons que si est une mesure absolument continue par rapport la mesure de LEBESGUE , on sait que
> 0, > 0, B P (), ((B) = (B) )
Si v nest pas atomique, considrons une suite vn de mesures atomiques approchant v. Cette suite peut tre
obtenue, par exemple, en partionnant le plan en carrs de ct n1 , et en concentrant la masse de chaque carr en son
centre.
Par ce qui prcde, les vn tant atomiques, on peut choisir n = Tn une mesure drivant dun transport,
optimale de n . Quitte extraire, on peut supposer que cette suite (n )n converge vers une certaine mesure .
Considrons les deux lemmes suivants, qui vont nous permettre dachever la preuve : la limite dune suite de
transports optimaux pour et n est optimale pour et ; loprateur # est continu pour la convergence faible
de mesures.
Par le premier lemme, est optimal dans (, ).
Notons nt = t #n . Par le second lemme, les deux quantits gales nt et t #n convergent faiblement
respectivement vers t et t #, ces deux limites sont donc gales : t # = t .
Il suffit dsormais de dire que si (A) est nulle, alors il en va de mme pour t (A) quel que soit t, en vertu de
labsolu continuit de ces dernires par rapport la mesure de LEBESGUE. Soit A de mesure de LEBESGUE nulle, et
soit > 0. On sait quil existe un ouvert contenant A et de mesure de LEBESGUE infrieure par dfinition.
On a dans ce cas

 Z
Z
n
n
t () lim inf t () = dt = dt
En effet, la fonction indicatrice dun ouvert convexe est semi-continue infrieurement, car elle vaut 1 sur celui-ci,
et 0 sur les ferms lentourant (prciser dans le cas gnral ?).
On a nt () = ( 0 ) et ( 0 ) =

()
.
(1t)d

Si ( 0 ) est infrieur , alors ( 0 ) est infrieur et il en va donc de mme pour les nt () partir dun
certain rang. Il suffit alors de choisir suffisamment petit, par exemple infrieur (1t) /2, pour avoir t (A) < .
Puisque peut tre arbitrairement petit, A est de mesure nulle pour les t , donc (A) = 0.
Pour prouver le second lemme, si est une fonction test continue, on a :
Z
Z
Z
Z
d(#n ) = ( )dn ( )d = d(#)
n

R
=

et puisque ( )dn

d(#), on a lgalit voulue.


R
Pour le premier lemme, on a kx y|dn qui converge |x y|d, donc le minimum du problme ((M), , vn )
converge vers celui de ((M), , v). La mesure raliserait le minimum et serait admissible par le second lemme,
qui prouve immdiatement quil a les bonnes marginales par passage la limite.
Dans notre cas, il suffit de prendre dans (, ), ainsi que les n , qui convergent faiblement vers . On a alors
Z
Z
((M, , v) = |x y|d = lim |x y|dn lim((M, , vn )
n

Si on prend optimal,

|x y|dn converge vers

|x y|d, et on a lgalit (...).

Soient pn : Gn = {y1 , . . . , ym } les centres des carrs dune grille de pas 1/n. On a pn (x) qui vaut yi si x
est dans la i-ime case, do

38

i J1, mK, x , |pn (x) x|

1
n

Si lon prend n = (id pn )# : (x, y) 7 (x, pn (x)), il vient :


y #n = pn (y )# = pn (v) = pn #(y ]) =: v n
Les v n sont atomiques et convergent faiblement vers v. On a :
Z
Z
Z
1
|x y|dn = |x pn (y)|d et [|x pn (y)| |x y|]d
n
R
R
do la convergence de |x y|dn vers |x y|d.
La mesure reprsente la densit des rayons de transport, et est appele la densit de transport.

4.6

estimations Lp

Dans le cas atomique, on avait la densit de t (x) qui valait ft , o


ft : x 7

f ((Tit )1 (x))
(1 t)d

On obtient alors par changement de variable affiche :


Z
Z
Z
=p
ftp (Tit (y))(1 t)d dy =
ftp (x)dx
x=Ti (y)

Ri

Ri

f (y)
(1 t)d dy
(1 t)d

Il vient alors, en considrant la partition du support en rgions Ri :


Z
Z
XZ
XZ
f (y)p
1
ftp =
ftp =
dy
=
f p dy
(p1)d
(p1)d
p
(1

t)
(1

t)

Ti (Ri )
Ri

i
i
Prouvons dsormais que si = f avec f Lp et p < d/(d 1), alors est galement dans Lp .
Dans le cas o v est atomique, toutes les mesures t sont dans Lp et t = ft et :
kft kLp =

1
kf kLp
(1 t)(p1)d

Il vient donc
Z

Posons f0 =

R1
0

Z
t dt =

ft dt

ft dt. On a alors par ingalit de la moyenne :


Z
kf0 k

Lp

kft kp dt

Ce qui fait que f0 est dans Lp ds que d(1 p1 ) < 1.


Dans le cas o v nest pas ncessairement atomique, on peut approcher faiblement v par une suite de mesures
atomiques vn , et la suite des n optimaux pour les vn converge alors aussi faiblement vers , ce qui fait que nt qui
converge aussi faiblement vers t . Si on note nt = ftn , il vient comme prcdemment

39

kftn kLp =

1
kf kLp
(1 t)(p1)d

On a donc = ft avec kftn kLp lim inf kftn k.


Introduisons le lemme suivant : si Fp est une application de P() dans [0, +], et si est dfinie par
Z

f p si = f
: x 7
+ sinon
Alors Fp est semi-continue infrieurement pour la topologie faible.
Soit n convergeant faiblement vers . Soit la limite infrieure de Fp (n ) est infinie, et on a le rsultat, soit
elle est finie et il existe un compact K tel que Fp (n (K)) soit infrieur une certaine constante C pour tout n.
1
Notons n = fn , on a alors kf kLp C p , do la convergence des fn vers une certaine fonction f de Lp . Il reste
prouver que scrit galement sous la forme f et que kf kLp lim inf kfn kL .
Pour une fonction test continue et borne, on a :
Z
Z
Z
Z
d dn = (x)fn (x)dx (x)f (x)dx
n

Ce qui donne = f , comme voulu.


Nous avons ainsi prouv que si est absolument continue par rapport la mesure de LEBESGUE, alors il en va
de mme pour ; et que si tait dans Lp , alors il en va de mme pour ds que p < d(d 1). On sait galement
que si et sont toutes les deux dans Lp , alors galement.

4.7

Le problme de Beckmann en dimension 1

Dans le cas o lespace de travail est une droite, on cherche minimiser le critre intgral (B) sous la condition
v 0 = , qui est bien plus agrable que la condition sur le gradient. La premire constatation est que v est
variations bornes, sa drive tant une mesure. On peut intgrer lquation et crire :
Z x
v : x 7 c +
d( )
0

En particulier, tout v admissible est borne. De plus, il y a unicit. En effet, la condition affaiblie au sens des
distributions scrit
Z
Z
Z
Z Z
0
v = d( ) i.e.
vf = ( f )d( )
Le thorme de SMIRNOV affirme que tout v optimal est de la forme v . Lunicit devient alors lgalit de tous
les v pour un optimal.
Dans le cas o v est une mesure sans cycle, ce qui augmenterai le cot sans intrt aucun, v est de la forme
Z
, hv, i =

Z
d(u)
0

40

(u(t))u0 (t)dt

Chapitre 5

Cadre topologique et mtrique


Nous laissons momentanment de ct les problmes de transport pour se concentrer sur lespace P () des
mesures de probabilits sur , et plus prcisment sur ce que les rsultats obtenus au cours des tudes prcdentes
peuvent nous apporter quant la richesse de cet espace.

5.1

Distances de Wasserstein

Pour p 1 et , deux mesures de probabilit, on introduit la distance de WASSERSTEIN dordre p :


)
(Z
1
|x y|p d

Wp (, ) = min

| (, )

On peut galement dfinir :


W (, ) = min {max |x y| | (, ) , (x, y) Supp}
Nous allons tout dabord prouver que les Wp sont bien des distances, puis tudier de plus prs la topologie
induite.
Tout dabord, Wp est symtrique par symtrie du cot cp . Concernant laxiome de sparation, supposons que
W
(,
) = 0 pour deux mesures de probabilit et . Dans ce cas, il existe une mesure dans (, ) telle que
p
R
p
|x
|
d soit nulle, ce qui implique que x = y -presque partout. Cela revient dire que est concentre sur la
y

droite (x = y). Par dfinition, cela implique :


Z
Z
Z
Z
C 0 (),
d = (x)d(x, y) = (y)d(x, y) = d
Donc ncessairement = . Il reste prouver lingalit triangulaire. Soient , , et trois mesures de probabilit sur .
Si les associs chacun des couples de mesures drivaient de transports, ce serait relativement ais : notons T
et S des transports optimaux respectivement de et de . Alors le transport S T serait un transport de
et :

41

Wp (, ) kS T idLp () kp

= k(S T T ) + (T id)kp
kS T T k Z+ kT idk

|S T T |d) p

= Wp (, ) + (
Z

|S(y) y|d(T #)) p

= Wp (, ) + (
Z

|S id|d) p

= Wp (, ) + (
= Wp (, )

Lhypothse qui sert est labsolue continuit de (WHY ?), donc on pourrait conclure en raisonnant par approximation. Cependant, on va plutt utiliser un rsultat puissant sur les dsintgrations de mesures :
Lemme. (Gluing lemma) Si lon a deux mesures + (, ) et (, ), alors il existe une mesure de
probabilit sur 3 telle que
x,y # =

y,z # = +

En admettant momentanment ce lemme, notons + et deux mesures ralisant les distances Wp . Il existe
une mesure sur le triplet cartsien vrifiant x,y # = et y,z # = + . Il vient alors :
x #
y #

= x #x,y # = x # =
= y #y,z # = y #+ =

R
R
Ainsi Wp (, ) ( |x z|p d)1/p = ( |x z|p d)1/p = kx zkLp () kx ykLp () + ky zkLp () =
Wp (, ) + Wp (, ), ce qui clos la preuve. Wp est bien une distance. 
La preuve du lemme repose sur la dsintgration de mesures. La dsintgration de par rapport y en
ralit, y donne :
Z
Z Z
y
y
0
y , P(), C (),
(x, y)d =
(x, y)d
(x)d(y)

Une dsintgration similaire de + donne :


z
y , +
P(), C 0 (),

Z Z
(y, z)d+ =

z
(y, z)d+
(y)d(z)

y
y
On considre dsormais la mesure
+
sur . On introduit la mesure dfinie par :
Z
Z Z
y
y
C 0 (),
(x, y, z)d =
(x, y, z)d(
+
)(x, z)d(y)

Pour vrifier que cette mesure satisfait bien les proprits attendues, il suffit dcrire :
Z
Z Z
y
y
0
C (),
(x, y)d =
(x, y)d(
+
)(x, z)d(y)

Z
Z
y
= (x, y)d
d(y) = donc x,y # =
Z
Z Z
y
y
C 0 (),
(y, z)d =
(y, z)d(
+
)(x, z)d(z)

Z
Z
y
= (y, z)d+
d(z) = d+ donc y,z # = +
Ainsi, convient bien.

42

5.2

tude de la topologie

Tout dabord, il faut veiller distinguer le cas o est compact du cas o il ne lest pas. De plus, si nest pas
born, il faut surveiller les cas o la distance Wp pourrait devenir infinie. On travaillera sur lespace (P(), Wp )
dans le cas o est compact, et sinon on limite lensemble des mesures celui des mesures de moment dordre p
finis, not Pp ().
Notons que si et sont deux mesures de moments dordre p finis, alors Wp (, ) < +. En effet, le moment
tant la distance une masse de DIRAC, on peut majorer la distance entre les deux mesures par la somme de la
mesure de lune une masse de DIRAC et de cette masse lautre, ce qui donne le rsultat.
Thorme. Si est compact, alors
Wp (n , ) 0 n *
n

1er cas : p = 1
Dans ce cas, on a prouv que :
Z
W1 (, ) =

Z
|x y|d =

min
(,nu)

sup

d( )

1Lip

R
(->) Puisque, pour une fonction lipschitzienne
de rapport 1, | d(
R
R n )| est majore par W1 (n , ) qui
tend vers 0 si n tend vers au sens de W1 , on a dn qui converge vers d. Le critre tant continu, on peut
prolonger cette convergence toute fonction continue, par densit. On prouve ainsi la convergence faible de n
vers .
(<-) Si n converge faiblement vers , introduisons des potentiels de KANTOROVICH n pour chaque problme
de transport de n :
Z
Z
n N, W1 (n , ) = sup
d(n ) = n d(n )
1Lip

Puisque modifier le potentiel en un point ne change pas son caractre optimal, puisque la mesure est sans atomes
(WHY ?), on peut supposer que les n sont toutes nulles en un x0 fix. Il vient alors par 1-lipschitzianit :
|n | diam() + n (x0 ) =: C
Ainsi, les n sont continues et uniformment bornes. Le thorme dASCOLI assure alors lexistence dune
extraction faisant converger uniformment la suite. renommage des indices prs, nous pouvons donc supposer
que la suite (n )n converge uniformment vers . Nous pouvons alors crire :
Z
Z
W1 (n , ) = (n )d(n ) + d(n )
Le premier terme de la somme converge vers 0 par convergence uniforme de la diffrence n vers 0, quant
au second terme, il converge vers 0 car est fixe et la diffrence de mesures n converge vers 0. Ainsi nous
avons comme voulu
lim supW1 (n , ) = 0
n

2e cas : p > 1
Il suffit de se servir de la croissance des normes Lp . En effet, puisque W1 Wp , nous avons
Z
Z
kx yk1 min kx ykp diam(]p1 |x y|d

43

Ainsi W1 Wp diam()
sens de W1 (... ? ? ?). .

p1
p

N1 (, ) p . La convergence de n vers au sens de Wp implique donc celle au

Corollaire. Si est compact, alors (P(), Wp ) lest aussi.


Pour le voir, il suffit de prendre une suite (n )n et en extraire une sous-suite convergente faiblement au sens des
fonctions bornes, ce qui est possible par dualit entre C() et M (. 
Thorme. Si et sont deux mesures de moments dordre p finis, alors :

*
n n
Z
Z
Wp (n , ) 0
n

|x|p dn |x|p dd
n

(->) Notons que, par semi-continuit infrieure, on a toujours

|x|p d lim inf


n

|x|p dn . On a galement

les Wp qui majorent W1 . Ainsi, sil y a convergence vers 0 pour Wp , il en va de mme pour W1 . En particulier
Z
Z
1 Lip,
dn d
Ce qui donne la convergence faible des n vers . Pour la seconde condition, si Wp (n , ) converge vers 0, alors
on minore par Wp (n , 0 ) Wp (0 n), ce qui implique la seconde condition.
R
R
(<-) La fonction R : x 7 (|x| R)p est continue et borne. On a donc dn qui converge vers d.
Do la convergence des moments dordre p des n vers le moment dordre p de . Do :
Z
Z
p
(|x| )dn
(|x|p )d
c B(0,R)

c B(0,R)

Pour > 0 fix, il existe R suffisamment grand tel que


Z
Z
p
(|x| )d
c B(0,R)

Pour n suffisamment grand, on a galement


Z

|x|p d <

c B(0,R)

(|x|p )dn <

On veut prouver que Wp (n , ) est infrieur pour n suffisamment grand. Soit k la projection sur B(0, R) :
(
x si x B(0, R)
x
k : x 7
R sinon
|x|
Cest une application continue, et mme lipschitzienne de degr 1. De plus, R #n converge faiblement vers
R #, en vertu dun lemme dj
On crit alors, puisque |x R|p |x|p Rp pour x de
R noncp par le pass.

norme suprieure R et donc (|x| R) dn 3 :


Wp (n , = Wp (, R #n ) + Wp (R #n , k #) + Wp (k #, )
 1/p
+ Wp (R #n , R #)
2
3
Et ce dernier terme tend vers 0 avec n qui crot compte tenu de la convergence faible de R #n vers R #.

Un contre-exemple est obtenu en prenant une suite n qui converge vers 0, et en considrant

44

n = (1 n ) + n 1 * = 0
n

Or n ne converge pas vers 0 au sens de Wp , car


n = 1/np , on obtient la contradiction voulue.

5.3

dn converge vers (0), et

|x|p dn = n np , donc avec

Lien avec lquation de conservation de la charge

Nous avons lhabitude dtudier le champ de vitesses de courbes valeurs relles, ce qui permet de dgager de
nombreuses proprits importantes et de mieux comprendre les comportements et les limites des courbes tudies.
Or dans un cadre plus gnral, par exemple dans les espaces de WASSERSTEIN, on ne peut dfinit comme lusuel
la drive dune courbe, laccroissement (t + h) (t) ntant a priori pas dfini. Cependant il est possible de
gnraliser la dfinition de drive dans le cas despaces mtriques gnraux de manire naturelle, et cette drive
gnralis ainsi introduite est galement trs riche en proprits et donne des informations importantes sur la
courbe.
On introduit alors la drive mtrique de en t :
Dfinition. Soit (X, d) un espace mtrique et soit : [0, 1] X une courbe dans X. La drive mtrique de en
t est
| 0 |(t) = lim

h0

d((t + h), (t))


h

Thorme. Si (X, d) est un espace mtrique sparable et : [0, T ] X est lipschitzienne, alors | 0 | existe
presque partout.
On rappelle que tout espace mtrique sparable born peut tre immerg dans lespace l des suites bornes.
En effet, si (xi )i est une suite dense dans lespace, qui existe par sparabilit, alors lapplication qui x associe la
suite des mesures de x aux xi est une isomtrie, donc une immersion.
La notion de champ des vitesses stend galement au cadre mtrique gnral :
Dfinition. Soit (t )t une courbe lipschitzienne dans Wp (). Un champ de vitesses est un champ de vecteurs (vt )t
de Rd , avec vt intgrable pour t pour presque tout t, qui est solution faible de lquation de continuit :
t t + (vt t ) = 0
Autrement dit, qui vrifie
D(),

d
dt

Z
vt dt

dt =
Omega

Pour une famille de mesures (t )t[0,1] de Pp (), on cherche trouver des liens entre le caractre lipschitzien
des t et lexistence dquations diffrentielles sur : t 7 t . Lquation principale vrifie par est lquation
de continuit :
t t + (vt t ) = 0, vt : Rn
Proposition. Si (vt )t est une famille de champs de vecteurs uniformment lipschitziennes et bornes, si yx (t)
est la solution du problme de CAUCHY :

yx (t) = vt (yx (t))
yx (0) = x
qui existe par le thorme de CAUCHY LIPSCHITZ, et si 0 est une mesure de probabilit donne sur Rn et
t := Yt #0 o Yt (x) = yx (t), alors t est solution de lquation de continuit (au sens des distributions) :

45

C ,

d
dt

Z
dt =

vt dt pour presque tout t

Ce qui est quivalent dire que


Z 1 Z

dt
vt dt
dt +
0
t
0

R
R
Preuve. Fixons une fonction test C telle que dt = (Yt (x))d0 . Il vient alors :
Z
Z
d

dt = (Yt (x)) yx (t)d0


dt
Z
= (yx (t)) vt (yx (t))d0
Z
= vt d(Yt #0 )
Z
= vt dt 
Z

(x, t),

dt

Nous avons ainsi lexistence et lexplicitation dune solution du problme de continuit dans ce cas. Il reste
prouver lunicit de celle-ci :
Thorme. Si (t )t est une solution de lquation de continuit au sens des distributions, et si vt est une famille de
champs de vecteurs uniformment borns et uniformment lipschitzien, alors si 0 est nulle, les t sont galement nulles
pour presque tout t. En particulier, un 0 de dpart, il existe une unique solution (t )t correspondant cette condition
initiale.
Preuve. Notons X = l . Soit = (1 , . . . , n , . . .), avec i : [0, T ] R lipschitzienne. En particulier, ce qui
prcde permet daffirmer que les i0 existent pour presque tout t. Notons N le ngligeable hors duquel toutes ces
drives existent.
Soit m(t) = supi |i0 |(t) dfinie hors de N , et donc valeurs relles. En fait on a
| 0 (t)| = m(t)

d((t + h), (t))


|i (t + h) i (t)|

|i0 (t)|
h0
|h|
|h|

On en tire en particulier que, pour tout i, la limite infrieure de


m(t). Ainsi :

d((t+h),(t))
|h|

est suprieure aux |i0 |(t), donc

t+h

d((t + h), (t)) = supi |i (t + h) i (t)|/|h| sup


t

|i0 |

t+h

m
t

On se sert dsormais des rsultats usuels sur les points de LEBESGUE. Pour m dans L1 , on a pour presque tout t
1
2h
Donc en particulier

R t+h
t

m m(t).

t+h

|m(s) m(t)|ds 0
h0

th

On sintresse dsormais aux courbes admettant un champ de vitesses. Le rsultat qui suit affirme quil sagit
essentiellement des courbes lipschitziennes :
Thorme. On suppose p > 1. Soit (t )t une courbe lipschitzienne dfinie sur [0, T ] dans (Pp (), Wp ). Alors pour
presque tout t, il existe un champ de vecteurs vt de Lp satisfaisant
kvt kp |0 |(t) et t t + (vt t ) = 0

46

De plus, si (t , vt ) satisfait lquation de continuit et si vt est borne pour la norme Lp , alors t est une courbe
lipschitzienne par rapport Wp et |0 (t)| = kvt kp .
Preuve. On remarque que le cas p = 1 pose problme, par exemple avec t = (1 t)0 + t1 . En tous cas, on
peut affirmer dans ce cas quil existe une famille (Et )t de mesures vectorielles telles que
t t + Et = 0
R

Pour prouver le thorme, fixons une fonction test de classe C et lipschitzienne. Il faut vrifier que t 7
dt est galement lipschitzienne, notre but tant de prouver que
Z
Z
d
dt = h, vt idt pour un certain vt
dt
On a dans notre cas :
Z

Z
dt+h

Z
dt = Lip()

d(t+h t ) Lip()W1 (t+h , t )


Lip()
Lip()Wp (t+h , t )
Lip(t )Lip()|h| car la courbe est suppose lipschitzienne

Z
dt+h

Z
dt =

((y) (x))dh o h O(t , t+h ).

On dfinit alors

si x = y
(x)

x y
H : (x, y) 7
sinon

xy
Ce qui fait que, dans tous les cas, on a |(x) (y)| H(x, y)|x y|. Donc :
Z
Z
Z
1/p Z
1/q
Z


p
q
dt + h dt H(x, y)|x y|dh
|x y| dh
H(x, y) dh


H est semi-continue suprieurement car continue hors de la diagonale, et concernant la diagonale, si (xn , yn )n
converge vers (x, x), on a :
H(xn , yn ) =

(xn ) (yn )
= h(zn )|xn yn i/|xn yn | |(zn )|
xn yn

o zn est un point du segment [xn , yn ]. Donc par passage la limite H(xn , yn ) |(x)| = H(x, x). Ce qui
achve la preuve de la semi-continuit suprieure.
R
R Quitte extraire, ce qui est possible par compacit, on a n qui converge faiblement vers , et donc lim sup Hdn
Hd. On crit alors
R
lim
0

dt+h dt
h

Z
1/q
Wp (t+h , t )
H q (x, y)dh
|h|
Z
1/q
Wp (t+h , t )
q
lim sup
H (x, y)d
o = (id id)#h
|h|
lim sup

Par le lemme de continuit de limage dune mesure par une application fixe, on a :
h optimal pour (t , t+h ) = optimal pour (t , t )

47

Ce qui prouve en particulier que


1
h0 h
lim

Z

Z
dt+h

dt

|0 (t)|

Z

||q (x)dt

1/q

Pour tout fonction de classe C et lipschitzienne, on a pour presque pour tout t :


Z
d
dt kkLq (t ) |0 |(t)
dt
Soit D un ensemble dense et dnombrable de fraction k . On a :
o = (t dt)
, k D, k
q
L ()

Il existe alors un ensemble ngligeable N tel que pour tout t hors de N , pour toute fonction dans D, on ait :
Z
d

dt kkLq (t )|0 |(t)


dt
R
d
dt , qui est linaire en car on ne change pas la valeur
Considrons dsormais lapplication T : 7 dt
de limage en ajoutant une constante, donc la fonction est en ralit une fonction de . De plus elle est continue
car T () CkkLq (t ) . E ? ? ?
o

La thorme de HAHN BANACH permet de prolonger T en T : Lq (t ) R, continue et de mme norme.

T est dans le dual de Lq (t ), qui est Lp (t ). Ainsi, il existe un champ de vecteurs dans Lp (t ) tel que :
Z
o
T (x) = vt (x)dt
o

On a ainsi trouv un champ de vecteur vt tel que kvt kp = kT kq , et :


Z
Z
d
SP AN ???(),
dt = vt dt , kvt kp |0 |(t)
dt
Cette galit reste vraie pour tout de classe C par densit.
2e PARTIE
Prenons (t , vt ) et rgularisons vt pour la rendre suffisamment rgulire : t = t ? o est une gaussienne,
qui est strictement positive, ce qui implique que t est strictement positive. On pose galement Et = vt t et
Et = Et et vt = Et /t . Dans ce cas :
t t + (vt t ) = 0
et v est un champ de vecteur de classe C et localement born. Le thorme dunicit sapplique donc et
affirme que t = Yt #0 , o t (x) = yx (t) est solution du problme de CAUCHY
(
yx = vt (yx (t))
yx (0) = x
R
On peut alors crire Wp (t , s ) |Yt (x) Ys (x)|d0 o (Yt , Ys )#0 (t , s ). Il vient alors :

48



Yt (x) Ys (x) p




ts

=
=
=

et

|vt (yx ( ))|p d0 =


Z s
1

|yx ( )|d
|t s|Z t
s
1
|vt (yx ( ))|d
|t s| Zt
s
1
|vt (yx ( ))|p d d0
|t s| Zt Z
s
1
|vt (yx ( ))|p d0 d
|t s| t

kpLp ( ) .
|v (y)|p d (y) = kvtau
t

Puis pour finir :


Wp (t , s )

ts

1
ts

kv kpLp ( ) d

1/p

Or si on dfinie la fonction
|b|p
si a > 1
pap1
f (a, b) =
0 si a = b = 0

+ sinon

f est convexe et semi-continue infrieurement car f (a, b) = sup {at + b w | (t, w) R Rn , , t + |w|q /q 0}.
Lingalit de JENSEN donne pour toute fonction f convexe :
Z
 Z
f
d f ()d
On lapplique en particulier au noyau de convolution :
BLA BLA BLA
On obtient alors, en fin de compte, une majoration par :
Z
(...)

1/p
1/p 
Z
1
kv kpp d
f (t , Et )dt
=
ts

On sait que kv k est majore par C, donc la distance est major par C|t s|, donc on a la mme ingalit
lorsque lon fait tendre vers 0. Ainsi pour tout point de LEBESGUE :
Wp (t , s )
kvt kp
ts
st

On a ainsi major la drive mtrique par la norme k k.

|0 |(t) kvt kLp (t )

49

5.4
5.4.1

Quelques rappels
Chemins et longueurs en espace mtrique

On se place dans un espace mtrique gnral (X, d). Une courbe est une application continue dun segment [a, b]
dans cet espace, on se limite donc habituellement au segment [0, 1] par reparamtrisation. On dfinit sa longueur
par

( n1
)

X

ld : 7 sup
d((ti ), (ti+1 )) 0 = t0 < t1 < < tn = 1

i=0

Dans le cas dune courbe lipschitzienne, la longueur est toujours finie et majore par la constante de LIPSCHITZ
de lapplication. Dans ce cas, et dans le cas plus gnral o la drive mtrique existe, on a
Z
, ld () =

| 0 |(t)dt

N.B. : La drive mtrique de est aussi gale | 0 | : t 7 supk |d((t), xk )0 | si la suite (xk )k est une suite
dense dans lespace. Il sagit donc dne proprit valable dans les espaces sparables.

5.4.2

Godsiques

Une godsique est une courbe minimisant la longueur parmi toutes les courbes deux extrmits fixes. Plus
prcisment, si on impose (0) = x et (1) = y, on recherche minimiser la longueur dun chemin de x y. On
peut donc se limiter aux courbes lipschitziennes. Notons que lon peut dailleurs toujours reparamtrer une courbe
pour la rendre lipschitzienne (WHY ?).
Les godsiques sont donc les courbes 0 vrifiant


Z 1

0

ld (0 ) = min
|0 |(t)dt 0 Lip([0, 1], X), 0 (0) = x, 0 (1) = y
0

Dans le cas qui nous intresse, nous naurons pas nous soucier de lexistence de godsiques : on les connat
explicitement !

5.4.3

Espaces de longueurs

(X, d) est un espace de longueurs si


x, y X, d(x, y) = inf{ld () | Lip([0, 1], X), (0) = x, (1) = y}
toute distance d, on peut associer une distance godsique dg par cette formule. En considrant la partition
triviale de [0, 1] par lui-mme, on obtient que la distance godsique est toujours suprieure la distance. Un espace
est un espace de longueurs si, et seulement si, on a lgalit entre la distance et la distance godsique associe. Par
ce qui prcde, il suffit donc de prouver lingalit dg d.
(X, d) est un espace godsique si cest un espace de longueurs et si les distances godsiques sont atteintes,
autrement dit si les chemins optimaux existent bel et bien dans lensemble des chemins sur cet espace.
Une courbe est dite vitesse constante si sa drive mtrique est constante presque partout, ce qui traduit bien,
dans le cas de drives usuelles, la notion de vitesse constante.

50

5.4.4

Une caractrisation des godsiques vitesse constante

Si p > 1 et si on cherche minimiser


par lingalit de JENSEN, on a :

R1
0

| 0 |p , les minimiseurs sont les godsiques vitesse constante. En effet,


Z

Z

| 0 |p

| 0 |

p

et il y a galit si, et seulement si, est un chemin vitesse constante, par le cas dgalit de lingalit de JENSEN
pour les fonctions strictement convexes, puisque la fonction x 7 |x|p est strictement convexe.
Si est une godsique, on a sa longueur qui est gale la distance godsique de x y. Donc si sa vitesse est
constante, elle vaut ncessairement la distance godsique entre ces deux points, do
Z

0 p

p

Z

| | dg (x, y) =

dg (x, y)

Z
=

p
| |
0

Thorme. Dans un espace godsique, une courbe est une godsique vitesse constante si, et seulement si,
on a d((t), (s)) = d(x, y)|t s|.
(=) Tout dabord, on a
ld () = sup

i=n1
X

d((ti ), (ti+1 )) = sup

i=0

i=n1
X

d(x, y)|ti+1 ti | = d(x, y)

i=0

donc est une godsique, et de plus :


d((t), (s))
= d(x, y)
|t s|
donc
|(t)0 | = lim

st

d((t), (s))
= d(x, y)
|t s|

est donc bien vitesse constante.


(=) Pour tout t, s [0, 1], on a
Z
d((t), (s))

| 0 | = d(x, y)|s t|

donc si 0 s t 1 alors
d((0), (s))
d((s), (t))
d((t), (1))

d(x, y)s
d(x, y)|t s|
d(x, y)|1 t|

En sommant, on obtient que d((0), (1)) d(x, y) donc les ingalits sont toutes des galits, donc d((s), (t)) =
d(x, y)|t s|.

5.5

Godsiques et transport optimal

On se place dsormais dans lespace (Pp (), Wp ), et on fixe deux mesures et de cet espace. Lexistence dun
transport optimal de correspond lide intuitive de minimiser le trajet quil y a faire pour passer de
, ce qui correspond aussi lide intuitive que lon peut se faire dune godsique de entre . Cette intuition
est en ralit justifie, et cest ce que nous allons voir par la suite.

51

5.5.1

Godsiques et plans de transferts optimaux

Thorme. Si est convexe et sil existe un plan de transfert optimal de drivant dun transport T ,
alors t = ((1 t)id + tT )# est une godsique de .
Si lon na pas dhypothse sur ni sur lexistence de T , alors il existe un plan de transfert optimal tel que
t # ( ?) est une godsique, o t (x, y) = (1 t)x + ty.
Autrement dit, on peut toujours trouver une godsique qui est la projection dun plan de transfert optimal
sur un t .
Par le thorme prcdent, il suffit de prouver que Wp (t , s ) = Wp (, )|t s|, donc lingalit suffit. Il
nous suffit donc de trouver un plan de plan de transfert entre t et s . Le plan (t , s )# convient car est un
transport optimal, donc
MARGINALES
Puis on a
Z
Wp (t , s )

|x y| d((t , s )#) =

|t s | d =

|t s|p |x y|p d = |t s|p Wpp (, )

donc Wp (t , s ) Wp (, )|s t|. La premire ingalit provient de loptimalit de la distance de WASSER: on a ici effectu le transport entre les instants t et s seulement, mais pas en entier. Cela ne change pas son
caractre optimal car sil ne ltait pas, il suffirait de le rendre optimal sur cette portion et de le recoller au reste
inchang pour obtenir un transport strictement plus efficace. 

STEIN

On a alors dj vu que lon pouvait trouver un champ de vecteurs (vt )t vrifiant lquation de continuit :
t [0, 1], t t + (t vt ) = 0
Si Tt = (1 t)id + tT , alors on a vt (x) = T (y) y avec y un antcdent de x par T . Autrement dit,
vt = (T id) Tt1 . ( ? ? ?)
Remarquons que vt correspond la vitesse des particules dans une rgion considre au temps t. On ne suit donc
pas le comportement dune particule bien dtermine, mais celle de toutes les particules circulant dans une rgion
de lespace bien dtermine. Il sagit donc dune description lagrangienne du problme, et non eulrienne.
PARTIE CCM A ECRIRE
Pour p = 1, les rayons de transport ne se croisent pas. Pour p > 1, la condition est beaucoup plus faible : ils
ne peuvent pas de croiser au mme instant, mais les traces du mouvement, autrement dit le graphe des rayons de
transport considrs comme fonctions du temps et de lespace, peuvent se croiser.

5.5.2

Godsiques vitesses constantes et plans de transferts optimaux

Proposition. On suppose que p > 1. Si t est une godsique vitesse constante et si t ]0, 1[, alors il existe un
unique plan de transfert optimal de 0 t , et il drive dun transport. De mme, il existe un unique plan de
transfert optimal + de t 1 , et il vient aussi dun transport.
Le grand intrt de cette proposition est de pouvoir ensuite composer les deux plans de transfert ainsi obtenus,
la manire du gluing lemma, pour obtenir un transport optimal de .
On rappelle le gluing lemma : (...)
Soient et + optimaux respectivement pour (0 , t ) et (t , 1 = ). Soit (not dans le gluing lemma)
obtenu par recollement. Il vient alors

52

Z
Wp (, )

|x y|p d

1/p
= kx zkLp ()
kx zkLp () + ky zkLp ()
1/p
1/p Z
Z
|y z|p d+
+
|x y|p d

Ce qui donne
Wp (, ) Wp (, t ) + Wp (t , ) = tWp (, ) + (1 t)Wp (, ) = Wp (, )
Il y a donc galit partout et donc est un plan de transfert optimal de . Comme la norme kkLp est
strictement convexe, car p > 1, on a
x y = (x z) presque partout et yz = (1 )(x z) presque partout
On a en fait utilis le fait suivant : si kf + gkp = kf kp + kgkp , alors f , g et f + g sont multiples lun de lautre.
Autrement dit, on peut crire pour un certain t : f + t(f + g) et g = t0 (f + g) avec t et t0 positifs. Cela implique
en particulier que t + t0 = 1, donc que t0 = 1 t.
Si on intgre la Lp les galits ainsi obtenues, on obtient
kx ykp = kx zkp = Wp (, ) = Wp (, t ) = tWp (, )
ce qui implique que t = . Ainsi, on a trouv un optimal et t = t # car t = y # et y = (1 t)x + tz
par les relations prcdentes. Il reste prouver que les plans de transfert optimaux considrs sont des transports.
Mais le obtenu dpend a priori de t ! Lgalit t = t # nest donc vraie, a priori, qu linstant t fix au
dbut du thorme. Cette dpendance est gnante et ne permet pas de construire un recollement canonique
entre + et .
Montrons que vient dun transport. Soient (x, y) et (x, y 0 ) dans le support de . On veut prouver que
y = y 0 , autrement dit que la relation est fonctionnelle. Il y aurait alors z et z 0 tels que y = (1 t)x + tz et
y = (1 t)x0 + tz 0 , avec (x, y, z) et (x0 , y, z 0 ) qui sont dans le support de . Il vient alors que (x, z) et (x0 , z 0 ) est
dans le support de . Or, les rayons de transport ne peuvent se croiser au mme instant ! 
Comme habituellement, on prouve lunicit de ce plan de transport optimal en raisonnant avec des combinaisons convexes.
Proprit. On suppose que p > 1. Soit t une godsique vitesse constante. Alors il existe un plan de transfert
optimal , et t = t #.
On fixe t = 21 . Maintenant, on sait que le plan de transfert optimal de 1/2 est unique. Notons s = s/2
une godsique vitesse constante de 1/2 . Si s ]0, 1[, on sait que s = s #
o est le seul plan de transfert
optimal de 1/2 , par ce qui prcde. On note aussi lunique plan de transfert optimal de 1/2 , et le
recollement de ces deux plan de transfert.
Puisque y = 12 x + 12 z -presque partout, car t = 12 . On a alors
s

= s #
= ps #
s
s
= ((1 s)x + x + z)#
2
2
s
1
= ((1 )x + z)#
2
2
= s/2 #

Ainsi, on a prouv que chercher les godsiques revenait rechercher les plans de transferts optimaux, conformment ce que nous suggrait lintuition gomtrique.

53

Par contre pour p = 1, tout cela est faux. En effet, avec lexemple usuel t = t0 +(1t)1 , on a une godsique
qui nest pas obtenue par interpolation de la position des particules, sinon on aurait ncessairement t = t , mais
ici la masse est transporte partiellement en 0 et en 1 : cest un transfert continu de masse dun point un autre.

5.6
5.6.1

Convexit godsique et fonctionnelles


Gnralisation de la notion de convexit

Dans un espace godsique, on ne peut plus utiliser la dfinition usuelle de la convexit, les combinaisons linaires convexes ntant plus dfinies. On dfinit alors une fonction F comme tant godsiquement convexe comme
une fonction vrifiant
(x, y) 2 , godsique vitesse constante de x y, F ((t)) (1 t)F (x) + tF (y)
Un espace Y est dit godsiquement convexe si pour tout couple de points de Y , toute godsique vitesse
constante liant ces deux points prend ses valeurs dans Y . Autrement dit, on dfinit la convexit comme la convexit
usuelle le long des godsiques vitesse constante sur lespace.

5.6.2

Quelques fonctionnelles centrales

Dans Wp () avec convexe, on considre les trois classes de fonctionnelles suivantes, reprsentant des nergies
intervenant de manire assez gnrale :
Z
1
mathbbJV : Pp () 3 7
V d o V : R {}
Z
2
JW
: Pp () 3
7
W (x y)d(x)d(y)
Z
JU3 : Ppa () 3
7
U (p(x)) U (0) = 0

o Ppa () reprsente lensemble des mesures de Pp () absolument continues par rapport la mesure de LESBESGUE. On observe que Ppa Pp est godsiquement convexe. En effet, soient et deux mesures de Ppa (), et
soit (t )t[0,1] une godsique vitesse constante entre elles. On sait, pour p > 1, que t = t # pour un certain
plan de transfert optimal (, ). Puisque est absolument continue par rapport , ce est unique et drive
dun transport. Dans ce cadre, on a aussi prouv que t est absolument continue par rapport pour t ]0, 1[ lors
de ltude de la densit de transport 1 .
Notons quelques cas particuliers de la fonctionnelle JU3 : si U est linaire, cela correspond la masse de la
mesure ; si U est quadratique, cest une fonctionnelle qui donne plus dimportance aux concentrations de masse.

5.6.3

De la convexit des fonctionnelles

Thorme.
V convexe JV1 godsiquement convexe
2
W convexe = JW
godsiquement convexe
U convexe et s 7 U (sd )sd convexe dcroissante avec d = dim(E) = JU3 godsiquement convexe
Un cas trs utile de cette dernire assertion est U (t) = tp pour p > 1.
Preuve. Dtaillons sparment le preuve pour chacune des trois fonctionnelles. On considre chaque fois une
godsique vitesse constante entre et , qui scrit t = t # par thorme.
Dans le cas de JV1 , on crit simplement, en supposant V convexe :
1. La preuve a t faite dans le cas p = 1 par approximation de la mesure par des mesures atomes n obtenues en concentrant la masse en
un point de chaque rgion dune subdivision de plus en plus fine. La mme preuve tient dans le cas p > 1.

54

JV1 (t )

Z Z

Z Z
V dt =

V (t (x, y))d

Z Z
V ((1 t)x + ty)d

=
Z Z

((1 t)V (x) + tV (y))d par convexit de V

= (1 t)JV1 () + tJV1 ()
ce qui prouve que JV1 est godsiquement convexe. La rciproque est galement vraie en introduisant des mesures de DIRAC.
2
Dans le cas de JW
, on crit simplement, en supposant W convexe :
Z Z
Z Z
2
JW
(t ) =
W (z z 0 )d2t (z, z 0 ) =
W (t (x, y) t (x0 , y 0 ))d
Z Z
=
W ((1 t)(x x0 ) + t(y y 0 ))d
Z Z

((1 t)W (x x0 ) + tW (y y 0 ))d par convexit de W


2
2
= (1 t)JW
() + tJW
()

ce qui achve la preuve de la convexit de W . Notons dailleurs que la preuve est la mme dans le cas un peu plus
gnral, bien que moins courant en pratique, dune fonction W de deux variables W (x, x0 ) vrifiant lhypothse
de convexit par rapport au couple (x, x0 ). De plus, en dimension 1, il suffit que W soit convexe sur les deux
demi-plans dlimits par la premire bissectrice car le transport dont drive est croissant et stabilise donc ces deux
demi-plans.
Notons la densit de . Pour une application s injective et lipschitzienne (ce qui implique la diffrentiabilit
presque partout daprs le thorme de RADEMACHER), par changement de variable on a
s# =

s1
|dt(s)|

Les rayons de transport ne peuvent se croiser au mme instant par application de la proprit de c-monotonie
cyclique, ce qui fait que les applications Tt sont injectives. La convexit implique la lipschitzianit dnombrable du
gradient (ce qui suffit avoir le rsultat prcdent). On a dj vu que les t sont des mesures densit par rapport
, et le rsultat qui prcde donne alors
t (y) =

Tt1 (y)
|Tt (Tt1 (y))|

Il vient alors par changement de variables :






Z
Z

JU3 (t ) = U
Tt1 (x) dx = U
|Tt (y)| dy
|Tt |
|Tt |
Prouvons dabord le
Lemme. A Sn (R), (A I = [0, 1] 3 t 7 |I + tA|1/d est concave).
Preuve. Les matrices symtriques relles tant diagonalisables, il suffit de prouver le rsultat pour les matrices
diagonales, celui-ci tant invariant par changement de base car
t [0, 1], P GLn (R), |I + t(P AP 1 )| = |P (I + tA)P 1 | = |I + tA|
On se contente donc de raisonner sur les lments matrices diagonales A = (i )i :

55

f : t 7

i = 1n (1 + ti )1/d , f 0 : t 7

o g : t 7

Pn
1
d

i=1

n
n
Y
1X
i (1 + ti )1
(1 + tj )1/d = g(t)f (t)
d i=1
j=1

i (1 + ti )1 . On crit alors simplement


f 0 = f g, f 00 = f 0 g + f g 0 = f g 2 + f g 0 = f (g 2 + g 0 )

ce qui prouve la concavit puisque g 0 g 2 .


Dans notre cas, on considre f : t 7
bien concave... ? ? ? 

5.6.4

1/d

|I + tA|1/d o A = H I et T = , et la fonction XXX est

Ingalit de Brunn Minkowski

Si X et Y sont des parties de E, alors


(X + Y )1/d = (X)1/d + (Y )1/d
Preuve. On restreint les mesures aux espaces X et Y considrs :

1
1
|X ,
|Y
|X|
|Y |

On pose U (s) = s11/d qui est convexe et dcroissante comme dj signal. Le thorme prcdent sapplique,
notamment avec t = 12 , donc le support A est contenu dans 12 (X + Y ), do
Z
1
1
11/d
1/2 |X||X|1+1/d |Y ||Y |1+1/d = (|X|1/d + |Y |1/d )
2
2
Lingalit de JENSEN affirme que

do :

X + Y
1
d
|X + Y |
2
2

1/d

1
1

|A|1/d |X|1/d + |Y |1/d

2
2

ce qui donne |X + Y |d |X|d + |Y |d . 


Une consquence immdiate est lingalit isoprimtrique, en prenant Y = B d (0, 1) et en notant d son volume. On a alors
1/d

|Xr |1/d |X| + d r o d = (B d (0, 1)) et Xr = X + rB d (0, 1)


do, en crivant un dveloppement limit lordre 1 du volume :
1/d

Vol(Xr (ouX ?)) (P er(X)r + |X|)1/d d r


do :
1/d

|X|1/d + d|X|1/d1 Per(X)r |X|1/d + d r


do :
X, Per(X)

1 1/d
|X|11/d
d d

car...

56

5.6.5

Autre application

Dans le cas o est born et , sont bornes, alors les normes L des t sont bornes par le maximum des
normes de et de . En effet, le rsultat est connu pour les normes Lp , et on peut passer la limite puisque est
de masse totale finie, car il est born.
R1
Si on revient 0 t dt et si , sont dans Lq , alors (kt kq C = Lq ). Mais ce rsultat nest pas
valable pour p 6= 2, il faudrait retrouver les godsiques convexes la main.

57

Chapitre 6

Application des problmes dquations


aux drives partielles
Prcdemment, on a vu que lon pouvait travailler sur des espaces mtriques adapts aux problmes de transport,
notamment (P (), Wp ) si est compact, et (Pp (), Wp ) de manire gnrale. Nous allons maintenant rechercher
les proprits et les expressions des godsiques dans ces espaces.

6.1
6.1.1

Bnamou Brenier
Le problme de la minimisation de la longueur

On cherche dsormais minimiser


Z
0

R1
0

|0 |(t)dt, 0 et 1 donnes. On sait que

|0 |(t)dt min

kvt kpLp (t ) dt o t t + (t vt ) = 0

car pour tout solution de lquation de continuit, on a |0 |p kvt kpLp (t ) et lexistence dun vt ralisant
lgalit. Donc il y a galit, par le thorme du cours prcdent.
On travaille donc dsormais sur le problme de la minimisation du critre
Z
kvt kpLp (t ) dt o t t + (t vt ) = 0
Ce problme de minimisation sur les couples (t , vt ) est dune formulation peu exploitable, car les contraintes
ne sont pas linaires et les fonctions mises en jeu ne sont pas convexes en les inconnues, il ny a donc pas de proprit
de convexit pour lensemble des solutions, et les mthodes de recherche et de dmonstration usuelles en analyse
convexe ne sappliqueront pas.

6.1.2

La formulation de Bnamou Brenier du problme

On cherche donc reformuler le problme dune manire plus judicieuse. Notons Et = vt t . On ramne ainsi
le problme une optimisation convexe du critre
Z Z p
Et
1
dt o t t + Et = 0
t
p
On introduit alors

58


|w|p

si s > 0

psp1
f : (s, w) 7
0 si s = 0, w = 0

+ sinon
La fonction f ainsi dfinie est convexe et 1-homogne. Plus prcisment, posons
1
s, w, g(s, w) = sup {as + b w | a R, b Rn , a + |b|q 0}
q
g est convexe et 1-homogne, car cest un supremum de fonctions linaires. Si s est positif, on peut rduire les
hypothses :



1
1
b, max a a + |b|q 0 = |b|q
q
q
donc
s
s, w, g(s, w) = sup ( |b|q + b w)
n
q
bR
Le sup est atteint si b et w sont colinaires et que |w| = s|b|q1 . Do f = g. Par suite :
CHAIN E IM M ON DE D0 EGALIT ES
On change alors les inconnues du problme pour se ramener une formulation convexe. Le nouveau problme
consiste minimiser
Z Z
f (t , Et ) o t t + Et = 0
On se ramne alors minimiser


Z

1 q

sup
(at + b Et ) a + |b| 0, t t + Et = 0
q
Cest la formulation de BRENIER BNAMOU du problme.

6.2
6.2.1

Un peu de dualit...
Reformulations du problme et simplification des critres

R
R
On absorbe comme usuellement la contrainte en introduisant la fonction G : 7 (1, x)d1 (0, x)d0 .
Les solutions de lquation de continuit vrifient, en traduisant lquation au sens des distributions :

Z
Z
0 si les contraintes sont satisfaites
1
sup [d]0 t Et =
+ sinon

Le nouveau critre de minimisation devient alors


Z Z
min

sup

Pp (), Et =vt t

a(t,x), b(t,x), C 1 ()

t t +Et =0

a+ 1 |b|q 0
q

Z Z
ad +

59

Z Z
bdE

Z
t d

E + G()

Comme toujours, on cherche savoir si ce problme est le mme que le problme dual, obtenu en changeant
les bornes infrieures et suprieures. On a toujours inf sup sup inf comme dj mentionn. Un thorme
danalyse convexe d ROCKAFELLAR affirme que lon a linterchangeabilit si, et seulement si, on a lexistence
dun point selle (x , y ), i.e. dun point vrifiant
x , F (x, y ) F (x , y )
y , F (x , y) F (x , y )
On pose alors m = (, E) et = (a, b) pour allger les notations. Le produit considr est le produit scalaire
L2 sur lespace-temps. On introduit alors
1
K = { | a + |b|q 0}
q
qui est un ensemble convexe de Rn+1 . On introduit lindicatrice IK de K qui vaut 0 si est presque partout
dans K, et + sinon. Le critre se rcrit alors
min sup m t,x m + G() Ik ()
m

Si m est optimal, alors t,x = 0. On peut donc ajouter le carr de cette quantit, ce qui ninfluera pas sur
loptimum. Cette mthode du lagrangien augment permet de transformer le critre en
min sup m t,x m + G() Ik () + k t,x k2
m

On est dans une situation o lon voudrait minimiser une fonction F de m, et lon considre une fonction F
de m qui est infrieure F . Si m est optimal pour F , il existe un point selle (x, , ) et la quantit ajoute au
critre y est nulle. On a donc F (m) = F (m), donc le minimum de F est infrieur F (m) qui est le minimum de
F , qui est infrieure au minimum de F car elle lui est toujours infrieure. Ainsi, on na que des galits, et on est
assurs de ne pas avoir chang le problme en ajoutant cette quantit au critre minimiser.

6.2.2

Lalgorithme de Brenier

On approche loptimum grce lalgorithme de BRENIER, de type gradient :


(
F (m) = sup f (m, x)
x

F (m) = m f (m, x ) avec x ralisant le supremum


Le problme est que cet algorithme ne sapplique que pour des fonctions suffisamment rgulires pour pouvoir
tre diffrentie presque partout. Dans le cas gnral, on effectue une discrtisation du problme et on utilise un
procd rcursif pour lapproximation :

k+1 = maximisant le critre avec (mk , k )


k+1 = minimisant le critre avec (mk , k+1 )
k N,

mk+1 = mk r(k+1 x,t k+1 )


On aurait prfr que k optimise k+1 fix et que, inversement, k+1 optimise k fix. Pour une fonction
convexe, les conditions vrifies par cette construction son suffisantes.
Le problmes est maintenant de savoir comment faire pour russir dterminer les deux optimum intervenant
dans la rcursion de manire efficace.
Pour le calcul de k+1 ...
Pour la seconde partie, cest plus ais car doit maximiser le critre pour (mk , k+1 ), donc on doit dterminer

60

1
min IK () + k k+1 k mk
K
2
Ce qui est galement quivalent minimiser 2r k t,x k 1r mk k2 pour dans le convexe K. Donc pour
tout couple (tnx), on prend llment (t, x) qui minimise le critre. Notons que lon peut adopter cette dfinition
ponctuelle sans sangoisser de la rgularit de la fonction au final : contrairement F , celle-ci ne doit pas respecter
de contrainte sur son gradient. Ainsi :
1
K : (t, x) 7 PK (t,x k+1 (t, x) + mk (t, x))
r

61

6.3

Cours 7

6.4

Introduction aux flots gradients

6.4.1

Formulation du problme

On se place dans un espace de dimension finie que lon assimile Rn . On considre le problme
 0
x (t) = F (x(t))
(E)
, t R, F diffrentiable
x(t0 ) = x0
et on cherche minimiser F : Rn R parmi les solutions du problme (E). Autrement dit, il sagit doptimiser le mouvement de F partir de la seule condition initiale, donc de suivre en permanence la direction donne
par la plus grande pente, i.e. la direction du gradient.
Si F C 1,1 (), le gradient de F est continu et le thorme de CAUCHYLIPSCHITZ sapplique et donne
lexistence et lunicit dune solution maximale.
Si F C 1 () et convexe, on est assurs de lexistence de la solution, mais on ne peut a priori rien dire quant
son unicit. Si x et y sont deux solutions, il vient :
d
|x y|2 = hx y|x0 y 0 i = hx y|F (y) F (x)i
dt
Cette quantit tant ngative par convexit de F , la distance de x y dcroit avec le temps, or elle est nulle
lorigine car la condition initiale est fixe. Donc les deux fonctions sont gales, et on a dans ce cas galement
lunicit de la solution.
Si F C 1 () et -convexe, les mmes calculs donnent
d
|x y|2 = hx y|x0 y 0 i = hx y|F (y) F (x)i |x y|2
dt
Le lemme de GRONWALL donne alors g g(0)eCt si g(t) = |x y|2 . Puisque g(0) = 0 et que la fonction est
positive, elle est constamment nulle, et ces hypothses suffisent donc galement avoir lunicit.

6.4.2

Discrtisation temporelle

On fixe un pas temporel > 0 et on cherche une suite (xk )k reprsentant les positions successives de la courbe
de la solution optimale aux temps k . Le pas est appel tendre vers 0, ce qui fait que la distance entre les xk
tendra galement vers 0 ds que F est suffisamment rgulire. Donc our la recherche dune solution minimisante,
on peut imposer que xk+1 minimise le critre
F (x) +

1
|x xk |2
2

ce qui ne nuit pas la gnralit ad infinitum.


Si F est -convexe, le minimum existe en prenant 1 . Dans tous les cas, le xk+1 optimisant le critre doit
annuler le gradient du critre, autrement dit il doit satisfaire
1
xk+1 xk
x
(xk+1 x) + F (xk+1 ) = 0 do
=
= F (xk+1 )

t
On dfinit donc la suite (xk )k rcursivement par
x0
k N, xk+1 = xk F (xk+1 )

62

Il sagit du schma dEULER implicite, qui correspond intuitivement bien ce que lon cherche : on choisit de
suivre intervalle de temps rgulier la plus grande pente possible au point courant, donne par loppos du gradient.
On retrouve alors F en interpolant les xk lorsque le pas tend vers zro. En fait tout ceci se gnralise dans le
cas plus gnral des espaces mtriques, et non plus ncessairement euclidien, en imposant xk+1 de minimiser
1
d(x, xk )2 .
F (x) + 2

6.5

Retour sur les flots gradient

On suppose ici que est compact et que F : P () R {+}, en utilisant la distance Wp . On se demande
1
comment minimiser efficacement le critre F (x) + 2
|x xk |2 . > 0 fix, notons F
toute fonction satisfaisant
Z
d
dF
F ( + )=0 =
d, = 1 , 1 P()
d
d
R
R
R
Par exemple, avec F () = V d, on trouve F
V d, ou encore si F () = U () si = et +
=
0
sinon, alors F
= U ()
Qui est alors

1
2
( 2 W2 (, )) ?


R
R
1
On a
( 2 W22 (, )) = sup d + d sur les fonctions vrifiant 12 d2 . On note alors (x) =
inf 12 |x y|2 s (y) qui est diam()-lipschitzienne. On crit alors
Z

1
d =

Z

Z
d( + ) +

Z
d

Z
d

1
(W 2 ( + ) + W22 (, ))
2 2

Z
d

(WHY ?)
Or par le thorme dASCOLI, la suite tant uniformment borne, on peut extraire de cette suite ( ) une sous On fait de mme avec pour obtenir une fonction
suite convergent uniformment vers une certaine fonction .
d

limite . Le couple (, ) est ncessairement optimal par construction, donc d


(...) = .
1
Ainsi, si minimise F () + 2
W22 (, k ), alors, puisque est un potentiel de KANTOROVICH :


Z

d

1 2
F
W2 ( + , k )=0 = 0 donc ,
+
F ( + ) +
=0
d
2Z 



Z 

F
F
+
+
d1 =
d est constante
donc = 1 ,

donc
+ est constante

En prenant le gradient, il vient alors

F
+
= 0 donc T (x) = x (x) soit = id T

Le thorme de BRENIER donne, pour h : x 7 21 |z|2 , T (x) = x (h)1 ((x)). On introduit alors
vk : x 7

1
F
(x T (x)) =
(x) et k = T # optimisant le dplacement de la particule

63

6.6

Un cas prcis : lquation de la chaleur

On a vu que si F () =

f (), on a

= f 0 (). Lquation de continuit devient alors

t + (f 0 (rho)) = 0
On cherche tudier lquation de la chaleur
t = 0
Pour sy ramener par cette voie, on doit ncessairement avoir
1
La fonction
G : 7

ln si =
+ sinon

est semi-continue
R infrieurement pour la topologie faible. En effet, si n * avec n = n , on a << et
ln lim inf n ln n ds que U (p) ( ? ? ?) avec U convexe et superlinaire, i.e. telle que la limite de U (t)/t en
linfini soit infinie.
Z
Z

ln + V si =
F : 7
+ sinon

Pour > 0, on cherche R approcherR une solution par la mthode prcdemment expose. On introduit donc
1
k+1 une mesure optimisant ln + V + 2
W22 (, k ) avec 0 donne.
On se place dans le cas o est compact, dans lequel on est assurs de lexistence dun minimiseur. De plus
notons que
R
P R
7 RW22 (, ) = { d + d | W2 } est convexe fixe ;
7 R V d est linaire donc convexe ;
7 ln est strictement convexe.
La fonction F tant la somme de ces trois fonctions, elle est strictement convexe, et le minimiseur est donc
unique.
Pour une mesure minimale, on a ncessairement une drive par rapport qui sannule en = 0. On regarde
donc le comportement de chaque terme de la drive :
DERIV EES
On regarde les taux daccroissement :
W22 ( , ) W22 (, )

R
Z
d d
= d(1 )
R
R
R
R
Z
+ d d d

= d(1 )

On associe (, ) les -transformes :


(x)
(x)

1
= inf ( |x y|2 (y))
y
2
1
= inf ( |x y|2 (x))
x
2

64

On fixe alors une suite k qui converge vers 0 et telle que


W22 (k , ) W22 (, )
W 2 ( , ) W22 (, )
= lim sup 2 k
k
k
k
k
R
On veut prouver que lim inf d(1 ) lim sup(?). Quitte extraire, on peut supposer que
lim


ki 0, ki ,
ki
CVU

CVU

)
est galement optimal pour :
On va prouver que (,
Z
Z
Z
1 2
W2 ( , ) = d + d + d(1 )
2
to
to Z
to
Z
1 2
+ d

W2 (, ) = d
2
,
).
donc on obtient de nouveaux potentiels de KANTOROVICH (,
2
On aimerait dsormais avoir un peu plus dinformations sur ce minimiseur. Posons = 1 o 1 est
une mesure de probabilit sur absolument continue par rapport la mesure de LEBESGUE, et posons =
+ (1 ) = (1 ) + 1 . On voudrait prouver que > 0 presque partout. La mesure est une mesure
absolument continue et de masse nulle gnrique. Il suffit dutiliser 1 = .
Z
Z
d
(U ( ) ln )=0 = (1 + ln )(1 ) = U 0 (k )(1 ) = c l o = 0
d
De plus, on a
W22 ( , k ) W22 (1 , k ) W22 (, k ) et

d
d

Z
V d =

V d(1 )

Ainsi, toutes les drives existent et sont finies, sauf si le logarithme tend vers linfini i.e. lorsque sannule,
auquel cas le gradient serait ngatif et on naurait srement pas un minimum. Ainsi on a > 0 presque partout,
comme voulu.
On a T (x) = x (x) et T qui est unique presque partout, donc est unique 1 -presque partout, donc
est unique presque partout, donc, puisque est convexe, est unique presque partout une constante prs.
On fixe la constante en imposant (x0 ) = 0. Par optimalit, il vient alors
Z

1 P(), (g = 1 + ln + V + )d(1 ) 0

et g =

d
d F ( )

1
2
2 W2 ( , t ).

Donc pour tout 1 , on a


Z
Z
l + gd1 gd l

En choisissant 1 concentre sur {g < l + }, on en tire que infess g = l. Il vient alors que g = l -presque
partout. Ainsi, ln + V + est constante presque partout, = exp(c V ) est donc lipschitzienne et donc
admet un gradient presque partout par le thorme de RADEMACHER. Il vient alors + V +
= 0 presque
partout.

De mme, on a k+1 car vk+1


= 1 (id T ) o T #k+1 = k qui est optimal, or vk+1
=
presque partout.

65

= V k+1

3 Interpolation
On obtient par la formule qui prcde une suite (k )k = (k )k interpolant une mesure optimal . On veut
maintenant interpoler les k pour retrouver la mesure .
Notons la mesure constantes par morceaux dfinie par 0 entre 0 et , puis 1 entre et 2 , et ainsi de
suite. On ralise alors une interpolation continue par les godsiques : sur ](k 1), k [, on prend la godsique
vitese constante qui relie k1 k , et lon dfinit par ce moyen une interpole k . Lintrt est que nest pas
continue, et le manque de rsultat dans ce cas empche de continuer, alors que est continue, donc on est assurs
de lexistence dun champ de vitesse v tel que lquation de continuit soit vrifie pour la mesure interpole :
t + (
v ) = 0
et ce champ de vitesses est connu ds que 0 et 1 sont fixes et que T est un transport optimal : vt = (T
id) Tt1 .

Ici, on a |0 | = | 1 W2 (k , k+1 )|, do


W2 (
t , s ) long
|[t,s] =

|0 |

Z

|0 |2

1/2

|t s|1/2

Donc, puisque est hlderienne :


Z

|
0 |2 =

X W 2 (k , k+1 )
2
C
2

En effet, on a :
F (k+1 ) +

1 2
W (k+1 , k) F (k ) + 0
2 2

et on peut sommer de manire tlescopique :


X W 2 (k , k+1 )
W22 (k , k+1 )
2
F (k ) F (k+1 ) donc
C

= v . Pour E sur ](k 1), k [ on


Notons vk la vitesse de k k+1 . Soit galement E = v et E
1

prend vk et k = (xT (x)) ; et pour E , on prend pour v le champ de vecteur valant vk Tt1 sur ](k 1), k [.
La mesure vrifie les hypothses du thorme dASCOLI donc, quitte extraire, on peut supposer que la suite
converge uniformment vers une certaine .
On a par hlderianit W2 ( , c 1/2 qui tend vers 0 avec , donc on a qui converge galement vers .
= 0, E = + V
t + E
= 0, E = v =
t + E

+ V

= + V

converge faiblement vers E


et que E converge faiblement vers E. Si on peut prouver que
Supposons que E
alors on aura
E = E,
t ( + V ) = 0 donc t (V ) = 0
Pour ce faire, il suffit de prouver lune des convergences. Notons que pour v = 0, on retrouve lquation de
FORMER PLANCK, qui a le mrite dtre linaire et qui permet donc de traiter le problme dans le cadre des
distributions.

66

RR
| est borne, alors il en va de mme pour E
dans lespace des mesures vectorielles M( [0, T ], Rd ).
Si
|E
Or, on a
Z Z

| =
|E

Z Z

k
v kL1 ( )

vd
=

k0 kW2 C

k
v kL2 ( ) =

Z

k0 k2W2

1/2
=

X W 2 (k , k+1 )
2

( ? ? ?)
converge faiblement vers E.
Notons que
Le caractre born permet donc, quitte extraire, de supposer que E
et non E est ncessaire pour que lquation de continuit soit toujours satisfaite. Cependant, travailler
garder E
avec E suffit pour avoir la relation entre E et .
et nous aimerions mainNous venons dobtenir un rsultat de convergence sur notre problme interpol E,
tenant en tirer des informations sur le champ initial E. En effet nous savons que lquation de continuit est vrifie
) :
pour (
, E
= 0
t + E
La convergence de vers et celle de vers entrainerait-elle la mme relation quant aux limites ? Autrement dit, a-t-on comme voulu :
t + E = 0
Pour toute fonction f lipschitzienne, on cherche estimer
Z Z
Z Z

f dE
f dE
Avec = Tt #k et v = v Tt1 , on a :
Z Z
Z Z
Z
=
f dE
f v d
= f (v Tt1 )d(Tt # )
Z
Z
= ( Tt )v d = f (Tt )v d
Z
= f (Tt )dE
Or f est lipschitzienne et |x Tt (x)| |v (x)|, ce qui permet dcrire
Z Z
Z Z
Z Z
Z Z

f dE
f dE
=
f (Tt )dE
f dE
Z Z
Lip(f )
|v (x)||v d
Z
= Lip(f ) kv k2L2 ( )
R
2
W2
|v |2 d = |xT 2(x)| d = 22 , do
Z
X W 2 (k , k+1 )
2
Lip(f ) kv k2L2 ( ) = Lip(f )
C

Or, v = 1 (id T ) donc

* E
obtenue prcdemment, on a E * E. Lquation de continuit
Ainsi, limage de la convergence E

pour (
, E ) se traduit au sens des distributions par
Z

t d
+
0

67

= 0
E

Pour la premire intgrale double, il y a convergence de lintgrale spatiale par convergence faible de vers
, puis convergence de lintgrale temporelle par convergence domine. Concernant la seconde intgrale, il y a
vers E sur lespace-temps [0, T ].
beaucoup moins de complications car nous avons prouv la convergence de E
Ainsi on obtient, puisque * = :
Z
Z
,
E = ( V )
Ainsi, on retrouve la mme quation que pour (E, V ) ( ?).
Finalement, on sest ramens considrer un chemin discret approchant les courbes solutions, chaque tape on
a un minimiseur qui est unique comme potentiel de KANTOROVICH, puis (...). On trouve alors une relation entre
le dplacement et le transport T (x), et on interpole la suite de positions discrtes ainsi construire pour approcher
c ) donne une quation entre E et
une solution du problme (E) initial. Rsoudre (E
2
JW
=

* E

W (x y)(y)dy donc E

68

Chapitre 7

Annexes
7.1
7.1.1

Thorie de la mesure
Convergence faible

On fait un usage exhaustif de la topologie faible, trs pratique puisque le thorme de BANACH-ALAOGLUBOURBAKI garantit que les boules fermes sont compactes pour cette topologie. Ceci nous permettra dextraire des
suites convergentes de mesures en identifiant les espaces de mesures au dual de certains espaces de BANACH.
Lorsque est compact, lensemble des mesures signes de variation totale finie quon note M() (dont
la
R
norme est la variation totale) sidentifie au dual des fonctions continues C()0 via lisomtrie 7 f 7 f d .
Clairement, les mesures positives forment un ferm pour cette topologie, et P rob() (mesures positives de masse

unitaire)
estR un compact en tant que partie ferme de la boule unit positive (si P rob() 3 n
alors 1 =
R
1dn 1d = () donc la limite est encore de masse 1).
Si est quelconque, lensemble des mesures signes de variation totale finie sidentifie cette fois au dual des
fonctions continues nulles linfini C0 (). Or P rob() nest pas ncessairement compact (1
/ C0 () donc largument prcdent ne fonctionne pas, de la masse peut tre envoye linfini). Pour pouvoir extraire dune suite
n P rob() une sous-suite convergente, il faut en toute gnralit des hypothses supplmentaires. Cest lobjet
dune autre section sur les suites tendues.

7.1.2

Lemme dUlam

Le lemme dULAM affirme quune mesure de probabilit sur un espace polonais (i.e. mtrique complet et sparable) est toujours concentre sur un -compact. Autrement dit, il existe une runion dnombrable de compacts
Kn qui concentre toute la masse. Cela revient galement dire que pour toute mesure de probabilit , on a
> 0, K compact, (Kc )

7.1.3

Suites tendues

Une suite (n )n est dite tendue si


> 0, K compact, n N, A, (A K = = |n (A)| )
Autrement dit, ce sont des suites pour lesquelles des compacts concentrent la majeure partie de la masse de
chacune des mesures. De telles suites jouissent dune proprit trs importante : le thorme de PROKHOROV
affirme que si une suite de mesures est tendue, alors on peut en extraire une sous-suite faiblement convergente au
sens des fonctions bornes, ce qui revient dire que :

69

Z
CB ,

7.2
7.2.1

Z
dni
n

Analyse fonctionnelle
Semi-continuit infrieure

Une fonction f : X R {+} est semi-continue infrieurement si pour toute suite (xn )n convergeant
vers x, lim inf f (xn ) f (x). Graphiquement et intuitivement, cela revient dire que les ventuels points de
discontinuits de f ne correspondent qu des sauts vers le bas.
Tout lintrt de cette notion rside dans le fait que lexistence dun minimum dans le cas dune fonctionnelle
continue sur un compact tient galement sous la seule hypothse dune fonctionnelle semi-continue infrieurement,
car en effet on a alors lim inf f (xn ) f (x) lim inf f (xn ), la premire ingalit venant de la dfinition de la semicontinuit infrieure, et la seconde venant de la dfinition de la limite infrieure. Les valeurs dadhrences dune
suite extraite minimisante ralisent, dans ce cas galement, le minimum de la fonctionnelle.
Une caractrisation utile des fonctions semi-continues infrieurement et bornes infrieurement affirme que ce
sont exactement les bornes suprieures de familles de fonctions continues, autrement dit les limites croissantes de
suites de fonctions continues. On peut mme imposer luniforme continuit des fonctions approchantes. Pour le
voir, il suffit de considrer la suite de fonctions :
n N, fn : x 7 inf (f (y) + nd(x, y))
yX

7.2.2

Thorme dAscoli

Si (fn )n est une suite de fonctions continues sur un compact X, uniformment bornes sur X, et quicontinues,
i.e. vrifiant
> 0, > 0, n N, x, y , (|x y| = |fn (x) fn (y)| ))
alors on peut en extraire une sous-suite convergeant uniformment.

7.2.3

Transformation de Legendre

La transforme de Legendre dune fonction convexe h est dfinie par :


h = sup(xz h(z))
z

Une fonction h convexe est strictement convexe si et seulement si h est de classe C 1 . De plus, linverse de
la sous-diffrentielle est la diffrentielle de h , i.e. p est dans la sous-diffrentielle en z si, et seulement si, z est le
gradient de h en p. En effet, h est diffrentiable plus que presque partout : lensemble des points pour lesquels le
cardinal de la sous-diffrentielle est suprieur 1 (i.e. o h nest pas diffrentiable) est une runion dnombrable
dhyperplan. Lensemble des points o le cardinal de la sous-diffrentielle est suprieur i est de dimension au plus
n i.
Une fonction convexe est toujours la transforme de LEGENDRE de sa transforme de LEGENDRE. Tout
dabord il est clair que en explicitant par dfinition. Comme toute fonction convexe, on peut crire
comme supremum de ses minorantes affines, ce qui scrit
a, x , (x) = sup{< x|y > a(y)} = a (x)

70

La premire ingalit donne alors = a a, donc a = car la transformation de LEGENDRE est


dcroissante (compte tenu de la prsence du signe moins dans la dfinition). On obtient ainsi le rsultat escompt.

7.2.4

Fonctions convexes

On sait quune fonction convexe dfinie sur un ouvert est supremum en tout point de ses minorantes affines.
On peut donc dfinir une fonction convexe par cette caractrisation.
Dfinition On dit que f est convexe sil existe une fonction a valeur dans R telle que pour tout x, f (x) =
sup(x y a(y)) = a (x).
y

En effet sil nexiste pas de minorante affine dirige par y, on prend a(y) = +, sinon on prend pour a(y) le
plus grand a tel que x y a soit minorant. On retrouve ainsi la proprit classique des fonctions convexes : elles
sont au dessus de leurs tangentes en chaque point, donc elles sont supriueures au supremum de ces tangentes, et
ces supremum sont atteint en chaque point car les tangentes rencontrent le graphe.
Avec cette dfinition, f est convexe si et seulement si il existe g telle que f = g .
On va maintenant noncer quelques thormes et proprits des fonctions convexes, dont les dmonstrations
dpendent uniquement de la caratrisation prise en dfinition. Lintrt est que lon va pouvoir dfinir une notion
plus gnrale que la convexit de manire analogue et nous disposerons alors des mmes thormes. Les fonctions
convexes sappuient sur leurs tangentes minorantes ; quobtient-on alors en considrant des courbes minorantes
plus gnrales que des droites ?
Thorme Pour une fonction f , f est la plus grande fonction convexe infrieure ou gale f .
Corollaire f est convexe si et seulement si f = f .
Dfinition h(z) est lensemble des vecteurs p de Rn tels que h(w) h(z)+ < p|w z > pour tout vecteur
w, il est appel sous-diffrentielle de h en z. La non diffrentiabilit de h en un point z correspond lexistence de
trop dlments dans sa sous-diffrentielle. Dans le cas o h est strictement convexe, les sous-diffrentielles sont soit
gales, soit disjointes.
Proprit
y f (x) f (x) + f (y) = x y x f (y)
Dmonstration
y f (x) z, f (z) f (x)+ < y, z x >
z, f (z)+ < y, z > f (x)+ < y, x >
f (y) = f (x)+ < y, x >
df

f (x) + f (y) =< y, x >


x f (y)
Remarque

Si f et f sont diffrentiables en y, f (y) = f 1 (y).

Dfinition

On dit que est cycliquement monotone si K N , (xi , yi )i=1..K , SK on a :


K
X
i=1

< xi , yi >

K
X
i=1

71

< xi , y(i) >

Remarque
k=1
est le "graphe" de quelque chose de croissant.
k=2
hx1 , y1 i + hx2 , y2 i hx1 , y2 i + hx2 , y1 i
hx2 x1 , y2 y1 i 0
Intuitivement, cela signifie que y crot avec x.
Dfinition

Pour f convexe, on note Gf le graphe de sa sous-diffrentielle :


Gf

Proprit

= {(x, y)|y f (x)}


= {(x, y)|x f (y)}
= {(x, y)|f (x) + f (y) = x y}

Si f est convexe, Gf est cycliquement monotone.

Dmonstration
Soit x1 , .., xK RK et y1 , .., yK tels que i, yi f (xi ), cest--dire f (xi ) + f (yi ) = hxi , yi i.
K
X

hxi , yi i =

K
X

i=1

f (xi ) + f (yi )

i=1

K
X

f (xi ) +

i=1

K
X

f (y(i) )

i=1

Or par dfinition de f , f (y (i)) hxi , y(i) i f (xi ), de quoi on dduit :


K
X

hxi , yi i

K
X

f (xi ) + f (y(i) )

i=1

i=1

Thorme Si Rn Rn est cycliquement monotone, alors il existe une fonction convexe f telle que le graphe
de sa sous-diffrentielle contienne . La dmonstration sera vue dans un cas plus gnral dans la section suivante.

7.2.5

Fonctions c-concaves

Dans toute cette section, c est une fonction symtrique de dans R. On pourrait tendre les rsultats qui
suivent des fonctions c quelconques en introduisant des c-transformes gauche et droite. On dfinit donc des
ensembles plus gnraux de fonctions concaves qui auront des proprits analogues ce quon vient de voir.
Dfinition

Une fonction est c-concave sil existe une fonction telle que pour tout x, (x) = inf (c(x, y)
y

(y)).
Dfinition

Pour quelconque, on dfinit sa c-transforme c .


c = inf (c(x, y) (y))
y

Proprit

cc est la plus petite fonction c concave suprieure ou gale .

Dmonstration

On montre que (i) cc et (ii) cc est la plus petite.

72

(i) Par dfinition cc = inf (c(x, y) c (y)). Or


y

y, c(x, y) c (y) = c(y, x) c (y) (x)


(df)
cc

Ce qui donne (x) (x).


(ii) On remarque que si a et b sont deux fonctions telles que a b, alors ac bc .
Soit alors c concave telle que . Par dfinition , = c .
c = c cc = = c cc
Corollaire

cc = convexe

Exemples
Cas f (x) =

|x|p

p

f (x) = sup x y

|x|p
p

On a alors x y

|x|
p

, le supremum tant atteint pour un certain y = x, 0.


p

= |x|2 p |x|p avec |x|2 = p1 |x|p par maximalit. Ce qui donne :


p

f (x) = |x|
Cas c(x, y) =
Que faire ?
Dfinition
a:

|x| p1
|x|q

=
p
q

p
p1

|xy|2
2

On dit que est c-cycliquement monotone si K N , (xi , yi )i=1..K , SK on


K
X

c(xi , yi )

K
X

i=1

Dfinition

c(xi , y(i) )

i=1

Pour f c-concave, on appelle graphe de sa c-sur-diffrentielle lensemble Gcf dfini comme suit :
Gf = {(x, y)|f (x) + f c (y) = c(x, y)}

Proprit

Si f est c-concave, Gcf est c-cycliquement monotone.

Dmonstration
Soit x1 , .., xK RK et y1 , .., yK tels que i, yi f (xi ), cest--dire f (xi ) + f c (yi ) = c(xi , yi ).
K
X

c(xi , yi )

i=1

K
X

f (xi ) + f c (yi )

i=1

K
X

f (xi ) + f c (y(i) )

i=1

= f c (y) = f (x) + c(y, x)

df

Or par dfinition de f c , f c (y (i)) c(xi , y(i) ) f (xi ), de quoi on dduit :


K
X
i=1

c(xi , yi )

K
X

f (xi ) + f c (y(i) )

i=1

73

Thorme Si Rn Rn est c-cycliquement monotone, alors il existe une fonction c-concave f 6= telle
que le graphe de sa c-sur-diffrentielle contienne .
Dmonstration On exhibe une telle fonction f en considrant le gain sur le cot total obtenu par une permutation circulaire des points darrives dans le plan de transfert, en partant dun point variable. Soit (x0 , y0 )
fix.
f (x) =

inf

(xi ,yi )i=1...K |KN

c(x, yK ) c(xK , yK ) + c(xK , yK1 ) + . . . + c(x1 , y0 ) c(x0 , y0 )

Montrons que (i) f est c-concave, (ii) f 6= et (iii) Gcf .


(i) f est un infimum de fonctions x 7 c(x, yK ) c(xK , yK ) + c(xK , yK1 ) + . . . + c(x1 , y0 ) c(x0 , y0 )
"c-affines" en x, elle est donc c-concave.

(ii) f (x0 ) 0 car il peut scrire comme un infimum dexpressions du type c(xi , y(i) ) c(xi , yi ) o
chaque terme de la somme est positif car est c-cyliquement monotone. En particulier f 6= .
(iii) On constate que :
(x, y)

f (x) + f c (y) = c(x, y)


f c (y) = c(x, y) f (x)
z, c(z, y) f (z) c(z, x) f (x)
df

Cest cette dernire ingalit que lon va montrer. Soient donc (xi , yi )i=1...K tels que pour un certain  0
on ait, par dfinition de linfimum :
f (x) c(x, yK ) c(xK , yK ) + . . . + c(x1 , y0 ) c(x0 , y0 ) < f (x) + 
En considrant lensemble de points (xi , yi )i=1...K+1 o (xK+1 , yK+1 ) = (x, y), on obtient z, f (z)
c(z, y) c(x, y) + c(x, yK ) . . . c(x0 , y0 ), cest--dire :
f (z) c(z, y) c(x, y) + f (x) + 
c(z, y) f (z) > c(x, y) f (x) + 
En faisant tendre  vers 0, on obtient le rsultat.

7.2.6

Thorme de HahnBanach

Le thorme de HAHNBANACH, sous ses formes gomtriques, donne des rsultats de sparation de deux
espaces convexes par un hyperplan ferm dans un espace vectoriel norm. Un convexe ouvert non vide, peut tre
spar au sens large dun autre convexe non vide disjoint du premier. Un convexe ferm et un convexe compact
disjoints et non vides peuvent tre spars par un hyperplan ferm au sens strict.

7.2.7

Relaxation dune fonction

On est souvent ennuy lorsque surgit une fonction f : R {+} qui na aucune proprit de rgularit
particulire. La semi-continuit infrieure est une proprit qui est raisonnablement faible tout en donnant des
proprits intressantes en optimisation, pour cela on aimerait remplacer la fonction f par une autre fonction f ,
qui est proche de f mais qui, cette fois, est semi-continue infrieurement et borne infrieurement.
La meilleure approximation possible vrifiant ces proprits est naturellement la plus grande fonction semicontinue infrieurement qui est infrieure f , que lon appelle la relaxe de f :
x , f : x 7 inf lim inf F (xn )
xn x

74

La fonction f vrifie toutes les proprits auxquelles on peut sattendre : elle est semi continue infrieurement
et la borne infrieure de f est la mme que celle de f . Pour le premier point il suffit de dire que la borne suprieure
de fonctions semi-continue infrieurement est galement semi-continue infrieurement (cest une borne suprieure
dune borne suprieure de fonctions continue). Pour le second point, en notant l la limite infrieure de f , on a f
qui est suprieure l car l est une fonction semi-continue infrieure qui minore f , et f qui est infrieure f qui est
infrieure l.

7.2.8

Espaces de Sobolev

7.2.9

Thorme de FENCHEL ROCKAFELLAR

Une mthode usuelle et trs puissante pour les problmes de minimisation de critres linaires sous contraintes
convexes est la dualit. Lide est formellement trs simple : puisque la contrainte est convexe, on peut crire sa
fonction indicatrice comme le supremum de fonctions linaires. Puis, on change formellement la borne infrieure
et la borne suprieure apparaissant dans lespression du problme de minimisation. La nouvelle borne infrieure
peut-tre vue comme lindicatrice dune nouvelle contrainte, souvent plus aise exploiter que la contrainte initiale. On associe ainsi chaque problme de minimisation sous contraintes un problme de maximisation sous
contraintes.
Bien heureusement cet change formel nest pas vain et, sous certaines conditions, les deux problmes ainsi
obtenus sont les mmes. Cest ce que prcise le rsultat qui suit :
Thorme. Si et sont deux fonctions convexes, finies en x0 E e.v.n., et si est continue en x0 , alors
inf ((x) + (x)) = max0 ( (f ) (f ))
f E

xE

Preuve. On commence par travailler lexpression du maximum, en explicitant les transformes de LEGENDRE :
x E 0 , f ? (x) = sup (hx, yi f (y))
yE

Il vient alors
max( (f ) (f )) = max0 (sup hf, xi (x)) ( sup hf, x0 i (x0 ))

f E 0

f E

x0 E

xE

hf, x0 i + (x0 ))
= max0 ( inf hf, xi + (x)) ( inf
0
x E

f E xE

= max0 ( inf
hf, x x i + (x) + (x0 ))
0
f E x,x E

Avec x = x0 , cette expression devient inf


(x)+(x0 ) qui est bien videmment infrieure m := inf (x)+
0
x,x E

xE

(x). Puisquon a suppos et finies en x0 , le minimun m est fini.


On cherche f E 0 telle que (x) + (x0 ) + hf, x x0 i m. On introduit
C :={(x, ) |(x) < }
C 0 :={(y, ) | m (y)}
Les fonctions tant supposes convexes, il en va de mme pour C et C 0 . De plus, C est dintrieur non vide car
la continuit de affirme que (x0 , (x0 ) + 1) est dans lintrieur de C : il existe un voisinage de x0 sur lequel
reste une distence infrieure 1 de (x0 ). On sait alors que lintrieur de C est gale son adhrence. De plus,
C et C 0 sont disjoints car m = inf + donc on ne peut avoir (x) + (x) < m 2. Le thorme de HAHN
BANACH permet de sparer au sens large C et C 0 :

75

l (E R)0 \{0}, inf hl, ci =


cC

inf hl, ci sup hl, c0 i


cInt(C)

c0 C 0

Ce qui revient, par dfinition de C et de C 0 ,


(f, ) (E 0 R)\{0}, hf, xi + hf, x0 i +
Ceci implique ncessairement > 0. f 0 = f / convient, car alors
(f, ) (E 0 R)\{0}, hf, xi + hf, x0 i +
Ce qui donne, puisque pour tous x et x0 on a > (x) + (x0 ) m ;
(f, ) (E 0 R)\{0}, (x, x0 ) E 2 , hf, x x0 i + (x) + (x0 ) m
Ainsi, on obtient lgalit voulue.

7.2.10

Thorme de RADEMACHER

Une fonction h de Rn dans R est localement lipschitzienne. Un thorme de RADEMACHER affirme que le
gradient dune fonction lipschitzienne existe presque partout.

7.3
7.3.1

Le transport dans le cas discret


Thorme de CHOQUET

Thorme. (Choquet) Soient K un convexe compact dun espace de BANACH E, L : E R une fonctionnelle
linaire continue, et l : K R sa restriction K. Alors l admet un minimum sur K qui est un point extrmal de K.
Rappelons que les points extrmaux dun ensemble K, que lon note E(K), sont les points ne pouvant scrire
comme combinaison linaire stricte de plusieurs points de K. Plus prcisment :
x E(K) (a, b) K 2 , [0, 1], (x = a + (1 )b = a = b ou {0, 1})
Preuve. La continuit de L et la compacit de K impliquent que l atteint son minimum sur K. On veut maintenant prouver quau moins un de ces minima est extrmal.
Nous admettons le thorme de KREIN MILLMAN qui affirme que tout point de K est combinaison convexe
de points extrmaux de K. Plus prcisment :
R
Thorme. (Krein Millman) x K, x P(K), x = E(K) ydx (y)
Le rsultat attendu en dcoule simplement : si aucun des minima nest extrmal, alors tout point extrmal est
strictement suprieur un minimum x0 . Par le thorme de KREIN MILLMAN, on peut trouver une mesure de
probabilit x0 telle que x0 soit combinaison convexe de points extrmaux. On aurait alors
Z
Z
x0 =
yx0 (y) <
x0 x0 (y) < x0
E(K)

ce qui est absurde.

E(K)

Nous pouvons cependant donner un preuve ne faisant pas appel au thorme de KREIN MILLMAN dans le cas
de la dimension finie.
Preuve alternative. On se place dans un espace E de dimension finie. Dans ce cas la fonctionnelle L est ncessairement continue et lhypothse du thorme devient superflue. On commence par crire l comme limite croissante
de fonctions strictement concaves :

76

l = lim l
n

1
k k2
n

Cette convergence est de plus uniforme car K est born et donc ln l =


0.

1
nk

k2 converge uniformment vers

Notons ensuite que lensemble des points extrmaux est un compact. En effet, il est ferm et contenu dans le
compact K. ( ? ? ?)
Chaque ln = l n1 k k2 a tous ses minimiseurs xn dans K par compacit, et ceux-l sont srement dans E(K)
par stricte concavit, car
xn = a + (1 )b = ln (xn ) = ln (a + (1 )b) ln (a) + (1 )ln (b) xn + (1 )xn = xn
avec galit si, et seulement si, a = b ou {0, 1}. On est donc ncessairement dans lun de ces cas, et xn
nest pas combinaison convexe stricte dans K. On peut alors extraire de la suite (xn )n une sous-suite convergente,
que lon note toujours de la mme manire quitte renommer les indices. Notons x la limite de la suite extraite, et
prouvons que ce x est un minimiseur de l. Un simple procd de convergence diagonale donne le rsultat, grce
la convergence uniforme et la continuit de l :
> 0, n1 N, n n1 , |l(xn ) l(x)|
n2 N, n n2 , kln lk
Il vient alors par ingalit triangulaire, en choisissant un n0 suprieur n1 et n2 :
> 0, n0 N, |ln (xn ) l(x)| |ln (xn ) l(xn )| + |l(xn ) l(x)| kln lk + |l(xn ) l(x)| 2
Ainsi ln (xn ) converge vers l(x). Or les ln sont toujours infrieurs l, donc en passant la limite dans ln (xn )
ln (x0 ) qui est valable pour tout x0 de K, on obtient que x est un minimiseur de l sur K. Comme limite de points
extrmaux, cest un point extrmal car E(K) est ferm. 

7.3.2

Thorme de BIRKHOFF

Thorme. (Birkhoff) Les points extrmaux de lensemble Bn des matrices bistochastiques sont les matrices de
permutation.
Rappelons que lensemble des matrices bistochastiques est lensemble des matrices reprsentant des plans de
transfert dans le cas discret :


n
n

X
X

Bn = = (i,j )i,j Mn ([0, 1]) (i0 , j0 ) J1, nK2 ,
i0 ,j = 1,
i,j0 = 1


j=1
i=1
Preuve. Tout dabord, les matrices de permutation sont extrmales car les points extrmaux du segment [0, 1]
sont 0 et 1, ce qui fait que pour une matrice de permutation P scrivant A + (1 )B, on aura la mme relation
sur les coefficients une mme place, soit lun des deux cas suivant :
0 = ai,j + (1 )bi,j donc ai,j = bi,j = 0 car ai,j 1, bi,j 1
1 = ai,j + (1 )bi,j donc ai,j = bi,j = 1 car ai,j 0, bi,j 0

77

Donc A = B = P , ce qui prouve bien que les matrices de permutations sont extrmales. Cela tant dit, il suffit
de prouver que les matrices extrmales de Bn sont coefficients dans {0, 1} pour avoir le rsultat. En effet, ce sont
exactement les matrices de permutation car il doit il y avoir un lment non nul par ligne (la somme des lments
dune ligne valant 1) et celui-ci vaut ncessairement 1, il ny en a donc pas dautre. La condition de stochasticit sur
les colonnes prouve alors que les lments non nuls sont sur des colonnes distinctes, et que la matrice est donc une
matrice de permutation.
Prouvons donc quune matrice ayant un coefficient dans ]0, 1[ nest pas extrmale. Notons A = (ai,j ) la matrice
considre et supposons que ai0 ,j0 ]0, 1[. On va construire une suite de coefficients de A qui vont pouvoir tre
perturbs en se compensant les uns les autres :
On part du coefficient ai0 ,j0 . Puisque A est bistochastique, la somme des coefficients de la ligne i0 vaut 1 et donc
il existe un lment autre coefficient ai0 ,j1 dans ]0, 1[. De mme la somme des lments de la ligne j1 vaut 1, donc
il existe un lment autre coefficient ai1 ,j1 dans ]0, 1[. On construit en suivant le mme schma une suite dindices
dans ]0, 1[ ayant chacun leur ligne ou leur colonne en commun avec le prcdent, et seulement lun des deux. On
modifie un indice chaque tape, et les places sont en nombre fini dans A, donc le principe des tiroirs prouve que
lon retombe sur une place dj visite. Quitte ignorer ai0 ,j0 et commencer par ai0 ,j1 , on peut supposer que la
premire fois que lon retrouve un indice connu est jk = j0 .
On peut alors perturber la matrice comme suit : on choisit > 0 qui soit infrieur au minimum des distances
des coefficients de A avec 0 ou 1, garantissant ainsi que les ai,j sont tous dans ]0, 1[. On augmente alors tous les
air ,jr de et on diminue tous les air ,jr+1 de . Cela ne change pas le caractre bistochastique de la matrice car le
couple de manipulations prcdent ne modifie pas le poids total dune ligne, et les rpercussions sur les colonnes se
compensent : on diminue le poids de la colonne ir de , puis ltape suivant laugmente de . Les deux places limites
ai0 ,j0 et aik ,j0 se compensent de la mme manire.
On a ainsi perturb la matrice A sans sortir de Bn . Les suites ainsi construites (air ,jr )r et (air ,jr+1 )r sont
injectives, car lalgorithme sarrte au premier retour sur un indice dj connu, qui est donc le seul apparatre deux
fois, mais qui apparat une fois dans chaque suite. Elles reprsentent sont des cycles : notons P1 et P2 les matrices
reprsentant ces deux permutations. La perturbation faite prcdemment A correspondant A + (P1 P2 ), et
est toujours bistochastique. Notons que A + (P2 P1 ) est galement bistochastique car a t choisi suffisamment
petit pour que les coefficient de cette dernire matrice restent positifs. On trouve alors que
A=

1
((A + (P1 P2 )) + (A + (P2 P1 )))
2

La matrice A est donc combinaison convexe stricte de deux matrices bistochastiques : elle nest pas extrmale.


7.4

Quelques mots sur la thorie des distributions

Le principe gnral de la thorie des distributions est de gnraliser des proprits et des oprations que lon
ne peut raliser que sur un certain type de fonctions une famille plus large. Pour cela, lide est de trouver des
caratrisations des proprits ou des reformulations des oprations que lon cherche tendre, qui aient un sens
pour des fonctions plus gnrales. Ainsi pour la drivation, on remarque que
Z
Z
D(),
f 0 = f 0
o f est une fonction drivable, et parcours lensemble des fonctions test D(), qui est lensemble des fonctions infiniment drivables et support compact. En effet, il sagit dune simple intgration par partie, dont la
variation des primitives est nulle car est suppose support compact. Les distributions sont le dual des fonctions
test, autrement dit les formes linaires continues
sur D(). On peut crire ce fait pour les fonctions f qui sont
R
continment drivables, mais la quantit f 0 est gnralisable toutes les fonctions intgrables : on dfinit
alors la drive au sens des distributions dune distribution par

78


0 

Z
Z
7 f = 7 f 0
On note que cela gnralise pluttRbien la drive des fonctions : en effet, bien que lon travaille sur des formes
linaires continues particulires 7 f , celles-ci reprsentent relativement bien les fonctions f de dpart, elles
les caratrisent modulo lgalit presque partout. On remplace ainsi la connaissance des valeurs ponctuelles de f
par la connaissance de ses moyennes pondres sur des ensembles compacts, ce qui ne nuit que peu la gnralit
(puisquil sagit essentiellement de la mme connaissance, quelques diffrences qui sont ngligeables au sens de la
mesure), et cela permet de gnraliser toutes les oprations de drivation et de diffrentiation.
Notamment, au lieu de rechercher des solutions dquations au drives partielles du type

u + u = 0
t
On se permet dtendre notre recherche aux fonctions qui ne sont plus ncessairement supposes drivables
vrifiant
Z
Z

D(), u + u = 0
t
On obtient ainsi des solutions appeles solutions faible de lquation. On se limite souvent la recherche de telles
solutions, la forme de lquation devenant bien plus simple manier et les problmes de rgularit des fonctions
devenant secondaire, sans perdre en gnralit puisque les solutions faibles suffisamment rgulires sont exactement
les solutions de lquation de dpart.

79

Chapitre 8

Rfrences
Thorie gnrale du transport et applications
[1] C. Villani, Topics in optimal transportation, AMS, 2003.
[2] C. Villani, Optimal transport : old and new, Springer, 2009.
Fondements thoriques et outils
[3] H. Brzis, Analyse Fonctionnelle, McGraw-Hill, Inc., 1987.
[4] W. Rudin, Real and Complex Analysis, Dunod,1999.

80

Vous aimerez peut-être aussi